IM-ContentsSearch - PDF Free Download

IM-ContentsSearch Version 7.2 リリースノート 2016/9/16 第 4 版 1 はじめに 1. 本ドキュメントは本製品固有の要件を記載しています以下に記載のないものは intra-mart WebPlatform/AppFramework 付属の製品ドキュメントを参照ください 2. 弊社の提供するドキュメントに記述の無い全ての事柄はサポート対象外です 3. 本製品に関する最新の技術情報やパッチ情報は下記のサイトをご覧下さい Developer Support site : http://www.intra-mart.jp/developer/index.html 4. 本製品に関するドキュメントは下記のサイトにおいて最新のドキュメントが公開されています最新のドキュメントをご利用ください製品最新情報ダウンロードページ : http://www.intra-mart.jp/download/product/index.html 5. 本製品には以下によって開発されたソフトウェアが含まれていますソフトウェアのライセンスについては各ライセンスシートをご参照ください OSS 製品 version licenses URL Ant 1.7.1 ASL http://ant.apache.org/ Apache Commons lang Apache Commons math 2.5 ASL http://commons.apache.org/lang/ 1.1 ASL http://commons.apache.org/math/ bouncycastle 1.44 MIT, 一部 ASL http://www.bouncycastle.org/ Dom4j 1.6.1 BSD の変形 http://dom4j.org FontBox 1.7.1 ASL http://pdfbox.apache.org/ Icu4j 3.8 ICU http://site.icu-project.org/ jempbox 1.7.1 ASL http://pdfbox.apache.org/ Jericho HTML Parser 3.1 EPL or LGPL http://jericho.htmlparser.net/docs/index.html Mecab 0.98 GPL,LGPL,BSD http://mecab.sourceforge.net/ naist-jdic 0.4.3 BSD http://sourceforge.jp/projects/naist-jdic/wiki/frontpage Page.1

PDFBox 1.7.1 ASL http://pdfbox.apache.org/ POI 3.7 ASL http://poi.apache.org/ SCons 2.0.1 MIT http://www.scons.org/ Solr 1.4.1 ASL http://lucene.apache.org/solr/ Sen 1.2.2.1 LGPL http://ultimania.org/sen/ licenses ASL Apache License, Version 2.0 BSD Berkeley Software Distribution License EPL Eclipse Public License - v 1.0 GPL GNU General Public License ICU ICU License LGPL GNU LESSER GENERAL PUBLIC LICENSE Version 2.1 MIT MIT License 2 製品概要 IM-ContentsSearch は全文検索を行うための仕組みを提供いたします IM-ContentsSearch v7.1 では全文検索を行うためのモジュールは intra-mart WebPlatform/AppFramework に含まれますが IM_ContentsSearch v7.2 は intra-mart WebPlatform/AppFramework のインストールとは別にインストーラを提供しており別途インストールを行う必要がありますまたインストールを行った状態の IM-ContentsSearch には機能制限がございます IM-ContentsSearch のライセンス登録を行うことにより機能制限が解除されます Page.2

3 バージョンアップ内容以下にこのバージョンで変更になった点を列挙します各機能の詳細に関しては各マニュアルまたは API リストを参照してくださいまた各機能の設定方法に関しては各マニュアルまたはインストールガイド等を参照してください 3.1 基本機能 1. 対応する Solr サーバが Solr1.4.1 に更新されました 2. 形態素解析エンジン Sen に対応しました 3. クローラ管理機能 ( バッチ ) が追加されましたクローラ管理機能を利用する事により以下のメリットがあります順次実行が可能になりクローラの運用利便性が向上します Solr サーバへのコミット最適化処理を一度に集約可能となりクローラの処理時間が削減されます 4. テキスト抽出機能を強化しより柔軟な設定が可能になりました 5. 標準のテキスト抽出機能が以下のファイルフォーマットに対応しました Microsoft Office Open XML 形式のドキュメント Microsoft Office Visio 6. オプションツール xdoc2 のテキスト抽出機能が対象とするファイルフォーマットが ver7.1 では PDF,Word,PowerPoint,Excel に制限されていたのが xdoc2 が対象するすべてのファイルフォーマットに対応しました対応フォーマットの詳細は xdoc2 のページをご参照ください http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html 3.2 環境 1. 分散構成で構築された Solr サーバ環境に対応しました 3.3 API 1. 順次実行が可能なクローラ作成用の API を追加しました Page.3

4 システム要件 intra-mart WebPlatform/AppFramework Ver.7.2 以上に準拠します 4.1 その他の要件形態素解析機能を利用する場合後述の要件を満たす必要があります 4.1.1 Mecab を Unix 系 OS で利用する場合モジュール必要要件 Mecab cmecab-java C++ コンパイラ C++ コンパイラ Apache Ant Python SCons C++ コンパイラの種類によっては正常にコンパイルできない場合があります 4.1.2 Sen を利用する場合モジュール必要要件 Sen Perl Apache Ant Page.4

5 制限事項 5.1 テキスト抽出に関する制限事項 5.1.1 対応ファイルフォーマット標準で提供するテキスト抽出クラスを利用してテキストの抽出が可能なファイルフォーマットは下表のとおりです項番フォーマット名 MIME タイプ (MIME タイプを指定しない場合にこの MIME タイプであるとみなすファイルの拡張子 ) 1 プレーンテキスト text/plain (txt) 2 HTML text/html (htm, html) 3 XML application/xml (xml) 4 PDF application/pdf (pdf) 5 Microsoft Office Word application/msword (doc, docx) 6 Microsoft Office PowerPoint application/vnd.ms-powerpoint (ppt, pptx) 7 Microsoft Office Excel application/vnd.ms-excel (xls, xlsx) 8 Microsoft Visio application/ vnd.ms-visio.viewer (vsd) 9 ZIP アーカイブ application/zip (zip) テキストを抽出することができるファイルフォーマット一覧 5.1.2 テキストを抽出する際の制限事項以下にそれぞれのファイルフォーマットごとのテキストを抽出する際の制限事項を述べますプレーンテキスト API ではプレーンテキストファイル内のテキストの文字コードを統計的手法により自動的に判別しますしかし短いテキストしか含まれていないファイルや複数の文字コードが混在しているファイル等については文字コードを正しく判別できないことがありますこの場合ファイルから抽出されたテキストは文字化けしたものになります HTML API では HTML 内の以下の部分からテキストを抽出します HEAD 要素内の TITLE 要素に含まれるテキスト BODY 要素に含まれるテキストまたAPIでは HTML の文字コードをまず META タグで指定された content-type を探すことによって判別しようと試みそれに失敗するとプレーンテキストと同じく統計的手法により判別を試みます Page.5

文字コードを正しく判別できなかった場合ファイルから抽出されたテキストは文字化けしたものになります XML API では XML 内の全てのテキストノードを抽出します PDF API では設定ファイル (ServerManager/conf/ solr-extractor-config_cs72.xml) による指定に応じて以下のいずれかを用いて PDF からテキストを抽出します 1. PDFBox (http://incubator.apache.org/pdfbox/) 2. Xpdf (http://www.foolabs.com/xpdf/) 付属のコマンド pdftotext 3. フリーウェア xdoc2txt (http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html) 1. の PDFBox を用いる場合日本語が含まれる PDF から正しくテキストを抽出できないことがあります 2. の pdftotext コマンドを用いる場合 IM-ContentsSearch クライアントが動作しているマシン上に Xpdf がインストールされ pdftotext コマンドが正常に動作する環境が整っている必要があります 3. の xdoc2txt を用いる場合 xdoc2txt.exe がインストールされ正常に動作する環境が整っている必要がありますまた xdoc2txt.exe は Microsoft Windows でしか動作しません 1.,2.,3. のいずれを用いる場合であってもパスワードつきで暗号化された PDF ファイル (PDF ビューワで開く際にパスワードを要求される PDF ファイル ) からテキストを抽出することはできませんまた PDF ファイルからテキスト抽出が出来ない場合は利用している PDF テキスト抽出クラスの変更をご検討願います製品として全ての PDF ファイルに対して動作保証をしている訳ではありませんのでご利用時には事前に検討を行ってください Microsoft Office Word API では設定ファイルの指定に応じて以下のいずれかを用いて Word ファイルからテキストを抽出します 1. Apache POI (http://poi.apache.org/) 2. xdoc2txt どちらを使用しても Office 2003 までの Word ファイル ( 拡張子 doc) および Office 2007 の Word ファイル ( 拡張子 docx) からテキストを抽出することができますただし 2. を用いる場合 xdoc2txt.exe がインストールされ正常に動作する環境が整っている必要があります xdoc2txt.exe は Microsoft Windows でしか動作しません 1., 2. のいずれを用いる場合であってもパスワードで保護された Word ファイルからテキストを抽出することはできません Page.6

Microsoft Office PowerPoint API では設定ファイルの指定に応じて以下のいずれかを用いて PowerPoint ファイルからテキストを抽出します 1. Apache POI 2. xdoc2txt どちらを使用しても Office 2003 までの PowerPoint ファイル ( 拡張子 ppt) および Office 2007 の PowerPoint ファイル ( 拡張子 pptx) からテキストを抽出することができますただし 2. を用いる場合 xdoc2txt.exe がインストールされ正常に動作する環境が整っている必要があります xdoc2txt.exe は Microsoft Windows でしか動作しません 1., 2. のいずれを用いる場合であってもパスワードで保護された PowerPoint ファイルからテキストを抽出することはできません Microsoft Office Excel API では設定ファイルの指定に応じて以下のいずれかを用いて Excel ファイルからテキストを抽出します 1. Apache POI 2. xdoc2txt いずれによっても Office 2003 までの Excel ファイル ( 拡張子 xls) および Office 2007 の PowerPoint ファイル ( 拡張子 xlsx) からテキストを抽出することができますただし 2. を用いる場合 xdoc2txt.exe がインストールされ正常に動作する環境が整っている必要があります xdoc2txt.exe は Microsoft Windows でしか動作しません 1., 2. のいずれを用いる場合であってもパスワードで保護された Excel ファイルからテキストを抽出することはできません Zip アーカイブ nd_solrclient は ZIP アーカイブ内に含まれる各ファイルからテキストを抽出しますまた同時に各ファイルの名前自体も抽出したテキストに加えます ZIP アーカイブ内のファイルの名前は Windows-31J( いわゆる Shift_JIS) によりエンコードされ ZIP に記録されているものとみなされます日本語 Windows で作成された ZIP ファイルではこの仮定はほぼ正しいものですもし ZIP アーカイブ内のファイル名が Windows-31J でエンコードされていない場合抽出されたテキストに文字化けが発生しますただし文字化けが発生するのはファイル名部分のみでありファイルの内容から抽出されたテキストについては影響がありません ZIP ファイルに暗号化されたファイルが含まれている場合 APIではそのファイルの名前のみをテキストとして抽出しますなお暗号化されているかどうかを判別できるのは ZIP 2.0 互換のアーカイブフォーマットのみです Windows が作成する ZIP フォルダは一般にこのフォーマットと互換性を持っています 5.2 多言語対応についての制限事項 IM-ContentsSearch における多言語対応は標準検索画面におけるラベル及びメッセージのプロパティファイル対応のみとなっております検索対象となるコンテンツについて多言語対応を行う場合はユーザ側の実装にて対応して頂く必要があります Page.7

5.3 運用中にロールの階層が変更になった場合クローラで文章を登録後にロールの階層が変更になった場合インデックスの再作成を行ってください再作成を行うことで表示権限が正しく反映されます Page.8

6 著作権および特記事項 intra-mart は株式会社 NTT データイントラマートの商標です Java は Oracle Corporation 及びその子会社関連会社の米国及びその他の国における登録商標です文中の社名商品名等は各社の商標または登録商標である場合があります他の会社名製品名およびサービス名などはそれぞれ各社の商標または登録商標です本製品を使用する場合は本製品に含まれる各ソフトウェアのライセンスについても同意したものとします各ソフトウェアのライセンスについては同封のライセンスシートをご参照ください以上 Page.9

7 変更履歴変更年月日変更内容 2011/01/31 初版 2011/03/31 第 2 版 4 システム要件を intra-mart WebPlatform/AppFramework Ver.7.1 以上に準拠から Ver.7.2 以上に変更しました 2012/10/24 第 3 版 1 はじめに FontBox jempbox PDFBox のバージョンを 1.3.1 から 1.7.1 に更新しました 5.2 多言語対応についての制限事項を追記しました 5.3 運用中にロールの階層が変更になった場合を追記しました 2016/09/16 第 4 版 5.1 テキスト抽出に関する制限事項の PDF に関する制限事項を追記しました Page.10