IM-ContentsSearch Version 7.2 リリース ノート 2016/9/16 第 4 版 1 はじめに 1. 本ドキュメントは本製品固有の要件を記載しています 以下に記載のないものは intra-mart WebPlatform/AppFramework 付属の製品ドキュメントを参照ください 2. 弊社の提供するドキュメントに記述の無い全ての事柄は サポート対象外です 3. 本製品に関する最新の技術情報やパッチ情報は下記のサイトをご覧下さい Developer Support site : http://www.intra-mart.jp/developer/index.html 4. 本製品に関するドキュメントは 下記のサイトにおいて最新のドキュメントが公開されています 最新のドキュメントをご利用ください 製品最新情報ダウンロードページ : http://www.intra-mart.jp/download/product/index.html 5. 本製品には 以下によって開発されたソフトウェアが含まれています ソフトウェアのライセンスについては 各ライセンスシートをご参照ください OSS 製品 version licenses URL Ant 1.7.1 ASL http://ant.apache.org/ Apache Commons lang Apache Commons math 2.5 ASL http://commons.apache.org/lang/ 1.1 ASL http://commons.apache.org/math/ bouncycastle 1.44 MIT, 一部 ASL http://www.bouncycastle.org/ Dom4j 1.6.1 BSD の変形 http://dom4j.org FontBox 1.7.1 ASL http://pdfbox.apache.org/ Icu4j 3.8 ICU http://site.icu-project.org/ jempbox 1.7.1 ASL http://pdfbox.apache.org/ Jericho HTML Parser 3.1 EPL or LGPL http://jericho.htmlparser.net/docs/index.html Mecab 0.98 GPL,LGPL,BSD http://mecab.sourceforge.net/ naist-jdic 0.4.3 BSD http://sourceforge.jp/projects/naist-jdic/wiki/frontpage Page.1
PDFBox 1.7.1 ASL http://pdfbox.apache.org/ POI 3.7 ASL http://poi.apache.org/ SCons 2.0.1 MIT http://www.scons.org/ Solr 1.4.1 ASL http://lucene.apache.org/solr/ Sen 1.2.2.1 LGPL http://ultimania.org/sen/ licenses ASL Apache License, Version 2.0 BSD Berkeley Software Distribution License EPL Eclipse Public License - v 1.0 GPL GNU General Public License ICU ICU License LGPL GNU LESSER GENERAL PUBLIC LICENSE Version 2.1 MIT MIT License 2 製品概要 IM-ContentsSearch は 全文検索を行うための仕組みを提供いたします IM-ContentsSearch v7.1 では全文検索を行うためのモジュールは intra-mart WebPlatform/AppFramework に含まれますが IM_ContentsSearch v7.2 は intra-mart WebPlatform/AppFramework のインストールとは別にインストーラを提供しており 別途インストールを行う必要があります また インストールを行った状態の IM-ContentsSearch には機能制限がございます IM-ContentsSearch のライセンス登録を行うことにより 機能制限が解除されます Page.2
3 バージョンアップ内容 以下にこのバージョンで変更になった点を列挙します 各機能の詳細に関しては各マニュアルまたは API リストを参照してください また 各機能の設定方法に関しては 各マニュアルまたはインストールガイド等を参照してください 3.1 基本機能 1. 対応する Solr サーバが Solr1.4.1 に更新されました 2. 形態素解析エンジン Sen に対応しました 3. クローラ管理機能 ( バッチ ) が追加されました クローラ管理機能を利用する事により 以下のメリットがあります 順次実行が可能になり クローラの運用利便性が向上します Solr サーバへのコミット 最適化処理を一度に集約可能となり クローラの処理時間が削減されます 4. テキスト抽出機能を強化しより柔軟な設定が可能になりました 5. 標準のテキスト抽出機能が以下のファイルフォーマットに対応しました Microsoft Office Open XML 形式のドキュメント Microsoft Office Visio 6. オプションツール xdoc2 のテキスト抽出機能が対象とするファイルフォーマットが ver7.1 では PDF,Word,PowerPoint,Excel に制限されていたのが xdoc2 が対象するすべてのファイルフォーマットに対応しました 対応フォーマットの詳細は xdoc2 のページをご参照ください http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html 3.2 環境 1. 分散構成で構築された Solr サーバ環境に対応しました 3.3 API 1. 順次実行が可能なクローラ作成用の API を追加しました Page.3
4 システム要件 intra-mart WebPlatform/AppFramework Ver.7.2 以上に準拠します 4.1 その他の要件 形態素解析機能を利用する場合 後述の要件を満たす必要があります 4.1.1 Mecab を Unix 系 OS で利用する場合 モジュール 必要要件 Mecab cmecab-java C++ コンパイラ C++ コンパイラ Apache Ant Python SCons C++ コンパイラの種類によっては正常にコンパイルできない場合があります 4.1.2 Sen を利用する場合 モジュール 必要要件 Sen Perl Apache Ant Page.4
5 制限事項 5.1 テキスト抽出に関する制限事項 5.1.1 対応ファイルフォーマット 標準で提供するテキスト抽出クラスを利用してテキストの抽出が可能なファイルフォーマットは 下表のとおりで す 項番フォーマット名 MIME タイプ (MIME タイプを指定しない場合に この MIME タ イプであるとみなすファイルの拡張子 ) 1 プレーンテキスト text/plain (txt) 2 HTML text/html (htm, html) 3 XML application/xml (xml) 4 PDF application/pdf (pdf) 5 Microsoft Office Word application/msword (doc, docx) 6 Microsoft Office PowerPoint application/vnd.ms-powerpoint (ppt, pptx) 7 Microsoft Office Excel application/vnd.ms-excel (xls, xlsx) 8 Microsoft Visio application/ vnd.ms-visio.viewer (vsd) 9 ZIP アーカイブ application/zip (zip) テキストを抽出することができるファイルフォーマット一覧 5.1.2 テキストを抽出する際の制限事項 以下に それぞれのファイルフォーマットごとの テキストを抽出する際の制限事項を述べます プレーンテキスト API では プレーンテキストファイル内のテキストの文字コードを統計的手法により 自動的に判別します しかし 短いテキストしか含まれていないファイルや 複数の文字コードが混在しているファイル等については 文字コードを正しく判別できないことがあります この場合 ファイルから抽出されたテキストは 文字化けしたものになります HTML API では HTML 内の以下の部分から テキストを抽出します HEAD 要素内の TITLE 要素に含まれるテキスト BODY 要素に含まれるテキストまたAPIでは HTML の文字コードを まず META タグで指定された content-type を探すことによって判別しようと試み それに失敗すると プレーンテキストと同じく 統計的手法により判別を試みます Page.5
文字コードを正しく判別できなかった場合 ファイルから抽出されたテキストは 文字化けしたものになりま す XML API では XML 内の全てのテキストノードを抽出します PDF API では 設定ファイル (ServerManager/conf/ solr-extractor-config_cs72.xml) による指定に応じて 以下の いずれかを用いて PDF からテキストを抽出します 1. PDFBox (http://incubator.apache.org/pdfbox/) 2. Xpdf (http://www.foolabs.com/xpdf/) 付属のコマンド pdftotext 3. フリーウェア xdoc2txt (http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html) 1. の PDFBox を用いる場合 日本語が含まれる PDF から 正しくテキストを抽出できないことがあります 2. の pdftotext コマンドを用いる場合 IM-ContentsSearch クライアントが動作しているマシン上に Xpdf がイ ンストールされ pdftotext コマンドが正常に動作する環境が整っている必要があります 3. の xdoc2txt を用いる場合 xdoc2txt.exe がインストールされ 正常に動作する環境が整っている必要が あります また xdoc2txt.exe は Microsoft Windows でしか動作しません 1.,2.,3. のいずれを用いる場合であっても パスワードつきで暗号化された PDF ファイル (PDF ビューワで開く際に パスワードを要求される PDF ファイル ) からテキストを抽出することはできません また PDF ファイルからテキスト抽出が出来ない場合は 利用している PDF テキスト抽出クラスの変更をご検討願います 製品として全ての PDF ファイルに対して動作保証をしている訳ではありませんので ご利用時には事前に検討を行ってください Microsoft Office Word API では 設定ファイルの指定に応じて 以下のいずれかを用いて Word ファイルからテキストを抽出しま す 1. Apache POI (http://poi.apache.org/) 2. xdoc2txt どちらを使用しても Office 2003 までの Word ファイル ( 拡張子 doc) および Office 2007 の Word ファイル ( 拡張子 docx) からテキストを抽出することができます ただし 2. を用いる場合 xdoc2txt.exe がインストールされ 正常に動作する環境が整っている必要があります xdoc2txt.exe は Microsoft Windows でしか動作しません 1., 2. のいずれを用いる場合であっても パスワードで保護された Word ファイルからテキストを抽出することはできません Page.6
Microsoft Office PowerPoint API では 設定ファイルの指定に応じて 以下のいずれかを用いて PowerPoint ファイルからテキストを抽 出します 1. Apache POI 2. xdoc2txt どちらを使用しても Office 2003 までの PowerPoint ファイル ( 拡張子 ppt) および Office 2007 の PowerPoint ファイル ( 拡張子 pptx) からテキストを抽出することができます ただし 2. を用いる場合 xdoc2txt.exe がインストールされ 正常に動作する環境が整っている必要があります xdoc2txt.exe は Microsoft Windows でしか動作しません 1., 2. のいずれを用いる場合であっても パスワードで保護された PowerPoint ファイルからテキストを抽出することはできません Microsoft Office Excel API では 設定ファイルの指定に応じて 以下のいずれかを用いて Excel ファイルからテキストを抽出します 1. Apache POI 2. xdoc2txt いずれによっても Office 2003 までの Excel ファイル ( 拡張子 xls) および Office 2007 の PowerPoint ファイル ( 拡張子 xlsx) からテキストを抽出することができます ただし 2. を用いる場合 xdoc2txt.exe がインストールされ 正常に動作する環境が整っている必要があります xdoc2txt.exe は Microsoft Windows でしか動作しません 1., 2. のいずれを用いる場合であっても パスワードで保護された Excel ファイルからテキストを抽出することはできません Zip アーカイブ nd_solrclient は ZIP アーカイブ内に含まれる各ファイルから テキストを抽出します また同時に 各ファイルの名前自体も 抽出したテキストに加えます ZIP アーカイブ内のファイルの名前は Windows-31J( いわゆる Shift_JIS) によりエンコードされ ZIP に記録されているものとみなされます 日本語 Windows で作成された ZIP ファイルでは この仮定はほぼ正しいものです もし ZIP アーカイブ内のファイル名が Windows-31J でエンコードされていない場合 抽出されたテキストに 文字化けが発生します ただし 文字化けが発生するのは ファイル名部分のみであり ファイルの内容から抽出されたテキストについては影響がありません ZIP ファイルに 暗号化されたファイルが含まれている場合 APIでは そのファイルの名前のみを テキストとして抽出します なお 暗号化されているかどうかを判別できるのは ZIP 2.0 互換のアーカイブフォーマットのみです Windows が作成する ZIP フォルダは 一般にこのフォーマットと互換性を持っています 5.2 多言語対応についての制限事項 IM-ContentsSearch における多言語対応は 標準検索画面におけるラベル及びメッセージのプロパティファイル対応のみとなっております 検索対象となるコンテンツについて多言語対応を行う場合は ユーザ側の実装にて対応して頂く必要があります Page.7
5.3 運用中にロールの階層が変更になった場合 クローラで文章を登録後にロールの階層が変更になった場合 インデックスの再作成を行ってください 再作成を 行うことで 表示権限が正しく反映されます Page.8
6 著作権および特記事項 intra-mart は株式会社 NTT データイントラマートの商標です Java は Oracle Corporation 及びその子会社 関連会社の米国及びその他の国における登録商標です 文中の社名 商品名等は各社の商標または登録商標である場合があります 他の会社名 製品名およびサービス名などはそれぞれ各社の商標または登録商標です 本製品を使用する場合は 本製品に含まれる各ソフトウェアのライセンスについても同意したものとします 各ソフトウェアのライセンスについては 同封のライセンスシートをご参照ください 以上 Page.9
7 変更履歴 変更年月日変更内容 2011/01/31 初版 2011/03/31 第 2 版 4 システム要件 を intra-mart WebPlatform/AppFramework Ver.7.1 以上に準拠から Ver.7.2 以上に変更しました 2012/10/24 第 3 版 1 はじめに FontBox jempbox PDFBox のバージョンを 1.3.1 から 1.7.1 に更新しました 5.2 多言語対応についての制限事項 を追記しました 5.3 運用中にロールの階層が変更になった場合 を追記しました 2016/09/16 第 4 版 5.1 テキスト抽出に関する制限事項 の PDF に関する制限事項を追記しました Page.10