IM-ContentsSearch

Similar documents
2. バージョンアップ内容 intra-mart WebPlatform/AppFramework Ver.7.1 および Ver.7.2 に対応いたしました SAP JCo 3.0.x に対応いたしました 3. 製品概要 IM-ERP リアルコネクトは SAP システム内のデータをリアルタイムに取

intra-mart FormatCreator Version6.1

2. 製品概要 IM-ERP リアルコネクトは SAP システム内のデータをリアルタイムに取得 更新するための API SAP リアルタイム連携 API を提供いたします またこれらの API を利用した業務テンプレートが同梱されています 各機能の詳細や設定方法に関しては 各マニュアルまたはセットア

IM-SecureSignOn

IOWebDOC

intra-mart FormatCreator Version6.1

— OpenRulesモジュール 2017 Summer リリースノート   第2版  

— OpenRulesモジュール 2017 Summer リリースノート   初版  

OpenRulesモジュール

intra-mart EX申請システム version.7.2 事前チェック

OpenRulesモジュール

intra-mart EX申請システム version.7.2 PDFオプション リリースノート

4. 環境要件 WebWrapper および WebWrapper 管理サーバ <Windows 版 > Windows2000Server ( サービスパック 3 また 4 適用済 ), Windows Server 2003 <Solaris 版 > SPARC CPU を搭載する Sun 製ワ

Mobile Framework

FormatCreator

intra-mart e Builder Version7.0 リリース ノート 第 3 版 2009/5/19 1 はじめに (1) intra-mart e Builder が動作するには Java-VM が必要です (2) intra-mart e Builder で開発を進めるには intr

— IM-VisualDesigner Migration Tool 2017 Spring リリースノート   初版  

intra-mart ワークフローデザイナ

intra-mart EX申請システム version.5.3 PDFオプション リリースノート

— IM-PDFTimeStamper for Accel Platform 2018 Spring リリースノート   第3版  

intra-mart Accel Platform — Slack連携モジュール 利用ガイド   初版  

ビューアページ画像の仕様

intra-mart QuickBinder Ver.5.0 リリース ノート 第 4 版 2016/7/15 1. バージョンアップ内容以下にこのバージョンで変更になった点を列挙します なお 各機能の詳細に関してはマニュアルを参照して下さい また 各機能の設定方法に関しては 操作説明書またはセット

商標類 Microsoft は, 米国およびその他の国における米国 Microsoft Corp. の登録商標です Microsoft Office は, 米国 Microsoft Corp. の商品名称です Microsoft Excel は, 米国 Microsoft Corp. の商品名称です

<< 目次 >> 1 PDF コンバータのインストール ライセンスコードの入力 PDF にフォントを埋め込みたい場合の設定 PDF オートコンバータ EX で使用しない場合 PDF コンバータ単体で使用する場合の説明 PDF コンバータのアン

IM-FormatCreator

PDFConverter

intra-mart EX申請システム version.5.4 提出依頼機能 リリースノート

IM-Mail

— IM-SecureSignOn for Accel Platform 2016 Spring リリースノート   第2版  

intra-mart Accel Collaboration — ファイルライブラリ ユーザ操作ガイド   第5版  

— IM-SecureSignOn for Accel Platform 2017 Winter リリースノート   第2版  

PDFオートコンバータEX

— intra-mart Accel Archiver 2017 Spring リリースノート   初版  

Sea-NACCS 利用者研修 【通関編】

intra-mart Accel Collaboration — ファイルライブラリ 管理者操作ガイド   第6版  

— intra-mart Accel Documents Timestamp Option 2016 Summer リリースノート   初版  

intra-mart WebPlatform / AppFramework

Rational Roseモデルの移行 マニュアル

大阪ガス株式会社 情報通信部 御中

iStorage ソフトウェア VMware vCenter Plug-in インストールガイド

intra-mart X Server Version リリース ノート 第 15 版 2013/04/05 1. はじめに (1) 弊社では この本ドキュメントに記載されている 検証済み環境 にて動作確認をおこなっています (2) 弊社の提供するドキュメントに記述の無い全ての事柄は

改版履歴 版数 改版 内容 新規作成 Microsoft.NET Framework のダウンロード先 URL を追記 バージョンアップに伴い改版 i

商標類 Microsoft は, 米国およびその他の国における米国 Microsoft Corp. の登録商標です Microsoft Office は, 米国 Microsoft Corp. の商品名称です Microsoft Excel は, 米国 Microsoft Corp. の商品名称です

Delphi/400ユーザーのための『Visual Query・Simple Transfer/400』ご紹介

第 4 版 2019 年 05 月

intra-mart Accel Archiver 2014 Summer

SP xDrive Explorer ユーザーマニュアル

IM-PDFAutoConverter for Accel Platform 2014 Spring

— IM-PDFCoordinator for Accel Platform 2018 Winter リリースノート   初版  

BIP Smart サンプル説明書

— IM-PDFAutoConverter for Accel Platform 2014 Winter リリースノート   第3版   None

ArcGIS Runtime SDK for WPF インストールガイド (v10.2.5)

intra-mart X Server Version リリース ノート 第 17 版 2014/5/23 1. はじめに (1) 弊社では この本ドキュメントに記載されている 検証済み環境 にて動作確認をおこなっています (2) 弊社の提供するドキュメントに記述の無い全ての事柄は サ

作成日 :2017/03/29 ******************************************************************************* ** ** ** FUJITSU Cloud Service K5 ** ** ** ** ソフトウェアカフ

Microsoft Windows Internet Explorer は 米国 Microsoft Corporation の 米国およびその他の国における登録商標または商標です Linux は Linus Torvalds 氏の日本およびその他の国における登録商標または商標です Red Hat

CLUSTERPRO MC RootDiskMonitor 2.3 for Windows リリースメモ 2018(Jun) NEC Corporation はじめに ライセンス 動作要件 セットアップ マニュアル

intra-mart WebPlatform/AppFramework

CLUSTERPRO MC StorageSaver for BootDisk 2.1 (for Windows) インストールガイド 2016(Mar) NEC Corporation はじめに 製品導入の事前準備 本製品のインストール 本製品の初期設定 本製品のアンインストール

BIP Smart サンプル説明書

— IM-PDFCoordinator for Accel Platform 2014 Winter リリースノート   第3版  

改版履歴 版数改版内容 新規作成 i

サイト名

intra-mart X Server Version リリース ノート 第 12 版 2010/10/29 1. はじめに (1) 弊社では この本ドキュメントに記載されている 検証済み環境 にて動作確認をおこなっています (2) 弊社の提供するドキュメントに記述の無い全ての事柄は

アマノタイムスタンプサービス 3161 中間 CA 証明書設定後の動作確認手順書 Ver 年 10 月 03 日株式会社ハイパーギア

CLUSTERPRO MC StorageSaver for BootDisk 1.2 (for Windows) インストールガイド 2014(Mar) NEC Corporation はじめに 製品導入の事前準備 本製品のインストール 本製品の初期設定 本製品のアンインストール

CLUSTERPRO MC RootDiskMonitor 1.0 for Windows インストールガイド 2013(Mar) NEC Corporation はじめに 製品導入の事前準備 本製品のインストール 本製品の初期設定 本製品のアンインストール

譲渡人複数証明データコンバータ操作説明書 平成 26 年 6 月

intra-mart Accel Platform — intra-mart Sphinxドキュメント ビルド手順書   第2版  

intra-mart Accel Archiver 2014 Summer

目次 1 はじめに 本文書の概要 PVF ソフトウェアと VISUAL STUDIO PVF ソフトウェアの種類 MICROSOFT VISUAL STUDIO の日本語化について VISUAL STUDIO

intra-mart WebPlaform / AppFramework

< 機能対応表 > Version5.0 Version6.0 Point スケジュール管理 施設予約管理 スケジュール / 施設情報 旧来よりも機能間の連携が強化されています 施設予約管理 -[ 施設予約状況検索 ] スケジュール / 施設情報 -[ 空き状況確認 ] 施設予約状況検索 機能を 空

— intra-mart Accel Archiver 2016 Spring リリースノート   初版  

— intra-mart Accel Archiver 2018 Winter リリースノート   第2版  

miChecker導入手順書

intra-mart Accel Collaboration — ファイルライブラリ ユーザ操作ガイド   第3版  

intra-mart Accel Platform

— IM-PDFAutoConverter for Accel Platform 2018 Winter リリースノート   初版  

Alfa-Products_installguide

BIP Smart FAQ

セットアップガイド

MS Office Online on あずけ ~ るご利用ガイド 詳細編 このたびはフレッツ あずけ ~ るをご利用いただきまして 誠にありがとうございます 本ガイドでは MS Office Online on あずけ ~ るをご利用になる場合の手順について 説明いたします 第 7.0 版 一部画

Interstage Interaction Manager V9 Oracle Database 11g 適用手順書

CLUSTERPRO MC RootDiskMonitor 2.1 for Windows パトロールシーク機能 インストールガイド 2016(Mar) NEC Corporation はじめに 製品導入の事前準備 本製品のインストール 本製品の初期設定 本製品のアンインストール

ファイル アップロード

Microsoft Windows Internet Explorer は 米国 Microsoft Corporation の 米国およびその他の国における登録商標または商標です Linux は Linus Torvalds 氏の日本およびその他の国における登録商標または商標です Red Hat

捺印ツールを使う 捺印ツールをインストールする 1. [ パソコン決裁 6 試用版捺印ツール ] の [ ダウンロード ] ボタンをクリックします 2. [ 実行 ] ボタンをクリックし [SetupDstmp32.exe] ファイルを実行します ご利用のブラウザまたはバージョンにより画面が異なりま

SimLab Plugins for SketchUp 評価版インストールおよびアクティベート方法 注意事項 評価版をお使い頂くには 評価用ライセンスでのアクティベートが必要です 評価用ライセンスファイルの取得を行い 手動でアクティベートする必要があります 各 SimLab プラグインは 評価用とし

EQ Messenger

独立行政法人産業技術総合研究所 PMID-Extractor ユーザ利用マニュアル バイオメディシナル情報研究センター 2009/03/09 第 1.0 版

Microsoft PowerPoint - ファイル翻訳__ pptx

intra-mart Accel Platform — IM-共通マスタ スマートフォン拡張プログラミングガイド   初版  

Microsoft Word - Manage_Add-ons

テクニカルドキュメントのテンプレート

Exfront4.1.0リリースノート

OmniTrust

Microsoft Word - PGI WorkstationServer事前準備 doc

intra-mart Accel Collaboration — インフォメーション ユーザ操作ガイド   第11版  

Transcription:

IM-ContentsSearch Version 7.2 リリース ノート 2016/9/16 第 4 版 1 はじめに 1. 本ドキュメントは本製品固有の要件を記載しています 以下に記載のないものは intra-mart WebPlatform/AppFramework 付属の製品ドキュメントを参照ください 2. 弊社の提供するドキュメントに記述の無い全ての事柄は サポート対象外です 3. 本製品に関する最新の技術情報やパッチ情報は下記のサイトをご覧下さい Developer Support site : http://www.intra-mart.jp/developer/index.html 4. 本製品に関するドキュメントは 下記のサイトにおいて最新のドキュメントが公開されています 最新のドキュメントをご利用ください 製品最新情報ダウンロードページ : http://www.intra-mart.jp/download/product/index.html 5. 本製品には 以下によって開発されたソフトウェアが含まれています ソフトウェアのライセンスについては 各ライセンスシートをご参照ください OSS 製品 version licenses URL Ant 1.7.1 ASL http://ant.apache.org/ Apache Commons lang Apache Commons math 2.5 ASL http://commons.apache.org/lang/ 1.1 ASL http://commons.apache.org/math/ bouncycastle 1.44 MIT, 一部 ASL http://www.bouncycastle.org/ Dom4j 1.6.1 BSD の変形 http://dom4j.org FontBox 1.7.1 ASL http://pdfbox.apache.org/ Icu4j 3.8 ICU http://site.icu-project.org/ jempbox 1.7.1 ASL http://pdfbox.apache.org/ Jericho HTML Parser 3.1 EPL or LGPL http://jericho.htmlparser.net/docs/index.html Mecab 0.98 GPL,LGPL,BSD http://mecab.sourceforge.net/ naist-jdic 0.4.3 BSD http://sourceforge.jp/projects/naist-jdic/wiki/frontpage Page.1

PDFBox 1.7.1 ASL http://pdfbox.apache.org/ POI 3.7 ASL http://poi.apache.org/ SCons 2.0.1 MIT http://www.scons.org/ Solr 1.4.1 ASL http://lucene.apache.org/solr/ Sen 1.2.2.1 LGPL http://ultimania.org/sen/ licenses ASL Apache License, Version 2.0 BSD Berkeley Software Distribution License EPL Eclipse Public License - v 1.0 GPL GNU General Public License ICU ICU License LGPL GNU LESSER GENERAL PUBLIC LICENSE Version 2.1 MIT MIT License 2 製品概要 IM-ContentsSearch は 全文検索を行うための仕組みを提供いたします IM-ContentsSearch v7.1 では全文検索を行うためのモジュールは intra-mart WebPlatform/AppFramework に含まれますが IM_ContentsSearch v7.2 は intra-mart WebPlatform/AppFramework のインストールとは別にインストーラを提供しており 別途インストールを行う必要があります また インストールを行った状態の IM-ContentsSearch には機能制限がございます IM-ContentsSearch のライセンス登録を行うことにより 機能制限が解除されます Page.2

3 バージョンアップ内容 以下にこのバージョンで変更になった点を列挙します 各機能の詳細に関しては各マニュアルまたは API リストを参照してください また 各機能の設定方法に関しては 各マニュアルまたはインストールガイド等を参照してください 3.1 基本機能 1. 対応する Solr サーバが Solr1.4.1 に更新されました 2. 形態素解析エンジン Sen に対応しました 3. クローラ管理機能 ( バッチ ) が追加されました クローラ管理機能を利用する事により 以下のメリットがあります 順次実行が可能になり クローラの運用利便性が向上します Solr サーバへのコミット 最適化処理を一度に集約可能となり クローラの処理時間が削減されます 4. テキスト抽出機能を強化しより柔軟な設定が可能になりました 5. 標準のテキスト抽出機能が以下のファイルフォーマットに対応しました Microsoft Office Open XML 形式のドキュメント Microsoft Office Visio 6. オプションツール xdoc2 のテキスト抽出機能が対象とするファイルフォーマットが ver7.1 では PDF,Word,PowerPoint,Excel に制限されていたのが xdoc2 が対象するすべてのファイルフォーマットに対応しました 対応フォーマットの詳細は xdoc2 のページをご参照ください http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html 3.2 環境 1. 分散構成で構築された Solr サーバ環境に対応しました 3.3 API 1. 順次実行が可能なクローラ作成用の API を追加しました Page.3

4 システム要件 intra-mart WebPlatform/AppFramework Ver.7.2 以上に準拠します 4.1 その他の要件 形態素解析機能を利用する場合 後述の要件を満たす必要があります 4.1.1 Mecab を Unix 系 OS で利用する場合 モジュール 必要要件 Mecab cmecab-java C++ コンパイラ C++ コンパイラ Apache Ant Python SCons C++ コンパイラの種類によっては正常にコンパイルできない場合があります 4.1.2 Sen を利用する場合 モジュール 必要要件 Sen Perl Apache Ant Page.4

5 制限事項 5.1 テキスト抽出に関する制限事項 5.1.1 対応ファイルフォーマット 標準で提供するテキスト抽出クラスを利用してテキストの抽出が可能なファイルフォーマットは 下表のとおりで す 項番フォーマット名 MIME タイプ (MIME タイプを指定しない場合に この MIME タ イプであるとみなすファイルの拡張子 ) 1 プレーンテキスト text/plain (txt) 2 HTML text/html (htm, html) 3 XML application/xml (xml) 4 PDF application/pdf (pdf) 5 Microsoft Office Word application/msword (doc, docx) 6 Microsoft Office PowerPoint application/vnd.ms-powerpoint (ppt, pptx) 7 Microsoft Office Excel application/vnd.ms-excel (xls, xlsx) 8 Microsoft Visio application/ vnd.ms-visio.viewer (vsd) 9 ZIP アーカイブ application/zip (zip) テキストを抽出することができるファイルフォーマット一覧 5.1.2 テキストを抽出する際の制限事項 以下に それぞれのファイルフォーマットごとの テキストを抽出する際の制限事項を述べます プレーンテキスト API では プレーンテキストファイル内のテキストの文字コードを統計的手法により 自動的に判別します しかし 短いテキストしか含まれていないファイルや 複数の文字コードが混在しているファイル等については 文字コードを正しく判別できないことがあります この場合 ファイルから抽出されたテキストは 文字化けしたものになります HTML API では HTML 内の以下の部分から テキストを抽出します HEAD 要素内の TITLE 要素に含まれるテキスト BODY 要素に含まれるテキストまたAPIでは HTML の文字コードを まず META タグで指定された content-type を探すことによって判別しようと試み それに失敗すると プレーンテキストと同じく 統計的手法により判別を試みます Page.5

文字コードを正しく判別できなかった場合 ファイルから抽出されたテキストは 文字化けしたものになりま す XML API では XML 内の全てのテキストノードを抽出します PDF API では 設定ファイル (ServerManager/conf/ solr-extractor-config_cs72.xml) による指定に応じて 以下の いずれかを用いて PDF からテキストを抽出します 1. PDFBox (http://incubator.apache.org/pdfbox/) 2. Xpdf (http://www.foolabs.com/xpdf/) 付属のコマンド pdftotext 3. フリーウェア xdoc2txt (http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html) 1. の PDFBox を用いる場合 日本語が含まれる PDF から 正しくテキストを抽出できないことがあります 2. の pdftotext コマンドを用いる場合 IM-ContentsSearch クライアントが動作しているマシン上に Xpdf がイ ンストールされ pdftotext コマンドが正常に動作する環境が整っている必要があります 3. の xdoc2txt を用いる場合 xdoc2txt.exe がインストールされ 正常に動作する環境が整っている必要が あります また xdoc2txt.exe は Microsoft Windows でしか動作しません 1.,2.,3. のいずれを用いる場合であっても パスワードつきで暗号化された PDF ファイル (PDF ビューワで開く際に パスワードを要求される PDF ファイル ) からテキストを抽出することはできません また PDF ファイルからテキスト抽出が出来ない場合は 利用している PDF テキスト抽出クラスの変更をご検討願います 製品として全ての PDF ファイルに対して動作保証をしている訳ではありませんので ご利用時には事前に検討を行ってください Microsoft Office Word API では 設定ファイルの指定に応じて 以下のいずれかを用いて Word ファイルからテキストを抽出しま す 1. Apache POI (http://poi.apache.org/) 2. xdoc2txt どちらを使用しても Office 2003 までの Word ファイル ( 拡張子 doc) および Office 2007 の Word ファイル ( 拡張子 docx) からテキストを抽出することができます ただし 2. を用いる場合 xdoc2txt.exe がインストールされ 正常に動作する環境が整っている必要があります xdoc2txt.exe は Microsoft Windows でしか動作しません 1., 2. のいずれを用いる場合であっても パスワードで保護された Word ファイルからテキストを抽出することはできません Page.6

Microsoft Office PowerPoint API では 設定ファイルの指定に応じて 以下のいずれかを用いて PowerPoint ファイルからテキストを抽 出します 1. Apache POI 2. xdoc2txt どちらを使用しても Office 2003 までの PowerPoint ファイル ( 拡張子 ppt) および Office 2007 の PowerPoint ファイル ( 拡張子 pptx) からテキストを抽出することができます ただし 2. を用いる場合 xdoc2txt.exe がインストールされ 正常に動作する環境が整っている必要があります xdoc2txt.exe は Microsoft Windows でしか動作しません 1., 2. のいずれを用いる場合であっても パスワードで保護された PowerPoint ファイルからテキストを抽出することはできません Microsoft Office Excel API では 設定ファイルの指定に応じて 以下のいずれかを用いて Excel ファイルからテキストを抽出します 1. Apache POI 2. xdoc2txt いずれによっても Office 2003 までの Excel ファイル ( 拡張子 xls) および Office 2007 の PowerPoint ファイル ( 拡張子 xlsx) からテキストを抽出することができます ただし 2. を用いる場合 xdoc2txt.exe がインストールされ 正常に動作する環境が整っている必要があります xdoc2txt.exe は Microsoft Windows でしか動作しません 1., 2. のいずれを用いる場合であっても パスワードで保護された Excel ファイルからテキストを抽出することはできません Zip アーカイブ nd_solrclient は ZIP アーカイブ内に含まれる各ファイルから テキストを抽出します また同時に 各ファイルの名前自体も 抽出したテキストに加えます ZIP アーカイブ内のファイルの名前は Windows-31J( いわゆる Shift_JIS) によりエンコードされ ZIP に記録されているものとみなされます 日本語 Windows で作成された ZIP ファイルでは この仮定はほぼ正しいものです もし ZIP アーカイブ内のファイル名が Windows-31J でエンコードされていない場合 抽出されたテキストに 文字化けが発生します ただし 文字化けが発生するのは ファイル名部分のみであり ファイルの内容から抽出されたテキストについては影響がありません ZIP ファイルに 暗号化されたファイルが含まれている場合 APIでは そのファイルの名前のみを テキストとして抽出します なお 暗号化されているかどうかを判別できるのは ZIP 2.0 互換のアーカイブフォーマットのみです Windows が作成する ZIP フォルダは 一般にこのフォーマットと互換性を持っています 5.2 多言語対応についての制限事項 IM-ContentsSearch における多言語対応は 標準検索画面におけるラベル及びメッセージのプロパティファイル対応のみとなっております 検索対象となるコンテンツについて多言語対応を行う場合は ユーザ側の実装にて対応して頂く必要があります Page.7

5.3 運用中にロールの階層が変更になった場合 クローラで文章を登録後にロールの階層が変更になった場合 インデックスの再作成を行ってください 再作成を 行うことで 表示権限が正しく反映されます Page.8

6 著作権および特記事項 intra-mart は株式会社 NTT データイントラマートの商標です Java は Oracle Corporation 及びその子会社 関連会社の米国及びその他の国における登録商標です 文中の社名 商品名等は各社の商標または登録商標である場合があります 他の会社名 製品名およびサービス名などはそれぞれ各社の商標または登録商標です 本製品を使用する場合は 本製品に含まれる各ソフトウェアのライセンスについても同意したものとします 各ソフトウェアのライセンスについては 同封のライセンスシートをご参照ください 以上 Page.9

7 変更履歴 変更年月日変更内容 2011/01/31 初版 2011/03/31 第 2 版 4 システム要件 を intra-mart WebPlatform/AppFramework Ver.7.1 以上に準拠から Ver.7.2 以上に変更しました 2012/10/24 第 3 版 1 はじめに FontBox jempbox PDFBox のバージョンを 1.3.1 から 1.7.1 に更新しました 5.2 多言語対応についての制限事項 を追記しました 5.3 運用中にロールの階層が変更になった場合 を追記しました 2016/09/16 第 4 版 5.1 テキスト抽出に関する制限事項 の PDF に関する制限事項を追記しました Page.10