Oracleセキュア・エンタープライズ・サーチ

Oracle Secure Enterprise Search Secure Connector Software Development Kit Oracle Secure Enterprise Search バージョン 10.1.6 2006 年 6 月概要 Oracle Secure Enterprise Search 10.1.6 は Web サーバーデータベース表 IMAP サーバーファイルシステムおよび Oracle Portal 内のドキュメントをクロールする独自のセキュアコネクタをサポートします多くの企業では社内で作成したもしくはソフトウェアベンダーから購入した独自の専用ドキュメントやデータのリポジトリを保有しています Oracle Secure Enterprise Search の Secure Connector Development Kit を使用するとユーザーやベンダーは独自のセキュアコネクタを開発してこのようなドキュメントやデータのリポジトリのコンテンツをクロールすることができます Secure Connector Software Development Kit にはセキュアコネクタの開発に役立つ以下のような情報が含まれています a. セキュアクローラプラグイン開発のためのクイックスタートガイド ( このドキュメントに含まれています ) b. Administrator s Guide の第 3 章 ( セキュアクローラの概要についての説明があります ) URL: http://download-west.oracle.com/docs/cd/b28527_01/doc/search.1016/b19002/toc.htm c. セキュアクローラプラグインの開発方法についてのチュートリアル URL:http://st-curriculum.oracle.com/tutorial/SESDevTutorial/index.htm d. 実装するインタフェースについての説明が記載された Java ドキュメント URL : http://download-west.oracle.com/docs/cd/b28527_01/doc/search.1016/b19032/toc.htm e. クローラプラグインのサンプルこれにより独自のセキュアコネクタの開発をすぐに開始することができます URL:http://www.oracle.com/technology/products/oses/files/xmlplugin.zip

セキュアクローラプラグイン作成のためのクイックスタートガイドこのセクションでは Oracle Secure Enterprise Search を使用してセキュアクローラプラグインを作成するプロセスの概要を説明しますクローラプラグインの作成手順 1. ブラグインの必要性の確認リポジトリの Web アプリケーションは Web ソースとしてクロールされる場合がありますリポジトリが LDAP などの別のアクセスプロトコルをサポートしていればカスタムソリューションは必要ありません 2. 使用可能なプラグインの確認必要なプラグインがオラクル社またはサードパーティベンダーから提供されているかどうかを確認しますオラクル社では LDAP のクロールデータベース表のクロールおよびファイルディレクトリのクロールをサポートする 3 つのサンプルプラグインを用意しています 3. ターゲットリポジトリの調査ドキュメントのコンテンツメタデータおよびアクセス情報 ( オプション ) を取得する際にリポジトリにアクセスする方法を決定します 1 つのリポジトリに対してシングルインスタンスしかないのかそれとも何百ものインスタンスがあるのかを判断しますたとえばプラグインが一度に 1 つのリポジトリをクロールするかまたはすべてのリポジトリをクロールするかによってプラグインの設計を変更する必要があります 4. ドキュメントモデルの決定ドキュメントの構成要素について確認しますアプリケーションの実行中に合成された仮想ドキュメントの場合もあればメタデータのみが含まれる場合もあります検索対象となるドキュメントの属性として収集する一連のメタデータを決定します 5. ターゲットドキュメント用 URL の定義ターゲットドキュメント用 URL はリポジトリベンダーが提供する Web インタフェースアプリケーションが生成した HTTP URL の場合もあれば検索結果の中でエンタープライズアプリケーションを示す URL の場合もありますたとえば休暇レポートのアプリケーションを表示するとしますこの場合 1 つのドキュメントに対して 2 種類の URL が存在する可能性があります一方は表示用 URL であり検索結果内でエンドユーザーが使用しますもう一方はアクセス用 URL でありプラグインがドキュメントを取得する際に内部で使用します表示 URL はデータソース内で一意にする必要があります 6. リポジトリに対するアクセス方法の決定リポジトリのアクセスに必要な情報を検討しますデータベースの場合データベース接続文字列スキーマ名およびパスワードが該当しますクローラはスタンドアロンの Java プロセスであり Oracle Secure Enterprise Search OC4J Web アプリケーションの一部ではありません 7. データソースモデルの決定データソースは論理単位として扱われるドキュメントの集合ですたとえばデータベース内の表イントラネット内の Web サイトまたはファイルディレクトリがありますまたデータソースはクロールの単位でもありますクローラが一度にクロールするのは 1 つのデータソースですターゲットリポジトリに関してはこのようなソースを定義できる明確なパラメータが必要です

8. ドキュメントのアクセス制御の提供ドキュメント単位での保護が必要な場合プラグインの作成手順においてこのステップが技術的にもっとも難易度の高いステップです Secure Enterprise Search を使用してクロールするドキュメントにアクセス制御リスト (ACL) を割り当てる必要があります ACL 内のプリンシパルはグローバルユーザー ID(GUID) または識別名 (DN) の形式で Secure Enterprise Search によって Identity Management Store として使用されている LDAP サーバーに存在しなければなりません Secure Enterprise Search 10.1.6 でサポートしているのは Oracle Internet Directory(OID) のみです対象のリポジトリが別の LDAP サーバー (Microsoft Active Directory など ) を使用している場合リポジトリと OID 間でユーザーのマッピングを維持する必要がありますがこれはプラグインの範囲外です Secure Enterprise Search は管理者がデータソースに ACL を付与することが可能でありデータソースレベルのアクセス制御をサポートしています 9. データソースのクロール方法の決定データソースのクロールとはデータソース内のドキュメントのリストを探索し索引付けのためにドキュメントを取得することを意味しますクロール設計に関して決定する重要な事項の 1 つにキュー ( プラグイン API の QueueService により提供 ) の使用がありますたとえば表のクロールの場合テーブルはいくつものクローリングスレッド ( スレッドごとに 1 つのプラグイン ) によって分割され各プラグインがデータベース接続と SQL の select を実行しますこの場合各プラグインがドキュメントをフェッチし続けキューを経由せずにクローラに直接送信します一方ファイルディレクトリのクロールやツリー構造のデータソースの場合はキューを活用してクロールできますドキュメントコンテンツをキューに入れることはできません 10. 再クロール方法の検討最初のクロールでは常にデータソース内のすべてのドキュメントを検索しますが 2 回目以降のクロールについてはプラグインを使用して何をすべきかを検討しますたとえばプラグインを使用して前回のクロール以降に挿入または更新削除されたドキュメントを検出できるのかどうかなどを確認します多くの場合削除されたドキュメントセットは検出が必要になりますこのような場合初回のクロールではなく異なる動作が必要であることをプラグインがどのように認識するのかについて確認します 11. サンプルプラグインの活用 Oracle Secure Enterprise Search には 3 つのサンプルプラグインが同梱されておりこれらは $OH/search/sample/agent/ フォルダにありますサンプルを調査してプラグインの概要を把握します 12. プラグイン Java クラスの構築 Oracle Secure Enterprise Search の Java クローラプラグイン API インタフェースである CrawlerPluginManager と CrawlerPlugin を実装するとセキュアクローラプラグインが作成されます Oracle Secure Enterprise Search クローラによって残りのプラグイン API が実装されますプラグインのユーザーがプラグインの設定を行う場合パラメータのリストを明確に定義することが重要です使用する API のリストについては後述の API のサマリーおよび Secure Enterprise Search の Javadoc ドキュメントを参照してください 13. プラグイン Java クラスの jar ファイルへのパッケージ化単純なプラグインの場合すべてのクラスを 1 つのプラグイン jar ファイルにパッケージ化できますプラグインが別の jar ファイルを使用している場合プラグイン jar ファイルの MANIFEST.MF の Class-Path でそのクラスパスを指定する必要があります jar ファイルは $OH/search/lib/agent/ ディレクトリに保存しますまたプラグインのコードが特定のライブラリファイル (Windows の.dll ファイル UNIX の.so ファイルなど ) を使用している場合ライブラリパス環境変数 (Windows の場合 :PATH UNIX の場合 :LD_LIBRARY_PATH) にそのライブラリファイルのパスを含めこの環境で Oracle を開始する必要がありますクローラは Oracle プロセスから作成されるためライブラリパスを含むすべての環境変数を Oracle から自動的に継承します

14. プラグインの登録プラグインはユーザー定義のデータソースタイプを定義しますブラウザを使用して管理ページに移動し [ グローバル設定 ] [ ソースタイプ ] にある [ 作成 ] ボタンをクリックして CrawlerPluginManager を実装する Java クラス名と対応するプラグイン jar ファイル名を入力します ( 例 : app.crawler.ldap.ldapcrawlerpluginmanager と pluginldap.jar ) 15. プラグインが定義されたソースタイプに基づく新規データソースの作成新しいデータソースを作成する場合はターゲットリポジトリのデータソースタイプを指定しますプラグインパラメータの値をここで指定する必要があります新しいデータソースにはクローラスケジュールが自動的に作成されます 16. プラグインのテストスケジューリングされたクロールを開始しクローラのログファイルを参照してプラグインに問題がないかどうかを確認します多くの場合このプロセスを繰り返し実行してプラグインコードを修正し再パッケージ化する必要がありますプラグインのパラメータに変更がない場合はプラグインの再登録は必要ありません 17. クロールしたデータソースの検索テストクロールが正常に終了したらデータソースに対して問合せのテストを実行し検索結果を参照して検索結果 URL が正常に機能していることを確認しますクローラプラグイン API のサマリーインタフェースサマリープラグインの作成者により実装 CrawlerPlugin crawl() メソッドがプラグインの中心になるキーメソッド :crawl( ) CrawlerPluginManager CrawlingThreadService DataSourceService プラグインの作成者により実装プラグインの登録とクローラに使用されるプラグインインスタンスのマテリアライズを行うキーメソッド :init() getcrawlerplugin() getpluginparameters() クローラへのドキュメント送信のエントリポイントキーメソッド :submitforprocessing(documentcontainer target) データソース管理用のオプションサービスキーメソッド :delete(url) indexnow() registergloballov()

DocumentAcl DocumentContainer ドキュメントのアクセス制御プリンシパルの格納オブジェクト DocumentMetadata オブジェクトに保存するキーメソッド :addprincipal() adddenyprincipal() ドキュメントの容器ドキュメントを送信するにはメタデータとドキュメントステータスをここに設定する必要があるキーメソッド :setmetadata(documentmetadata) setdocument(inputstream) setdocument(reader) setdocumentstatus() ドキュメントのメタデータとアクセス制御情報を格納するオブジェクト DocumentMetadata GeneralService Logger LovInfo ParameterValues QueueService キーメソッド :setaclinfo(documentacl) setattribute() setcontenttype() setsourcehierarchy() DataSourceService QueueService および LoggingService を取得するためのエントリポイント DocumentAcl DocumentMetadata DocumentContainer および LovInfo オブジェクトを作成するファクトリクローラのログファイルにメッセージを出力するロギングインタフェースキーメソッド :error() fatal() info() warn() 検索属性の LOV を格納するオブジェクトキーメソッド :addattributevalue(name, value) プラグインがデータソースパラメータの値を読み取るためのインタフェースペンディング中のドキュメント URL を格納するオプションサービスキーメソッド :enqueue() getnextitem() クラスサマリー ParameterInfo パラメータの全般的なプロパティを記述するクラス PluginManager は GetPluginParameters() メソッドを使用して ParameterInfo のリストを返す

例外サマリー PluginException ProcessingException プラグインがエラーを報告する際にスローする例外 isfatalexception() が true である場合クローラが停止するクローラからプラグインにスローされる例外でプラグインのリクエストの処理中のトラブルを示す致命的エラーの場合クローラは停止しようとする停止しない場合は次のドキュメントに進むかどうかはプラグインが決定する