Kabayaki ベーシック 版 for Linux 取 扱 説 明 書 Version 3.0.0 第 1 版 2009 年 3 月 30 日
はじめに...1 Kabayaki の 管 理 とは... 1 コンテンツとインデックス... 1 第 1 章 管 理 画 面 の 構 成...3 管 理 画 面 の 表 示... 3 第 2 章 サーバー 関 連 メニュー...5 サーバー 環 境 情 報... 5 第 3 章 インデックス 関 連 メニュー...7 インデックス 一 覧... 7 インデックスの 追 加... 9 インデックスの 修 正...11 コンテンツ 設 定... 12 フィルタ 設 定... 14 チューニング 設 定... 17 ログ 一 覧... 21 Web スパイダ... 23 基 本 設 定... 23 拡 張 設 定... 24 第 4 章 検 索 および 検 索 結 果 画 面...27 検 索 画 面 の 表 示... 27 検 索 方 法... 28 検 索 式... 28 付 録 A 文 書 フィルタとプロパティ 検 索 詳 細...33 文 書 フィルタ... 33 対 応 文 書... 33 プロパティ 検 索... 34 OLE オブジェクト 検 索... 34 KABAYAKI 1
2 KABAYAKI
はじめに Kabayaki の 管 理 とは コンテンツとインデックス Kabayaki は コンテンツとインデックスという 枠 組 みを 使 用 して 文 書 を 検 索 します コンテンツとインデックスとは 次 のような 関 係 になります 上 の 図 では Kabayaki を 運 用 するシステム 上 のファイルシステムでは /var/ htdocs/network /var/htdocs/somu /home/suzuki/memo という 別 々の 場 所 で 管 理 している 社 内 ネットワーク 関 連 文 書 を network という 1 つのインデック スにまとめて 管 理 しています KABAYAKI 1
はじめに 2 KABAYAKI
第 1 章 管 理 画 面 の 構 成 管 理 画 面 の 表 示 Kabayaki の 管 理 には Microsoft Internet Explorer や Firefox などの Web ブラ ウザを 使 用 します 管 理 画 面 を 表 示 させるには Web ブラウザに 次 のよう に URL を 入 力 します http:// ホスト 名 /kabayaki/cgi-bin/admin/rc.cgi ホスト 名 の 部 分 には Kabayaki をインストールしたコンピュータの 名 前 を 入 力 します たとえば インストールしたホストが search.timedia.co.jp ならば 次 の URL になります http://search.timedia.co.jp/kabayaki/cgi-bin/admin/rc.cgi Kabayaki が 正 しくインストールされていると 管 理 画 面 が 表 示 されます Kabayaki をインストールした 状 態 での 画 面 イメージ : 管 理 画 面 左 側 の 一 覧 をメインメニューと 呼 びます メインメニューは サーバー 関 連 メニューとインデックス 関 連 メニューから 構 成 されます KABAYAKI 3
管 理 画 面 の 構 成 サーバー 関 連 メニューでは Kabayaki をインストールしたホスト 全 体 に 関 わる 情 報 の 設 定 や 表 示 の 種 類 を 選 べます インデックス 関 連 メニューで は 検 索 に 必 要 なインデックスの 情 報 を 設 定 する 機 能 を 選 べます メイン メニューは 機 能 を 選 んで 画 面 が 切 り 替 わっても 常 に 表 示 されていま す Kabayaki をインストールして 最 初 に Kabayaki 管 理 画 面 を 表 示 させたと きは サーバー 関 連 メニューの 機 能 とインデックス 関 連 メニューのイン デックス 一 覧 しか 選 ぶことができません その 他 の 一 覧 や 設 定 を 選 ぶに は 後 述 する 手 順 でインデックスを 作 成 する 必 要 があります 各 設 定 画 面 に 共 通 で 表 示 されるものには さらに 次 のものがあります? ( ヘルプ ) ボタン ページ 右 上 に 表 示 されます クリックすると 各 設 定 画 面 のオンライン ヘルプが 表 示 されます インデックス 選 択 インデックス 関 連 メニューを 選 択 したときのみ 表 示 されます ページの 右 上 の 方 に 表 示 されているインデックス 名 の 右 の 矢 印 をクリックすると イ ンデックス 名 の 一 覧 がメニュー 表 示 されます メニューからインデックス を 選 択 すると 表 示 および 操 作 の 対 象 となるインデックスが 変 更 されま す 4 KABAYAKI
第 2 章 サーバー 関 連 メニュー この 章 では サーバー 関 連 メニュー に 分 類 されている 機 能 のうち 辞 書 関 連 のメニューを 除 いたメニュー ( サーバー 環 境 情 報 と 検 索 ログ 分 析 ) について 説 明 します 辞 書 関 連 については 辞 書 管 理 ツール 説 明 書 を 参 照 してください サーバー 環 境 情 報 Kabayaki をインストールしたホストに 関 する 情 報 を 表 示 します また 検 索 および 検 索 結 果 の 画 面 のデザイン 最 大 ヒット 件 数 を 変 更 できます 管 理 画 面 の 左 側 に 表 示 されるメニューの サーバー 環 境 情 報 ボタンをク リックすると この サーバー 環 境 情 報 画 面 が 表 示 されます 画 面 に 表 示 されている 情 報 は 以 下 の 通 りです ホスト 名 Kabayaki が 動 作 しているホストの 名 前 が 表 示 されます 環 境 変 数 SERVER_NAME を 参 照 しています SERVER_NAME が 設 定 されていない と 不 明 と 表 示 されます KABAYAKI 5
サーバー 関 連 メニュー ホスト IP アドレス Kabayaki が 動 作 しているホストの IP アドレスが 表 示 されます これは 環 境 変 数 SERVER_ADDR を 参 照 しています SERVER_ADDR が 設 定 され ていない 場 合 は 不 明 と 表 示 されます 実 行 ユーザー Kabayaki 管 理 画 面 を 実 行 しているプロセスの 実 行 ユーザー 名 が 表 示 されま す 検 索 ページテンプレートタイプ 検 索 と 検 索 結 果 の 画 面 の 外 観 を 選 択 できます default はインストールした 直 後 と 同 じ 画 面 になります 最 大 ヒット 件 数 検 索 実 行 時 の 最 大 ヒット 件 数 を 指 定 できます 既 定 値 は 10 万 件 です あるキーワードの 検 索 結 果 が この 設 定 値 を 超 えた 件 数 になると その 検 索 キーワードは 無 視 されます たとえば と 検 索 で AND 検 索 を 実 行 し を 含 む 文 書 の 数 がここで 指 定 した 最 大 ヒット 件 数 よりも 多 かった 場 合 には ヒット 数 が 多 すぎるので 無 視 した 検 索 キーワードが 存 在 します というエラーメッセージが 表 示 され 検 索 というキー ワード 単 独 で 検 索 を 実 行 したのと 同 じ 結 果 が 一 覧 表 示 されます 保 存 ボタン 保 存 ボタンをクリックすると 検 索 ページテンプレートタイプの 設 定 が 保 存 されます 検 索 テンプレートが 使 用 された 検 索 結 果 画 面 default : 6 KABAYAKI
第 3 章 インデックス 関 連 メニュー インデックス 一 覧 管 理 画 面 の 左 側 に 表 示 されるメニューの インデックス 一 覧 ボタンをク リックすると インデックス 一 覧 画 面 が 表 示 され 登 録 されているイ ンデックスが 一 覧 表 示 されます インストール 直 後 等 の 登 録 されているインデックスが 1 つも 存 在 しない ときは 新 し く イ ンデ ッ ク スを 作 成 して く ださい と 表 示 されます なお インデックスについては はじめに の Kabayaki の 管 理 とは コンテンツとインデックス を 参 照 してください インデックス 追 加 ボタン 入 力 されている 内 容 で インデックスを 新 規 に 登 録 します インデックス 一 覧 の 表 示 は 内 部 名 のアルファベット 順 です 一 覧 で 表 示 される 項 目 は 次 の 通 りです 表 示 名 KABAYAKI 7
インデックス 関 連 メニュー 表 示 名 は 他 の Kabayaki 管 理 画 面 や 検 索 結 果 画 面 でも 表 示 される 名 前 で す クリックすると そのインデックスの コンテンツ 設 定 画 面 が 表 示 されます 内 部 名 内 部 名 は Kabayaki が 内 部 的 に 使 用 する 名 前 です 検 索 結 果 画 面 の 右 側 に 表 示 されるインデックス 一 覧 は この 内 部 名 の 順 に 表 示 されます 表 示 さ れている 内 部 名 をクリックすると そのインデックスの コンテンツ 設 定 画 面 が 表 示 されます コンテンツ 種 別 インデックスのコンテンツの 種 類 が 表 示 されます ここに 表 示 される 内 容 は インデックス 作 成 時 の 指 定 および コンテンツ 設 定 画 面 での 設 定 に 応 じて 決 まります コンテンツが 未 設 定 のインデックスでは - が 表 示 され コンテンツに ローカルパス 上 のファイルが 指 定 されていると ファイル Web コンテ ンツに http:// で 始 まるリモートパスが 指 定 されていると Web と 表 示 さ れます 両 方 が 指 定 されているときは ファイル /Web という 表 示 にな ります 状 態 インデクシング 中 には ここに 処 理 中 と 表 示 されます それ 以 外 のと きは - が 表 示 されます 操 作 修 正 ボタンを 押 すと そのインデックスの 表 示 名 を 変 更 するための 画 面 に 移 動 します 削 除 ボタンを 押 すと そのインデックスを 削 除 するための 画 面 に 移 動 しま す 8 KABAYAKI
インデックスの 追 加 インデックスの 追 加 インデックス 一 覧 画 面 の インデックス 追 加 ボタンをクリックする と 新 規 インデックス 追 加 フォーム が 表 示 されます 項 目 は 次 の 通 りです 内 部 名 インデックス 識 別 のために Kabayaki が 内 部 的 に 使 用 する 名 前 を 入 力 しま す 検 索 結 果 画 面 の 右 側 に 表 示 されるインデックス 一 覧 は この 内 部 名 の 順 に 表 示 されます 半 角 小 文 字 の 英 数 字 とアンダースコア (_) のみが 入 力 できます 0123456789 abcdefghijklmnopqrstuvwxyz _ 表 示 名 他 の Kabayaki 管 理 画 面 や 検 索 結 果 画 面 で 表 示 されるインデックス 名 を 入 力 します 機 種 依 存 文 字 や 登 録 外 字 半 角 カタカナは 使 用 できません ま た 半 角 の #! & < > % ' " ( ) \ や 空 白 文 字 も 指 定 できません 内 部 名 表 示 名 ともに 入 力 できる 文 字 数 の 制 限 を 超 えて 入 力 することは できません インデックスの 数 は 64 個 まで 作 成 検 索 可 能 です なお インデックス の 内 部 名 の 長 さや Web サーバー Web ブラウザによって 検 索 可 能 なイ ンデックスの 数 は 64 個 よりも 少 なくなることがあります インデックス の 内 部 名 は 検 索 時 の GET パラメータとして 利 用 されるため 作 成 するイ ンデックスの 数 が 多 くなる 場 合 は なるべく 短 い 名 前 にすることをお 勧 め します また 含 まれる 文 書 数 については 特 に 数 値 的 な 上 限 は 設 定 されていません が 文 書 の 総 数 は 10 万 文 書 程 度 までを 目 安 にして インデックス 分 割 に より 文 書 を 分 散 させることをお 勧 めします 登 録 ボタン 入 力 されている 内 容 で インデックスを 新 規 に 登 録 します 注 意 KABAYAKI 9
インデックス 関 連 メニュー インデクシングが 行 なわれている 最 中 に インデックス 追 加 や 削 除 を 実 行 しないでください このような 操 作 をしますと 以 後 インデクシングや 検 索 が 正 しく 動 作 しなくなることがあります 10 KABAYAKI
インデックスの 修 正 インデックスの 修 正 インデックス 一 覧 画 面 の 各 インデックスの 列 の 右 にある 修 正 ボ タンををクリックすると インデックス 表 示 名 修 正 フォーム が 表 示 さ れます 項 目 は 次 の 通 りです 内 部 名 インデックス 識 別 のために Kabayaki が 利 用 する 名 前 が 表 示 されます 表 示 のみで 変 更 はできません 表 示 名 他 の Kabayaki 管 理 画 面 や 検 索 結 果 画 面 で 表 示 されるインデックス 名 を 入 力 します 機 種 依 存 文 字 や 登 録 外 字 半 角 カタカナは 使 用 できません ま た 半 角 の #! & < > % ' " ( ) \ や 空 白 文 字 も 指 定 できません 内 部 名 表 示 名 ともに 入 力 できる 文 字 数 の 制 限 を 超 えて 入 力 することは できません 登 録 ボタン 入 力 されている 内 容 で Kabayaki のインデックスの 表 示 名 を 変 更 します これにより Kabayaki 管 理 画 面 に 表 示 されるインデックスの 名 前 と 検 索 結 果 画 面 に 一 覧 表 示 されるインデックスの 名 前 が 変 更 されます KABAYAKI 11
インデックス 関 連 メニュー コンテンツ 設 定 インデックスに 設 定 されるコンテンツ ( 検 索 対 象 の 文 書 がある 場 所 ) を 追 加 設 定 削 除 します コンテンツについては はじめに の Kabayaki の 管 理 とは コンテンツとインデックス を 参 照 してください 管 理 画 面 の 左 側 に 表 示 されるメニューの コンテンツ 設 定 ボタンをク リックするか インデックス 一 覧 画 面 で 一 覧 表 示 されている 表 示 名 ま たは 内 部 名 のリンクをクリックすると この コンテンツ 設 定 画 面 が 表 示 されます 画 面 に 表 示 されている 情 報 は 以 下 の 通 りです コンテンツの 追 加 入 力 フィールドに インデクシングを 実 行 したい ( 検 索 対 象 にしたい ) 文 書 が 含 まれるディレクトリのパスを 絶 対 パスで 入 力 します 検 索 の 対 象 となるファイルは 指 定 されたディレクトリ 以 下 の 全 てのファイルとなり ます このフィールドに 機 種 依 存 文 字 や 半 角 カタカナを 含 む 文 字 列 を 指 定 するこ とはできませんので 注 意 してください sansyo パッケージが 導 入 されていて Web スパイダが 動 作 しているシステ ムでは ここに http:// で 始 まるリモートパスを 指 定 することも 可 能 です コンテンツの 編 集 コンテンツの 一 覧 が 表 示 されます インデックスが 作 成 された 直 後 の 時 点 では 設 定 されているコンテンツは 存 在 しません コンテンツの 追 加 フィールドには 検 索 の 結 果 に 表 示 される 文 書 の 場 所 を 指 定 します コンテンツ ( 検 索 対 象 ) としてローカルパスが 指 定 された 直 後 は 閲 覧 時 の URL 欄 には http:// ローカルパス / のようにローカル パスがそのまま 入 るため 検 索 を 実 行 したユーザーの Web ブラウザから 文 書 を 参 照 可 能 な URL にするための 変 更 が 必 要 になることがあります たとえば コンテンツが 存 在 するディレクトリが /var/www/html 12 KABAYAKI
コンテンツ 設 定 に 設 定 されている Web サーバー search.timedia.co.jp の 場 合 は 次 のように 閲 覧 時 の URL を 編 集 します http://var/www/html/yamada http://search.timedia.co.jp/yamada http://var/www/html/yamada_syanaihi http://search.timedia.co.jp/ yamada_syanaihi http://usr/local/apache/htdocs/yamada http://search.timedia.co.jp/yamada 削 除 フラグ チェックボックス コンテンツを 削 除 するには コンテンツの 編 集 の 一 覧 の 削 除 したい コンテンツの 右 側 に 表 示 されている 削 除 フラグ チェックボックスを チェックしてから 保 存 ボタンをクリックします 文 書 の 格 納 されている 場 所 によっては Web ブラウザで 検 索 結 果 を 正 しく 表 示 させるために Web サーバーの 設 定 ファイルの 編 集 が 必 要 になること があります Apache HTTP Server では 標 準 の 設 定 ファイルである httpd.conf を 編 集 し ます たとえば 以 下 のような 行 を httpd.conf に 追 加 します Alias /doc/network "/usr/local/doc/network" コンテンツの 追 加 で 異 なるディレクトリパスを 設 定 するたびに 上 記 の ような Alias ディレクティブを 追 加 していきます Alias を 追 記 したら Apache HTTP Server を 再 起 動 して httpd.conf の 変 更 を 反 映 させます # apachectl graceful または # httpd restart KABAYAKI 13
インデックス 関 連 メニュー フィルタ 設 定 ファイルの 拡 張 子 で 示 されるファイル 形 式 やサブディレクトリを 指 定 し て 検 索 の 対 象 にするコンテンツを 選 別 ( フィルタリング ) することがで きます フィルタ 設 定 を 上 手 に 利 用 することによって 無 駄 なファイルの インデクシングを 回 避 し インデクシング 時 間 やホストの 資 源 を 節 約 する ことができます 設 定 項 目 の 優 先 順 位 が 低 い 順 に 並 べると 次 の 通 りにな ります 優 先 順 位 低 高 優 先 順 位 検 索 対 象 フ ァ イ ル < 検 索 対 象 外 フ ァ イ ル 拡 張 子 < 検 索 対 象 外 パ ス 管 理 画 面 の 左 側 に 表 示 されるメニューの フィルタ 設 定 ボタン をクリックすると この フィルタ 設 定 画 面 が 表 示 されます 検 索 対 象 ファイル 検 索 の 対 象 にしたいファイル 名 の 拡 張 子 を 選 び チェックボックスを チェックします HTML ファイルは 拡 張 子 が 以 下 のものを 対 象 とします html htm phtml shtml html. 英 数 2 文 字 Mail/News man 形 式 は 以 下 のものを 対 象 とします 数 字 のみ または 文 字 + 数 字 一 太 郎 は 拡 張 子 が 以 下 のものを 対 象 とします jaw jtd 14 KABAYAKI
フィルタ 設 定 その 他 のファイル をチェックすると 以 下 のファイルを 除 く 全 ての ファイルを 検 索 対 象 とします アーカイブファイル (*.tar *.tgz *.lzh *.zip) Windows システムファイル (*.exe *.dll) Microsoft Visio ファイル (*.vsd) Microsoft Project ファイル (*.mpp) Microsoft Access ファイル (*.mdb) メディアファイル (*.wav *.wmv *.wmz *.swf) 画 像 ファイル (*.psd *.ai *.gif *.png *.jpg *.jpeg *.dib *.bmp *.tif *.tiff) # で 始 まるファイル 初 期 設 定 では その 他 のファイル がチェックされているため ここに 挙 げられていない.php や.cgi といった 拡 張 子 を 持 つファイルは 検 索 対 象 とな ります その 他 のファイル のチェックをはずすと 拡 張 子 なしのファ イルや 動 的 に 生 成 される Web ページの 多 くが 検 索 対 象 外 となる 可 能 性 が あるため 注 意 が 必 要 です 検 索 対 象 外 のファイル 名 検 索 の 対 象 にしたくないファイル 名 の 一 部 または 全 体 をテキストエリア 内 に 1 行 にひとつずつ 記 述 します *.sit *.c のようにワイルドカードとし ての * を 含 んだ 形 式 で 指 定 することにより 検 索 対 象 外 の 拡 張 子 を 指 定 す ることもできます 例 ) htaccess *.sit *.c 検 索 対 象 外 パス 検 索 の 対 象 にしないディレクトリのパスを 指 定 します コンテンツ 設 定 で 指 定 されているパスの 下 に 存 在 するが 検 索 の 対 象 には 含 めたくないサ ブディレクトリを 指 定 します このフィールドに 機 種 依 存 文 字 や 半 角 カタカナを 含 む 文 字 列 を 指 定 するこ とはできませんので ご 注 意 ください また ここで 指 定 できるのはロー カルパスのみです http:// で 始 まるリモートパスは Web スパイダ の 巡 回 除 外 パス で 設 定 してください 保 存 ボタン 保 存 ボタンをクリックすると 入 力 されているフィルタ 設 定 を 保 存 し ます 注 意 Kabayaki Basic 2.1.0 以 前 のバージョンからアップグレードした 場 合 には アップグレード 直 後 に 各 インデックスの フィルタ 設 定 画 面 の 設 定 を 確 認 し 保 存 ボタンを 押 しておくことをお 勧 めします Kabayaki Basic 2.1.0 では Office 2007 文 書 の 新 規 サポートおよびバグ KABAYAKI 15
インデックス 関 連 メニュー フィックスのために 設 定 ファイルの 内 部 形 式 に 変 更 を 加 えているためで す 注 意 2 テキストおよび HTML Microsoft Office 文 書 PDF RTF 一 太 郎 オア シスについては Kabayaki サーバーに 別 途 ソフトウェアをインストール する 必 要 がありません それ 以 外 の 形 式 のファイル bzip2 圧 縮 ファイル Pack 圧 縮 ファイル Postscript man TeX ファイルなどについては 処 理 するためのソフトウェアがインストール 済 みの 状 態 でない 場 合 には 追 加 インストールが 必 要 となることがあります 16 KABAYAKI
チューニング 設 定 チューニング 設 定 チューニング 設 定 画 面 では 日 々 変 化 するコンテンツのインデクシン グを 効 率 よく 管 理 するための インデクシング 実 行 の 間 隔 や 時 刻 の 設 定 メモリ 設 定 等 の 設 定 変 更 機 能 を 提 供 しています インデクシング 間 隔 インデクシングを 実 行 する 間 隔 開 始 時 刻 曜 日 を 設 定 します インデッ クス 毎 に 異 なった 時 刻 を 設 定 できます インデクシングの 処 理 対 象 となる のは 新 規 追 加 または 更 新 されたファイルです 実 行 間 隔 を 設 定 しない n 日 毎 毎 週 指 定 された 曜 日 に 実 行 から 選 択 します n 日 毎 毎 週 指 定 された 曜 日 に 実 行 のどちらかを 選 択 すると 開 始 時 刻 : で 選 択 した 時 刻 に 処 理 が 開 始 されます n 日 毎 のラジオボタンを 選 択 したときは 何 日 毎 に 実 行 するかをプ ルダウンメニューで 選 択 できます 既 定 値 は 1 日 毎 で 1 日 毎 から 30 日 毎 までが 選 択 可 能 です 毎 週 指 定 された 曜 日 に 実 行 を 選 択 すると 日 から 土 まで の 曜 日 選 択 が 有 効 になります 曜 日 は 複 数 指 定 できます 指 定 省 略 時 は 日 曜 日 のみが 選 択 されます 再 構 築 間 隔 インデックスの 再 構 築 を 実 行 する 間 隔 開 始 時 刻 曜 日 を 設 定 します イ ンデックス 毎 に 異 なった 時 刻 を 設 定 できます 処 理 対 象 となるのは 全 ファイルです KABAYAKI 17
インデックス 関 連 メニュー 実 行 間 隔 を 設 定 しない n 日 毎 毎 週 指 定 された 曜 日 に 実 行 n 月 毎 n 日 に 実 行 から 選 択 します 設 定 しない 以 外 を 選 択 すると 開 始 時 刻 : で 選 択 した 時 刻 に 処 理 が 開 始 されます n 日 毎 のラジオボタンを 選 択 したときは 何 日 毎 に 実 行 するかをプ ルダウンメニューで 選 択 できます 既 定 値 は 1 日 毎 で 1 日 毎 から 30 日 毎 までが 選 択 可 能 です 毎 週 指 定 された 曜 日 に 実 行 を 選 択 すると 日 から 土 まで の 曜 日 選 択 が 有 効 になります 曜 日 は 複 数 指 定 できます 指 定 省 略 時 は 日 曜 日 のみが 選 択 されます n 月 毎 n 日 に 実 行 のラジオボタンを 選 択 したときは 何 か 月 毎 に 実 行 するかと 何 日 に 実 行 するかを プルダウンメニューで 選 択 でき ます 既 定 値 は 1 月 毎 1 日 に 実 行 で 月 の 間 隔 は 1 2 3 4 6 12 から 日 付 は 1 日 から 31 日 までが 選 択 可 能 です 実 行 される 月 は 1 月 から 数 えて n 月 毎 です ( 例 : 4 月 毎 15 日 に 実 行 を 指 定 する と 1 月 15 日 5 月 15 日 9 月 15 日 の 年 3 回 の 実 行 ) ある 月 に 存 在 しない 日 付 が 指 定 されていると その 月 には 再 構 築 が 実 行 されません 31 日 を 指 定 する 場 合 などはご 注 意 ください 29 日 ( うるう 年 以 外 ) や 30 日 の 指 定 だと 2 月 には 処 理 が 実 行 されません インデクシング 再 構 築 手 動 実 行 ボタン 左 側 の 欄 に 存 在 する 手 動 実 行 ボタンを 押 すと すぐにインデクシング または 再 構 築 が 開 始 されます オプションパックの 導 入 や 辞 書 の 追 加 や 変 更 をしたときなど インデック スを 作 り 直 す 必 要 のあるときは 再 構 築 間 隔 の 欄 の 方 にある 手 動 実 行 ボタンをクリックして インデックスを 再 構 築 します 注 意 1 インデクシングの 処 理 実 行 中 に インデックス 追 加 や 削 除 の 操 作 はしない でください このような 操 作 をすると 以 後 インデクシングや 検 索 が 正 しく 動 作 しなくなることがあります 注 意 2 Red Hat Enterprise 4.0 を 使 用 している 場 合 は 最 初 のインデックスを 新 規 追 加 した 直 後 に crond を 再 起 動 しないと 間 隔 の 設 定 が 有 効 になりませ んので 注 意 してください 検 索 結 果 設 定 製 品 版 にのみ 表 示 される 項 目 で 検 索 結 果 画 面 に 表 示 される 検 索 で 見 つ かったファイルの 一 部 の 表 示 形 態 を 選 択 します ファイルの 先 頭 を 表 示 では 常 にファイルの 先 頭 を 表 示 します 検 索 語 の 周 辺 文 章 を 表 示 では 検 索 語 が 検 索 画 面 に 現 れるようにするために ファイルの 文 章 中 から 検 索 語 の 周 辺 を 切 り 出 して 表 示 します 検 索 結 果 設 定 の 変 更 は 再 構 築 実 行 後 に 有 効 になります 18 KABAYAKI
チューニング 設 定 使 用 メモリーサイズの 上 限 値 使 用 メモリーサイズを 1000 バイト 単 位 で 指 定 します 指 定 可 能 な 最 大 値 は 10000000 (10G) です この 値 を 大 きくすると インデックス 書 き 出 しの 頻 度 が 下 がるため イン デクシングにかかる 時 間 が 短 縮 されることがあります ただし ホストの 物 理 メモリーが 少 ない 場 合 などは かえって 遅 くなることもあるため 注 意 が 必 要 です 同 時 にインデクシングを 実 行 するインデックスの 使 用 メモ リーサイズの 合 計 が 実 メモリー 以 上 の 値 になるような 設 定 は 避 けてくださ い ファイルサイズの 上 限 値 インデクシングの 対 象 となるファイルの 大 きさを 1000 バイト 単 位 で 指 定 します 指 定 可 能 な 最 大 値 は 100000 (100M) です この 値 よりも 大 きなファイルはインデクシングの 対 象 にはなりません 意 図 しない 検 索 漏 れが 発 生 しないように 注 意 して 設 定 する 必 要 があります が マシンの 処 理 能 力 を 超 えた 設 定 はインデクシングの 異 常 終 了 の 原 因 と なることがあります 後 述 の 設 定 に 際 しての 注 意 を 参 考 に ハード ウェア 仕 様 および 他 に 実 行 する 処 理 の 負 荷 を 考 慮 して 設 定 してください テキストの 上 限 値 インデクシングの 対 象 となるファイルのテキスト 部 分 の 大 きさを 1000 バ イト 単 位 で 指 定 します 指 定 可 能 な 最 大 値 は 50000 (50M) です この 値 よりも 大 きなテキストのサイズのファイルはインデクシングされま せん マシンの 処 理 能 力 を 超 えた 設 定 はインデクシングの 異 常 終 了 の 原 因 となることがあります 後 述 の 設 定 に 際 しての 注 意 を 参 考 に ハード ウェア 仕 様 および 他 に 実 行 する 処 理 の 負 荷 を 考 慮 して 設 定 してください 設 定 に 際 しての 注 意 使 用 メモリーサイズの 上 限 値 ファイルサイズの 上 限 値 テキス トの 上 限 値 単 語 長 の 上 限 値 といった 上 限 値 を 増 やすにあたっては それに 応 じたハードウェア 性 能 が 正 常 動 作 のためには 必 要 です 安 定 稼 動 のためには メモリーが 2G ならば ファイルサイズの 上 限 値 は 25000 程 度 テキストの 上 限 値 は 3000 程 度 を 目 安 に ログを 監 視 しながら 段 階 的 に 増 やしていく 運 用 をお 勧 めします インデクシングに 際 しての 注 意 Kabayaki は 1 つのインデックスに 対 して 同 時 に 複 数 のインデクシング プロセスを 実 行 することを 禁 止 しています そのため インデクシング 実 行 中 に 同 じインデックスに 対 してインデクシングを 実 行 しようとすると 以 下 のようなメッセージがログに 出 力 されることがあります "... not executed, because /vardir/kabayaki/targets/idxname/lock exists." vardir には Red Hat なら /var が 入 ります idxname に 入 るのはインデック スの 内 部 名 です KABAYAKI 19
インデックス 関 連 メニュー 外 部 的 または 内 部 的 な 要 因 によって Kabayaki のプロセスが 意 図 しない 異 常 終 了 を 起 こしたときも 該 当 するインデックスのログ 一 覧 には 上 記 のよ うなメッセージが 表 示 されます このような 場 合 は ロックファイルが ファイルシステムに 残 ったままになっていることにより それ 以 後 のイン デクシングができなくなることがあります この 状 態 から 再 びインデクシ ング 実 行 を 可 能 にするためには 以 下 の 手 順 で 作 業 してください 1. 管 理 画 面 の 左 側 に 表 示 されるメニューの ログ 一 覧 ボタンをクリッ クして ログ 一 覧 を 表 示 させます (ログについては 次 の 節 の ログ 一 覧 を 参 照 してください) 2. ログ 一 覧 で 上 記 のメッセージを 確 認 して ロックファイル /vardir/ kabayaki/targets/idxname/lock を 手 動 で 削 除 します 3. /vardir/kabayaki/index/idxname/nmz.lock2 ファイルが 存 在 していたなら ば そちらも 削 除 します 4. チューニングの 画 面 で インデクシングまたは 再 構 築 の 手 動 実 行 ボ タンを 押 して 処 理 が 正 常 に 開 始 されるかどうかを 確 認 します 20 KABAYAKI
ログ 一 覧 ログ 一 覧 インデクシングに 関 するログを 表 示 します ホストのシステム 管 理 者 は ログを 定 期 的 に 参 照 することによって 処 理 状 況 を 確 認 できます 管 理 画 面 の 左 側 に 表 示 されるメニューの ログ 一 覧 ボタンをクリックすると 次 のような 画 面 が 表 示 されます 現 在 の 状 態 : インデクシングの 処 理 中 だと インデクシング 処 理 中 と 表 示 されます 処 理 が 完 了 していると 処 理 完 了 と 表 示 されます 処 理 完 了 のときはその 下 に 表 示 される 最 新 ログ ファイルに 書 き 出 された 結 果 : で 処 理 結 果 を 参 照 できます 保 存 されているログファイル : インデクシングの 実 行 結 果 のログファイルが 日 付 の 新 しいものから 一 覧 表 示 されます 日 付 の 部 分 をクリックすると 画 面 下 部 のテキスト 領 域 に 詳 細 なログが 表 示 されます 詳 細 表 示 される 項 目 には 次 の 情 報 があります KABAYAKI 21
インデックス 関 連 メニュー インデクシング 日 付 追 加 された 文 書 数 削 除 された 文 書 数 サイズ 更 新 された 文 書 数 合 計 の 文 書 数 追 加 キーワード 数 合 計 キーワード 数 わかち 書 き 経 過 時 間 ファイル / 秒 秒 / ファイル システム Namazu エラー 警 告 詳 細 最 新 n ファイルより 古 いログファイルを 削 除 古 いログファイルを 自 動 的 に 削 除 することが 可 能 です 初 期 設 定 ではログ は 自 動 的 に 削 除 されません プルダウンメニューから 残 したいログの 数 を 選 択 して 削 除 ボタンを 押 すと その 時 点 で 指 定 された 数 のログファイルだけ 残 し 古 いログファイ ルが 削 除 されます また それ 以 降 のインデクシングの 度 に 古 いファイル から 順 に 削 除 され 常 に 指 定 された 数 のログファイルだけが 残 るようにな ります 数 値 指 定 なし ( 空 白 ) の 場 合 はログの 個 数 を 制 限 しないため 自 動 削 除 は 実 行 されません 22 KABAYAKI
Web スパイダ Web スパイダ Web スパイダは Web サイトを 巡 回 しコンテンツを 収 集 する 機 能 で 製 品 版 Kabayaki でのみ 提 供 されます (GPL 版 の Kabayaki では この 機 能 は 提 供 されません ) Web スパイダでは 様 々な Web サイトの 仕 組 みに 対 応 し 取 り 込 んだコンテンツを 検 索 できるようにするための きめ 細 かな 設 定 が 可 能 になっています 基 本 設 定 最 大 取 得 件 数 収 集 するコンテンツの 数 を 制 限 します 初 期 設 定 は 無 制 限 で 収 集 す るコンテンツの 数 は 制 限 されていません 最 大 取 得 階 層 探 索 するハイパーリンクの 階 層 の 数 を 制 限 します コンテンツ 設 定 で 入 力 した URL を 基 点 とし そこからハイパーリンクをたどる 回 数 を 指 定 しま す 初 期 設 定 は 4 です URL に 含 まれる / の 数 とは 関 係 ありません 注 意 最 大 取 得 件 数 と 最 大 取 得 階 層 の 両 方 を 無 制 限 に 設 定 するこ とは 避 けてください Kabayaki サーバーのみでなく Web サーバー 等 に 過 大 な 負 荷 をかける 原 因 となる 可 能 性 があります KABAYAKI 23
インデックス 関 連 メニュー 拡 張 設 定 GET メソッドをたどる URL に 表 れる? より 右 側 の & で 区 切 られた = をはさんだキーと 値 の 組 み 合 わせ ( クエリー ) を URL の 一 部 とみなすかどうかを 設 定 します 初 期 値 は 無 視 する ですので クエリーを URL の 一 部 とはみなさずに 探 索 し ます リクエスト 間 隔 Web スパイダからサーバーへコンテンツの 取 り 出 しを 要 求 する 間 隔 を 秒 数 で 指 定 します セッションキー セッションキーを 取 り 除 いたものを URL とするかどうかを 設 定 します 初 期 値 は 空 白 です セッションキーにあたる 文 字 列 を 入 力 すると それを 取 り 除 いたものを URL と 見 なして 探 索 します ユーザーエージェント Web サーバーへ 送 信 するユーザーエージェント 情 報 を 文 字 列 で 設 定 しま す 初 期 値 は 空 白 です 基 点 とホストの 異 なるリンクを 取 得 する 異 なる Web サーバーのコンテンツも 探 索 するかどうかを 設 定 します 初 期 設 定 は 無 視 する で 基 点 となる URL から Web サーバーを 越 えた 探 索 をしません 基 点 より 上 の 階 層 も 取 得 対 象 にする コンテンツ 設 定 で 入 力 した URL を 遡 って 探 索 するかどうかを 設 定 します 初 期 設 定 は 無 視 する で ハイパーリンクや CGI で URL が 遡 ったコン テンツは 探 索 しません なお 特 定 の URL が 基 点 より 上 と 判 断 されるかどうかは 基 点 の URL の 指 定 方 法 に 依 存 します たとえば http://www.example.com/file.html は コ ンテンツ 設 定 画 面 で http://www.example.com/dir/ を 基 点 に 指 定 した 場 合 は http://www.example.com/file.html は 基 点 より 上 と 判 断 され http:// www.example.com/dir と 指 定 した 場 合 は 基 点 と 同 じ 階 層 と 判 断 されます /robots.txt を 参 照 して 巡 回 を 制 限 する robots.txt の 内 容 に 従 って 巡 回 を 制 限 するかどうかを 設 定 します 初 期 設 定 は 参 照 する で robots.txt の 内 容 を 遵 守 して 探 索 します URL 末 尾 の / を 無 視 する 一 部 のサイトではコンテンツの URL 末 尾 に / ( スラッシュ ) がついてい ることがあります これを 取 り 除 いてインデクシングの 対 象 とします プロキシサーバーを 経 由 する プロキシ (HTTP PROXY) を 経 由 しないと Web コンテンツを 取 得 できない ネットワーク 環 境 にいる 場 合 経 由 させるプロキシサーバーのホスト 名 と 使 用 するポート 番 号 を 指 定 します 基 本 認 証 のユーザー 名 および 基 本 認 証 のパスワード 24 KABAYAKI
Web スパイダ 基 本 認 証 (BASIC 認 証 ) のあるコンテンツを 閲 覧 する 時 に 必 要 なユーザー 名 とパスワードを 設 定 します 初 期 値 は 空 白 で 基 本 認 証 の 必 要 なコンテ ンツは 探 索 しません 巡 回 除 外 パス Web コンテンツを 取 得 しなくてもよい URL を 指 定 します 除 外 したい URL が 複 数 あるときは 1 つの URL につき 1 行 ずつ 入 力 します KABAYAKI 25
インデックス 関 連 メニュー 26 KABAYAKI
第 4 章 検 索 および 検 索 結 果 画 面 検 索 画 面 の 表 示 インデックス 作 成 後 に 実 際 に 検 索 するには Microsoft Internet Explorer や Firefox などの Web ブラウザに 以 下 のような URL を 入 力 して 検 索 画 面 を 表 示 させます http:// ホスト 名 /kabayaki/ ホスト 名 の 部 分 には Kabayaki をインストールしたコンピュータの 名 前 を 入 力 します たとえば インストールしたホストが search.timedia.co.jp ならば 次 の URL になります http://search.timedia.co.jp/kabayaki/ Web ブラウザには 次 のような 検 索 画 面 が 表 示 されます 検 索 画 面 : 表 示 件 数 には 検 索 結 果 画 面 に 一 度 に 表 示 する 件 数 ソート には 検 索 結 果 画 面 上 での 並 べ 替 え 順 を 指 定 します また あいまい 検 索 の チェックボックスで 類 語 機 能 を 使 用 した 検 索 を 実 行 するかどうかを 指 定 します KABAYAKI 27
検 索 および 検 索 結 果 画 面 検 索 文 字 列 を 指 定 して 検 索 ボタンを 押 すと 検 索 結 果 画 面 が 表 示 され ます 検 索 結 果 画 面 : 検 索 方 法 検 索 式 単 一 単 語 検 索 調 べたい 単 語 を 1 つ 指 定 するだけのもっとも 基 本 的 な 検 索 手 法 です 例 : namazu AND 検 索 ある 単 語 とある 単 語 の 両 方 を 含 む 文 書 を 検 索 します 検 索 結 果 を 絞 り 込 む のに 有 効 です 3 つ 以 上 の 単 語 を 指 定 することも 可 能 です 単 語 と 単 語 の 間 に and または & を 挿 みます 例 : Linux and Netscape and または & は 省 略 できます 単 語 を 空 白 で 区 切 って 羅 列 するとそれらの 語 すべてを 含 む 文 書 を AND 検 索 します OR 検 索 ある 単 語 とある 単 語 のどちらかを 含 む 文 書 を 検 索 します 3 つ 以 上 の 単 語 を 指 定 することも 可 能 です 単 語 と 単 語 の 間 に or または を 挿 みます 例 : 28 KABAYAKI
検 索 方 法 Linux or FreeBSD NOT 検 索 ある 単 語 を 含 み ある 単 語 を 含 まない 文 書 を 検 索 します 3 つ 以 上 の 単 語 を 指 定 することも 可 能 です 単 語 と 単 語 の 間 に not または! を 挿 みます 例 : Linux not UNIX グループ 化 AND 検 索 OR 検 索 NOT 検 索 を 括 弧 でグループ 化 できます 括 弧 の 両 隣 には 空 白 を 入 れる 必 要 があります 例 : ( Linux or FreeBSD ) and Netscape not Windows 部 分 一 致 検 索 部 分 一 致 検 索 には 前 方 一 致 中 間 一 致 後 方 一 致 の 3 種 類 があります 前 方 一 致 検 索 inter* (inter から 始 まる 単 語 を 含 む 文 書 を 検 索 ) 中 間 一 致 検 索 *text* (text を 内 包 する 単 語 を 含 む 文 書 を 検 索 ) 後 方 一 致 検 索 *net (net で 終 わる 単 語 を 含 む 文 書 を 検 索 ) フィールド 指 定 の 検 索 Subject: From: Message-Id: といったフィールドを 指 定 して 検 索 する 手 法 です 特 に Mail/News のファイルを 扱 う 際 に 効 果 を 発 揮 します 例 : +subject:linux (Subject: に Linux が 含 まれる 文 書 ) +subject:"gnu Emacs" (Subject: に GNU Emacs が 含 まれる 文 書 ) +from:foo@bar.jp (From: に foo@bar.jp が 含 まれる 文 書 ) +message-id:<199801240555.oaa18737@foo.bar.jp> (Message-Id を 指 定 ) 特 記 事 項 いずれの 検 索 方 法 でもアルファベットの 大 文 字 小 文 字 の 区 別 はしま せん 日 本 語 の 複 合 語 は 形 態 素 単 位 に 分 割 し それらをフレイズ 検 索 します 分 割 は 不 適 切 に 行 なわれることがあります KABAYAKI 29
検 索 および 検 索 結 果 画 面 JIS X 0208 ( いわゆる 全 角 文 字 ) の 英 数 字 と 記 号 の 一 部 (ASCII と 重 複 し ているもの ) は ASCII ( いわゆる 半 角 文 字 ) として 処 理 されます JIS X 0201 ( いわゆる 半 角 カタカナ ) は 全 角 カタカナとして 処 理 され ます 全 角 カタカナでの 検 索 によって 元 の 文 書 中 に 含 まれた 半 角 カ タカナの 単 語 を 検 索 可 能 です 記 号 を 含 む 語 の 検 索 ができます 例 : TCP/IP ただし 記 号 の 処 理 は 完 全 ではないので TCP and IP のように 分 割 して AND 検 索 をかけた 方 が 取 りこぼしがありません ( その 代 わり 余 計 なファイルまでヒットしてし まう 可 能 性 があります ) 中 間 一 致 後 方 一 致 正 規 表 現 フィールド 指 定 の 検 索 には 少 し 時 間 がかかります and or not を 単 語 として 検 索 したいときはそれぞれ "..." と 2 重 引 用 符 で あるいは {...} と 中 括 弧 で 囲 みます 30 KABAYAKI
検 索 方 法 ソート 標 準 の Kabayaki パッケージでは 検 索 結 果 を スコア 日 付 題 名 著 者 サイズ URI の 順 で 並 べ 替 えることができます 既 定 値 はスコア 順 で のソートです スコア 基 本 的 には 指 定 された 検 索 文 字 列 の 登 場 回 数 が 多 い 文 書 ほどスコア の 数 値 は 高 くなります 検 索 文 字 列 が 文 書 のどの 場 所 に 含 まれるかで スコアに 加 算 される 数 値 が 変 わることがあります 登 場 回 数 が 同 じ 1 回 でも たとえば 検 索 文 字 列 がタイトルに 使 用 されている 文 書 は そうでない 文 書 よりもス コアが 高 くなります 複 数 の 検 索 文 字 列 が 指 定 された 場 合 は ヒットした 文 書 数 の 少 ない 文 字 列 をより 多 く 含 む 文 書 の 方 がスコアが 高 くなる 傾 向 があります KABAYAKI 31
検 索 および 検 索 結 果 画 面 32 KABAYAKI
付 録 A 文 書 フィルタと プロパティ 検 索 詳 細 文 書 フィルタ 製 品 版 の Kabayaki は 文 書 フィルタと 呼 ばれる 外 部 プログラムと 連 携 して HTML やテキストファイル 以 外 の 形 式 の 文 書 も 検 索 の 対 象 とすることがで きます 標 準 で 添 付 されている 文 書 フィルタは Microsoft Word Microsoft Excel Microsoft PowerPoint Adobe PDF について 日 本 語 全 文 検 索 システ ム Namazu の 文 書 フィルタと 比 べ より 高 い 精 度 の 検 索 を 提 供 します ジャストシステム 一 太 郎 富 士 通 OASYS 等 の 文 書 形 式 にも 対 応 します 対 応 文 書 テキスト 文 書 JIS / EUC / SJIS HTML 文 書 Microsoft Word 95 / 97 / 98 / 2000 /2002 (XP) / 2003 / 2007 Microsoft Excel 95 / 97 / 2000 / 2002 (XP) / 2003 / 2007 Microsoft PowerPoint 95 / 97 / 2000 / 2002 (XP) / 2003 / 2007 Microsoft Rich Text Format ジャストシステム 一 太 郎 5 ~ 13 2006 ~ 2008 富 士 通 OASYS V6 / V7 Adobe Portable Document Format Acrobat 4.0 / 5.0 / 6.0 / 7.0/ 8.0 (PDF 1.3 / 1.4 / 1.5 / 1.6 / 1.7 ) Mail/News XML その 他 の 文 書 については Namazu 2.0.18 と 同 等 です XML ファイルとして Kabayaki が 処 理 する 文 書 は 拡 張 子 が.xml の XML ファイルが 対 象 で タグと 属 性 以 外 の 文 字 列 を 抽 出 する 仕 様 です 処 理 可 能 な 最 大 ファイルサイズは 100M 最 大 テキストサイズは 50M です KABAYAKI 33
文 書 フィルタと プロパティ 検 索 詳 細 プロパティ 検 索 プロパティとは 文 書 を 識 別 するためにファイルに 埋 め 込 まれた 文 書 の 属 性 情 報 のことです このプロパティを 検 索 の 対 象 とすることができます プロパティには タイトル 作 成 者 の 名 前 キーワード コメントなどを 記 録 されています プロパティに 関 しては 各 文 書 を 作 成 するアプリケー ションの 取 扱 説 明 書 をご 覧 ください 表 1 製 品 版 Kabayaki で 検 索 できるプロパティ プロパティ 説 明 Word Excel PowerP PDF 一 太 郎 OASYS title タイトル author 著 者 company 会 社 名 OLE オブジェクト 検 索 製 品 版 の Kabayaki は OLE で 埋 め 込 まれたオブジェクトも 検 索 の 対 象 と することができます OLE に 関 しては OLE をサポートしているアプリ ケーションの 取 扱 説 明 書 をご 覧 ください 表 2 製 品 版 Kabayaki で 検 索 できる OLE オブジェクト Dest/Source Word Excel PowerPoint Word Excel PowerPoint 34 KABAYAKI