<4D F736F F F696E74202D C8D4891E52089A E690B681698F4390B3816A2E707074>

Similar documents
nlp1-12.key

tnbp59-21_Web:P2/ky132379509610002944

日本内科学会雑誌第98巻第4号

日本内科学会雑誌第97巻第7号

CubePDF ユーザーズマニュアル

Maser - User Operation Manual

ARCserve Backup r12.5 Handbook

報道関係者各位 プレスリリース 2019 年 01 月 15 日 株式会社ネオジャパン グループウェア desknet's NEO バージョン 5.2 を 1 月 15 日に提供開始 ~ 業務アプリ作成ツール AppSuite との連携を強化 他にも AppSuite 連携 API 公開など多数の機

NGSハンズオン講習会

ソフト活用事例③自動Rawデータ管理システム

2. Apple iphoto 1 Google Picasa 2 Calendar for Everything [1] PLUM [2] LifelogViewer 3 1 Apple iphoto, 2 Goo

Ł\”ƒ-2005

第90回日本感染症学会学術講演会抄録(I)

<< 目次 >> 1 PDF コンバータのインストール ライセンスコードの入力 PDF にフォントを埋め込みたい場合の設定 PDF オートコンバータ EX で使用しない場合 PDF コンバータ単体で使用する場合の説明 PDF コンバータのアン

日本内科学会雑誌第102巻第4号

部品ライブラリシステム

ファイル共有 Windowsで慣れ親しんだ階層型のフォルダに対してファイルをダウンロー ドやアップロードを行えます 複数のファイルを同時にアップロードやダウンロードすること可能です ま た ファイルを編集する際のロック機能を利用すると複数の利用者で編 基本機能 ファイル共有 ユーザ認証とアクセス制御

レベルアップ詳細情報 < 製品一覧 > 製品名 バージョン < 追加機能一覧 > 管理番号 内容 説明書参照章 カナ文字拡張対応 < 改善一覧 > 管理番号 内容 対象バージョン 説明書参照章 文字列のコピー ペースト改善 ~ 子画面の表示方式 ~ 履歴の詳細情報 ~ タブの ボタン ~ 接続時の管

スクールCOBOL2002

第 1 章 システムの概要 シラバスシステムとは 利用環境 留意事項 シラバスシステムの概念 役割 システムの利用イメージ... 4 第 2 章 基本操作

ランタイム版 Pro 版共通 症例登録システム 2018/12/11 Q & A 目次 1. 起動時のエラー... 2 Q11. " ファイル jsgoe_data3.fmp12 を開くことができません" と表示されます (Windows) 2 Q12. ショートカットから起動できません (Wind

スライド 1

O1-1 O1-2 O1-3 O1-4 O1-5 O1-6

基本的な利用法

HDC-EDI Manager Ver レベルアップ詳細情報 < 製品一覧 > 製品名バージョン HDC-EDI Manager < 対応 JavaVM> Java 2 Software Development Kit, Standard Edition 1.4 Java 2

McAfee Application Control ご紹介

放射線専門医認定試験(2009・20回)/HOHS‐05(基礎二次)

プログラム

目次 LS-DYNA 利用の手引き 1 1. はじめに 利用できるバージョン 概要 1 2. TSUBAME での利用方法 使用可能な LS-DYNA の実行 4 (1) TSUBAMEにログイン 4 (2) バージョンの切り替え 4 (3) インタラ

Notesアプリが iPadで動くDomino Mobile Apps ご紹介


基本設計書

PowerPoint プレゼンテーション

Microsoft PowerPoint - pr_12_template-bs.pptx

監査ログ分析機能 ソフトウェア説明書

SAMBA Stunnel(Mac) 編 1. インストール 1 セキュア SAMBA の URL にアクセスし ログインを行います xxxxx 部分は会社様によって異なります xxxxx 2 Mac OS 版ダウンロー

EaseUS Data Recovery Wizard User Guide

無料で多機能な OSS の ETL ツール Kettle を使ってみよう! 情報政策課技術職員金森浩治 1. はじめにデータ処理を行うにあたって非常に便利なツール ETL 本稿では OSS の ETL Kettle の機能とその使用方法を紹介します 2. 用語説明 2.1 OSS とは? OSS と

AFP FORUM

Arcserve Replication/High Availability 製品の仕組み

Printview システム構成ガイド

PowerPoint プレゼンテーション

Microsoft Word - H22_Info_Pro_Pre_Enquete_01.docx

ArcGIS for Server での Web マップの作成方法

1. はじめに 1.1. Office365 ProPlus ライセンスについて 九州産業大学に在籍中の学生 教職員の方は Office365 ProPlus のライセンスを 1 つ保持しています 1 つの Office365 ライセンスで Office365 ProPlus( 最新版の Offic

大容量ストレージ 特徴 クラウドの 規模の経済 がもたらすスケールメリットにより 低価格でかつ大 容量のストレージを提供します 大容量ストレージ 安心のデータ保管 100TB の大容量 シンプルな運用 必要な時に必要な量を利用できる 容量の心配がない!! モバイル対応 1GB あたり 2.45 円

円筒面で利用可能なARマーカ

CLUSTERPRO X for Windows PPガイド

Create!Form V11 - 機能リファレンス - テスト実行

LDAP Manager SupportList

目次 1 はじめに アンインストール前の注意点 Sophos アンインストール手順 アンインストーラの場所を確認する アンインストーラの実行 F-Secure Client Security for Mac インストー

ArcGIS Runtime SDK for WPF インストールガイド (v10.2.5)

WebOTXマニュアル

intra-mart EX申請システム version.7.2 PDFオプション リリースノート

1. Office365 ProPlus アプリケーションから利用する方法 (Windows / Mac) この方法では Office365 ProPlus アプリケーションで ファイルの保管先として OneDrive を指定することができます Office365 ProPlus アプリケーションで

目次 1. XQuartz インストール PlayOnMac インストール Wine のアップデート ターミナル インストール MT4/MT 既知の問題 ターミナルデータ案内 14 2

PowerPoint Presentation

Apache サーバをすでにインストールしている場合は アンインストールをお勧めします 適切な Apache サーバが ビジネスセキュリティサーバとともにインストールされます 管理コンソール Web ブラウザ : Internet Explorer 6.0 SP2 以降 PDF リーダー : Ado

出力ログ管理ソリューションカタログ

ic3_cf_p1-70_1018.indd

1.WebClass( ウェブクラス ) とは WebClass を利用される前に 学生の立場で WebClass を利用してみましょう... 4 開始方法... 4 資料を閲覧する 先生の立場で WebClass を利用してみましょう... 8 資料を

TFTP serverの実装

PDF閲覧制限システム(簡易版)概説書

オープンソース・ソリューション・テクノロジ株式会社 代表取締役 チーフアーキテクト 小田切耕司

システム要件 Trend Micro Safe Lock Trend Micro Safe Lock 2.0 エージェントのシステム要件 OS Client OS Server OS Windows 2000 (SP4) [Professional] (32bit) Windows XP (SP1/

Transcription:

東京工業大学学術国際情報センター教授横田治夫 1

2 現状 身の回りでファイルが大量に増えている ネットワークを含めた情報環境整備等により 企業内のファイル増大に関する報告 Nitin Agrawal et al. [FAST 2007] Microsoft 内の 6 万台の WindowsPC のファイルシステムを調査 2000 年 ~2004 年 (5 年間 ) 平均ファイルサイズ 約 2 倍 平均ファイル数 約 3 倍 問題点 欲しいファイルが見つからない 簡単に見つけたい

3 ディレクトリ階層 ファイルフォルダとその入れ子構造 階層関係は作成者の概念構造に依存 問題点 : 概念構造は一様ではない 人によって違う 組織やグループの共有ファイルシステムでは ファイルがどこにあるか分からない 時間が経つと変わる 自分が作った概念階層も忘れてしまい どこに置いたか分からなくなる 特に階層が深くなると問題は大きい 浅くするとフォルダ内で探すのが大変 階層 A 階層 B プロジェクト X 企画 見積 X 企画 X 報告報告 X プロジェクトY 提出書類 2008/04 企画 X 2009/03 報告 X 計算データ見積 X

4 デスクトップサーチ キーワードを与えてファイルを全文検索 ディレクトリ構造に依存せず ディレクトリを横断した検索 全文検索ベースのファイル検索システムの例 Windows Desktop Search (Microsoft) Google Desktop Spotlight (Mac OS X) Hyper Estraier Namazu を利用したファイル検索 全文検索の問題点 対象がキーワードを含むファイルのみ キーワードを含まない画像 データファイル等は対象外

メタデータサーチ ファイルごとにメタデータ ( 付加情報 ) を付与 Semantic File System [Grifford, et al.1991] 他 問題点 膨大なファイルすべてに対して検索に有効となるような適切なメタデータの付加は非現実的 文書ファイルからの参照情報を利用 Google Image Search ウェブ上の画像をキーワード検索 HTML ファイル内の画像参照情報を利用している 問題点 ファイルシステム内のファイルは, 基本的には画像への参照情報を含んでいない ( 特にコピー & ペーストだと ) 5

6 人間が物を探すとき : あの時の あの時一緒に使っていた図のファイルは? あの報告書に使ったデータは? 同時に使っていたファイルは関連が深い 関連しないファイルも開いているかもしれないが でもその頻度は低い 関連が深いファイルは高頻度で同時に開く その関連性を使って検索 でもどうやって? ファイルのアクセスログを解析する 期待される効果 キーワードを含まない図やデータも検索可能 メタデータを用意する必要もない

写真 文書 図 データ 7

ファイルアクセスログ ( 履歴 ) を取得 例えば Samba の設定を変更すれば可能 ファイルのオープン時刻 クローズ時刻 ファイルアクセスログの精錬 アプリケーションによってログの残し方が違う 利用開始時にオープン 終了時にクローズ オープンしてすぐクローズ きちんとクローズされない アクセスログの解析 頻繁に同時に使われるファイルの間の関係を数値化 数値化した関連度を基に検索 8

ァイルアクセスログ9 フ1:00 open 1:20 open 1:50 close 2:30 close 3:00 open 4:00 close オープン時刻からクローズ時刻をファイル使用期間とする ログクリーニング 活動時間情報 直ぐに閉じるファイルタイプのリスト 実際にユーザが使用したファイルの時間と, 異なる幾つかの問題 フ1:00 2:30 3:00 4:00 実際にユーザが使用したファイルの時間と近い情報 ァイル使用期間ユーザの

共起 = ファイル使用期間の重なり 四つの関連度要素を導入する 大きいほど関連度が高い T: 共起時間の累計 C: 共起回数 D: 共起間隔の累計 P: 使用開始時間の類似度 共起 1 2 関連度の計算 関連度 = T α C β D γ P δ 時間 3 10

芋づる方式 従来のキーワードサーチ ( 全文検索 ) を行い その検索結果であるファイルと関連する ( 同時に使われていた ) ファイルも関連度に従って出力する 仮想ディレクトリ方式 関連度に従ってクラスタリングを行い 同時に使っていた頻度の高いファイル群を仮想ディレクトリ ( 仮想フォルダ ) として提供する 11

ファイルシステム 検索可能にする ファイルシステム 全文検索結果 1 位 2 位 検索結果 3 位 4 位 関連度 12 芋づる方式の検索対象 5 位

Samba ファイルサーバのアクセスログを利用 Samba 2.2.3a の debug level 2 のログ Samba 自体には手を入れていない 関連度計算部分 関連検索部分は Java で実装 Web アプリケーションとして動作 コンポーネントは既存ソフトウェアを利用 全文検索エンジンは Hyper Estraier 1.4.13 を利用 Hyper Estraier は N グラムインデックス法を利用 Web アプリケーションコンテナは Tomcat 5.5.9 利用 関連度格納 DB は Oracle 10g PostgreSQL でも実現可能 13

FRIDAL: File Retrieval by Inter-file relationship Derived from Access Log ファイル使用 ユーザ 検索結果 検索要求 ファイル使用準備検索 ファイルサーバー (Samba) FRIDAL アクセスログ取得 ウェブインターフェイス 検索要求 ファイル使用 関連度計算 関連度格納 関連度 DB 得点計算 関連ファイルの検索 全文インデックス 全文検索 コントローラ (java) 全文検索エンジン (Hyper Estraier) 全文インデックス作成 ファイルシステム 14

ファイル間関連による得点TF-IDF による得点 検索されたファイル 15

関連度が大きいファイルから結合 1-A 1-B デンドログラム 下で結合しているほど関連度が高く 上で結合しているほど関連度が低い 結合 結合 閾値 A 4 3 1-B 2-B 1-A 2-A 1-A 3 1-B 2-B 2-A 4 1-B 2-B 2-A 16 閾値 A 以下で結合したクラスタを仮想ディレクトリとして提示

デンドログラム 閾値 0.4 共起ファイル数 295 17

研究室内のファイルサーバのアクセスログ利用 被験者による評価 関連度算出式のパラメータ調整 α β γ δ T C D P 他の手法との比較 単なる全文検索 全文検索結果ファイルが含まれるディレクトリ中のファイル キーワードを含まないファイルを検索できるか調査 他人のディレクトリにあるファイルを探してもらう 他の手法では探せないファイルも見つけだすことができた 適合率 再現率の評価 18

19 検索対象の拡大 これまで検索することが困難であった図 データなど様々な形態のファイルが 同時期にアクセスしたという履歴から探し出すことが可能になる 実現容易性 ファイルアクセスログを取得するのは容易 ファイル 1 つ 1 つにメタデータを付与しなくても 他のファイルとの関連から芋づる式に見つけ出すことができる あの時に対応するキーワードから 新たな検索結果提示法 関連度を使ったファイルの分類手法によって ある作業で使ったファイルの集合を見つけ 仮想的なフォルダ あるいはディレクトリとして提供できる あの時のあれらのファイル

エンタープライズサーチ 企業のシステムに載せ 企画書に使った関連資料の整理など 企業内のファイルの検索に利用 個人デスクトップサーチ 個人の PC に載せて 従来のディスクトップサーチエンジンの置き換え ( 全文検索の補完 ) 初心者 高齢者向けファイル管理 ディレクトリ構造の理解が困難である利用者に対し 何も考えずに格納しても 仮想的なディレクトリ構造を提供 20

Web 検索市場は既に寡占状態 Google Yahoo Microsoft エンタープライズサーチは導入が始まったところ エンタープライズサーチにおける検索機能の満足度はまだ低い 初心者 高齢者向け対策も注目されている 21

実用的な環境への対応企業のファイルシステム等の大規模かつ多様なアクセスログを用いた評価実験 学生を対象としたため, 検索要求が限られた 手法の改善 ファイル間関連度 ファイル検索法の改良 検索要求に応じた検索結果提示法の改善 22 さらなる展開の可能性に向けて ファイルだけでなく Web アクセスログとの連携 文書作成で参考にした Web ページも検索を可能に 他の関連度との連携 文書や図形の類似度など 2008/3/4

発明の名称 : ファイル検索システム 出願番号 : 特願 2007-161612 出願人 : 東京工業大学 発明者 : 横田治夫 渡部徹太郎 小林隆志 関連情報 試作ソフトウェアの提供は可能 23

研究者 横田治夫 東京工業大学学術国際情報センター教授 152-8552 目黒区大岡山 2-12-1 TEL:03-5734-3505 E-MAIL: yokota@cs.titech.ac.jp 技術移転支援者 加藤大三 東京工業大学産学連携推進本部 Coordinator 226-8503 横浜市緑区長津田町 4259-S2-10 TEL:045-924-5171,-5101 E-MAIL: kato@sangaku.titech.ac.jp 技術移転プランナー 牧本三夫 科学技術振興機構シーズ展開課 TEL:03-5214-7519 E-MAIL: m2makimo@jst.go.jp 24