スライド 1

Similar documents
スライド 1

スライド 1

スライド 1

スライド 1

nlp1-12.key

1. はじめに 2

財団法人日本科学技術連盟 2021 年 2 月 24 日 SQiP 研究会特別講演 人工知能による欠陥分類の次の挑戦 バグの自動修復技術の実用化に向け (2016 年度 SQiP 研究会発表論文 ) 数理科学アプローチを用いた客観的欠陥弁別法 ~ 外因欠陥の弁別方法とその効果 意義 ~ 2/17

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

PowerPoint プレゼンテーション

2. 項目検索 (1) 日本語による検索 発明の名称 要約 クレーム及び詳細な説明について 基本的に 2 文字単位で作成され た ( バイグラム (bi gram)) インデックスに対して検索を行います 1 1 文字での検索を行い たい場合は * ワイルドカード指定は不要です を用いて前方一致検索と

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

スライド 1

Web

演習 レシピテキストの係り受け解析

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

WWWを用いた情報検索

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

使用上の注意 はじめに ( 必ずお読みください ) この SIGN FOR CLASSROOM の英語の動画資料について 作成の意図の詳細は 2 ページ以降に示されているので できるだけすべてを読んでいただきたい 要約 このビデオは 聴覚障がいを持つ生徒たちに英語を教える時 見てわかる会話を表 出さ

スライド 1

Contents 1. 新機能 2. 機能改善 3. その他の改善 Hitachi Systems, Ltd All rights reserved. 1

Exfront4.1.0リリースノート

フィルタとは

nlp1-05.key

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

コンピュータ応用・演習 情報処理システム

Microsoft Word - TMFM_Product.doc

スライド 1

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

2 機器等 サービス名 ili ( イリー ) 提供会社 ( 株 ) ログバー サービス開始時期 2017 年 6 月 ~ 概要 ili ( イリー ) は 旅行 に特化したワンフレーズ音声翻訳デバイスです インターネットは不要 日英中の言語に対応しています 法人向けサービス ili for Gue

第2回 情報編纂研究会 情報編纂のための テキスト処理技術

外国語論文の探し方 ( 図書館情報学 ) 今回の講習会で取り上げるデータベースの概要 LISA(Library and Information Science Abstracts) は図書館学および情報学関係の抄録データベースです 1969 年以降の 68 ヵ国以上 20 以上の言語の 440 点を

Microsoft Word - MTransㇹㇿㅼㅋ㇬㇤ㅛ+丕苬ㅦㅼㇶㅼ咂ㆂ;_ver1.7_original.docx

次は三段論法の例である.1 6 は妥当な推論であり,7, 8 は不妥当な推論である. [1] すべての犬は哺乳動物である. すべてのチワワは犬である. すべてのチワワは哺乳動物である. [3] いかなる喫煙者も声楽家ではない. ある喫煙者は女性である. ある女性は声楽家ではない. [5] ある学生は

0210研究会

T

第1部参考資料

アプリケーション インスペクションの特別なアクション(インスペクション ポリシー マップ)

A

mycards の使い方 1. カードの登録方法 2. カードセットの作成と編集 3. STUDY モードについて 4. CHALLENGE モードについて 5. カード閲覧 について 6. 設定 について 1. カードの登録方法 mycards のトップページから 以下の方法で登録ができます レッ

<4D F736F F D20837D836A B92C795E294C581798AAF945C8E8E8CB189F090CD A2E646F63>

Microsoft PowerPoint - アルデIII 10回目12月09日

5 章意匠 / 意匠番号照会 79 1章はじめに2章各サービスの概要3章トップページ及び共通機能の紹介4章特許 実用新案5章意匠6章商標7章審判8章経過情報9章参考情報 操作手順 (1) 照会条件の入力 1. 種別 を選択し 番号 を半角で入力します 画面は 意匠登録第 号 意匠登録

2. 基本的な利用方法 2-1. 検索語の入力サーチボックスに検索語を入力し Search をクリックします スペースを入れると AND 検索 ( 両方の語を含む検索 ) になります 自動用語マッピング (Automatic Term Mapping) が働き 入力された語を論文タイトルや抄録から探

2011 年度春学期基礎ゼミナール ( コンピューティングクラス ) A コース 1 / 18 コンピュータリテラシー A コース 第 10 講 [ 全 15 講 ] 2011 年度春学期 基礎ゼミナール ( コンピューティングクラス ) 同志社大学経済学部 DIGITAL TEXT コンピュータリ

Microsoft Word - BRマニュアル教員用new.docx

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

RLC 共振回路 概要 RLC 回路は, ラジオや通信工学, 発信器などに広く使われる. この回路の目的は, 特定の周波数のときに大きな電流を得ることである. 使い方には, 周波数を設定し外へ発する, 外部からの周波数に合わせて同調する, がある. このように, 周波数を扱うことから, 交流を考える

メタデータスキーマレジストリ MetaBridge の概要

プレポスト【解説】

Microsoft Word - CiNiiの使い方.doc

Slide 1

スーパー英語アカデミック版Ver.2

Microsoft Word - Word1.doc

Microsoft Word - H23_EndNoteWeb_工学部.doc

マルチエージェントシステムグループの研究計画

PowerPoint プレゼンテーション

5_motif 公開版.ppt

info-retrieval-pub.ppt

Microsoft PowerPoint - KanriManual.ppt

Shareresearchオンラインマニュアル

画面について 画面構成 画面構成 Smart Copy for Android の画面構成は 次のとおりです 1フォルダパス 2. ファイルの種類 3 ファイル一覧 5[ 戻る ] ボタン 4[ メニュー ] ボタン 1 フォルダパス現在表示している画面のフォルダパスが表示されます 2ファイルの種類

<4D F736F F D A A838B B96E291E82E646F63>

データ構造

Microsoft Word - PathFinder-ILI.doc

書籍の感情情報に注目した作者の印象分析

講義の進め方 第 1 回イントロダクション ( 第 1 章 ) 第 2 ~ 7 回第 2 章 ~ 第 5 章 第 8 回中間ミニテスト (11 月 15 日 ) 第 9 回第 6 章 ~ 第 回ローム記念館 2Fの実習室で UML によるロボット制御実習 定期試験 2

データの作成方法のイメージ ( キーワードで結合の場合 ) 地図太郎 キーワードの値は文字列です キーワードの値は重複しないようにします 同じ値にする Excel データ (CSV) 注意キーワードの値は文字列です キーワードの値は重複しないようにします 1 ツールバーの 編集レイヤの選択 から 編

4. WIX アタッチエンジン 4. 1 FSDR 処理 システムの Web 資源結合動作であるアタッチ処理について 述べる. アタッチ処理は以下の 4 フェーズに分けられる. この一連の 流れを FSDR 処理とする. Find 処理 Select 処理 Decide 処理 Rewrite 処理

本日の講義 2 初級編 PubMedとは? 基本検索 / 検索結果の見方 本文を入手するには 中級編 MeSH (Medical Subject Headings) とは? MeSHを活用した検索法と検索時の注意点 その他の便利な機能

Ver.1.0 ( ) NII-REO HSS とは NII-REO HSS 利用ガイド ( 正式公開版 ) NII-REO HSS(Humanities & Social Sciences Collection: 人文社会科学系電

生命情報学

Microsoft PowerPoint - 第3回2.ppt

Microsoft PowerPoint - 09-search.ppt [互換モード]

1/2

PowerPoint プレゼンテーション

コンピュータリテラシ 第 6 回表計算 2 このスライド 例題 /reidai6.xlsx /reidai6a.xlsx 課題 12 /reidai6b.xlsx /table12_13.xlsx

電子情報通信学会ワードテンプレート (タイトル)

AFP FORUM

FMV取扱ガイド

FMV取扱ガイド

取扱ガイド

FMV取扱ガイド

電子書籍の検索方法 下の画像は ebook Collection(EBSCOhost) の Landing Page の表示例です 画面上部のツールバーに表示されている 電子書籍 からも利用できます 検索 : 書名 キーワード検索が利用できます カテゴリ別検索 : カテゴリ別に電子書籍を利用できます


目次 概要... 2 フォームレイアウトデザイナー機能の設定... 3 設定したフォームレイアウトデザイナーの確認...14 その他スタイルの設定...15 フォームレイアウトデザイナーをエクスポート...17 フォームレイアウトデザイナーをインポート...18 インポート時の制限事項...19 リ

(Microsoft PowerPoint -

_unix_text_command.pptx


編集する ファイルを開く マイクロデータの設定を行うファイルまたはファイルを開きます 開かれたファイルは編集画面に表示されて ブラウザ表示した時のプレビューも同時に表示されます HTML ファイルの選択 編集する ファイルを開くためにメインメニューから ファイル 開く を選びます ファイル選択ダイア

STN新プラットフォーム基本操作

Microsoft PowerPoint - enshu4.ppt [äº™æ‘łã…¢ã…¼ã…›]

Web PDF [7, 8] 1 1 [9, 10] OCR [9] HITS [10] 2. 3 [11] IDF TF-IDF [12] PageRank,, PageRank TF-IDF k-means PageRank Web ios 1 imac mac

このうち ツールバーが表示されていないときは メニューバーから [ 表示 (V)] [ ツールバー (T)] の [ 標準のボタン (S)] [ アドレスバー (A)] と [ ツールバーを固定する (B)] をクリックしてチェックを付けておくとよい また ツールバーはユーザ ( 利用者 ) が変更

textual datatm : Text Mining TM TDA : Textual Data Analysis word segmentation orthography morpheme tokenization lemmatization, stemmingpart-of-speech

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

情報技術論 教養科目 4 群 / 選択 / 前期 / 講義 / 2 単位 / 1 年次司書資格科目 / 必修 ここ数年で急速に身近な生活の中に浸透してきた情報通信技術 (ICT) の基礎知識や概念を学ぶことにより 現代の社会基盤であるインターネットやコンピュータ システムの利点 欠点 それらをふまえ

IMI情報共有基盤 「表からデータモデル」 データ変換のみを行う方向け画面説明

スーパー英語アカデミック版Ver.2

c3_op-manual

6回目

Transcription:

知識情報演習 Ⅲ( 前半第 2 回 ) 辻慶太 http://slis.sakura.ne.jp/cje3 1

情報検索システムの世界観 情報の生産者研究者, 作家, 記者など 情報の最終利用者 ( エンドユーザ ) 生産 情報の登録者 DB 登録者, 分類者, 索引作成者など 登録 検索 計算機上のシステム 検索エンジン,DB, インタフェースなど 支援 蓄積される情報図書, 雑誌, 画像, 音声など 人間の仲介者代行検索者, 図書館員など オフライン処理 オンライン処理 2

情報検索の基本モデル 情報 解釈 情報要求 文書 索引付け 検索質問 内部表現 照合 内部表現 狭義の情報検索 3

索引付け? ブックマークでタグを付けるようなイメージ 同志社大学大学院に図書館情報学コースが開設されます というページに対して, この人は : 図書館情報学 大学院 同志社大学 京都 といったタグを付けています このようなタグ付けが索引付けのイメージです 4

照合 文書の索引語と, 検索質問の索引語を比較し, 一致するものや似たものを特定すること 図書館 というキーワードで検索してくる人がいたら, 図書館 という索引語が付与された文書がないか探す 2 つのモデル ( 方法 ) に大別することができる 完全一致 (exact match) 最良一致 (best match) 図書館 という索引語が付与された文書だけを出力する 図書館 という索引語が付与されていなくても, 何となく 5 図書館に関する文書と判断できるならば出力する

完全一致 ブーリアンモデルが代表的 古典的なキーワード検索 論理演算子 (AND,OR,NOT) で式を構成 例 : 中華料理 AND レシピ NOT スープ 論理式に一致する文書だけが検索される ただし, 厳密な NOT ではないことが多い 絞込み情報としての利用が中心 例 : NOT 犬 犬 を含まない文書が全て出るわけではない 6

照合 文書の索引語と, 検索質問の索引語を比較し, 一致するものや似たものを特定すること 図書館 というキーワードで検索してくる人がいたら, 図書館 という索引語が付与された文書がないか探す 2 つのモデル ( 方法 ) に大別することができる 完全一致 (exact match) 最良一致 (best match) 図書館 という索引語が付与された文書だけを出力する 図書館 という索引語が付与されていなくても, 何となく 7 図書館に関する文書と判断できるならば出力する

最良一致の代表的なモデル ベクトル空間モデル システムの例 : SMART 確率型モデル システムの例 : OKAPI どちらのモデルも 1970 年代に提案され, 現在も改良が重ねられている 両モデルの検索精度に大きな違いはない 8

最良一致の代表的なモデル ベクトル空間モデル システムの例 : SMART 確率型モデル システムの例 : OKAPI Gerald Salton が提案 どちらのモデルも 1970 年代に提案され, 現在も改良が重ねられている 両モデルの検索精度に大きな違いはない 9

最良一致の代表的なモデル ベクトル空間モデル システムの例 : SMART 確率型モデル システムの例 : OKAPI Stephen Robertson が提案 OKAPI BM25 の BM は文字通り Best Match ( 最良一致 ) の略 どちらのモデルも 1970 年代に提案され, 現在も改良が重ねられている 両モデルの検索精度に大きな違いはない 10

索引付けの手順概要 (1) 索引語の抽出 文字バイグラム, 単語, フレーズなど (2) 不要語の削除 (3) 接辞処理 (4) 索引語の重み付け 検索手法 ( 検索モデル ) によっては不要 例えば, 論理式によるブーリアンモデルでは不要 (5) 索引ファイルの編成 図書館システム からバイグラムを切り出すと 図書 書館 館シ シス 11

索引付けの手順概要 (1) 索引語の抽出 文字バイグラム, 単語, フレーズなど (2) 不要語の削除 (3) 接辞処理 (4) 索引語の重み付け 検索手法 ( 検索モデル ) によっては不要例えば, 論理式によるブーリアンモデルでは不要 (5) 索引ファイルの編成 12

不要語 (stopword) 検索の役に立たない語 (they, might など ) 不要語辞書を用意しておくことが多い 高頻度語 : 研究 など 機能語 : 前置詞(of) など 語の分類 内容語 : 名詞, 動詞, 形容詞など 機能語 : 助詞, 助動詞, 冠詞, 前置詞など 13

索引付けの手順概要 (1) 索引語の抽出 文字バイグラム, 単語, フレーズなど (2) 不要語の削除 (3) 接辞処理 (4) 索引語の重み付け 検索手法 ( 検索モデル ) によっては不要例えば, 論理式によるブーリアンモデルでは不要 (5) 索引ファイルの編成 14

接辞処理 (stemming) 活用形を原形に戻し, 索引語の表記を統一 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 libraries という表記で検索してきた人に対しては library という表記で索引付けされている文献も出力したい 自動削除の場合は, 必ずしも言語学的に意味のある単位ではない点に注意例 : facility( 単数形 ),facilities( 複数形 ) どちらも facilit になるかもしれない 15

索引付けの手順概要 (1) 索引語の抽出 文字バイグラム, 単語, フレーズなど (2) 不要語の削除 (3) 接辞処理 (4) 索引語の重み付け 検索手法 ( 検索モデル ) によっては不要例えば, 論理式によるブーリアンモデルでは不要 (5) 索引ファイルの編成 16

ホデレ賞 (2008 年度 ) の受賞者が決まりました 形態素原形品詞 ホデレ ホデレ 未知語 賞 賞 名詞 ( ( 記号 2008 2008 数字 年度 年度 助数詞 ) ) 記号 の の 助詞 受賞 受賞 名詞 者 者 接尾辞 が が 助詞 決まり 決まる 動詞 まし ます 助動詞 た た 助動詞 記号 手順 (1)~(3) の例 上の例文に対する形態素解析結果 赤字部分を索引語として抽出する 17

索引付けの手順概要 (1) 索引語の抽出 文字バイグラム, 単語, フレーズなど (2) 不要語の削除 (3) 接辞処理 (4) 索引語の重み付け 検索手法 ( 検索モデル ) によっては不要例えば, 論理式によるブーリアンモデルでは不要 (5) 索引ファイルの編成 18

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF 法がある TF: 索引語頻度 IDF: 逆文書頻度 これから詳細を説明 完全一致 ( ブーリアンモデル ) では不要 ブーリアンモデルでは索引語に あるかないか だけ考える どれくらいあるか は考えない 19

TF: 索引語頻度 Term Frequency(TF) ここで言う Term とは索引語を表す tf ( t, d) と表す 文書 d における索引語 t の出現頻度 なぜ用いるか? ある文書によく出現する索引語は, その文書をよく特徴付けるだろうという仮説に基づく 20

TF の例 犬 犬犬犬 ネコ ネコ 犬 犬 文書 A 文書 B tf ( 犬, A) 5 tf ( ネコ, A) 2 tf ( 犬, B) 1 21

IDF: 逆文書頻度 Inverse Document Frequency(IDF) 少数の文書にしか現れない索引語を重視する idf N ( t) log 1 df ( t) N: コレクション中の文書総数 df(t): 索引語 t が出現する文書数 なぜ用いるか? TFだけでは問題がある TFが高い語は多くの文書に出現する為, 特定の文書を弁別する能力が低い 例えば は が などはTFが非常に高いが ほとんどどの文書にも現れる為, 文書の特徴は 22 表さない ( 弁別性に欠ける )

逆文書頻度 ( つづき ) N=100 の場合 逆数を取ることで df(t) が小さいほど大きな値にする 対数を取ることで変化分をなだらかにする 1 を足して, 重みを正数にする df(t) N/df(t) log(n/df(t)) log(n/df(t))+1 1 100 6.64 7.64 2 50 5.64 6.64 5 20 4.32 5.32 10 10 3.32 4.32 100 1 0 1 23

IDF の例 動物ネコ 動物犬犬 動物犬ネコ 動物犬ロボット 動物動物犬 N = 5 df 動物 =5, 犬 =4, ネコ =2, ロボット =1 動物 =6, 犬 =5 idf( 動物 ) = 1 idf( 犬 ) = 1.32 idf( ネコ ) = 2.32 idf( ロボット ) = 3.32 idf の最小値 動物 では全文書が検索されてしまい, 弁別性が低い 24

TF.IDF 法による重みの計算 簡単な計算方法 w( t, d) tf ( t, d) idf ( t) 文書 d における索引語 t の重み 以下のような行列で表現できる w(t 2,d 3 ) の値 d 1 d 2 d 3 d 4 d 5 t 1 t 2 t 3 t 4 25

転置ファイルの例 索引語文書 ID 索引語の重み ハブ 001005 0.532 469032 12.54 ハブ酒 980001... 0.002 26

オンライン処理 1 検索質問から索引語 ( 検索語 ) を抽出する 2 各索引語について索引から以下を取得する その索引語を含む文書の集合 その索引語の重みw(t,d) 3 各文書のスコアを計算する その文書が含む検索語の重みを総和する 4 スコアに基づいて文書を整列 ( ソート ) する 27

オンライン処理の図解 犬ロボット 1 索引語の抽出 検索 文書集合 D1~D10 索引付け ( オフライン ) 犬ロボット D2(0.1) D3(0.8) D5(1.2) D9(0.1) D1(1.3) D3(0.7) D5(0.1) 3スコアの計算 2 文書と重みの探索 索引転置ファイル D1 = 1.3 D2 = 0.1 D3 = 0.8 + 0.7 = 1.5 D5 = 1.2 + 0.1 = 1.3 D9 = 0.1 4 文書の整列 1. D3 2. D5 3. D1 4. D2 5. D9 個別の文書を読む場合 28

演習 : Perl 入門 が終了した人 授業ページに置いた documents.txt を読み込んで, 各単語 t の各文書 d における重み w(t,d) を計算するプログラムを作成せよ ここで d とは <TEXT> タグと </TEXT> で囲まれた 8 つの英語テキスト 入力や出力の形式は各自で決めてよい まずは各単語が各英語テキストそれぞれに何回出現しているか数える ( 即ち,tf(t,d) を算出する ) プログラムを書くとよい 29