nlp1-12.key - PDF 無料ダウンロード

自然言語処理論 I 12. テキスト処理 ( 文字列照合と検索 ) 情報検索 information retrieval (IR) 広義の情報検索情報源からユーザの持つ問題 ( 情報要求 ) を解決できる情報を見つけ出すこと狭義の情報検索文書集合の中からユーザの検索質問に適合する文書を見つけ出すこと適合文書 : 検索質問の答えが書いてある文書テキスト検索 (text retrieval) 1 2 情報検索索引語 (index term) による照合検索意図文書集合検索質問 (query) 索引語またはその組み合わせ検索質問の与え方索引語を直接利用する論理式の利用索引語付け ex. ( ta and not tb ) or tc 検索質問 ( 索引語の組み合わせ ) 照合索引語集合自然言語で記述する索引語に自動的に変換する ex. チーズの作り方が知りたいチーズ and 作り方適合文書 3 4

索引語付け (indexing) 文書から索引語を取り出すこと自動索引語付けテキスト検索の対象文書数が多いため形態素解析などの処理が必要索引語の単位単語 ( チーズ作り方材料 ) 句 ( チーズの作り方チーズの材料 ) 適切な単位を決めることは難しい単語を索引語とすることが一般的 5 ストップワードストップワード (stop word) とは? 索引語に加えるべきでない単語具体的には... 機能語 (function word) 日本語 : 助詞, 助動詞など英語 : 冠詞, 前置詞など ( 参考 ) 内容語 (content word) 名詞, 動詞など意味のある単語 be 動詞 have ピリオドなどの記号どの文書にもよく出現し情報検索の手がかりとはならないため 6 照合 inverted indexing ベクトル空間モデル vector space model (VSM) 文書毎に索引語のリストを作る小説あらすじ書評推理文書 1 1 0 0 0 文書 2 1 0 1 1 文書 3 1 1 0 0 文書 4 0 0 1 0 7 8

行列を転置する索引語を含む文書のリストがすぐに得られる文書 1 文書 2 文書 3 文書 4 小説 1 1 1 0 あらすじ 0 0 1 0 書評 0 1 0 1 検索質問を論理式で与える場合転置インデックスの行をベクトルとみなすベクトルのビット演算で計算可能小説 and ( あらすじ or 書評 ) and not 推理あらすじ or 書評小説あらすじ or 書評 and あらすじ or 書評 not 推理 not 推理推理 0 1 0 0 9 小説 and ( あらすじ or 書評 ) and not 推理 not 推理文書 3 を取り出す 10 ベクトル空間法文書と検索質問をベクトルで表現文書ベクトルDi, 検索質問ベクトルQ ベクトル間の類似度を計算最大の類似度を持つ文書 Diを取り出す ( i w 1 i D i = w j i ベクトル wj i は索引語の重み w n ( 索引語 1 索引語 j 索引語 n 索引語の重み付け単純な重み付け文書に存在すれば 1 それ以外は 0 ( 検索質問ベクトル Q の重み付け ) TF IDF 法 TF (term frequency) tfj i : 文書 i における索引語 j の頻度同じ文書に何回も現われる単語ほど検索の有力な手がかりとなる 11 12

索引語の重み付け TF IDF 法 ( つづき ) IDF (inverse document frequency) idf j = log N df j dfj: 文書頻度 ( 索引語 jを含む文書数 ) 色々な文書に現われる単語は検索の有力な手がかりとはならない索引語の重み w i j = tf j i idf j = tf j i log N df j 2 ベクトルの類似度計算類似度 : sim(di,q) 類似度の大きい上位 n 個の文書を取り出す類似度の例ベクトルの内積 D i Q = w i 1. w i n 特に qj が 1 または 0 wj i の要素が TF IDF のとき内積 = 検索質問に含まれる索引語の TF IDF の和 q 1. q n = j w i jq j 13 14 テキスト検索の評価一般的なテキスト検索システム検索質問 Qを入力 Qに適合すると思われる文書をn 個出力 ex. sim(di,q) の値の大きい順に文書を出力出力文章数は容易に調整可能テキスト検索の評価評価基準 precision ( 適合率精度 ) システムが出力した適合文書数システムが出力した文書数 recall ( 再現率 ) システムが出力した適合文書数文書集合に含まれる適合文書数 F 値 (F-measure) F = 2PR (P = precision, R= recall) P + R 15 16

precision と recall precision = C / B recall = C / A C システムが出力した適合文書 precision と recall 両者は一般にトレードオフの関係システムが多くの文書を取り出せば... precision 小 recall 大適合文書 A システムが出力した文書 B 17 18 precision と recall precision が重視されるときユーザに適合文書のみを提示したいときウェブの検索エンジン recall が重視されるとき検索漏れを少なくしたいとき特許文書の検索 precision と recall の両方を評価するとき F- 値による評価テキスト検索の工夫より正確なテキスト検索を目指す関連フィードバック relevance feedback query expansion 19 20

関連フィードバック 1 回の検索で良い結果が得られることは稀ユーザとインタラクティブに検索を行う全体の流れシステムがテキスト検索を行う n 個の文書をユーザに提示するユーザは個々の文書が適合文書であるかどうかを判定する ( 例 ) 文書 1 文書 2 文書 3 文書 4 文書 5 関連フィードバック全体の流れ ( 続き ) 検索質問ベクトルQを修正する Q = Q + 1 D i 1 R N R: ユーザが適合文書と判定した文書集合 N: ユーザが不適合文書と判定した文書集合 Qʼ で検索をやり直す以上を繰り返す D i R D i N D i 21 22 関連フィードバック関連フィードバックの効果適合文書と似た文書が新たに検索される非適合文書と似た文書は検索されなくなる precision, recall の向上が期待できる擬似関連フィードバック人間による適合文書の判定は行わない検索結果の上位の文書を適合文書とみなして適合フィードバックを行う自然言語には様々な表現がある検索質問が自動車のとき車乗用車自家用車を含む文書を取り出すことはできないとは? 検索質問中の単語と関連のある単語を検索質問に自動的に追加する処理 Q=( 自動車 ) Q=( 自動車車乗用車自家用車 ) 完全な自動処理 recallの向上が期待できる 23 24

まとめ検索質問に加えるべき単語は? 異表記の単語テキスト検索の手法索引語付けによるテキスト表現林檎りんご言い換える言い替えるいいかえる同義語ベクトル空間モデル TF IDF 法による重み付け映画ムービーシネマキネマフィルム上位語ビール酒下位語酒日本酒ビールワインウィスキー... 辞書シソーラスを利用する 25 評価基準 precision, recall, F 値テキスト検索の工夫関連フィードバック 26