nlp1-12.key

Similar documents
橡ボーダーライン.PDF

財団法人日本科学技術連盟 2021 年 2 月 24 日 SQiP 研究会特別講演 人工知能による欠陥分類の次の挑戦 バグの自動修復技術の実用化に向け (2016 年度 SQiP 研究会発表論文 ) 数理科学アプローチを用いた客観的欠陥弁別法 ~ 外因欠陥の弁別方法とその効果 意義 ~ 2/17

顔文字に着目した TwitterのP/N値に基づく映画の見どころ検索

Microsoft PowerPoint - qcomp.ppt [互換モード]

はじめてのPFD

演習 レシピテキストの係り受け解析

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ

使用上の注意 はじめに ( 必ずお読みください ) この SIGN FOR CLASSROOM の英語の動画資料について 作成の意図の詳細は 2 ページ以降に示されているので できるだけすべてを読んでいただきたい 要約 このビデオは 聴覚障がいを持つ生徒たちに英語を教える時 見てわかる会話を表 出さ

ボルツマンマシンの高速化

Microsoft PowerPoint - 10.pptx

040402.ユニットテスト

電子情報通信学会ワードテンプレート (タイトル)

マルチエージェントシステムグループの研究計画

多言語版「チュウ太のweb辞書」を用いた語彙学習

<4D F736F F F696E74202D C8D4891E52089A E690B681698F4390B3816A2E707074>

ISO9001:2015規格要求事項解説テキスト(サンプル) 株式会社ハピネックス提供資料

共起頻度は, そのものです. 例えば, 野球 の Dice 係数の上位の単語は, サッカー : 格闘技 : プロ野球 : ゴルフ : テニス : 試合 : 選手 : 高校野球 :0.157


<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

メタデータスキーマレジストリ MetaBridge の概要


機械学習を用いた効率的な特許調査ニューラルネットワークの特許調査への応用 安藤俊幸 1), 桐山勉 2) 花王株式会社 1), はやぶさ国際特許事務所 2) 東京都墨田区文花 Tel: FAX: and

職業訓練実践マニュアル 重度視覚障害者編Ⅰ

土壌環境行政の最新動向(環境省 水・大気環境局土壌環境課)

syuryoku

資料4-1 一時預かり事業について

Microsoft PowerPoint - pr_12_template-bs.pptx

メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right


PDF


% 32.3 DI DI




ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

文法と言語 ー文脈自由文法とLR構文解析2ー

2. 項目検索 (1) 日本語による検索 発明の名称 要約 クレーム及び詳細な説明について 基本的に 2 文字単位で作成され た ( バイグラム (bi gram)) インデックスに対して検索を行います 1 1 文字での検索を行い たい場合は * ワイルドカード指定は不要です を用いて前方一致検索と


Microsoft PowerPoint - ad11-09.pptx

DEIM Forum 2019 H Web 1 Tripadvisor

LGBZ3107-T3A1

Transcription:

自然言語処理論 I 12. テキスト処理 ( 文字列照合と検索 ) 情報検索 information retrieval (IR) 広義の情報検索 情報源からユーザの持つ問題 ( 情報要求 ) を解決できる情報を見つけ出すこと 狭義の情報検索 文書集合の中から ユーザの検索質問に適合する文書を見つけ出すこと 適合文書 : 検索質問の答えが書いてある文書 テキスト検索 (text retrieval) 1 2 情報検索 索引語 (index term) による照合 検索意図 文書集合 検索質問 (query) 索引語またはその組み合わせ検索質問の与え方 索引語を直接利用する 論理式の利用 索引語付け ex. ( ta and not tb ) or tc 検索質問 ( 索引語の組み合わせ ) 照合 索引語集合 自然言語で記述する 索引語に自動的に変換する ex. チーズの作り方が知りたい チーズ and 作り方 適合文書 3 4

索引語付け (indexing) 文書から索引語を取り出すこと 自動索引語付け テキスト検索の対象文書数が多いため 形態素解析などの処理が必要 索引語の単位 単語 ( チーズ 作り方 材料 ) 句 ( チーズの作り方 チーズの材料 ) 適切な単位を決めることは難しい 単語を索引語とすることが一般的 5 ストップワード ストップワード (stop word) とは? 索引語に加えるべきでない単語 具体的には... 機能語 (function word) 日本語 : 助詞, 助動詞など 英語 : 冠詞, 前置詞など ( 参考 ) 内容語 (content word) 名詞, 動詞など 意味のある単語 be 動詞 have ピリオドなどの記号 どの文書にもよく出現し 情報検索の手がかりとはならないため 6 照合 inverted indexing ベクトル空間モデル vector space model (VSM) 文書毎に索引語のリストを作る 小説 あらすじ 書評 推理 文書 1 1 0 0 0 文書 2 1 0 1 1 文書 3 1 1 0 0 文書 4 0 0 1 0 7 8

行列を転置する 索引語を含む文書のリストがすぐに得られる 文書 1 文書 2 文書 3 文書 4 小説 1 1 1 0 あらすじ 0 0 1 0 書評 0 1 0 1 検索質問を論理式で与える場合 転置インデックスの行をベクトルとみなすベクトルのビット演算で計算可能小説 and ( あらすじ or 書評 ) and not 推理 あらすじ or 書評 小説 あらすじ or 書評 and あらすじ or 書評 not 推理 not 推理 推理 0 1 0 0 9 小説 and ( あらすじ or 書評 ) and not 推理 not 推理 文書 3 を取り出す 10 ベクトル空間法 文書と検索質問をベクトルで表現 文書ベクトルDi, 検索質問ベクトルQ ベクトル間の類似度を計算 最大の類似度を持つ文書 Diを取り出す ( i w 1 i D i = w j i ベクトル wj i は索引語の重み w n ( 索引語 1 索引語 j 索引語 n 索引語の重み付け 単純な重み付け 文書に存在すれば 1 それ以外は 0 ( 検索質問ベクトル Q の重み付け ) TF IDF 法 TF (term frequency) tfj i : 文書 i における索引語 j の頻度 同じ文書に何回も現われる単語ほど 検索の有力な手がかりとなる 11 12

索引語の重み付け TF IDF 法 ( つづき ) IDF (inverse document frequency) idf j = log N df j dfj: 文書頻度 ( 索引語 jを含む文書数 ) 色々な文書に現われる単語は 検索の有力な手がかりとはならない 索引語の重み w i j = tf j i idf j = tf j i log N df j 2 ベクトルの類似度計算 類似度 : sim(di,q) 類似度の大きい上位 n 個の文書を取り出す 類似度の例 ベクトルの内積 D i Q = w i 1. w i n 特に qj が 1 または 0 wj i の要素が TF IDF のとき内積 = 検索質問に含まれる索引語の TF IDF の和 q 1. q n = j w i jq j 13 14 テキスト検索の評価 一般的なテキスト検索システム 検索質問 Qを入力 Qに適合すると思われる文書をn 個出力 ex. sim(di,q) の値の大きい順に文書を出力 出力文章数は容易に調整可能 テキスト検索の評価 評価基準 precision ( 適合率 精度 ) システムが出力した適合文書数システムが出力した文書数 recall ( 再現率 ) システムが出力した適合文書数文書集合に含まれる適合文書数 F 値 (F-measure) F = 2PR (P = precision, R= recall) P + R 15 16

precision と recall precision = C / B recall = C / A C システムが出力した適合文書 precision と recall 両者は一般にトレードオフの関係システムが多くの文書を取り出せば... precision 小 recall 大 適合文書 A システムが出力した文書 B 17 18 precision と recall precision が重視されるとき ユーザに適合文書のみを提示したいときウェブの検索エンジン recall が重視されるとき 検索漏れを少なくしたいとき特許文書の検索 precision と recall の両方を評価するとき F- 値による評価 テキスト検索の工夫 より正確なテキスト検索を目指す関連フィードバック relevance feedback query expansion 19 20

関連フィードバック 1 回の検索で良い結果が得られることは稀ユーザとインタラクティブに検索を行う全体の流れ システムがテキスト検索を行う n 個の文書をユーザに提示する ユーザは 個々の文書が適合文書であるかどうか を判定する ( 例 ) 文書 1 文書 2 文書 3 文書 4 文書 5 関連フィードバック 全体の流れ ( 続き ) 検索質問ベクトルQを修正する Q = Q + 1 D i 1 R N R: ユーザが適合文書と判定した文書集合 N: ユーザが不適合文書と判定した文書集合 Qʼ で検索をやり直す 以上を繰り返す D i R D i N D i 21 22 関連フィードバック 関連フィードバックの効果 適合文書と似た文書が新たに検索される 非適合文書と似た文書は検索されなくなる precision, recall の向上が期待できる 擬似関連フィードバック 人間による適合文書の判定は行わない 検索結果の上位の文書を適合文書とみなして適合フィードバックを行う 自然言語には様々な表現がある 検索質問が 自動車 のとき車 乗用車 自家用車を含む文書を取り出すことはできない とは? 検索質問中の単語と関連のある単語を検索質問に自動的に追加する処理 Q=( 自動車 ) Q=( 自動車 車 乗用車 自家用車 ) 完全な自動処理 recallの向上が期待できる 23 24

まとめ 検索質問に加えるべき単語は? 異表記の単語 テキスト検索の手法索引語付けによるテキスト表現 林檎 りんご 言い換える 言い替える いいかえる 同義語 ベクトル空間モデル TF IDF 法による重み付け 映画 ムービー シネマ キネマ フィルム 上位語 ビール 酒 下位語 酒 日本酒 ビール ワイン ウィスキー... 辞書 シソーラスを利用する 25 評価基準 precision, recall, F 値 テキスト検索の工夫関連フィードバック 26