スライド 1

Similar documents
スライド 1

スライド 1

スライド 1

スライド 1

nlp1-12.key

1. はじめに 2

財団法人日本科学技術連盟 2021 年 2 月 24 日 SQiP 研究会特別講演 人工知能による欠陥分類の次の挑戦 バグの自動修復技術の実用化に向け (2016 年度 SQiP 研究会発表論文 ) 数理科学アプローチを用いた客観的欠陥弁別法 ~ 外因欠陥の弁別方法とその効果 意義 ~ 2/17

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

スライド 1

スライド 1

2. 項目検索 (1) 日本語による検索 発明の名称 要約 クレーム及び詳細な説明について 基本的に 2 文字単位で作成され た ( バイグラム (bi gram)) インデックスに対して検索を行います 1 1 文字での検索を行い たい場合は * ワイルドカード指定は不要です を用いて前方一致検索と

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

Contents 1. 新機能 2. 機能改善 3. その他の改善 Hitachi Systems, Ltd All rights reserved. 1

演習 レシピテキストの係り受け解析

使用上の注意 はじめに ( 必ずお読みください ) この SIGN FOR CLASSROOM の英語の動画資料について 作成の意図の詳細は 2 ページ以降に示されているので できるだけすべてを読んでいただきたい 要約 このビデオは 聴覚障がいを持つ生徒たちに英語を教える時 見てわかる会話を表 出さ

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

PowerPoint プレゼンテーション

WWWを用いた情報検索

Exfront4.1.0リリースノート

第1部参考資料

コンピュータ応用・演習 情報処理システム

Microsoft Word - TMFM_Product.doc

nlp1-05.key

スライド 1

フィルタとは

2. 基本的な利用方法 2-1. 検索語の入力サーチボックスに検索語を入力し Search をクリックします スペースを入れると AND 検索 ( 両方の語を含む検索 ) になります 自動用語マッピング (Automatic Term Mapping) が働き 入力された語を論文タイトルや抄録から探

<4D F736F F D A A838B B96E291E82E646F63>

Microsoft Word - CiNiiの使い方.doc

A

PowerPoint プレゼンテーション

データの作成方法のイメージ ( キーワードで結合の場合 ) 地図太郎 キーワードの値は文字列です キーワードの値は重複しないようにします 同じ値にする Excel データ (CSV) 注意キーワードの値は文字列です キーワードの値は重複しないようにします 1 ツールバーの 編集レイヤの選択 から 編

Microsoft PowerPoint - 第3回2.ppt

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

外国語論文の探し方 ( 図書館情報学 ) 今回の講習会で取り上げるデータベースの概要 LISA(Library and Information Science Abstracts) は図書館学および情報学関係の抄録データベースです 1969 年以降の 68 ヵ国以上 20 以上の言語の 440 点を

Microsoft Word - H23_EndNoteWeb_工学部.doc

クイックマニュアル(利用者編)

プレポスト【解説】

5 章意匠 / 意匠番号照会 79 1章はじめに2章各サービスの概要3章トップページ及び共通機能の紹介4章特許 実用新案5章意匠6章商標7章審判8章経過情報9章参考情報 操作手順 (1) 照会条件の入力 1. 種別 を選択し 番号 を半角で入力します 画面は 意匠登録第 号 意匠登録

5_motif 公開版.ppt

Microsoft Word - PubMed

Web

Microsoft Word - MTransㇹㇿㅼㅋ㇬㇤ㅛ+丕苬ㅦㅼㇶㅼ咂ㆂ;_ver1.7_original.docx

6回目

第2回 情報編纂研究会 情報編纂のための テキスト処理技術

Shareresearchオンラインマニュアル

STN新プラットフォーム基本操作

Slide 1

GlobalFlow5 Ver.1.00R04 リリースノート

Microsoft Word - EndNoteWeb( _.doc

簡易ガイド1)書誌情報から整理番号を特定する(J-GLOBAL活用例)

Ver.1.0 ( ) NII-REO HSS とは NII-REO HSS 利用ガイド ( 正式公開版 ) NII-REO HSS(Humanities & Social Sciences Collection: 人文社会科学系電

kantan_C_1_iro3.indd

0210研究会

DEIM Forum 2019 H Web 1 Tripadvisor

スーパー英語アカデミック版Ver.2

(Microsoft PowerPoint -

Microsoft Word - Word1.doc

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

アプリケーション インスペクションの特別なアクション(インスペクション ポリシー マップ)

講義の進め方 第 1 回イントロダクション ( 第 1 章 ) 第 2 ~ 7 回第 2 章 ~ 第 5 章 第 8 回中間ミニテスト (11 月 15 日 ) 第 9 回第 6 章 ~ 第 回ローム記念館 2Fの実習室で UML によるロボット制御実習 定期試験 2

Microsoft PowerPoint - NC12-2.pptx

画面について 画面構成 画面構成 Smart Copy for Android の画面構成は 次のとおりです 1フォルダパス 2. ファイルの種類 3 ファイル一覧 5[ 戻る ] ボタン 4[ メニュー ] ボタン 1 フォルダパス現在表示している画面のフォルダパスが表示されます 2ファイルの種類

卒論タイトル


本日の講義 2 初級編 PubMedとは? 基本検索 / 検索結果の見方 本文を入手するには 中級編 MeSH (Medical Subject Headings) とは? MeSHを活用した検索法と検索時の注意点 その他の便利な機能

4. WIX アタッチエンジン 4. 1 FSDR 処理 システムの Web 資源結合動作であるアタッチ処理について 述べる. アタッチ処理は以下の 4 フェーズに分けられる. この一連の 流れを FSDR 処理とする. Find 処理 Select 処理 Decide 処理 Rewrite 処理

1. 主な機能追加項目 以下の検索項目をサポートしました 書誌 全文検索コマンド検索 国内 査定日 最新の査定日 ( 登録査定日または拒絶査定日 ) を検索します 査定種別 最新の登録 拒絶査定 または査定なしを検索します 審査最終処分日 最新の審査最終処分日を検索します 審査最終処分種別 最新の審

2 機器等 サービス名 ili ( イリー ) 提供会社 ( 株 ) ログバー サービス開始時期 2017 年 6 月 ~ 概要 ili ( イリー ) は 旅行 に特化したワンフレーズ音声翻訳デバイスです インターネットは不要 日英中の言語に対応しています 法人向けサービス ili for Gue

書籍の感情情報に注目した作者の印象分析

Microsoft PowerPoint - 09-search.ppt [互換モード]

生徒情報一覧 FAQ/ ヘルプ Kei-Navi に登録されている生徒情報の一覧です 対象年度 学年 クラスの選択 と さらに生徒情報を条件で絞り込む < 対象年度 学年 クラスの選択 > 対象年度 当年度含めて3 年 例 )2012 年度の場合 こ

T

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

メタデータスキーマレジストリ MetaBridge の概要

DataWare-NETご利用ガイド

21 A contents organization method for information sharing systems

WBT [6] [7] [8] [9] Web [1] WBT [2] [3] ipad PC ipad ipad ipad [4] QR QR [5] IC IC PDA IC PDA US-ASCII 4,296 QR IC IC IC QR QR QR A BB A A CC

FMV取扱ガイド

FMV取扱ガイド

取扱ガイド

FMV取扱ガイド

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

2017/10/25 開催 Amazon のトレーナーが教える 商品登録から在庫の管理まで Q&A ( こちらの回答は 2017/10/25 付けの情報です ) 既存 ASIN への出品 ( 相乗り出品 ) に関する質問 Q1. メーカーが異なる場合でも相乗り出品できますか A1. メーカーが異なる

Microsoft PowerPoint - pr_12_template-bs.pptx

次は三段論法の例である.1 6 は妥当な推論であり,7, 8 は不妥当な推論である. [1] すべての犬は哺乳動物である. すべてのチワワは犬である. すべてのチワワは哺乳動物である. [3] いかなる喫煙者も声楽家ではない. ある喫煙者は女性である. ある女性は声楽家ではない. [5] ある学生は

Microsoft PowerPoint - 簡易マニュアル_ver1.1.ppt [互換モード]

Microsoft Word 国内の新聞記事.doc

スーパー英語アカデミック版Ver.2

ポインタ変数

編集する ファイルを開く マイクロデータの設定を行うファイルまたはファイルを開きます 開かれたファイルは編集画面に表示されて ブラウザ表示した時のプレビューも同時に表示されます HTML ファイルの選択 編集する ファイルを開くためにメインメニューから ファイル 開く を選びます ファイル選択ダイア

簡易ガイド1)書誌情報から整理番号を特定する(J-GLOBAL活用例)

Microsoft PowerPoint _3a-SEO.pptx

生命情報学

言語モデルの基礎 2

06.7 作成.EndNote Basic について -.EndNote Basic とは? EndNote は文献情報を保存 管理するツールです また 保存した文献情報をもとに文献リストを簡単に作成することができます デスクトップ版と EndNote Basic と呼ばれる Web 版があり 信州

KOSMOS/MyLibraryを活用しよう

ボルツマンマシンの高速化

<4D F736F F D2088EA89B9918A88E181458C8B8D878FA E E838A C E646F6378>

Transcription:

知識情報演習 Ⅲ( 後半第 2 回 ) 辻慶太 http://tsujikeita.hp.infoseek.co.jp/cje3 1

情報検索システムの世界観 情報の生産者研究者, 作家, 記者など 情報の最終利用者 ( エンドユーザ ) 生産 情報の登録者 DB 登録者, 分類者, 索引作成者など 登録 検索 計算機上のシステム 検索エンジン,DB, インタフェースなど 支援 蓄積される情報図書, 雑誌, 画像, 音声など 人間の仲介者代行検索者, 図書館員など オフライン処理 オンライン処理 2

情報検索の基本モデル 情報 解釈 情報要求 文書 索引付け 検索質問 内部表現 照合 内部表現 狭義の情報検索 3

索引付け? ブックマークでタグを付けるようなイメージ 南アジアの というページに対して, この人は : University, Science, 図書館 オープンアクセス といったタグを付けている = 索引を付けている 4

照合 索引語を中継して検索質問と文書を照合し, 条件に一致する文書を取得する 図書館 というキーワードで検索してくる人がいたら, 図書館 という索引語が付与された文書がないか探す 2 つの検索モデルに大別することができる 完全一致 (exact match) 最良一致 (best match) 図書館 という索引語が付与された文書だけを出力する 図書館 という索引語が付与されていなくても, 何となく 5 図書館に関する文書と判断できるならば出力する

照合 索引語を中継して検索質問と文書を照合し, 条件に一致する文書を取得する 図書館 というキーワードで検索してくる人がいたら, 図書館 という索引語が付与された文書がないか探す 2 つの検索モデルに大別することができる 完全一致 (exact match) 最良一致 (best match) 図書館 という索引語が付与された文書だけを出力する 図書館 という索引語が付与されていなくても, 何となく 6 図書館に関する文書と判断できるならば出力する

照合 索引語を中継して検索質問と文書を照合し, 条件に一致する文書を取得する 図書館 というキーワードで検索してくる人がいたら, 図書館 という索引語が付与された文書がないか探す 2 つの検索モデルに大別することができる 完全一致 (exact match) 最良一致 (best match) 図書館 という索引語が付与された文書だけを出力する 図書館 という索引語が付与されていなくても, 何となく 7 図書館に関する文書と判断できるならば出力する

照合 索引語を中継して検索質問と文書を照合し, 条件に一致する文書を取得する 図書館 というキーワードで検索してくる人がいたら, 図書館 という索引語が付与された文書がないか探す 2 つの検索モデルに大別することができる 完全一致 (exact match) 最良一致 (best match) 図書館 という索引語が付与された文書だけを出力する 図書館 という索引語が付与されていなくても, 何となく 8 図書館に関する文書と判断できるならば出力する

完全一致 ブーリアンモデルが代表的 古典的なキーワード検索 論理演算子 (AND,OR,NOT) で式を構成 例 : 中華料理 AND レシピ NOT スープ 論理式に一致する文書だけが検索される ただし, 厳密な NOT ではないことが多い 絞込み情報としての利用が中心 例 : NOT 犬 犬 を含まない文書が全て出るわけではない 9

最良一致 文書が検索質問に一致する度合い ( スコア ) を計算する スコアを用いて文書を順位付けて表示する スコア : Retrieval Status Value (RSV) 検索質問は, キーワードの集合として表現 bag-of-words キーワード間の関係や語順は無視 10

最良一致の代表的なモデル ベクトル空間モデル システムの例 : SMART 確率型モデル システムの例 : OKAPI どちらのモデルも 1970 年代に提案され, 現在も改良が重ねられている 両モデルの検索精度に大きな違いはない 11

最良一致の代表的なモデル ベクトル空間モデル システムの例 : SMART 確率型モデル システムの例 : OKAPI 文書と検索式を共に言葉の頻度ベクトルなどで表し, 両者の内積が高い文書を出力する OKAPI BM25: 文書 d がキーワード q に適合している確率を推定し, 値が高いものを出力する どちらのモデルも 1970 年代に提案され, 現在も改良が重ねられている 両モデルの検索精度に大きな違いはない 12

索引付けの手順概要 (1) 索引語の抽出 文字バイグラム, 単語, フレーズなど (2) 不要語の削除 (3) 接辞処理 (4) 索引語の重み付け 検索手法 ( 検索モデル ) によっては不要 例えば, 論理式によるブーリアンモデルでは不要 (5) 索引ファイルの編成 図書館システム からバイグラムを切り出すと 図書 書館 館シ シス 13

不要語 (stopword) 検索の役に立たない語 (they, might など ) 不要語辞書を用意しておくことが多い 高頻度語 : WWW など 機能語 : 前置詞(of) など 語の分類 内容語 : 名詞, 動詞, 形容詞など 機能語 : 助詞, 助動詞, 冠詞, 前置詞など 14

接辞処理 (stemming) 活用形を原形に戻し, 索引語の表記を統一 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 自動削除の場合は, 必ずしも言語学的に意味のある単位ではない点に注意例 : facility( 単数形 ),facilities( 複数形 ) どちらも facilit になるかもしれない 15

接辞処理 (stemming) 活用形を原形に戻し, 索引語の表記を統一 質問と文書における表記の違いを吸収 いくつかの手法がある 辞書の利用 語尾の自動削除 libraries という表記で検索してきた人に対しては library という表記で索引付けされている文献も出力したい 自動削除の場合は, 必ずしも言語学的に意味のある単位ではない点に注意例 : facility( 単数形 ),facilities( 複数形 ) どちらも facilit になるかもしれない 16

ホデレ賞 (2008 年度 ) の受賞者が決まりました 形態素原形品詞 ホデレ ホデレ 未知語 賞 賞 名詞 ( ( 記号 2008 2008 数字 年度 年度 助数詞 ) ) 記号 の の 助詞 受賞 受賞 名詞 者 者 接尾辞 が が 助詞 決まり 決まる 動詞 まし ます 助動詞 た た 助動詞 記号 手順 (1)~(3) の例 上の例文に対する形態素解析結果 赤字部分を索引語として抽出する 17

索引語の重み付け ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF 法がある TF: 索引語頻度 IDF: 逆文書頻度 完全一致 ( ブーリアンモデル ) では不要 ブーリアンモデルでは索引語に あるかないか だけ考える どれくらいあるか は考えない 18

TF: 索引語頻度 Term Frequency(TF) ここで言う Term とは索引語を表す tf ( t, d) と表す 文書 d における索引語 t の出現頻度 なぜ用いるか? ある文書によく出現する索引語は, その文書をよく特徴付けるだろうという仮説に基づく 19

TF の例 犬 犬犬犬 ネコ ネコ 犬 犬 文書 A 文書 B tf ( 犬, A) 5 tf ( ネコ, A) 2 tf ( 犬, B) 1 20

IDF: 逆文書頻度 Inverse Document Frequency(IDF) 少数の文書にしか現れない索引語を重視する idf N ( t) log 1 df ( t) N: コレクション中の文書総数 df(t): 索引語 t が出現する文書数 なぜ用いるか? TF だけでは問題がある TF が高い語は多くの文書に出現する為, 特定の文書を弁別する能力が低い 21

逆文書頻度 ( つづき ) N=100 の場合 逆数を取ることで df(t) が小さいほど大きな値にする 対数を取ることで変化分をなだらかにする 1 を足して, 重みを正数にする df(t) N/df(t) log(n/df(t)) log(n/df(t))+1 1 100 6.64 7.64 2 50 5.64 6.64 5 20 4.32 5.32 10 10 3.32 4.32 100 1 0 1 22

IDF の例 動物ネコ 動物犬犬 動物犬ネコ 動物犬ロボット 動物動物犬 N = 5 df 動物 =5, 犬 =4, ネコ =2, ロボット =1 動物 =6, 犬 =5 idf( 動物 ) = 1 idf( 犬 ) = 1.32 idf( ネコ ) = 2.32 idf( ロボット ) = 3.32 idf の最小値 動物 では全文書が検索されてしまい, 弁別性が低い 23

TF.IDF 法による重みの計算 簡単な計算方法 w( t, d) tf ( t, d) idf ( t) 文書 d における索引語 t の重み 以下のような行列で表現できる w(t 2,d 3 ) の値 d 1 d 2 d 3 d 4 d 5 t 1 t 2 t 3 t 4 24

転置ファイルの例 索引語文書 ID 索引語の重み ハブ 001005 0.532 469032 12.54 ハブ酒 980001... 0.002 25

オンライン処理 1 検索質問から索引語 ( 検索語 ) を抽出する 2 各索引語について索引から以下を取得する その索引語を含む文書の集合 その索引語の重みw(t,d) 3 各文書のスコアを計算する その文書が含む検索語の重みを総和する 4 スコアに基づいて文書を整列 ( ソート ) する 26

オンライン処理の図解 犬ロボット 1 索引語の抽出 検索 索引付け ( オフライン ) 文書集合 D1~D10 犬ロボット D2(0.1) D3(0.8) D5(1.2) D9(0.1) D1(1.3) D3(0.7) D5(0.1) 3スコアの計算 2 文書と重みの探索 索引転置ファイル D1 = 1.3 D2 = 0.1 D3 = 0.8 + 0.7 = 1.5 D5 = 1.2 + 0.1 = 1.3 D9 = 0.1 4 文書の整列 1. D3 2. D5 3. D1 4. D2 5. D9 個別の文書を読む場合 27

演習 : Perl 入門 が終了した人 複数のテキストファイル ( 英文 ) を読み込んで, 単語の重み w(t,d) を計算するプログラムを作成せよ ここで,t = 1 つの単語,d = 1 つのファイル 入力や出力の形式は各自で決めてよい 入力するファイルの件数の大きさは段階的に拡張すること 少ない件数の小さなファイルから始める 28