スライド 1

Similar documents
スライド 1

スライド 1

スライド 1

スライド 1

nlp1-12.key

フィルタとは

Microsoft PowerPoint - InfPro_I6.pptx

Word 2010 連番付きラベル印刷 ( クイックパーツ フィールド を使う簡易版 ) 那須シニアネット 西村 図 1 図 18 の連番付ラベルは Word 2010 差し込み文書 差し込み印刷の開始 の [ ラベル ] メニューと 挿入 クイックパーツ の [ フィールド

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

このうち ツールバーが表示されていないときは メニューバーから [ 表示 (V)] [ ツールバー (T)] の [ 標準のボタン (S)] [ アドレスバー (A)] と [ ツールバーを固定する (B)] をクリックしてチェックを付けておくとよい また ツールバーはユーザ ( 利用者 ) が変更

シェルスクリプトマガジン Vol27

Word講習用

PowerPoint プレゼンテーション

データ構造

PowerPoint プレゼンテーション

(Microsoft Word - 01PowerPoint\217\343\213\211C\203p\203^\201[\203\223\222m\216\257\225\\\216\206.doc)

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

データの作成方法のイメージ ( キーワードで結合の場合 ) 地図太郎 キーワードの値は文字列です キーワードの値は重複しないようにします 同じ値にする Excel データ (CSV) 注意キーワードの値は文字列です キーワードの値は重複しないようにします 1 ツールバーの 編集レイヤの選択 から 編

基礎プログラミング2015

スライド 1

本チュートリアルについて 14 部構成 比較的簡単なトピックから 各回 プログラミング言語 任意 チュートリアルで 新しい内容 宿題 プログラミング演習 次の週 結果について発表 もしくは話し合いをする スライドは Python で Python, C++, Java, Perl についての質問い答

_unix_text_command.pptx

今回のプログラミングの課題 ( 前回の課題で取り上げた )data.txt の要素をソートして sorted.txt というファイルに書出す ソート (sort) とは : 数の場合 小さいものから大きなもの ( 昇順 ) もしくは 大きなものから小さなもの ( 降順 ) になるよう 並び替えること

練習 4 ディレクトリにあるファイルを直接指定する (cat) cat コマンドを使う (% cat ファイル名 ) と ファイルの内容を表示できた ファイル名のところにパス名を使い ディレクトリ名 / ファイル名 のように指定すると ディレクトリ内にあるファイルを直接指定できる 1 % cat _

ヤフー株式会社

PowerPoint プレゼンテーション

スライド 1

書式に示すように表示したい文字列をダブルクォーテーション (") の間に書けば良い ダブルクォーテーションで囲まれた文字列は 文字列リテラル と呼ばれる プログラム中では以下のように用いる プログラム例 1 printf(" 情報処理基礎 "); printf("c 言語の練習 "); printf

Word2013基礎 基本操作

1. 主な機能追加項目 以下の検索項目をサポートしました 書誌 全文検索コマンド検索 国内 査定日 最新の査定日 ( 登録査定日または拒絶査定日 ) を検索します 査定種別 最新の登録 拒絶査定 または査定なしを検索します 審査最終処分日 最新の審査最終処分日を検索します 審査最終処分種別 最新の審

文字の装飾 / 配置について 文字の装飾 ( ボールド / イタリック / アンダーライン等 ) 網掛けは行わないでください 背景色は バーコード部分とのコントラストが低下する色を避けてください 文字の回転を行う場合 回転角度は 90 度 180 度 270 度以外は指定しないでください 文字間隔の

Si 知識情報処理

情報処理Ⅰ

Web データ管理 JavaScript (1) (4 章 ) 2011/12/7( 水 ) 湘南工科大学講義資料 Web データ管理 (2011) 阿倍 1/21

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

Section1_入力用テンプレートの作成

HDE Controller X 1-4. メーリングリスト

生存確認調査ツール

Ver.1.0 ( ) NII-REO HSS とは NII-REO HSS 利用ガイド ( 正式公開版 ) NII-REO HSS(Humanities & Social Sciences Collection: 人文社会科学系電

Microsoft PowerPoint - enshu4.ppt [äº™æ‘łã…¢ã…¼ã…›]

出力可能なバーコードの種類 出力可能なバーコードの種類各バーコードはそれぞれのバーコードの仕様に準拠します バーコードの種類 PDF417 MICROPDF417 対応バーコードの名称 PDF417 マイクロ PDF417 操作例 PDF417 商品コードの内容を PDF417 にする 作成された

スライド 1

Microsoft PowerPoint - T4OOマニュアル_初期設定用_ pptx

memo

問題 1 次の文章は 作業環境について述べたものである を解答群 { } より選び その記号で答えよ にあてはまる適切なもの 設問 1. < 図 1>はルーラーの一部である 1に示されるインデントマーカーを移動することにより を設定することができる < 図 1> { ア. 1 行目のインデントイ.

memo

2. 患者一覧 ログインすると患者一覧画面が表示されます 初期表示は本日日付で診療が行われた患者の一覧が表示されます 該当の患者がいない場合は上図のように患者一覧は表示されません ORCA 連携されていない場合は初期導入時に患者情報がありませんので 取り込みを行う必要があります 患者の取り込み方法は

第1部参考資料

Taro-Basicの基礎・はじめに(公

Windows Powershell 入門

Web型iEDIシステム操作説明書

第 2 回 (4/18) 実力診断の解説と表作成の復習

設定フロー ★印は必須の設定です

※ ポイント ※

[ ] 算定基礎届の CD 届出データ作成マニュアル 健保提供 ターンアラウンド CD の活用 概要 1) 健康保険組合が提供する 算定基礎届ターンアラウンド CD は 日本年金機構により示された 届書作成仕様書 ( 健康保険 厚生年金保険適用関係 届書 ) に基づく CD による算定

条件付き書式 の ルールの管理 をクリック 2 新規ルール をクリック 1 ルール の管理をクリック 3 指定の値を含むセルだけ書式設定 を クリック 7 グレーを選び OK をクリック 4 次の値に等しい を選ぶ 5 2 と入力 6 書式をクリック 8OK をクリック 以下同様に 新規ルール をク

5.1. ホームページ登録 ホームページ URL を登録します ホームページ URL は基本契約で 1 個 (100MB) まで無料 2 個目以降は有料オプションサービス ( 月額 300 円 / 個 ) で追加登録が可能です (1) 左メニューの HP アカウント登録 リンクをクリックします (1

Webデザイン論

データ構造

PowerPoint プレゼンテーション

登録の手引き

スライド 1

Microsoft Word - 操作マニュアル(PowerPoint2013)

スクールCOBOL2002

Microsoft Word - 操作マニュアル(PowerPoint2010).doc

Excel2013 データベース1(テーブル機能と並べ替え)

かんたん携帯9 ユーザーガイド

AQUOS ケータイ ユーザーガイド

第5回

処理手順 1) 健康保険組合から受領した 賞与支払届ターンアラウンド CD を パソコンの CD ドライ ブにセットします 2) マイコンピュータ CD ドライブ の順にダブルクリックして オープンしたウィン ドウにある KPFD0006.txt というアイコンをダブルクリックします すると CD

UNIX 初級講習会 (第一日目)

財団法人日本科学技術連盟 2021 年 2 月 24 日 SQiP 研究会特別講演 人工知能による欠陥分類の次の挑戦 バグの自動修復技術の実用化に向け (2016 年度 SQiP 研究会発表論文 ) 数理科学アプローチを用いた客観的欠陥弁別法 ~ 外因欠陥の弁別方法とその効果 意義 ~ 2/17

関数とは 関数とは 結果を得るために 処理を行う仕組み です Excel2010 には あらかじめ関数が数式として組み込まれています たとえば SUM 関数 は 指定した値をすべて合計する 仕組みです 長い計算式や複雑な計算式を作成せずに 簡単に結果を求めることができます 例合計 =A1+A2+A3

Microsoft Word - macマニュアル【 】.doc

このルールをそのまま正規表現として書くと 下記のようになります ^A[0-9]{2}00[0-9]{3}([0-9]{2})?$ ちょっと難しく見えるかもしれませんが 下記のような対応になっています 最初 固定 年度 固定 通番 ( 枝番 ) 最後 ルール "A" 数字 2 桁 0 を 2 桁 数字

PowerPoint プレゼンテーション

住所録を整理しましょう

第6回

1 フリーページを表示する 1-1 フリーページのカテゴリを作成します フリーページのカテゴリの情報を入力します 1 複数のフリーページを記事のジャンルや種類で分け その見出しを入力します お店ページの左サイドバーに表示します 2 消費者が 検索エンジンで検索するであろう 記事の特長や内容をあらわす

ヘルプの使い方

<4D F736F F D D28F A82B582F182AB82F C DEC90E096BE8F E C52E646F63>

CONTENTS マニュアルの表記... S01-02_01 1.DataNature Smart 全体概要図... S01-02_11 2. 基本操作... S01-02_ ジョブの作成... S01-02_21 加工条件設定... S01-02_21 Step1: 処理対象データの指

スライド 1

<4D F736F F D E835A A C98AD682B782E98E77906A89FC92F994C52E646F63>

第 32 回文書ファイルの保存に関する Word の裏技 WORD2013 の裏技 第 32 回文書ファイルの保存に関する Word の裏技 1. 新しく作成した文書に名前を付けて保存する方法 作成した文書をファイルとして保存しておけば 後から何度でも利用できる 文書をはじめて保存する場合は 文書に

Format text with styles

Microsoft PowerPoint - kougi6.ppt

X2 使いこなしガイド

内容 Visual Studio サーバーエクスプローラで学ぶ SQL とデータベース操作... 1 サーバーエクスプローラ... 4 データ接続... 4 データベース操作のサブメニューコンテキスト... 5 データベースのプロパティ... 6 SQL Server... 6 Microsoft

プレポスト【解説】

2 ASCII コードと文字型変数 2-1 ASCII コード 文字 コードコードコードコードコードコードコードコード文字文字文字文字文字文字文字 10 進 10 進 10 進 10 進 10 進 10 進 10 進 10 進 0 16 SP P 80 ` 96 p 112

文字入3-2 力3 文字入力について ひらがな 漢字 カタカナ 英数字 記号 絵文字などが入力できます 文字入力方式には モード1( かな方式 ) モード2(2タッチ方式 ) モード3( ニコタッチ方式 ) の3 種類があります 本書では モード1( かな方式 ) での入力例を中心に記載します モー

実験 5 CGI プログラミング 1 目的 動的にWebページを作成する手法の一つであるCGIについてプログラミングを通じて基本的な仕組みを学ぶ 2 実験 実験 1 Webサーバの設定確認と起動 (1)/etc/httpd/conf にある httpd.conf ファイルの cgi-bin に関する

2006

情報処理概論(第二日目)

文字列 2 前回の授業ではコンピュータ内部での文字の取り扱い 文字型の変数 文字型変数への代入方法などを学習した 今回は 前回に引き続き 文字処理を学習する 内容は 標準入出力 ( キーボード ディスプレイ ) での文字処理 文字のファイル処理 文字を取り扱うライブラリ関数である 標準入出力 Lin

Taro-cshプログラミングの応用.jt

PowerPoint プレゼンテーション

クイックマニュアル(利用者編)

DataWare-NETご利用ガイド

Transcription:

知識情報演習 Ⅲ( 後半第 3 回 ) 辻慶太 http://slis.sakura.ne.jp/cje3 1

索引付けの手順概要 ( 復習 ) (1) 索引語の抽出 文字バイグラム, 単語, フレーズなど (2) 不要語の削除 (3) 接辞処理 (4) 索引語の重み付け 検索手法 ( 検索モデル ) によっては不要例えば, 論理式によるブーリアンモデルでは不要 (5) 索引ファイルの編成 extract.prl stopword.prl stemming.prl tf.prl idf.prl 2

索引語の重み付け ( 以下は前回の ppt と同じ ) ある文書を特徴付ける索引語には高い重みを与える 伝統的な手法に TF.IDF 法がある TF: 索引語頻度 IDF: 逆文書頻度 完全一致 ( ブーリアンモデル ) では不要 3

索引語頻度 Term Frequency(TF) ある文書によく出現する索引語は, その文書を特徴付けるという仮説に基づいている tf ( t, d) 文書 d における索引語 t の出現頻度 索引語を ターム とも呼ぶ ( 単語とは限らない ) TF は文書と索引語が与えられて決まる尺度 4

TF の例 犬 犬犬犬 ネコ ネコ 犬 犬 文書 A 文書 B tf ( 犬, A) 5 tf ( ネコ, A) 2 tf ( 犬, B) 1 5

逆文書頻度 Inverse Document Frequency(IDF) 多くの文書に出現する索引語は, 特定の文書を弁別する能力が低い 少数の文書にしか現れない索引語を重視する N idf ( t) log 1 df ( t) N: コレクション中の文書総数 df(t): 索引語 t が出現する文書数 索引語だけで決まる尺度 (TF との違いに注意 ) 6

IDF の例 動物ネコ 動物犬犬 動物犬ネコ 動物犬ロボット 動物動物犬 N = 5 df 動物 =5, 犬 =4, ネコ =2, ロボット =1 動物 =6, 犬 =5 idf( 動物 ) = 1 idf( 犬 ) = 1.32 idf( ネコ ) = 2.32 idf( ロボット ) = 3.32 idf の最小値 動物 では全文書が検索されてしまい, 弁別性が低い 7

Perl におけるハッシュ 配列と違って文字列をキーとして使える 1つのキーで値を特定できるデータ 例 : 索引語 dog の IDF が 2.5 $idf{ dog } = 2.5; 複数のキーで値を特定できるデータ 例 : 索引語 dog の文書 D001における TF が 10 $tf{ dog }{ D001 } = 10; 8

キーが 1 つの場合 %idf $idf{key} key value dog 2.5 cat 1.6 year 3.3 %idf = ( dog => 2.5, cat => 1.6, year => 3.3); $idf{ dog } = 2.5; $idf{ cat } = 1.6; $idf{ year } = 3.3; 9

%tf key value dog cat year %{$tf{ year }} キーが複数の場合 %{$tf{ dog }} というハッシュ %{$tf{ cat }} key2 value D001 10 D002 3 $tf{ dog }{ D002 } = 3; ハッシュの名前 $tf{key}{key2} key2 value D002 14 10

ハッシュの内容を出力するプログラムの例 キーが 1 つ foreach $term (sort keys %idf) { print $term $idf{$term} n ; } キーが 2 つ dog 2.5 cat 1.6... year 3.3... foreach $x (sort keys %{$tf{ dog }}) { print $x $tf{ dog }{$x} n ; } D001 10 D002 3... 11

演習 1 まず, 演習のページにある tf_idf.prl の内容を入力して実行せよ コピーペーストできない PDF ファイルなので, 全て自分で入力すること その方がプログラムをよく読むでしょう 印刷はできます 次に, 重み tf(t,d) idf(t) を計算して出力するように修正せよ 実際には, 最後の方に何行か追加すればよい 12

索引付けプログラムの実装 : 方針 索引付けの段階ごとにプログラムを作る 小さめのプログラムを複数作ることで, 実装を段階的に行う 大きなプログラムを作ると, 中間データの保存が煩雑になる うまく動かない場合に問題の所在が分かりづらい 複数のプログラムを連結させる方法 方法 1: 中間ファイルを作る 方法 2: パイプライン処理を行う 13

索引付けの手順概要 ( 復習 ) (1) 索引語の抽出 文字バイグラム, 単語, フレーズなど (2) 不要語の削除 (3) 接辞処理 (4) 索引語の重み付け 検索手法 ( 検索モデル ) によっては不要例えば, 論理式によるブーリアンモデルでは不要 (5) 索引ファイルの編成 extract.prl stopword.prl stemming.prl tf.prl idf.prl 14

連結方法 1: 中間ファイルを作る 文書群ファイル documents.txt 中間ファイルを確認しながら実装を進められる 索引ファイル index 本来不要なファイルがたくさんできる 入力 extract.prl stopword.prl stemming.prl tf.prl idf.prl 出力 chuukan1 chuukan2 chuukan3 chuukan4 中間ファイル % perl extract.prl documents.txt > chuukan1 % perl stopword.prl chuukan1 > chuukan2 % perl stemming.prl chuukan2 > chuukan3 % perl tf.prl chuukan3 > chuukan4 15 % perl idf.prl chuukan4 > index

連結方法 2: パイプライン処理を行う 文書群ファイル documents.txt 索引ファイル index 入力 extract.prl stopword.prl stemming.prl tf.prl idf.prl 出力入力 出力入力 出力入力出力入力 前のプログラムが標準出力に出したデータを次のプログラムが標準入力から受け取る 複数のコマンドを縦棒でつなぐ ( 改行せずに 1 行で書く ) % perl extract.prl documents.txt perl stopword.prl perl stemming.prl perl tf.prl perl idf.prl > index 16

参考 パイプライン処理を行い, かつ中間ファイルも作るには, tee というコマンドを間に挟む % perl extract.prl documents.txt tee chuukan1 perl stopword.prl ( 以下, 略 ) 上の例では,chuukan1 というファイルができる 17

文書群ファイルの形式 <DOC> <NUM>D001</NUM> <TEXT> He is a student. Students are student She is not a student. </TEXT> </DOC> <DOC> <NUM>D002</NUM> <TEXT> Two dogs are The dog is </TEXT> </DOC> <DOC> 1 つの文書 <NUM> 文書番号 <TEXT> 本文 英文の文書を対象とする 演習のページにある documents.txt を使うとよい 必要に応じて小さい ( または大きい ) ファイルを自分で作成してもよい 18

extract.prl の仕様 文書群ファイルを入力し, 空白を区切りとして索引語を抽出する 索引語を小文字に統一する 索引語の末尾に付いたカンマとピリオドを削除する 以下の形式で出力する D001 he D001 is D001 a D001 student D002 two D002 dogs 1 行に 文書番号索引語 文書番号と索引語は半角スペース 1 つで区切る 19

stopword.prl の仕様 extract.prl の出力を入力し, 不要語を削除する 不要語のリスト ( 自分で適宜追加してよい ) a, an, and, in, of, the D001 he D001 is D001 a D001 student D002 two D002 dogs D001 he D001 is D001 student D002 two D002 dogs 20

stemming.prl の仕様 stopword.prl の出力を入力し, 接辞処理を行う 接辞処理の規則 ( 自分で適宜追加してよい ) 複数形への対応 ( 末尾の s や es を削除 ) 過去形への対応 ( 末尾の ed を削除 ) 副作用が起きても気にしない D001 he D001 is D001 student D002 two D002 dogs D001 he D001 i D001 student D002 two D002 dog 21

tf.prl の仕様 stemming.prl の出力を入力し, 文書ごとに索引語の頻度 (TF) をかぞえる 文書総数をかぞえてファイルの先頭行に出力する D001 he D001 i D001 student D001 student 10 D001 student D001 he 1 D002 dog D001 i 1 D002 dog D001 student 3 D003 dog D002 dog 2 D003 dog 1 文書の総数 (IDF の計算に必要 ) 22

idf.prl の仕様 tf.prl の出力を入力し, 索引語のIDFを計算する TF IDFによって索引語の重みを計算する 文書の総数は出力しない 索引ファイルが完成 10 D001 he 1 D001 i 1 D001 student 3 D002 dog 2 D003 dog 1 D001 he 1 2.6 2.6 D001 i 1 1 1 D001 student 3 3.3 13.2 D002 dog 2 2.2 4.4 文書番号索引語 TF IDF 重み 23

演習 2 extract.prl から idf.prl まで一通り実装せよ 文書数や 1 文書の長さが異なるいろいろな文書群ファイルを使って動作確認せよ 終わった人は, 担当教員か TA の確認を受けること 確認が済んだら, 後半第 2 回のスライドを参考にして, オンライン処理のプログラムを実装せよ 今回作成した extract.prl, stopword.prl, stemming.prl をそのまま使えるように工夫せよ 24