テキストマイニングの登場 テキストデータのような定性データは 大量のデータ を分析することで安定した傾向が見いだせますが 人 手で大量のテキストデータを分析することは現実的に はほとんど不可能でした テキストマイニングの登場によって 大量のデータを 統一的な視点 基準から少ない労力で分析することが

Similar documents
自然言語は曖昧性だらけ! I saw a girl with a telescope 構文解析 ( パージング ) は構造的な曖昧性を解消 2

MeCab 汎用日本語形態素解析エンジン

<4D F736F F D20837D836A B92C795E294C581798AAF945C8E8E8CB189F090CD A2E646F63>

nlp1-12.key

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

TM2018 講習会資料 MTMineR を用いたテキストマイニングの基礎 同志社大学文化情報学研究科データサイエンス研究室 目次 1. イントロダクション テキストマイニングのプロセス 2. R 言語基礎 R 言語 環境 R データ型と構造 グラフィックスの作成 基礎統計解析 外部データ読み込み

目次 第 1 章はじめに 本ソフトの概要... 2 第 2 章インストール編 ソフトの動作環境を確認しましょう ソフトをコンピュータにセットアップしましょう 動作を確認しましょう コンピュータからアンインストー

グーグル検索マクロの使い方

財団法人日本科学技術連盟 2021 年 2 月 24 日 SQiP 研究会特別講演 人工知能による欠陥分類の次の挑戦 バグの自動修復技術の実用化に向け (2016 年度 SQiP 研究会発表論文 ) 数理科学アプローチを用いた客観的欠陥弁別法 ~ 外因欠陥の弁別方法とその効果 意義 ~ 2/17

目次 第 1 章はじめに 本ソフトの概要... 2 第 2 章インストール編 ソフトの動作環境を確認しましょう ソフトをコンピュータにセットアップしましょう 動作を確認しましょう コンピュータからアンインストー

“nice to meet you”

MQL4 と外部アプリの連携 ;( その 2) 別稿 2 amenbo the 3rd (C) 2011 amenbo the 3rd 構成要素別プログラム ; 日本語形態素解析プログラム ( 例 ) 本稿では テキスト データを形態素に分解する一番簡単と思われる 手法 を解説

PowerPoint2007基礎編

目次 1 はじめに 利用条件 動作環境 アドインのインストール アドインの操作方法 アドインの実行 Excel CSV の出力 テンプレートの作成 編集 テンプレートのレイアウト変更 特記

クイックマニュアル(利用者編)

自立語と付属語 文法的な面からもう少し詳しく解説します ひとつの文は複数の文節からなります 文 つなみ津波が文節 き来ます文節 そして 文節は自立語だけ あるいは自立語プラス付属語で構成されています つなみ津波 が 自 + 付 き来ます 自 自 自立語 付 付属語 自立語とはその語だけで意味を持ち

京都立石神井高等学校平成 31 年度教科 ( 外国語 ( 英語 ) ) 科目 ( 英語表現 Ⅱ ) 年間授業計 ( 標準 α) 教 科 : 外国語 ( 英語 ) 科目 : 英語表現 Ⅱ 単位数 : 2 単位 対象学年組 : 第 2 学年 A 組 ~G 組 教科担当者 :(A 組 : 岡本 松井 )(

スライド 1

PowerPoint2003基礎編

PowerPoint プレゼンテーション

<8B9E93738CF092CA904D94CC814090BF8B818F B D836A B B B816A2E786C73>

Kazasu アンケート機能 操作マニュアル 1

基本的な利用法

問題 1 次の文章は 作業環境について述べたものである を解答群 { } より選び その記号で答えよ にあてはまる適切なもの 設問 1. < 図 1>はルーラーの一部である 1に示されるインデントマーカーを移動することにより を設定することができる < 図 1> { ア. 1 行目のインデントイ.

日射スペクトルデータベース表示ソフト (VER-3) 操作マニュアル 平成 30 年 5 月 NEDO 新エネルギー部太陽光発電グループ 委託先一般財団法人日本気象協会

PRECOT WEB設定マニュアル

目次 第 1 章 インストール編 1. ATHENAをインストールする 2. ATHENAを起動する 第 2 章 HTML作成編 1. HTMLを新規作成する 2.各ボックス機能の使い方 3.パーツ 4.ボタン画像 CSSボタン 見出し テーブル 5.ファイル出力とアップロード 6.ライブラリ 7.

Rを使うための準備

Proselfの利用方法

スライド 1

SAS_user_2015_fukiya01

◎phpapi.indd

Jupyter Notebook を活用したプログラムライブラリ構築の検討 吹谷芳博 1, 藤澤正樹 1 ( 1 あすか製薬株式会社 ) Examination of the program library construction using Jupyter Notebook ASKA Pharm

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

いきなりPDFtoDataVer.4

IPPO - 校内研修支援プログラム - 使用説明書 目次 項 目 ページ 1 プログラム利用の準備 この説明書の記述について プログラムの動作環境等 プログラムファイルのコピー プログラムファイルの起動 4 2 プログラムファイルの利用

4 学習の活動 単元 Lesson 1 (2 時間 ) 主語の決定 / 見えない主語の発見 / 主語の it 外国語表現の能力 適切な主語を選択し英文を書くことができる 外国語理解の能力 日本の年中行事に関する内容の英文を読んで理解できる 言語や文化についての知識 理解 適切な主語を選択 練習問題の

団体専用ページログイン認証について ログインする 1 メールアドレス パスワードを登録し ログインする ボタンを押してお進みください メールアドレスは 団体受験利用申請時に登録されたメールアドレスとなります その際 協会より発行されたパスワードをご利用ください 団体 ID パスワードをお忘れの方 2

EPSON GT-S620/GT-F720 活用+サポートガイド

Word2013基礎 基本操作

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

Microsoft PowerPoint - 簡易マニュアル_ver1.1.ppt [互換モード]

文字入力60 キーボードについて IS11N では 画面に表示された ATOK のキーボードを使って文字を入力します キーボードは画面上の文字入力エリアをタップすると表示され M を長押しすると非表示になります ATOK には 2 種類のキーボードが用意されています テンキーキーボード一般的な携帯電

メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right

XMLとXSLT

目次 2 トップ画面の説明 設定画面を開きます iphoneなどの連絡先 ( アドレス帳 ) をバックアップ 復元します アプリ内のデータを表示します USBメモリー内のデータを表示します Dropboxと連携し Dropboxのデータを表示します 各

フローチャート自動生成ツール yflowgen の使い方 目次 1 はじめに 本ツールの機能 yflowgen.exe の使い方 yflowgen.exe の実行方法 制限事項 生成したファイル (gml ファイル形式 ) の開

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

プログラミング実習I

Microsoft Word - ラベルマイティStep1.doc

Microsoft PowerPoint - mp11-06.pptx

文字コード略歴 よこやままさふみ社内勉強会 2012/05/18 文字コード略歴 Powered by Rabbit 2.0.6

●コンテンツ「FAQ」

Canon Mobile Scanning MEAP Application インストールについて

Transcription:

テキストマイニングの登場 テキストデータのような定性データは 大量のデータ を分析することで安定した傾向が見いだせますが 人 手で大量のテキストデータを分析することは現実的に はほとんど不可能でした テキストマイニングの登場によって 大量のデータを 統一的な視点 基準から少ない労力で分析することが 可能になりました テキストマイニングは 世の中で流行っている話題 や 人々のニーズや不満を定量的に把握する手段とし て徐々に使われ始めています 2

テキストマイニングの主な基盤技術 自然言語処理 - 形態素解析 構文解析 統計解析 - 多変量解析 仮説検定 データマイニング - 分類器 予測器 3

テキストマイニングの内側 テキストマイニングの処理は 前処理 と 後処理 に大別できます 前処理 テキストデータならではの処理 - 語の切り出しと集計 - これが面倒 後処理 多変量解析やデータマイニングと同じ処理 - 集計データの統計処理 - 従来の手法が流用できます 4

テキストデータの特徴 (1/4) 語彙や表現の揺れ 漢字 仮名 カタカナ 大文字と 小文字 全角と半角 誤字 新語 が多い - 内閣総理大臣 と 首相 - 打ち合わせ と 打合せ - インタフェース と インタフェイス - 税金 と 血税 - スナナレ もしドラ - ドコモ と DoCoMo と docomo 5

テキストデータの特徴 (2/4) 日本語は文法も曖昧 - クロールで泳いでいる彼女を見た - 望遠鏡で泳いでいる彼女を見た - プールで泳いでいる彼女を見た - 先生とお酒を飲む - ビールとお酒を飲む 6

テキストデータの特徴 (3/4) 語の境界に曖昧性がある - そこではきものをぬげ そこで/はきもの/を/ぬげ そこでは/きもの/を/ぬげ うなぎ文 - ぼくはウナギだ こんにゃく文 - こんにゃくは太らない 7

テキストデータの特徴 (4/4) 意味の文脈依存性 - 学校で遊ぶ このときの 学校 は場所としての学校 - 学校が談話を発表した このときの 学校 は法人的側面を表す 8

形態素解析 形態素解析は 自然言語で書かれた文章を語 形態 素 に分割する処理のことです Chasen (奈良先端大) MeCab (工藤拓氏) JUMAN (京都大学) が公開しているオープンソースのソフト ウェアが有名です 新聞記事を対象とした場合の精度は99%以上ですが 話し言葉を対象とすると精度は下がります それでも 十分実用的な精度です 常に新しい言葉が生まれているので 未知語 辞書に 載っていない語 問題はなかなかやっかいです 9

形態素解析の実行例 親譲りの無鉄砲で子供の時から損ばかりしてい る を MeCab にかけた結果です 親譲り 名詞,一般,*,*,*,*,親譲り,オヤユズリ,オヤユズリ の 助詞,連体化,*,*,*,*,の,ノ,ノ 無鉄砲 名詞,一般,*,*,*,*,無鉄砲,ムテッポウ,ムテッポー で 助詞,格助詞,一般,*,*,*,で,デ,デ 子供 名詞,一般,*,*,*,*,子供,コドモ,コドモ の 助詞,連体化,*,*,*,*,の,ノ,ノ 時 名詞,非自立,副詞可能,*,*,*,時,トキ,トキ から 助詞,格助詞,一般,*,*,*,から,カラ,カラ 損 名詞,一般,*,*,*,*,損,ソン,ソン ばかり 助詞,副助詞,*,*,*,*,ばかり,バカリ,バカリ し 動詞,自立,*,*,サ変 スル,連用形,する,シ,シ て 助詞,接続助詞,*,*,*,*,て,テ,テ いる 動詞,非自立,*,*,一段,基本形,いる,イル,イル 記号,句点,*,*,*,*,,, 10

機能語と内容語 語は 助詞や助動詞といった 機能語 と 名詞 形 容詞 動詞 副詞といった 内容語 に大別できます 機能語は それ単体では意味を持たない語なので 文 章の内容を理解する際の助けにはなりません 内容語は 名称 性質 動作 状況など 文章の内容 の一部を表しているので 内容を理解する際の助けに なります しかし 名詞と結びつかないと意味が特定 できない場合が多いです したがって 名詞は必須で 分析の目的に応じて形容 詞 副詞 動詞を用いることが多いです 11

未知語について 形態素解析器の辞書に登録されていない語は 未知 語 として出力されます 未知語の品詞推定は研究レベルでは実装されています が まだ実用レベルには達していません 未知語は 単なるゴミであることも多いのですが 世 の中の流行を反映した 新しい語 例えば 婚活 や H1N1 など が含まれていることもあるので油 断なりません なので 取り敢えず未知語は分析対象に加えて 不便 があれば臨機応変に対応することが多いです 12

構文解析 構文解析は 語と語の係り受け関係を分析する処理の ことです CaboCha (工藤拓氏) KNP (京都大学) が公開してい るオープンソースのソフトウェアが有名です 新聞記事を対象とした場合でも精度は80%くらいです が 確からしい結果だけを利用すれば十分使えます 特定の語と関係する語 例えば 美味しい の係り 受け先など を見たいときなど 用途を限定した場合 にも十分使えます 13

構文解析の実行結果 親譲りの無鉄砲で子供の時から損ばかりしてい る を CaboCha にかけた結果です 親譲りの-D 無鉄砲で-------D 子供の-D 時から---D 損ばかり-D している 14

の紹介 形態素解析は分かった 構文解析も分かった それ で どうすればいいの という皆さんの心の声に答 えるために を作りました はテキストデータを形態素解析器 構文解析器に かけて その分析結果を読み込んで集計し CSVファ イルを出力するフリーウェアです はテキストマイニングの前処理に特化しています ので ここまでしか行いません 後処理は みなさん の使い慣れたソフトウェアに読み込ませて 好きなよ うに分析してもらいたいと思っています 15

のスクリーンショット (1/2) 16

のスクリーンショット (2/2) 17

の特徴 (1/4) CSV 形式の タグ付きテキスト を読み込みます 18

の特徴 (2/4) キーワード 同義語 不要語を指定できます 19

の特徴 (3/4) 品詞 係り受け解析 閾値 英文の設定もできます 20

の特徴 (4/4) 6種類の出力ファイルを提供します 21

のインストール Windows版とMac OSX版 10.5以降 があります 形態素解析を実行するためのソフトウェア MeCabを 別途インストールする必要があります 構文解析を行 うときは CaboCha もインストールします 詳細は http://mtmr.jp/ttm/ をご覧ください Mac OSX版はOS内蔵のMeCabを使いますので MeCabを別途インストールする必要はありません http://mtmr.jp/ttm/ から ttm.exe をダウンロードす るだけで 本体のインストールは終わりです 22

サンプルデータ test.csv 三浦麻子先生のゼミに所属する16名 男女8名ずつ の大学生が 三浦先生ってどんな人 という質問に 対して自由に記述した文章 http://mtmr.jp/ttm/test.csv からDLできます 23

test.csv の内容 24

分析条件 次の条件で で test.csv を分析してみましょう - 出力する品詞は 名詞 形容詞 - オプションファイルは 設定せず - 出現頻度/出現件数の最小値は 0 25

test_ttm1.csv 語のタグ別集計 出現頻度 26

test_ttm2.csv 語のタグ別集計 出現件数 27

test_ttm3.csv 語 タグのクロス集計 出現頻度 28

test_ttm4.csv 語 タグのクロス集計 出現件数 29

test_ttm5.csv 語 語のクロス集計 出現件数 30

test_ttm6.csv テキスト 語のクロス集計 出現件数 31

を使ってみます 統計解析のフリーソフトウェアです 形態素解析や構文解析を行うパッケージもあります いろんな人が便利な関数やパッケージを公開している (2009年6月17日現在 CRANには1849ものパッ ケージが登録されています ので コレ一つで大抵の ことはできます データマイニングのパッケージもあります たくさんの書籍が出版されているので マニュアルも 充実しています 32

test_ttm5.csvを編集 2行目と2列目を削除 33

共起グラフの描画 34

キーワード 36

データマイニングのフリーソフトウェアです GUIなので操作も簡単 代表的なデータマイニングのアルゴリズムはほとんど 使えます 最近はKNIMEやRapidMinerといったデータマイニン グのフリーソフトウェアもあります 37

test_ttm6.csvを編集 2行目と1列目を削除 38

おまけ テキストデータの収集ソフト TTC (TinyTweetCrawler) http://mtmr.jp/ttc/ TWC (TinyWebCrawler) http://mtmr.jp/twc/ 41

まとめ テキストマイニング 前処理 多変量解析 or データマイニング テキストマイニングは語や表現の揺れが大きいので それを如何に吸収するかが重要になります 前処理さえ済めば あとはRやWekaといった各自の 得意な土俵に持ち込んで勝負すればいいのです テキストマイニング恐るるに足らず 42

宣伝 人文 社会科学のためのテキストマイニング 松村真宏 三浦麻子著 誠信書房 (2009) 2,520円 目次 第1章 第2章 第3章 第4章 第5章 第6章 第7章 序 TTMと関連ソフトウェアのインストール TTMによるテキストデータの分析 Rを併用したテキストデータの統計解析 Wekaを併用したテキストデータのデータマイニング テキストマイニングの応用事例 テキストマイニングの基盤技術 43