3.BCCWJ における固有表現抽出のエラー分析手法 3.1 BCCWJ における KNP のエラー分析今回エラーの分析をするにあたって BCCWJ のうち YAHOO! 知恵袋 白書 YAHOO! ブログ 書籍 雑誌 新聞 の 6 つからランダムサンプリングした計 136 個のテキストに対して人手
|
|
|
- みそら ひろなが
- 9 years ago
- Views:
Transcription
1 BCCWJ における固有表現抽出のエラー分析 市原正陽 ( 茨城大学工学部情報工学科 ) 山崎舞子 ( 東京工業大学大学院総合理工学研究科 ) 古宮嘉那子 ( 茨城大学工学部情報工学科 ) Error Analysis of Named Entity Extraction in BCCWJ Masaaki Ichihara(Department of Computer and Information Sciences, Ibaraki University) Maiko Yamazaki(InterdisciplinaryGraduate School of Science and Engineering, Tokyo Institute of Technology) Kanako Komiya(Department of Computer and Information Sciences, Ibaraki University) 要旨テキスト中に含まれる固有表現を正しく認識することは, 自然言語で書かれたテキストに含まれる情報を誤りなく取得するうえで必要である. よって, 本研究では 現代日本語書き言葉均衡コーパス よりランダムサンプリングをしたテキストを京都大学の 日本語構文 格 照応解析システム KNP にかけ, その結果に含まれるエラーの分析を行った. 分析結果から, KNP の固有表現抽出機能が固有表現の抽出を誤るのは, 形態素解析や構文解析の誤り, 辞書の知識不足が大きな要因と考えられることが分かった. 1. はじめに固有表現抽出とは, テキストの中から人名や地名, 商品名などの固有表現を自動的に抽出する処理である. しかし, 誤った情報を抽出することや, 本来抽出したい固有表現が抽出できないことがままある. そのため, 本稿では, 現在の固有表現抽出システムを使用して得られたエラーに対してエラー分析を行う. 2. 使用システムおよび使用コーパス日本語のコーパスとして 現代日本語書き言葉均衡コーパス (BCCWJ)(Maekawa (2008)) を用いる. システムは固有表現を抽出するために 日本語構文 格 照応解析システム KNP 1 (KNP) を使用する.KNP では CRF を用いた系列ラベリングに基づいて固有表現の解析を行っている. また KNP では, 固有表現抽出を行う際の素性として形態素情報のほかに キャッシュ素性 や 係り先素性 などを使用している ( 笹野ら (2008)). また, 本研究では固有表現を分類するために Information Retrieval and Extraction Exercise 2 (IREX) で定義された組織名, 人名, 地名, 固有物名, 日付表現, 時間表現, 金額表現, 割合表現, オプショナルの 9 つの固有表現を使用した
2 3.BCCWJ における固有表現抽出のエラー分析手法 3.1 BCCWJ における KNP のエラー分析今回エラーの分析をするにあたって BCCWJ のうち YAHOO! 知恵袋 白書 YAHOO! ブログ 書籍 雑誌 新聞 の 6 つからランダムサンプリングした計 136 個のテキストに対して人手によって IREX で定義された 9 つの固有表現タグを付けた. これを正解として比較を行っていく. また, KNP の固有表現の解析を行うオプションである-ne を使うことで, それらのテキストの平文から固有表現タグの付いた平文を出力した. その後, それらの人手と KNP のタグが付けられたテキストのペアを比較することでエラーに対して分析を行った. 3.2 BCCWJ コーパスへの IREX のタグ付け IREX の固有表現タグの人手による付与は, テキストを 5 分割したものに対して Project Next NLP の NE のタスクのメンバー 5 人がそれぞれタグ付けを行った.5 分割したテキスト群のうちの一つを対象とする時にはそれぞれ hi ichi iwa ko ta とする. 3.3 BCCWJ コーパスにおけるエラー抽出人の手によってタグの付けられたテキストと KNP によってタグの付けられたテキストの比較を行い, エラーの種類によって分類して分析を行った. 4.BCCWJ における固有表現抽出のエラー結果 4.1 KNP が付与したタグの正解率 表 1 に KNP の付けたタグ全体の正解していた数, 不正解していた数と正解の割合を示す. 表 1 固有表現の正解不正解の内訳 正解 不正解 総数 正解率 hi % ichi % iwa % ko % ta % 総数 % KNP の付けた固有表現タグは半分以上が人手で付けたものと一致した. 4.2 タグの範囲に対する分析 タグの範囲に対する分類として, 以下の 5 種類に分類を行った. KNP なし :KNP は固有表現として抽出しなかったが, 正解は固有表現だったもの人手なし :KNP は固有表現として抽出したが, 正解は固有表現ではなかったもの範囲別 :KNP は固有表現として抽出したが, 正解と固有表現の範囲だけが異なっていたものタグ別 :KNP は固有表現として抽出したが, 正解と固有表現の種類だけが異なっていたもの両方別 :KNP は固有表現として抽出したが, 正解と固有表現の範囲, 種類がともに異なっていたもの 56
3 比較方法としては文字位置が人手で付けたタグの範囲よりも KNP が狭い範囲でタグをつけていたもの, 人手で付けたタグの範囲よりも KNP が広い範囲でタグをつけていたもの, 人手で付けたタグの範囲と KNP が付けたタグの範囲が一部分だけ被っているものは, それぞれ別々のエラーとしてカウントした. そのため一方では一つの固有表現としてタグが付けられたものが, もう一方では分割されて固有表現としてタグが付けられていた場合, 分割されている方の数だけエラーとしてカウントされている. その例を図 1 として以下に示す. 図 1 人手で付けた固有表現が KNP の出力した固有表現の中に 2 つ入っている例 図 1 と同様に KNP の出力した固有表現が人手で付けた固有表現の内側に入っていても, 同じように分割されている方をカウントする. KNP の付けたタグと人手で付けたタグの比較を行った結果を表 2 に示す. 表 2 KNP のエラーの内訳 KNP なし 人手なし 範囲別 タグ別 両方別 エラー総数 hi ichi iwa ko ta 総数 結果から,5 分割したすべてにおいて,KNP がタグをつけられていないエラーの数が最も多く, 全体の半分以上のエラーがこれに含まれていた. 次に多かったのは, タグは同様のものが付けられているが, 付けられている範囲が異なっているものだった. このうち, 一部分だけが被っているエラーはごく少数で, その内のほとんどは人手で付けたタグの範囲の方が広かった. 4.3 KNP が誤って付けたタグに対する分析表 3 には KNP がタグを付けた中で, 人手で付けたものと違っていたものの内訳を示す. 表 3 にある 8 つの固有表現タグは,KNP によって付けられていた固有表現タグである. ORG:ORGANIZATION, 組織名, 政府組織名を表す PERS:PERSON, 人名を表す LOC:LOCATION, 地名を表す ART:ARTIFACT, 固有物名を表す DATE:DATE, 日付表現を表す TIME:TIME, 時間表現を表す MONEY:MONEY, 金額表現を表す PERC:PERCENT, 割合表現を表す 57
4 表 3 タグごとの内訳 ORG PERS LOC ART DATE TIME MONEY PERC 総数 hi ichi iwa ko ta 総数 この結果から, TIME MONEY PERCENT に関しては,KNP は間違って固有表現タグを付けることが少ないことがわかる. また, ARTIFACT や DATE に関しても誤っているものがあるが, 合わせて KNP が誤って固有表現タグを付けたもののうち 3 割に満たなかった. そして,KNP が固有表現タグを付けた誤りのうち ORGANIZATION PERSON LOCATION の 3 つが, 誤りの大部分を占めていることが分かった. 5.KNP が固有表現タグを付与できなかったエラーに対する分析表 2 から分かるように KNP が固有表現のタグを付ける際に出るエラーの中で最も数が多いのは,KNP が固有表現のタグを付けられないエラーだったため, それに関して分析を行った. 5.1 各タスクのエラーの割合今回エラーを取得するために使用したテキストは BCCWJ のコアデータである OC OW OY PB PM PN の 6 つで, それぞれ YAHOO! 知恵袋 白書 YAHOO! ブログ 書籍 雑誌 新聞 の 6 つのタスクから取得されたものである. それらのタスクごとのエラーの割合を表 4 に示す. タグ無 :KNP がタグを付けなかったエラーの数 タグ有 :KNP がタグを付けたエラーの数 ( 範囲の間違い, タグの間違いも含む ) タグ無割合 : 不正解の合計数に対する KNP がタグを付けなかったエラーの割合 3 表 4 タスクごとのエラーの割合 all 正解タグ無タグ有合計不正解の合計タグ無割合文書数 YAHOO! 知恵袋 % 74 白書 % 8 YAHOO! ブログ % 34 書籍 % 5 雑誌 % 2 新聞 % 13 合計 % 表 3 ではタグの付けられたエラーの総数が 565 個だったものが表 4 では 550 個になっているのは, 表 1 では人手と KNP 両方からみたエラーの数を表おり, 表 4 では KNP のエラーに関してのみ注目しているため. 58
5 表 4 で文書数と合計数に比例関係がないのは, 一つの文書内にある文字数がジャンルによって大きく異なるためである. また, それぞれのジャンルの内 YAHOO! 知恵袋 が最も不正解の中でタグを付けられないエラーの割合が多く, 逆に 雑誌 が一番タグを付けられないエラーの割合が低かった. 5.2 各タスクの正解率 YAHOO! 知恵袋 書籍 YAHOO! ブログ 書籍 雑誌 新聞 それぞれの正解率と全体の合計に対するタグ無の割合を表 5 に示す. タグ無割合 : 正解, 不正解両方の合計数に対する KNP がタグを付けなかったエラーの割合 表 5 タスクごとの正解率とタグ無の割合 all 正解率 タグ無割合 精度 再現率 F 値 YAHOO! 知恵袋 40.00% 44.21% 71.70% 43.93% 54.48% 白書 58.73% 20.63% 74.00% 63.35% 68.27% YAHOO! ブログ 50.74% 27.89% 70.37% 55.70% 62.18% 書籍 50.35% 28.07% 70.00% 52.54% 60.03% 雑誌 53.45% 14.66% 62.63% 57.76% 60.10% 新聞 72.27% 15.49% 85.52% 73.80% 79.23% 合計 58.26% 22.10% 74.79% 61.79% 67.68% 表 5 から分かるように 新聞 の正解率が一番高かった. また YAHOO! 知恵袋 の正解率が一番低く, そのほかのタスクの正解率はその 2 つと比べると, 正解率の差は少なかった. 新聞 の正解率が一番高かったのは,KNP は毎日新聞データを訓練事例としているためだと考えられる. また, YAHOO! 知恵袋 のタスクが 6 つのタスクの中で最も正解率が低いのは, 新聞と文体が遠いからではないかと考えられる. また, 正解, 不正解の内のタグ無の割合は 雑誌 の割合が最も低く, YAHOO! 知恵袋 の割合が最も高かった. 5.3 固有表現タグの付けられなかった形態素の分析表 5 の正解率から, 最も割合の低かった YAHOO! 知恵袋 と最も割合の高かった 新聞 に含まれる形態素に対して分析を行った YAHOO! 知恵袋 内の固有表現タグの付けられなかった形態素の分析 ⅰ. 商品名やキャラクター名が取れない事が多い. 実際に取れなかった商品名やキャラクター名, 薬品名の一部 サクラ大戦 スーパーファミコン アクトレイザー バイオハザード 4 仮面ライダー ウルトラマン ガンダム ミノスタシン アスピリン ⅱ. 略されたものが取れない. ⅰの影響が強いのかもしれないが, 略された商品名も取れていない. スーパーマリオワールドは取れてマリオワールドは取れない GC( ニンテンドーゲームキューブ ) JNB( ジャパンネット銀行 ) LA( ロサンゼルス ) ⅲ. 特殊な日付の表現が取れない. 九十/ 十一 / 二十一 59
6 ⅳ. ひらがなで表記されていると誤って解析してしまう 知恵ぶくらー さとし と記述されたファイルがあり, 本来 さとし は PERSON と取って欲しいのだが, 動詞の 悟る として解析されていた. ⅴ. 略称でなくてもアルファベットやアラビア数字と組み合わさったものが取れない PS2 ISDN JR(JR 西となった部分は正しく取れていた ) Outlook Express 新聞 内の固有表現タグの付けられなかった形態素の分析 Ⅰ. 基本的に取れないものがある 半 ~( 時間表現など様々 ) ~ 圏 ( 首都圏, 三大都市圏 ) ~ 地域 ~ポイント 同 ~( 同 ~ 年, 同日, 同年秋 ) 半日や首都圏, ユーロ地域などが誤りとして確認でき, 正解には含まれていなかった. ただし, 半分は PERCENT として取得できていた. Ⅱ. 英語や日本語などを OPTIONAL として取れなかった. 本来 <OPTIONAL> 英 </OPTIONAL> 語 <OPTIONAL> 日本 </OPTIONAL> 語 のように取れてほしい. しかしそもそも KNP の機能として OPTIONAL と付ける機能はない. Ⅲ. 英語表記で書かれることが少ないものが取れなかった KOERA JAPAN Ⅳ. 付近にその形態素に関する情報があっても ( があると取れなかった. フェニックス(<LOCATION> 米アリゾナ州 </LOCATION>) Ⅴ. 一般名詞やそれが組み合わさったようなものは取れないことが多かった. ⅰ( 商品名やキャラクター名が取れないことが多い ) の原因も同様である可能性がある 昼寝 ザウルス ファミリーマート シャープ ルネサンス ( ソフトバンクが取れている所と取れていないところがあった. 取れているものはガ格に, 取れていないものは文節内と解析されていた.) 6. 考察分析から,KNP の固有表現抽出機能が固有表現の抽出を誤るのは, 形態素解析や構文解析の誤り, 辞書の知識不足が大きな要因と考えられる. 特に固有物名 (ARTIFACT) は商品名などが対象となるため, 他の固有表現より造語が分類されやすく, その場合一般名詞の組み合わされたパターンが分類される可能性が高いと考えられる. そのため KNP の場合先行文脈やその単語に対する係り受けの関係などからその単語が固有表現なのか推察しなければならず, 正しい構文解析は重要である. また, 構文解析するにあたっても新聞などより口語的なものを扱う可能性も十分あり, そういった場合, 助詞が抜けている事などが構文解析の妨げとなる事は多いと推察できる. そのため, 新聞とは書かれ方の大きく異なる文書からも学習することで, 特定ジャンルでない文書から固有表現を抽出しようとする場合効果的である可能性が高い. また, 取ることのできなかった固有表現の大半が wikipedia などネット上に情報があることが確認できたため, それらを辞書に取りこむことでより正確な固有表現抽出の実現が期待できる. 60
7 謝辞本研究は, 文部科学省科学研究費補助金 [ 若手 B(No: )] の助成により行われました. ここに, 謹んで御礼申し上げます. また,KNP についての質問に快く答えてくださった, 東京工業大学の笹野遼平先生に謹んで御礼申し上げます. また,Project Next NLP の NE 班の班長である岩倉友哉先生をはじめ, 班員の皆様方には多くのご協力をいただきました. 謹んで御礼申し上げます. 参考文献 [1] 笹野遼平, 黒橋禎夫 (2008) 大域的情報を用いた日本語固有表現認識 情報処理学会論文誌,Vol.49No.11,pp [2] 笹野遼平, 河原大輔, 黒橋禎夫, 奥村学 (2013) 構文 述語項構造解析システム KNP の解析の流れと特徴 言語処理学会, 第 19 回年次大会発表論文集,pp [3] Kikuo Maekawa(2008). Balanced corpus of contempo-rary written japanese. In ALR 2008, pp
8 付録 今回対象とした BCCWJ のコアデータ内の 136 ファイル OC01_00001 OC01_00002 OC01_00003 OC01_00004 OC01_00005 OC01_00006 OC01_00007 OC02_00001 OC02_00002 OC02_00003 OC02_00004 OC02_00006 OC02_00007 OC02_00008 OC03_00001 OC03_00005 OC04_00001 OC04_00002 OC04_00003 OC05_00001 OC05_00003 OC05_00004 OC05_00006 OC06_00001 OC06_00008 OC08_00001 OC08_00002 OC08_00004 OC08_00006 OC09_00001 OC09_00002 OC09_00003 OC09_00004 OC09_00006 OC09_00008 YAHOO! OC10_00001 OC10_00003 OC10_00005 OC10_00006 OC10_00007 知恵袋 OC11_00001 OC11_00002 OC11_00004 OC11_00005 OC11_00006 OC11_00007 OC12_00002 OC12_00003 OC12_00004 OC12_00005 OC12_00006 OC12_00007 OC12_00008 OC13_00001 OC13_00002 OC13_00003 OC13_00004 OC13_00005 OC13_00006 OC13_00007 OC13_00008 OC14_00001 OC14_00003 OC14_00004 OC14_00005 OC14_00006 OC14_00007 OC14_00008 OC15_00001 OC15_00002 OC15_00004 OC15_00006 OC15_00007 OC15_00008 白書 OW6X_00000 OW6X_00002 OW6X_00003 OW6X_00007 OW6X_00008 OW6X_00009 OW6X_00011 OW6X_00013 OY01_00082 OY01_00137 OY01_00148 OY01_00185 OY02_00095 YAHOO! OY04_00001 OY04_00027 OY04_00173 OY06_00060 OY06_00146 ブログ OY06_00168 OY07_00097 OY07_00135 OY07_00164 OY08_00115 OY08_00137 OY08_00156 書籍 PB11_00006 PB12_00001 PB22_00002 PB43_00001 PB59_00001 雑誌 PM11_00002 PM24_00003 PN1a_00002 PN1d_00001 PN1d_00002 PN1f_00002 PN1g_00002 新聞 PN2c_00002 PN2g_00002 PN3b_00001 PN3c_00002 PN4b_00001 PN4c_00001 PN4c_00002 PN4f_
言語資源活用ワークショップ 2019 発表論文集 半教師あり語義曖昧性解消における各ジャンルの語義なし用例文の利用 谷田部梨恵 ( 茨城大学大学院理工学研究科 ) 佐々木稔 ( 茨城大学工学部情報工学科 ) Semi-Supervised Word Sense Disambiguation Usin
半教師あり語義曖昧性解消における各ジャンルの語義なし用例文の利用 谷田部梨恵 ( 茨城大学大学院理工学研究科 ) 佐々木稔 ( 茨城大学工学部情報工学科 ) Semi-Supervised Word Sense Disambiguation Using Unlabeled Examples of Each Genre Rie Yatabe (Ibaraki University) Minoru Sasaki
コーパスを用いた中国語ネット語の判定システム 竇梓瑜 ( 東京農工大学工学府情報工学専攻 ) 古宮嘉那子 ( 東京農工大学工学研究院先端情報科学部門 ) 小谷善行 ( 東京農工大学工学研究院先端情報科学部門 ) A Detection System of Chinese Netspeak Using
コーパスを用いた中国語ネット語の判定システム 竇梓瑜 ( 東京農工大学工学府情報工学専攻 ) 古宮嘉那子 ( 東京農工大学工学研究院先端情報科学部門 ) 小谷善行 ( 東京農工大学工学研究院先端情報科学部門 ) A Detection System of Chinese Netspeak Using Text Corpus Ziyu Dou(Graduate School of Engineering,
コーパスに基づく言語学教育研究報告 8
No.82012 5 5 1. 2. 2009 BCCWJ 2007 1 12 BCCWJ Yahoo! BCCWJ 57,807 4,459 5,110 854 1,500 Yahoo! 45,725 159 57,807 2009 3. 1 2 3 X A 3 20102011 1 2 X A 1 X X X X X A 2 1 X A 3 1 1 2 3 2 http://mainet.ath.cx/bbs/sst/sst.php?act=dump&cate=hxh&all=2035&n=2
(Microsoft Word - JCLWorkshop2013_2\214\303\213{.doc)
分類器の確信度確信度を用いたいた合議制合議制によるによる語義曖昧性解消語義曖昧性解消の unsupervised な領域適応 古宮嘉那子 ( 東京農工大学工学研究院 ) 奥村学 ( 東京工業大学精密工学研究所 ) 小谷善行 ( 東京農工大学工学研究院 ) Unsupervised Domain Adaptation in Word Sense Disambiguation Based upon the
Microsoft PowerPoint LRW.pptx
Reading Time Balanced Corpus Corpus Annotation Data 文節 文 画面 A 470 66 19 B 455 67 21 C 355 44 16 D 363 41 15 Group 視線走査法自己ペース読文法 1 A 境界なし B 境界あり C 境界なし D 境界あり 2 A 境界あり B 境界なし C 境界あり D 境界なし 3 C 境界なし
nlp1-12.key
自然言語処理論 I 12. テキスト処理 ( 文字列照合と検索 ) 情報検索 information retrieval (IR) 広義の情報検索 情報源からユーザの持つ問題 ( 情報要求 ) を解決できる情報を見つけ出すこと 狭義の情報検索 文書集合の中から ユーザの検索質問に適合する文書を見つけ出すこと 適合文書 : 検索質問の答えが書いてある文書 テキスト検索 (text retrieval)
演習 レシピテキストの係り受け解析
実習 : レシピの言語処理の現状 京都大学 笹田鉄郎 前田浩邦 森信介 2013 年 8 月 18 日 1 公開に際しての注意 必要環境 Perl KyTea Eda Firefox (ver. 14.0.1 以前のバージョン ) 著作権の関係上 係り受け解析の実習で利用した学習コーパスを公開することはできません ご了承ください 目次 1. はじめに 2. 注意事項 3. アノテーション支援ツールPNAT
スライド 1
2009 年度 VMStudio & TMStudio 学生研究奨励賞 テキストマイニングツールを 利用した視線データの分析 東京大学大学院工学系研究科 白山研究室 江川陽 樋渡哲郎 1 目次 背景 目的 手法 実験 結果 考察 結論 2 背景 : 視線分析とは 視線分析とは 人間の視線の移動軌跡や分布 ( 視線データ ) を計測 分析することにより 人の認知処理を観察 解明するための手法 近年,
表紙.indd
教育実践学研究 23,2018 1 Studies of Educational Psychology for Children (Adults) with Intellectual Disabilities * 鳥海順子 TORIUMI Junko 要約 : 本研究では, の動向を把握するために, 日本特殊教育学会における過去 25 年間の学会発表論文について分析を行った 具体的には, 日本特殊教育学会の1982
corpus.indd
22 JC-D-10-02 23 2 c 2011 21 1 I BCCWJ 3 1 BCCWJ 5 1.1 BCCWJ 3..................... 5 1.2 BCCWJ 2...................... 6 2 3 SC 7 2.1 SC SC............. 7 2.1.1 SC SC................... 7 2.1.2......................
Java Scriptプログラミング入門 3.6~ 茨城大学工学部情報工学科 08T4018Y 小幡智裕
Java Script プログラミング入門 3-6~3-7 茨城大学工学部情報工学科 08T4018Y 小幡智裕 3-6 組み込み関数 組み込み関数とは JavaScript の内部にあらかじめ用意されている関数のこと ユーザ定義の関数と同様に 関数名のみで呼び出すことができる 3-6-1 文字列を式として評価する関数 eval() 関数 引数 : string 式として評価する文字列 戻り値 :
¥ì¥·¥Ô¤Î¸À¸ì½èÍý¤Î¸½¾õ
2013 8 18 Table of Contents = + 1. 2. 3. 4. 5. etc. 1. ( + + ( )) 2. :,,,,,, (MUC 1 ) 3. 4. (subj: person, i-obj: org. ) 1 Message Understanding Conference ( ) UGC 2 ( ) : : 2 User-Generated Content [
日本語「~ておく」の用法について
論文要旨 日本語 ~ ておく の用法について 全体構造及び意味構造を中心に 4D502 徐梓競 第一章はじめに研究背景 目的 方法本論文は 一見単純に見られる ~ておく の用法に関して その複雑な用法とその全体構造 及び意味構造について分析 考察を行ったものである 研究方法としては 各種辞書 文法辞典 参考書 教科書 先行研究として ~ておく の用法についてどのようなもの挙げ どのようにまとめているかをできる得る限り詳細に
A Japanese Word Dependency Corpus ÆüËܸì¤Îñ¸ì·¸¤ê¼õ¤±¥³¡¼¥Ñ¥¹
A Japanese Word Dependency Corpus 2015 3 18 Special thanks to NTT CS, 1 /27 Bunsetsu? What is it? ( ) Cf. CoNLL Multilingual Dependency Parsing [Buchholz+ 2006] (, Penn Treebank [Marcus 93]) 2 /27 1. 2.
Bluemix いつでもWebinarシリーズ 第15回 「Bluemix概説(改訂版)」
IBM Bluemix オンラインセミナー Bluemix いつでも Webinar シリーズ第 19 回 AlchemyAPI 日本アイ ビー エムシステムズ エンジニアリング株式会社 ソフトウェア開発ソリューション 佐藤大輔 本日のご説明内容 AlchemyAPI とは AlchemyAPI デモ AlchemyAPI の使い方 まとめ 2 AlchemyAPI とは 3 AlchemyAPI
3. データ本発表では 2011 年 12 月にリリースされた 現代日本語書き言葉均衡コーパス の DVD 版を使用した Disk1 の M-XML フォルダに含まれる xml ファイルが対象である この xml ファイルは可変長サンプルと固定長サンプルを統合したもので 短単位 長単位の形態論情報の
共起語率の分布からみるテキストの語彙的特徴 山崎誠 ( 国立国語研究所言語資源研究系 ) Lexical Characteristics of Text as Seen in the Distribution of Co-occurrence Rate Makoto Yamazaki (Dept. Corpus Studies, NINJAL) 1. はじめに 現代日本語書き言葉均衡コーパス (Balanced
多言語版「チュウ太のweb辞書」を用いた語彙学習
< 日本語教育と AI: 研究実践例と今後の課題 > 読解支援システムへの AI 活用の可能性と留意点 東京国際大学 川村よし子 読解支援システムへの AI 活用の可能性と留意点 はじめに 1. 読解支援システムと自然言語処理技術 2. リーディング チュウ太 3. チュウ太のWeb 辞書 4. チュウ太のやさしくなーれ 5.AI 活用の可能性と留意点 はじめに はじめに AI( 人工知能 ) とは?
自然言語は曖昧性だらけ! I saw a girl with a telescope 構文解析 ( パージング ) は構造的な曖昧性を解消 2
自然言語処理プログラミング勉強会 12 係り受け解析 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1 自然言語は曖昧性だらけ! I saw a girl with a telescope 構文解析 ( パージング ) は構造的な曖昧性を解消 2 構文解析の種類 係り受け解析 : 単語と単語のつながりを重視 I saw a girl with a telescope 句構造解析
Vol. 42 No MUC-6 6) 90% 2) MUC-6 MET-1 7),8) 7 90% 1 MUC IREX-NE 9) 10),11) 1) MUCMET 12) IREX-NE 13) ARPA 1987 MUC 1992 TREC IREX-N
Vol. 42 No. 6 June 2001 IREX-NE F 83.86 A Japanese Named Entity Extraction System Based on Building a Large-scale and High-quality Dictionary and Pattern-matching Rules Yoshikazu Takemoto, Toshikazu Fukushima
自然言語処理21_249
1,327 Annotation of Focus for Negation in Japanese Text Suguru Matsuyoshi This paper proposes an annotation scheme for the focus of negation in Japanese text. Negation has a scope, and its focus falls
習う ということで 教育を受ける側の 意味合いになると思います また 教育者とした場合 その構造は 義 ( 案 ) では この考え方に基づき 教える ことと学ぶことはダイナミックな相互作用 と捉えています 教育する 者 となると思います 看護学教育の定義を これに当てはめると 教授学習過程する者 と
2015 年 11 月 24 日 看護学教育の定義 ( 案 ) に対するパブリックコメントの提出意見と回答 看護学教育制度委員会 2011 年から検討を重ねてきました 看護学教育の定義 について 今年 3 月から 5 月にかけて パブリックコメントを実施し 5 件のご意見を頂きました ご協力いただき ありがとうござい ました 看護学教育制度委員会からの回答と修正した 看護学教育の定義 をお知らせ致します
main.dvi
DEIM Forum 2012 E2-4 1 2 2 2 3 4 5 6 7 1 305-8573 1-1-1 2 305-8573 1-1-1 3 305-8573 1-1-1 4 ( ) 141-0031 8-3-6 5 060-0808 8 5 6 101-8430 2-1-2 7 135-0064. 2-3-26 113-0033 7-3-1 305-8550 1-2 Analyzing Correlation
VLSI工学
25/1/18 計算機論理設計 A.Matsuzawa 1 計算機論理設計 (A) (Computer Logic Design (A)) 東京工業大学大学院理工学研究科電子物理工学専攻 松澤昭 3. フリップフロップ回路とその応用 25/1/18 計算機論理設計 A.Matsuzawa 2 25/1/18 計算機論理設計 A.Matsuzawa 3 注意 この教科書では記憶回路を全てフリップフロップと説明している
RIO to TOKYO 1 3 1 96 2 2020 3 1 13 2 26 3 32 4 34 1 1 28 43 2 47 3 55 4 56 2 1 57 2 59 2 59 3 1 61 2 61 3 61 65 28 28 8 30 50 3 1 ⅠRIO to TOKYO 2016 8 5 2117 31 20641306 4 1 96 2 2020 3 3 96 2016
Exploring the Art of Vocabulary Learning Strategies: A Closer Look at Japanese EFL University Students A Dissertation Submitted t
Exploring the Art of Vocabulary Learning Strategies: A Closer Look at Japanese EFL University Students MIZUMOTO, Atsushi Graduate School of Foreign Language Education and Research, Kansai University, Osaka,
Web WIX WIX WIX Web Web Web WIX WIX WIX Web 3. Web Index 3. 1 Web Index (WIX), Web. Web, WIX, Web ( WIX ), URL. 3. 2 WIX 1 entry wid eid keyword targe
DEIM Forum 2016 H6-5 Web Index 223 8522 3-14-1 E-mail: [email protected], [email protected] Web Index(WIX) (keyword) Web URL(target) (WIX ) Web ( ) Web URL Web WIX RSS WIX Web Index, Web,
2 116
1 北陸大学 紀要 第27号 2003 pp. 115 122 中国人日本語学習者が間違えやすい表現について 王 国 華 A Study on the Expressions in which Chinese Learners of Japanese Frequently Make Mistakes Wang GuoHua Received October 28, 2003 1 はじめに 中国語を母国語とする日本語学習者の数は年々増え続けている
Microsoft Word - 佐々木和彦_A-050(校了)
教育総研発 A-050 号 知識が活かされる英語の指導とは ~ 使い途 あっての知識 ~ 代々木ゼミナール英語講師 佐々木和彦 文法や構文など 英語の知識を生徒に与えると そのような知識を与える前よりも生徒の読解スピードが圧倒的に遅くなることがあります 特に 教えられた知識を使おうとする真面目な生徒にそのような傾向があります もちろん 今までいい加減に読んでいた英文を それまでは意識したことがなかったルールや知識を意識しながら読むのですから
服用者向け_資料28_0623
1 2 3 1. 2. 4 3. 4. 1. 5 2. 3. 4. 5. 6 6. 7. 8. 7 9. 10. 11. 8 12. 9 10 11 12 Q-1 : OC Q-2 : OC Q-3 : 21 OC 28 OC 13 Q-4 : OC Q-5 : OC Q-6 : OC 14 Q-7 : Q-8 : OC Q-9 : OC Q-10 : OC Q-11 : OC 15 Q-12 :
共起頻度は, そのものです. 例えば, 野球 の Dice 係数の上位の単語は, サッカー : 格闘技 : プロ野球 : ゴルフ : テニス : 試合 : 選手 : 高校野球 :0.157
単語共起頻度データベース (Version 1) 2009/12/24 初版 2010/03/31 2 版 ( ファイル容量の追記 ) 概要 本データベースは, 大量のウェブ文書を用いて, 様々な条件で2つの単語が共に出現する頻度 ( 共起頻度 ) を計算し, 各単語について,3 種の共起スコアの高い順に, 単語とそのスコアを記録したものです. 3 種類の共起スコアとは,Dice 係数, ディスカウンティングファクター有りの相互情報量
電子情報通信学会ワードテンプレート (タイトル)
DEIM Foru 212 A9-4 感性パラメータを用いた書誌情報からの図書推薦手法の提案 垣内将希 高岡幸一 灘本明代 甲南大学知能情報学部 658-72 兵庫県神戸市東灘区岡本 8 丁目 9 1 甲南大学大学院自然科学研究科 658-72 兵庫県神戸市東灘区岡本 8 丁目 9 1 E-ail: {si87138@center.,nadaoto@}konan-u.ac.jp, [email protected]
TypeB 新スローガンイメージ (4:3)
自然言語処理入門と活用 NTT コミュニケーションズ株式会社 村上優樹 竹越智也 Copyright NTT Communications Corporation. All rights reserved. 1 私は母と焼肉を食べた Copyright NTT Communications Corporation. All rights reserved. 2 私は母と焼肉を食べた Copyright
オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,
オートマトン 形式言語及び演習 1 有限オートマトンとは 酒井正彦 wwwtrscssinagoya-uacjp/~sakai/lecture/automata/ 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110, } 形式言語 : 数学モデルに基づいて定義された言語 認識機械 : 文字列が該当言語に属するか? 文字列 機械 受理
はじめてのPFD
はじめての PFD 派生開発 WG アンリツエンジニアリング株式会社文書番号 :AE-RAEB00000063 初版 Copyright 2016 Anritsu Engineering Co.,Ltd. Publicly available 演習概要 PFDの書き方 : 15 分 演習 : 30 分 + 発表 ( 講評 ) 20 分 まとめ 2 参考文献 PFD(Process Flow Diagram)
Microsoft Word - CiNiiの使い方.doc
CiNii の使い方 CiNii とは 国立情報学研究所 (NII) では 各種サービスごとに提供しているコンテンツを統合するとともに 国内外の有用な学術情報資源との連携を可能とすることを目標としたプラットフォーム GeNii ( ジーニイ ) の構築を進めています GeNii の機能の一つとして NII 論文情報ナビゲータ CiNii ( サイニイ ) を提供します CiNii では 学協会で発行された学術雑誌と大学等で発行された研究紀要の両方を検索し
ラニガンマシュー ( 中部大学大学院国際人間学研究科 ) 本発表では 音声データを書き起こしたものを形態素解析にかける際に起こる問題点とその解決方法の一つとして 拡張データ処理システムについて報告する コーパスシステム は コーパス検索だけでなく コーパス開発のツールとして開発された 名大会話コーパス 日本語学習者会話データベース による日本語話し言葉コーパス をシステムに入れたところ 音声書き起こしコーパスに現れる学習者の誤用
<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>
RD_301 構成要素一覧と検索 から構成要素の編集辞書 ( 削除 ) を作る 作成 ( 編集 ) する削除辞書を開きます 構成要素を検索します ドラック & ドロップでも OK 範囲を選択して右クリック 右クリック 削除辞書に登録 ( 追加 ) したい構成要素を選択しコピーします 削除辞書に追加 ( 貼りつけ ) ます Step5. 削除辞書に構成要素が登録 ( 追加 ) されます 構成要素一覧と検索
NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1
自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1 品詞推定 文 X が与えられた時の品詞列 Y を予測する Natural language processing ( NLP ) is a field of computer science JJ -LRB- -RRB- VBZ DT IN 予測をどうやって行うか
帳票OCR Ver.8
簡 単 に す ば や く オ フィス の 帳 票 を デ ー タ 変 換 帳票OCRで手作業による帳票入力業務を自動化 人的作業での入力ミスを軽減し オフィス業務の生産性向上を支援します 帳票OCRは 帳票の活字 手書き文字 チェックマーク バーコード QRコードなどをOCRし 編集可能な電子データに変換する 業務向けの帳票OCRソフトウェアです また 複合機やスキャナーから読み込んだの ファイル名の自動設定
財団法人日本科学技術連盟 2021 年 2 月 24 日 SQiP 研究会特別講演 人工知能による欠陥分類の次の挑戦 バグの自動修復技術の実用化に向け (2016 年度 SQiP 研究会発表論文 ) 数理科学アプローチを用いた客観的欠陥弁別法 ~ 外因欠陥の弁別方法とその効果 意義 ~ 2/17
2017 年 2 月 24 日 財団法人日本科学技術連盟第 32 年度ソフトウェア品質管理研究会成果発表会 数理科学アプローチを用いた 客観的欠陥弁別法 外因欠陥の弁別方法とその効果 意義 第 7 分科会欠陥エンジニアリング Team TuKuLu 研究員 : 伊藤弘毅 ( 三菱電機株式会社 ) 大島修 ( エプソンアヴァシス株式会社 ) 角修二 ( 株式会社インテリジェンスビジネスソリューションズ
PowerPoint プレゼンテーション
健康保険組合ホームページ マイページ ログイン マニュアル 初期パスワードの入力方法は 確認されましたか 初回ログイン時には 初期パスワードが必要です 初期パスワードについては 大和ハウス工業健康保険組合からの 関連通達 又は 健保だより 2017秋号NO.75 に に掲載されています 大和ハウス工業健康保険組合 Vol 2.0 目次 1 はじめてログインする 2 Ⅰ マイページ初期設定方法 2 Ⅱ
コンピュータ応用・演習 情報処理システム
2010 年 12 月 15 日 データエンジニアリング 演習 情報処理システム データマイニング ~ データからの自動知識獲得手法 ~ 1. 演習の目的 (1) 多種多様な膨大な量のデータを解析し, 企業の経営活動などに活用することが望まれている. 大規模データベースを有効に活用する, データマイニング技術の研究が脚光を浴びている 1 1. 演習の目的 (2) POS データを用いて顧客の購買パターンを分析する.
e.Typist v.9.0 基本操作編
操作マニュアル 基本操作編 e.typist v.9.0 基本操作 目次 1. e.typist の起動 2. スキャナの設定 3. 原稿の取り込み 3-1. スキャナから 3-2. ファイルから 4. 画像の修正 5. 認識の設定 日本語以外の文書を認識する 6. 認識範囲の設定 6-1. 自動で設定 6-2. 手動で設定 レイアウト枠の表示 6-3. 枠の設定変更 7. 認識 7-1. 日本語の認識
リーディングスキルテストで測る読解力とは
別紙資料 1 リーディングスキルテストで測る読解力とは 大学共同利用機関法人情報 システム研究機構国立情報学研究所 社会共有知研究センターセンター長 新井紀子 リーディングスキルテスト (RST) とは 教科書や新聞 マニュアルや契約書などのドキュメントの意味および意図を どれほど迅速かつ正確に読み取ることができるかの能力を測定するために国立情報学研究所社会共有知研究センターが考案したテストです 文章
計算機シミュレーション
. 運動方程式の数値解法.. ニュートン方程式の近似速度は, 位置座標 の時間微分で, d と定義されます. これを成分で書くと, d d li li とかけます. 本来は が の極限をとらなければいけませんが, 有限の小さな値とすると 秒後の位置座標は速度を用いて, と近似できます. 同様にして, 加速度は, 速度 の時間微分で, d と定義されます. これを成分で書くと, d d li li とかけます.
修士論文および卒業論文の手引き
修士論文および卒業論文の手引き 神戸大学大学院システム情報学研究科神戸大学工学部情報知能工学科平成 30 年 12 月 使用言語 用紙と形式 論文の構成 提出要領 修士論文アブストラクト 公聴会 ( 発表会 ) の日時 卒業論文 修士論文の最終提出について 論文表紙 中表紙作成見本 使用言語 工学部情報知能工学科の卒業論文, システム情報学研究科各専攻 工学研究科情報知能学専攻 ( 過年 度生 )
