コーパスを用いた中国語ネット語の判定システム 竇梓瑜 ( 東京農工大学工学府情報工学専攻 ) 古宮嘉那子 ( 東京農工大学工学研究院先端情報科学部門 ) 小谷善行 ( 東京農工大学工学研究院先端情報科学部門 ) A Detection System of Chinese Netspeak Using

Similar documents
1. はじめに 2

タイトルは14ポイント&ボールドMS明朝

0210研究会

言語資源活用ワークショップ 2019 発表論文集 半教師あり語義曖昧性解消における各ジャンルの語義なし用例文の利用 谷田部梨恵 ( 茨城大学大学院理工学研究科 ) 佐々木稔 ( 茨城大学工学部情報工学科 ) Semi-Supervised Word Sense Disambiguation Usin


1

IPSJ SIG Technical Report Vol.2014-CE-126 No /10/11 1,a) Kinect Support System for Romaji Learning through Exercise Abstract: Educatio

nlp1-12.key

PowerPoint Presentation

顔文字に着目した TwitterのP/N値に基づく映画の見どころ検索

Microsoft Word - TMFM_Product.doc

ギター初心者のための 演奏練習支援システム 日本大学文理学部 情報科学科 B4 宇田川 真唯 1

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

演習 レシピテキストの係り受け解析

PowerPoint プレゼンテーション

(Microsoft Word - JCLWorkshop2013_2\214\303\213{.doc)

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

Office Survey System V4 オフィスサーベイシステム Ver.4.0 社員拡張属性機能のご紹介 2018 年 8 月 有限会社アルファ アソシエイツ

マルチエージェントシステムグループの研究計画

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

Microsoft Word - 博士論文概要.docx

スライド 1

Microsoft Word - manual

ボルツマンマシンの高速化



図1 ネイルレシピ検索システム概要 ントを取得することによって ユーザの持っている服に似合う コーディネートを検索するシステムを構築することを目的とし ている [7] 本研究では ネイルレシピを対象としており 場 所に対応しているかだけでなく ユーザの好みや腕も考慮して いる 津田らは 爪の反射率の

研究開発の概要のイメージ ①画像 音声 映像情報の分析技術 周辺コンテンツや他情報源から収集したテキスト情報の分析 画像特徴量分析による信憑性検証 Web画像の典型度 過不足性 W b画像の典型度 過不足性 整合性の分析 映像 音声の偏り分析や 映像 音声の偏り分析や 視聴者評価情報の分析 Webア

実験 5 CGI プログラミング 1 目的 動的にWebページを作成する手法の一つであるCGIについてプログラミングを通じて基本的な仕組みを学ぶ 2 実験 実験 1 Webサーバの設定確認と起動 (1)/etc/httpd/conf にある httpd.conf ファイルの cgi-bin に関する

スライド 1

226125_多摩大経営情報研究_no.20_表紙-3校.indd

1/2


IPSJ SIG Technical Report Vol.2010-GN-75 No /3/19 1. Proposal and Evaluation of Laboratory Experiments for understanding Offshore Software Deve

PowerPoint Presentation

PowerPoint プレゼンテーション

スクールCOBOL2002

PowerPoint プレゼンテーション

日本語「~ておく」の用法について

共有辞書を用いた 効率の良い圧縮アルゴリズム

Web WIX WIX WIX Web Web Web WIX WIX WIX Web 3. Web Index 3. 1 Web Index (WIX), Web. Web, WIX, Web ( WIX ), URL WIX 1 entry wid eid keyword targe

その人工知能は本当に信頼できるのか? 人工知能の性能を正確に評価する方法を開発 概要人工知能 (AI) によるビッグデータ解析は 医療現場や市場分析など社会のさまざまな分野での活用が進み 今後さらなる普及が予想されています また 創薬研究などで分子モデルの有効性を予測する場合にも AI は主要な検証

IPSJ SIG Technical Report Vol.2014-NL-216 No.6 Vol.2014-SLP-101 No /5/ MMDAgent 1. [1] Wikipedia[2] YouTube[3] [4] [5] [6] [7] 1 Graduate

Microsoft PowerPoint ppt

スライド 1

DEIM Forum 2010 A Web Abstract Classification Method for Revie

040402.ユニットテスト

T_BJPG_ _Chapter3

(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

Microsoft Word 基_シラバス.doc


スライド 1

記 1. 適用対象本通知は 製造販売業者等が GPSP 省令第 2 条第 3 項に規定する DB 事業者が提供する同条第 2 項に規定する医療情報データベースを用いて同条第 1 項第 2 号に規定する製造販売後データベース調査を実施し 医薬品の再審査等の申請資料を作成する場合に適用する GPSP 省

研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基づく情報推薦

認証システムのパスワード変更方法

目次 1. サイトの概要 2. このサイトで行なうこと 3. ログインするには 4. 情報発信会員 管理画面の説明 5. 掲載情報を決める 6. マイページを作成する 6-1 マイページのトップ画面について 7. コンテンツを作成する 7-1 掲載場所を決める 7-2 ページを作成する プロフィール

Microsoft Word - DEIM論文3.doc

3. ワークシート 入力データの検証 の完成 ワークシート 入力データの検証 には 入力データの検証表 があります セル範囲は セル A2 からセル G22 までで 2 行目が項目見出しとなっており A 列が入力データ B 列が点検値無し C 列が入力された点検値 D 列が分類コード E 列が製品コ

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

140926_LPLKN_右.pdf

第21章 表計算

Java Scriptプログラミング入門 3.6~ 茨城大学工学部情報工学科 08T4018Y 小幡智裕

Microsoft Word - 操作マニュアル(PowerPoint2013)

※ ポイント ※

PowerPoint プレゼンテーション

IPSJ SIG Technical Report Vol.2016-MUS-111 No /5/21 1, 1 2,a) HMM A study on an implementation of semiautomatic composition of music which matc

<4D F736F F D C A838A815B A B F838C E B82C98AD682B782E B E646F63>

うに見えるよう設計を行い その派生クラス (CMozillaHtmlView CLunaHtmlView) にて詳細を実装することにより実現した その際 Gecko エンジンは IE ツールバーの互換性を持たせるために MozillaActiveXControl を利用し そのインターフェースを通じ

1. はじめに , NHK

Jupyter Notebook を活用したプログラムライブラリ構築の検討 吹谷芳博 1, 藤澤正樹 1 ( 1 あすか製薬株式会社 ) Examination of the program library construction using Jupyter Notebook ASKA Pharm

ネットワーク工学演習 解答編 典型的な IP アドレス問題と解答を示す 解き方をよく覚えるように N 科 ある PC がある ネットワークの設定をみると IP アドレスが であり サブネットマスクは である 下記について解答せよ [1]

コンビニデザートに対する生活者の意見でわかるブランド評価 テキストマイニングによる 意見 の分析 Contents 1 注目される CGM 2 ネットにひろがる意見 3 意見を 言葉 で分析 4 パネルの解説 5 ご協力いただいた企業様 数理システムユーザーコンファレンス 2007

迷惑メール対策[Barracuda]操作マニュアル

本システムでは Web アプリケーションベー スでシステムを構築することにより PC でも携 帯機器でも場所を問わず利用できるようにする ユーザはブラウザのフォーム上で連絡先情報等 の交換を行う 将来的には携帯電話の Felica な どを使って相互の名刺情報交換が無線で短時間 に簡単にできるように

JIS X :2016 附属書 JB に基づく試験結果表示 ( ウェブページ単位 ) 規格の規格番号及び改正年 JIS X :2016 対象範囲 以下のウェブページ ただし 外の以

NEXCESS基礎コース01 組込みソフトウェア開発技術の基礎 ソフトウェア開発プロセス編

(NICT) ( ) ( ) (NEC) ( )

PowerPoint プレゼンテーション

<4D F736F F D BC696B18F88979D939D90A782F08D6C97B682B582BD A DD975E8AC7979D CC8D5C927A2E6

FC2 掲示板.doc 1/6 平成 20 年 2 月 26 日 FC2 掲示板 FC2 のサンプル掲示板 で入力練習 適当に投稿画面に入力 投稿をプレビューで確認 記号表示だった絵文字が確認できます 画像認証が求められる 表示された数字を

かんたん携帯9 ユーザーガイド

e.Typist v.9.0 表原稿編

スライド 1

Bluemix いつでもWebinarシリーズ 第15回 「Bluemix概説(改訂版)」

AQUOS ケータイ ユーザーガイド

untitled

スライド 1

フィルタとは

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

1 (PCA) 3 2 P.Viola 2) Viola AdaBoost 1 Viola OpenCV 3) Web OpenCV T.L.Berg PCA kpca LDA k-means 4) Berg 95% Berg Web k-means k-means

X2 使いこなしガイド

性別 女性 48% 男性 52% 男性 女性 年齢 29 歳 5% 30 歳以上 16% 20 歳未満 21 歳 1% 1% 22 歳 7% 23 歳 10% 20 歳未満 21 歳 22 歳 23 歳 24 歳 28 歳 8% 24 歳 14% 25 歳 26 歳 27 歳 27 歳 12% 26

ポインタ変数

untitled

性別 女性 48% 男性 52% 男性 女性 年齢 29 歳 5% 30 歳以上 16% 20 歳未満 21 歳 1% 1% 22 歳 7% 23 歳 10% 20 歳未満 21 歳 22 歳 23 歳 28 歳 8% 24 歳 14% 24 歳 25 歳 26 歳 27 歳 27 歳 12% 26

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

A Bit flipping Reduction Method for Pseudo-random Patterns Using Don’t Care Identification on BAST Architecture

Microsoft PowerPoint - 簡易マニュアル_ver1.1.ppt [互換モード]

Transcription:

コーパスを用いた中国語ネット語の判定システム 竇梓瑜 ( 東京農工大学工学府情報工学専攻 ) 古宮嘉那子 ( 東京農工大学工学研究院先端情報科学部門 ) 小谷善行 ( 東京農工大学工学研究院先端情報科学部門 ) A Detection System of Chinese Netspeak Using Text Corpus Ziyu Dou(Graduate School of Engineering, Tokyo University of Agriculture and Technology) Kanako Komiya (Institution of Engineering, Tokyo University of Agriculture and Technology) Yoshiyuki Kotani (Institution of Engineering, Tokyo University of Agriculture and Technology) 1. 研究背景現在 中国では インターネット利用者が爆発的に増え それに伴って大量な中国語ネット語 ( 以下 ネット語と書く ) が現れた ネット語の独特な言葉やその使い方は インターネットだけではなく 徐々に人々の生活にも浸透してきている しかし 中国の人口はおよそ13.5 億であるのに対して 中国のインターネット利用者は5.13 億と言われており 中国人の半分以上はインターネットを利用していない そのような人々にとって ネット語は理解しにくく 意味が分からなかったり または意味の誤解から トラブルになったりすることがある こうした事態を避けるため 我々はコンピューターで自動的にネット語か書き言葉かどうかを区別するシステムを作成した 本システムは任意の中国語の一つ以上の文の入力に対して ネット語であるかどうかの判断結果を出力する 2. 中国語ネット語特徴の検出システムの構成中国語ネット語特徴検出システムの構成を 図 1 に示す 中国語の文 SVM ネット語であるかどうか ベクトルの作成 ネット語コーパス 形態素解析器 書き言葉コーパス 図 1 中国語ネット語特徴の検出システムの構成 161

システムの入力は中国語文であり 出力は ネット語であるかどうかである まず ネット語コーパスと書き言葉コーパスの形態素解析を行い それを特徴としてベクトルを作成し サポートベクターマシン ( SVM ) (http://otndnld.oracle.co.jp/document/products/oracle11g/111/doc_dvd/datamine.111/e05704-02/ algo_svm.htm) を用いて機械学習を行う 次に 入力の中国語文に対して同様に形態素解析を行い ベクトルを作成し 先ほど学習した学習器を利用して 入力の中国語文がネット語かどうかを判定する 以下に各部分について順次述べる 2.1 形態素解析形態素解析の部分は ICTCLAS という中国科学院計算技術研究所の無料形態素解析プログラム (http://ictclas.org/) を使用した このプログラムは HMM を基本解析方法として構成されている プログラムは C 言語版と C++ 言語版が存在するが 本システムで使われているのはその C++ 言語版である なお この形態素解析プログラムの基本機能は単語分割 品詞つけ 未知語表記で ユーザ自身でも辞書に単語を入れることが出来る この ICTCLAS プログラムの役割は 書き言葉コーパスの文 ネット語コーパスの文及び入力の文の形態素解析を行い 品詞タグを付けることである また ここで使用される品詞タグには 計算所漢語詞性標注集 (http://icl.pku.edu.cn) が使われている 2.2 ベクトルの作成と SVM SVM には SVM-light という無料プログラムを使用した SVM の入力はベクトルであるため 前処理としてベクトルを作成した まず ネット語コーパスと書き言葉コーパスの形態素解析の結果を合わせ 出現した全ての単語を統計し 単語毎に番号を付ける ただし ここでは 単語が同じでも 品詞が違う場合には 異なる単語として違う番号を付与した 特にここで統計するとき アルファベットを除くため タグ /x が付いている単語を全部除いた ベクトル作成は コーパスの文ごとに行った 素性は単語であり 素性値はコーパス中の頻度である 3. 実験と結果 3.1 データ実験用のデータは 全てインターネットから収集したものである このうち ネット語コーパスは 新浪微博 (http://www.weibo.com) から収集した この新浪微博は 現在 2012 年 1 月までに 2.5 億を超えるユーザを持つ 中国最大のミニブログである このミニブログはツイッターと同様 一発言として入力できるのは1 40 文字までという制限がある 政府などの公式機関のユーザも多数あるが ほとんどの発言はインターネット利用者の日常的な呟きなので 典型的なネット語があると考えられる これらのインターネットユーザ発言を収集するとき 火車採集器 (http://www.locoy.com) という無料ウェブデーター収集プログラムを利用し 無作為にユーザを選択してデータを取得した 最初に収集されたデータは既に HTML タグを全部除いた文である このような文が一行一文という形で テキストの中で記録されている 新浪微博から収集したネット語コーパスの文の数は5000 文である このほかに 百度貼バ (BBS サイト ) (http://tieba.baidu.com) から100 文を ネット語のコーパスとしてテストに利用した 書き言葉コーパスは前述のように中国国家文字委員会の現代中国語コーパス (http://www.cncorpus.org/) の中の新聞と社論というカテゴリのコーパスから取ったも 162

のである このコーパスは ネット語コーパスと同じく一行一文でテキストの中に記録されている 現代中国語コーパスから利用する文の数は2000 文である このほかに SOHU ニュース (http://www.sohu.com/) から100 文を 書き言葉のコーパスとしてテストに利用した 3.2 実験設計及び結果ネット語コーパスと書き言葉コーパスのどちらの文かを判定する制度を見るために 実験 1~ 実験 4の四種類の実験を行った 以下にそれぞれについて述べる (1) 実験 1 CLOSED テストまず ネット語コーパスと書き言葉コーパスのどちらの文かを判定する制度を見るための CLOSED テストを行った CLOSED テストでは テストデータは訓練データとして利用したものである また CLOSED テストでは 顔文字などの符号を削除していない ( 略 : 符号あり ) 実験を行った 以下に CLOSED テストにおける 訓練データ テストデータの種類と数 また結果の求め方を説明する さらに実験の結果を表 1に示す 表 1から CLOSED テストでは 全ての文がネット語であるかどうか 正しく判定できていることが分かる 訓練データ : ネット語コーパス 5000 文 書き言葉コーパス 2000 文テストデータ : ネット語コーパスからの1000 文と書き言葉コーパスからの400 文結果 : ネット語の率 =SVM がネット語として認識した文 /1000 書き言葉の率 =SVM が書き言葉語として認識した文 /400 ここで ネット語におけるネット語の率はネット語の再現率であり 書き言葉における書き言葉の率は書き言葉の再現率となる 表 1 CLOSED テスト結果ネット語の率書き言葉の率 ネット語コーパスからの1 000 文 ( 符号あり ) 100% 0% 書き言葉コーパスからの4 00 文 ( 符号あり ) 0% 100% (2) 実験 2 OPEN テスト ( 符号あり及び符号なし ) 次に 訓練データとテストデータの重複を許さない OPEN テストの二つを行った OPEN テストでは 符号と英文字によって構成され顔文字や略語の結果への影響を実証するため 符号および英文字がある実験と符号および英文字がない ( 略 : 符号なし ) 実験を行って比較した 以下に OPEN テストにおける 訓練データ テストデータの種類と数 また結果の求め方を説明する さらに実験の結果を表 2に示す 訓練データ : ネット語コーパス 4000 文 書き言葉 1600 文テストデータ : ネット語コーパスの上記 4000 文を除いて残った1000 文 書き言葉 163

コーパスの上記 1600 文を除いて残った400 文結果 : ネット語の率 =SVM がネット語として認識した文 /1000 書き言葉の率 =SVM が書き言葉語として認識した文 /400 ネット語コーパスからの1000 文 ( 符号あり ) 書き言葉コーパスからの400 文 ( 符号あり ) 表 2 OPEN テスト結果 ネット語の率 書き言葉の率 正解率 98.4% 1.6% 22.0% 78.0% 92.6% ネット語コーパスからの1000 文 ( 符号なし ) 書き言葉コーパスからの400 文 ( 符号なし ) 98.9% 1.1% 50.2% 49.8% 84.9% (3) 実験 3 ネット語 100 文と書き言葉 100 文テスト ( 符号あり及び符号なし ) 次に 訓練データとして使用したコーパスとは異なるコーパスとして ネット語コーパスに BBS 書き言葉コーパスに新聞を利用した際の OPEN テストを行った 以下に その際の訓練データ テストデータの種類と数 また結果の求め方を説明する さらに実験の結果を表 3に示す この実験の際にも実験 2と同様 符号ありと符号なしの実験を行って比較した 訓練データ : ネット語コーパス 5000 文 書き言葉コーパス 2000 文テストデータ : 百度貼バ (BBS サイト ) から取った100 文をネット語とし SOHU ニュースから取った100 文を書き言葉とし テストを行う結果 : ネット語の率 =SVM がネット語として認識した文 /100 書き言葉の率 =SVM が書き言葉語として認識した文 /100 表 3 ネット語 100 文と書き言葉 100 文テスト結果 ネット語の率 書き言葉の率 正解率 ネット語 100 文 87% 13% ( 符号あり ) 71.5% 書き言葉 100 文 44% 56% ( 符号あり ) ネット語 100 文 69% 31% ( 符号なし ) 83.5% 書き言葉 100 文 ( 符号なし ) 22% 78% 164

(4) 実験 4 アンケート ( 符号ありと符号なし ) 最後に 比較対象として 人間に符号ありと符号なしの際 どの程度ネット語を判定できるかのアンケートを行った 以下に アンケート実験における 訓練データ テストデータの種類と数 また結果の求め方を説明する さらに実験の結果を表 4に示す この実験の際にも実験 2 実験 3と同様 符号ありと符号なしの実験を行って比較した テスト方法 : 数人の中国人インターネット利用者にアンケートテスト内容 : 上記の百度貼バ (BBS サイト ) から取ったネット語 50 文を SOHU ニュースから取った50 文を符号ありと符号なし二回 被験者に判断してもらった 顔文字で簡単に人間がネット語を判断し その結果を覚えてしまう可能性を排除するため 先に符号なしのアンケートを行い その後符号ありのアンケートを行った また 結果 : ネット語の率 =SVM がネット語として認識した文 /50 書き言葉の率 =SVM が書き言葉語として認識した文 /50 として計算した 表 4 ネット語 50 文と書き言葉 50 文の人工判定テスト結果 ネット語の率 ( 符号あり ) 書き言葉の率 ( 符号あり ) 正解率 ( 符号あり ) ネット語の率 ( 符号なし ) 書き言葉の率 ( 符号なし ) 正解率 ( 符号なし ) 20 代中 44% 100% 72% 44% 100% 72% 国人男性学生 20 代中 20% 100% 60% 16% 100% 58% 国人女性学生 平均 32% 100% 66% 30% 100% 65% 4. 考察まず 表 2の OPEN テストの結果が示すように 本研究のネット語コーパスおよび書き言葉コーパスは 確実に区別が存在する 特にネット語コーパスは 符号ありと符号なしの場合 それぞれ 98.4% と98.9% の再現率となった しかし 書き言葉コーパスに対する Open テストは 符号ありのとき 再現率が78.0% で 符号なしの場合の再現率は49.8% まで下がった これは 訓練に使用したネット語コーパスの量が多いためと ネット語コーパスの中でも 書き言葉のような文が多数存在するためであると思われる また 符号がある場合とない場合の再現率の差から 機械学習において 符号の影響が大きいことが分かる 続いて 実際な文に対するテストの結果 ( 表 3) を分析する まず 符号がある場合とない場合と比べると ネット語 100 文に対する認識正解率は18ポイント上がり 8 7% まで達成した これに対し 書き言葉は符号なしの場合のほうが22ポイント上回り 78% まで達成した これによって 符号がある場合 文がネット語として認識される傾向が強まり 符号がない場合には 書き言葉として認識される傾向が強まることが分かる アンケート ( 表 4) の結果を見ると 全部書き言葉の判定は100% 正解したが ネット語の判定はいずれも44% と20% まで止まったことが分かる また 符号がある場合の 符号がない場合と比べた正解率の上昇はわずかであった 実験 4と実験 3の正解率を 165

比べると 機械のほうが 正解率が上回ることがわかった とこれは ネット語といっても BBS では 書き言葉的な表現も多数存在することが 判定の結果に大きく影響したためだと思われる それに対し 書き言葉は 100% の正解率で 人間が書き言葉を認識するのは簡単だったことが分かる ネット語の定義を人間が判断できるものとすれば 再現率にも変化があるだろう 最後に表 3と表 4から機械学習と人間の正解率を比べる 表 3から 機械学習は最高 8 3.5% 表 4から 人間の判断は最高 66% であるため 作成したシステムの性能が人間に上回ることがわかる 5. 結論本論文では 文の入力に対してネット語かどうかの判定を行うシステムを作成した 入力の文は形態素解析を行い ベクトル化したあと SVM を使ってネット語かどうかを判定した 実験結果から 本システムは 符号がある場合 ネット語に対する判定の正解率が上がり 符号がない場合 書き言葉に対する判定再現率が上がることが分かった また 人間に対するアンケートの結果から 人間でもネット語かどうかの判定が難しいことが分かる 特に BBS やミニブログなどの情報には ネット語的な特徴がない言葉も多数存在するので 難しかったようである また 機械学習と人間の正解率を比べると 機械学習は最高 83.5% 人間の判断は最高 66% であるため 作成したシステムの性能が人間に上回ることがわかった 文献佐藤敏紀 Perl で自然言語処理 東京工業大学奥村研究室 http://www.slideshare.net/overlast/perl-5460697 谷岡広樹 丸山稔 (2005) 形態素解析に基づく SVM を用いたアスキーアートの識別 電子情報通信学会技術研究報告. PRMU, パターン認識 メディア理解 104:670, pp.25-30 黒橋禎夫機械学習に基づく自然言語処理京都大学情報学研究科 http://nlp.ist.i.kyoto-u.ac.jp/member/kuro/lecture/lip10/lip09.pdf Jin'ichi Murakami, HMM(Hidden Markov Model, 隠れマルコフモデル ) http://unicorn.ike.tottori-u.ac.jp/murakami/doctor/node7.html 語料庫在線 http://www.cncorpus.org/ SVM-light http://www.cs.cornell.edu/people/tj/svm_light/ ICTCLAS http://ictclas.org/ 情報と通信のハイパーテキスト http://www.yobology.info/text/index.htm Shogo Computing Laboratory http://sora-blue.net/~shogo82148/memo/algorithm/svm/ 166