タイトルは14ポイント&ボールドMS明朝

Similar documents
コーパスを用いた中国語ネット語の判定システム 竇梓瑜 ( 東京農工大学工学府情報工学専攻 ) 古宮嘉那子 ( 東京農工大学工学研究院先端情報科学部門 ) 小谷善行 ( 東京農工大学工学研究院先端情報科学部門 ) A Detection System of Chinese Netspeak Using

S_C0551 _ _Abstract

1. はじめに 2

様式第一(第一条関係)

序論 日本語には助詞という品詞があり 助詞は文中で語の働きを示す意味をもつため 助詞の使用が重要である 助詞は様々あり その一つには接続助詞がある Tomita Takayuki (1998:68) によると 接続助詞は文の節と節を接続する助詞で 主に用言に付く この研究は接続助詞としてテ形とシを解

2 116

(Microsoft Word - JCLWorkshop2013_2\214\303\213{.doc)

101002A インドネシア語基礎 基礎 B ティニ Tini コドラット Kodrat 木曜日 インドネシア語の基礎をアルファベット 読み方 文章の作り方 及びイントネーションからしっかり教えます 積極的に話すことに挑戦します ダイレクトメソッド ( 子供が言葉を自然に学ぶスタイル ) です 質問

Slide 1

第4課

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

nlp1-12.key

Analisis Tingkat Pemahaman Mahasiswa terhadap Penggunaan Jodoushi ~Souda dan ~Rashii sebagai Denbun No Hyougen ABSTRAK Kania Srirahayu Penelit

-2-6. Peraturan Menteri Energi dan Sumber Daya Mineral Nomor 18 Tahun 2010 tentang Organisasi dan Tata Kerja Kementerian Energi dan Sumber Daya Minera

言語資源活用ワークショップ 2019 発表論文集 半教師あり語義曖昧性解消における各ジャンルの語義なし用例文の利用 谷田部梨恵 ( 茨城大学大学院理工学研究科 ) 佐々木稔 ( 茨城大学工学部情報工学科 ) Semi-Supervised Word Sense Disambiguation Usin

Java Scriptプログラミング入門 3.6~ 茨城大学工学部情報工学科 08T4018Y 小幡智裕



kita University


kita University

kita University

Microsoft Word


memo

1

<43534A2F925A925088CA814592B CA B835E B D836A B202D B B69>

nlp1-05.key


Microsoft Word - DEIM論文3.doc

AP_12_15_yonezawa.indd

4 学習の活動 単元 Lesson 1 (2 時間 ) 主語の決定 / 見えない主語の発見 / 主語の it 外国語表現の能力 適切な主語を選択し英文を書くことができる 外国語理解の能力 日本の年中行事に関する内容の英文を読んで理解できる 言語や文化についての知識 理解 適切な主語を選択 練習問題の

レビューテキストの書き の評価視点に対する評価点の推定 29 3

は そこでの経験を本当に豊かにしてくれるでしょう 珍しい言語を学ぶ人や学術的な嗜好 がある人々にとっては インドネシア語は素晴らしい文学です 言語学的な理由インドネシア語はとても簡単です 学ぶことは貴重な経験で さらにインドネシア語の基本は数週間で学ぶことができます ここにその理由を述べます 時制が

コンビニデザートに対する生活者の意見でわかるブランド評価 テキストマイニングによる 意見 の分析 Contents 1 注目される CGM 2 ネットにひろがる意見 3 意見を 言葉 で分析 4 パネルの解説 5 ご協力いただいた企業様 数理システムユーザーコンファレンス 2007

福岡大学人文論叢47-3

(Microsoft Word - deim2009\215\305\217I\224\305_kobayashi.docx)

ABSTRAK Analisis Fungsi dan Makna Verba Utsu dan Tataku dalam kalimat Bahasa Jepang Skripsi ini membahas tentang fungsi dan makna verba Utsu dan Tatak

ABSTRAK

自立語と付属語 文法的な面からもう少し詳しく解説します ひとつの文は複数の文節からなります 文 つなみ津波が文節 き来ます文節 そして 文節は自立語だけ あるいは自立語プラス付属語で構成されています つなみ津波 が 自 + 付 き来ます 自 自 自立語 付 付属語 自立語とはその語だけで意味を持ち

The 18th Game Programming Workshop ,a) 1,b) 1,c) 2,d) 1,e) 1,f) Adapting One-Player Mahjong Players to Four-Player Mahjong

スライド 1

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

スライド 1

Microsoft Word - ベーシックの英文法.docx

BULLETIN No. PT.KITO-SM PT. KITO INDONESIA Service & Maintenance Lifting Expectations

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

演習 レシピテキストの係り受け解析

コロケーションリストのもう一歩先へ: 英和辞書の執筆者と使用者の立場から

格変化 名詞や形容詞に 主格 属格 対格の区別があります 男子学生 ( 非限定 ) 男子学生 ( 限定 ) 女子学生 ( 非限定 ) 女子学生 ( 限定 ) 主格 u ا لط ال ب ة ط ال ب ة ا لط ال ب ط ال ب 属格 i ا لط ال ب ة ط ال ب ة ا

平成 30 年度シラバス 3 学年前期 (1 単位 ) コミュニケーション英語 Ⅰ 教科書 ENGLISH NOW Ⅰ 開隆堂 授業時数 01 単元名 Lesson 6 Sempai and Ko hai 本時 Lesson 6 (1) 学習内容備考 常日頃から使っている 先輩 後輩 ということばを

江戸時代 に凧ができるだけ所有し 和紙の価格は非常に高 価なので 飛行機族が使用した Parade layang-layang Jepang diadakan setiap tanggal 5 Mei. がつ 5 5 日本の凧の祭りは 5 月 にち日に毎年開催 まいとしかいさいさ

インドネシアと米国の二国間貿易は増加を示した 2013 年にインドネシアと米国の二国間貿易は USD28 兆に到達するために前年比 4.89% の増加となりました 同じ年に インドネシアには 最大 USD9.7 兆の黒字を楽しんだ 特に非石油製品のため 米国へのインドネシアの輸出は 2013 年に

先行研究 pp

metode deskriptif analisis dilakukan dengan cara mendeskripsikan fakta- fakta yang kemudian dianalisis. Berdasarkan penelitian kepustakaan yang telah

Mimehand II[1] [2] 1 Suzuki [3] [3] [4] (1) (2) 1 [5] (3) 50 (4) 指文字, 3% (25 個 ) 漢字手話 + 指文字, 10% (80 個 ) 漢字手話, 43% (357 個 ) 地名 漢字手話 + 指文字, 21

0210研究会

江 戸 時 代 に 凧 ができるだけ 所 有 し 和 紙 の 価 格 は 非 常 に 高 価 なので 飛 行 機 族 が 使 用 した Parade layang-layang Jepang diadakan setiap tanggal 5 Mei. がつ 5 5 日 本 の

Microsoft Word - 火曜3限COCAマニュアル.docx

スライド 1

英語原稿の書き方

101003S インドネシア語基礎単科セット 入船ゆかり 水曜日 金曜日 インドネシア語基礎の講座を全て受講する場合は セットで申込みをしてください この講座で重視している項目使用言語 A 授業の内容この講座で重視している項目使用言語 インドネシア語初級西脇敦子金曜日初級 A 基礎 Aに

スライド 1

マウス操作だけで本格プログラミングを - 世界のナベアツをコンピュータで - プログラムというと普通は英語みたいな言葉で作ることになりますが 今回はマウスの操作だけで作ってみます Baltie, SGP System 操作説明ビデオなどは 高校 情

要旨 アクバル アヤダナ 2014 年 KANINDO に翻訳されたケイオンアニメ映画の敬称訳 ブラウィジャヤ大学日本語学科 指導教員 :(I) ナディヤ インダ シャルタンティ (II) デウィ プスピタサリ キーワード : 敬称 翻訳 翻訳の方法 翻訳の手法 翻訳の等価 翻訳は比較文化を中心に実

京都立石神井高等学校平成 31 年度教科 ( 外国語 ( 英語 ) ) 科目 ( 英語表現 Ⅱ ) 年間授業計 ( 標準 α) 教 科 : 外国語 ( 英語 ) 科目 : 英語表現 Ⅱ 単位数 : 2 単位 対象学年組 : 第 2 学年 A 組 ~G 組 教科担当者 :(A 組 : 岡本 松井 )(

Q A Q Q Q Q 50

自然言語は曖昧性だらけ! I saw a girl with a telescope 構文解析 ( パージング ) は構造的な曖昧性を解消 2

2015 9


(NICT) ( ) ( ) (NEC) ( )

ポインタ変数

INVESTOR Investor from Japan, DSJ Holding Inc. meet Riau Governor and Vice Governor, Thursday (2/11). They expressed to interest in process EFB and OP

平成 29 年度年間授業計画 & シラバス 東京都立足立高等学校定時制課程 対象学年 教科 科目名 担当者名 1 学年 ( 普通科 商業科 ) 外国語科コミュニケーション 佐々木友子 風見岳快 英語 Ⅰ 使用教科書 出版社 : 三省堂 教科書名 :Vista English Communicatio

授業計画 第 1 回ガイダンス ; 簡単な挨拶をするキーワード / 文字, 発音, 挨拶の表現 習 / 特になし習 / 文字と発音の関係の理解 第 2 回職業や国籍をいう (Ⅰ) キーワード / 名詞の性と数, 主語代名詞, 動詞 être の現在形, 否定文 習 / 教科書の文法解説の概観習 /

untitled

1. Nama Mata Kuliah : Bunpo 1 2. Kode Mata Kuliah : JEP. 3. Bobot Mata Kuliah : 2 SKS I. Identitas Mata Kuliah 4. Jenis Mata Kuliah : Mata Kuliah Bida

mycards の使い方 1. カードの登録方法 2. カードセットの作成と編集 3. STUDY モードについて 4. CHALLENGE モードについて 5. カード閲覧 について 6. 設定 について 1. カードの登録方法 mycards のトップページから 以下の方法で登録ができます レッ

untitled

main.dvi

賃料設定、テナント契約

Microsoft Word - kiyou doc

使用上の注意 はじめに ( 必ずお読みください ) この SIGN FOR CLASSROOM の英語の動画資料について 作成の意図の詳細は 2 ページ以降に示されているので できるだけすべてを読んでいただきたい 要約 このビデオは 聴覚障がいを持つ生徒たちに英語を教える時 見てわかる会話を表 出さ

3.1 Thalmic Lab Myo * Bluetooth PC Myo 8 RMS RMS t RMS(t) i (i = 1, 2,, 8) 8 SVM libsvm *2 ν-svm 1 Myo 2 8 RMS 3.2 Myo (Root

Sarjani, Penelitian tentang persyaratan dan Kekhususan Kalimat Pasif dalam Bahasa Jepang dan Perbandingannya dalam Bahasa Indonesia kata ganti orang k




MeCab 汎用日本語形態素解析エンジン

kita University

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>


Anjuran Bilingual Mengapa bagus jika menguasai dua Bahasa? Bilingual adalah orang yang menguasai dua bahasa. Dibandingkan dengan monolingual yang hany

書式に示すように表示したい文字列をダブルクォーテーション (") の間に書けば良い ダブルクォーテーションで囲まれた文字列は 文字列リテラル と呼ばれる プログラム中では以下のように用いる プログラム例 1 printf(" 情報処理基礎 "); printf("c 言語の練習 "); printf

PENSYARAH

スライド 1

Microsoft Word スマホ対応版DGSG教員用マニュアル最新版.docx

A

Microsoft Word - PERMOHONAN PERMIT MENGAJAR.doc


Transcription:

SVM を用いたインドネシア語連体従属接続詞の判定システム Wahyu Purnomo( 東京農工大学工学部情報工学科 ) 古宮嘉那子 ( 東京農工大学工学研究院先端情報科学部門 ) 小谷善行 ( 東京農工大学工学研究院先端情報科学部門 ) SVM-based System for the Determination of Adnominal Subordinating Conjunction in the Indonesian Language Wahyu Purnomo (Department of Computer and Information Sciences, Faculty of Engineering, Tokyo University of Agriculture and Technology) Kanako Komiya (Institution of Engineering, Tokyo University of Agriculture and Technology) Yoshiyuki Kotani (Institution of Engineering, Tokyo University of Agriculture and Technology) 1. はじめにインドネシア語において, いろいろな接続詞が存在する. その中で, 連体従属接続詞 Yang が最もよく使用されるものである. インドネシア語の A Yang B は,B が A を修飾しており, 日本語の B の A, BA 又は B のほうの A や英語の BA 又は A which (to be/ verb) B に意味が似ている.A には, 名詞や名詞フレーズが来る場合が多く,B には, 名詞だけでなく動詞や形容詞や長いフレーズなどが来る可能性がある. インドネシア語には A Yang B の他にも AB という書き方もある. しかし,B に来るものが長ければ Yang があった方が自然である. 人間でも Yang の有無を判定するのは難しい. そのため, 本稿では, 文書から Yang の使用方法をコンピュータに学習させ, 自動的に Yang の有無を判定させるシステムを提案する. コンピュータに手掛かりの素性を変えたりすることで, 正解率が変わると見られた. 2. 関連研究 ( 宋, 浅原, 古宮, 小谷 (2013)) がインドネシア語の Yang に近い意味を持っている中国語の 的 の研究を報告している.( 宋, 浅原, 古宮, 小谷 (2013)) では,SVM を用いて中国語助詞の用法を解析した. その結果, コンピュータが判定した場合は正解率が 97.4% で, 人間が判定した場合は正解率が 96.2% だった. また,( 竇, 古宮, 小谷 (2012)) では, 中国語においてインターネット上でよく使用される表現を判定するシステムを提案した.( 竇, 古宮, 小谷 (2012)) の結果では,100 文の語を対象にアンケートを用いて人間で判定する際に 42% の正解率が得られた. 一方, 同じ 100 文の語を SVM で判定する際に 92% の正解率が得られた. 3. 連体従属接続詞の有無を判定するシステム本システムは, 大きく分けると文書をコンピュータに学習させる側の学習部分と学習させた上で未知の文書を判定する側の実行部分から成る. さらに, 学習部分と実行部分のそれぞれは, 入力文書を扱うコーパス部分, 文書から手掛かりの素性を抽出する素性抽出部分, 機械学習を行う SVM の部分から成る. 本システムのコーパス部分では品詞タグつきコーパスを扱う. 素性抽出部分では,Python 2.7.4 で書いた素性ベクトルリストを作成し,SVM の部分では LIBSVM 3-17(Chang and Lin (2001)) を利用した. 学習部分の構成は下記の図 1 のとおりである. 学習部分では, コンピュータに学習させようとする品詞タグつきのインドネシア語コーパスを, 素性ベクトルのリストを作成するプログラムに送り, 素性の抽出を行う. このプログラムにより作成された, 素性ベクトル 50011268509@st.tuat.ac.jp 91

のファイルから SVM によって, モデルファイルが生成される. モデルファイルは次に述べる実行部分で利用される. 学習部分 品詞タグつきインドネシア語コーパス ( 学習用 ) コーパス部分 素性ベクトルのリストを作成 素性ベクトルのリスト 素性抽出部分 LIBSVM による判定で使用されるモデルを作成 SVM の部分 Yang の判定で使用されるモデルファイル 図 1 本システムの学習部分の構成 次に, 実行部分では, 判定のために, 学習部分で使用されていない品詞タグつきコーパスを入力としている. 学習の際と同様に, 対象となるコーパスの素性抽出を行う. 学習部分で生成されたモデルファイルと判定用の素性ベクトルリストのファイルに基づいて SVM による判定を行い, Yang の判定結果が得られる. 本システムの実行部分は下記の図 2 のとおりである. なお, 本システムは Yang が名詞の直後に来ると想定しているため, コーパス中の名詞ごとに Yang の有無を判定した. 92

実行部分 品詞タグつきインドネシア語コーパス ( 判定用 ) コーパス部分 素性ベクトルのリストを作成 素性抽出部分 学習部分で得られたモデルファイル 素性ベクトルのリスト LIBSVM による Yang の判定 SVM の部分 Yang の判定結果 図 2 本システムの実行部分の構成 4. データ本システムでは, One Million POS Tagged Corpus of Bahasa Indonesia 1 を利用した. このコーパスは, インドネシアの新聞から収集された 100 万単語のインドネシア語から成り, 単語だけでなくその単語の品詞情報も付与されている. コーパスの例文を図 3 に示す. また, コーパス中の品詞の種類を表 1 に示す.... pemegang/nnc saham/nnc publik/nnc./. Dan/nn riil/nn estat/nn biasanya/jj tidak/neg diperdagangkan/nn dengan/in baik/jj dibawah/nn kepemilikan/nn publik/nnc./. Salomon/nn Brothers/nn mengatakan/vbi,/, Kami/prp yakin/nn properti-properti/nn riil/nn estat/nn akan/md... 図 3 コーパスから取ってきた例文 1 http://www.panl10n.net/english/outputsindonesia2.htm 93

表 1 コーパスで使用されている品詞の種類 タグ説明例, コンマ, ;. 文章の区切り. - ダッシュ - SYM 記号 % NN 普通名詞 Indeks, biaya, tenaga PRP 人称代名詞 Kita, mereka, ia PRN 数字代名詞 Satunya, keduanya, ketiganya PRL 位置格代名詞 Sana, situ, sini WRB Wh 副詞 Apa, bagaimana, mengapa WP Wh 代名詞 Apa, apakah, apa-apa VBI 自動詞 Ada, berakhir, berkata VBT 他動詞 Membantu, menolak, menjadi MD 助動詞 Akan, bias, telah JJ 形容詞 Swasta, jauh, baik CDP 基数 Satu, juta, milyar CDO 順序 Pertama, kedua, ketiga NEG 否定詞 Belum, bukan, tidak IN 前置詞 Dengan, kepada, untuk CC 等位接続詞 Atau, dan, karena SC 従属接続詞 Bahwa, sekaligus, yang RB 副詞 Hanya, mungkin, sebagaimana DT 限定詞 Ini, para, tersebut FW 洋語 Few, fiscal, for また, 名詞には細分類がある. 表 2 に細分類を示す. 表 2 名詞の細分類 タグ説明例 NNC 加算普通名詞 Cara, laut, tahap NNU 不加算普通名詞 Peringatan, pikiran, system NNG 属格普通名詞 Adanya, lainnya, misalnya NNP 固有普通名詞 Desa, dunia, lembaga 5. 実験本システムでは素性に単語の位置を考慮した. 単語列 W:{ A, B, C, D, E, F, G} とこれに対応する品詞 P:{ p A, p B, p C, p D, p E, p F, p G } があるとする. ここで,p D を名詞とすると, A B C D Yang E F G という文章において, 名詞の D の位置を 0,A の位置を -3,B の位置を -2,C の位置を -1,E の位置を +1,F の位置を +2,G の位置を +3 と置き,A, B, C, E, F, G の形態素と品詞を素性とした. なお, Yang の有無を判定するシステムであるため, 実際に E の位置に Yang があった場合でも素性には含まなかった. また, Yang が挿入される直前の名詞の形態素は素性に含めたが, 品詞は常に名詞であるため, 素性に含めなかった. また, 本システムでは関連性の低い単語を素性ベクトルに入れないために, 文節 ( 文の始まりまたは終わりやコンマの前または後 ) を超えた単語およびその品詞は素性に含めず, 94

それを超えた形態素は NONE/none として扱った. また, 文頭と文尾は特殊な形態素として扱った. 本稿では, ふたつの実験を行った. 一つ目は素性の種類を変えた実験である. 具体的には, 形態素だけを素性にした場合と, 形態素に加えて品詞を素性にした場合の実験を行い比較した. 図 3 の例文を例に, 形態素だけを利用した場合の estat/nn の素性ベクトルのパターンを表 3 に, 形態素と品詞を利用した場合の estat/nn の素性ベクトルを表 4 に示す. Yang の有無 表 3 estat/nn の単語だけの素性ベクトル 単語の位置 -3-2 -1 0 +1 +2 +3 ない. Dan riil estat biasanya tidak diperdagangkan Yang の有無 表 4 estat/nn の単語と品詞が入った素性ベクトル単語の位置品詞の位置 -3-2 -1 0 +1 +2 +3-3 -2-1 +1 +2 +3 ない. Dan riil es tat bia sa nya ti dak Diperda gangkan bos nn nn jj neg nn 二つ目の実験として, ウィンドウサイズを変えた実験を行った. 連体従属接続詞 Yang は, 直後に長いフレーズが, また直前にはより短いフレーズが来る可能性が高い. そこで, ウィンドウサイズを変えて, 本システムの正解率がどれぐらい変わるのかを確認した. この際, 問題の名詞の位置より前の単語は 3 個に固定し, 後ろの単語として 3 個と 5 個単語の両方を試した. 6. 実験の結果実験で使用したコーパスには,42,451 種類, 計 451,339 個の名詞を含んでいた. そして, その中から Yang がつくものは 17,588 個であった. これは全体の 3.90% を占めているため,69.10% が最頻出ベースラインである. 実験の結果は表 5 のとおりである. 素性の種類 ウィンドウサイズ 表 5 実験の結果 実験 正解率 [%] 単語のみ 96.90 単語と品詞 97.07 前 3 後 3 97.07 前 5 後 5 97.37 7. 考察単語と品詞の情報を素性ベクトルに入れた場合は単語のみを入れた場合より正解率が高いことが表 5 から分かる. すなわち, コンピュータに単語だけ覚えさせるのでなく, その単語の品詞も覚えさせたほうがより効果的であることが分かった. 表 5 より, ウィンドウサイズは 3 よりも 5 のときの方が正解率が高いことが見て取れる. この差は 0.30% であった. 次に, Yang がある際にシステムが間違って判定し 0 と出力した例を (1) と (2) に示す. 95

(1) naik pada tingkat yang jauh lebih cepat より速いペースの段階に上がった (2) dan 12 bulan yang berakhir pada September 1988 1988 年 9 月に終わる 12 カ月や 上記の (1) と (2) では, Yang がなければ文章の構成が変わる他に, 文章の意味もおかしくなるため, システムが 0 と出力する場合は, 判定が間違っている.(1) における tingkat( 段階 ) と (2) における 12 bulan(12 カ月 ) の使用例が学習データになかったため, システムが Yang がないと判定したと考えられる. コーパスを見ると, Yang が実際にはあるのにもかかわらず, システムはないと判定している. これは, 学習データのうち, Yang があるデータが非常に少ないためであると考えられる. これは oversampling や undersampling によってデータの割合を変えることで改良の可能性があるが,( 宋, 浅原, 古宮, 小谷 (2013)) によれば, データの割合を変えない方が良い結果が出ている. 8. まとめ本稿では, インドネシア語連体従属接続詞 Yang の有無を判定するために, 名詞の直前にある 3 個単語と名詞の直後にある Yang を含めず 5 個単語を素性ベクトルに入れる場合は正解率が最も高いと見られた. そして, ピリオードやコンマにより関連性の低い単語を素性ベクトルに入れないことの重要さが見られた. 文献 Chih-Chung Chang and Chih-Jen Lin. LIBSVM: a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/ cjlin/libsvm. 宋東旭, 浅原正幸, 古宮嘉那子, 小谷善行 (2013), 機械学習による中国語助詞の用法解析, 第三回コーパス日本語学ワークショップ予稿集,pp. 111-116. 竇梓瑜, 古宮嘉那子, 小谷善行 (2012), コーパスを用いた中国語ネット語の判定システム, 第一回コーパス日本語学ワークショップ予稿集, pp.161-166. 96