(Microsoft Word - JCLWorkshop2013_2\214\303\213{.doc)

Similar documents
言語資源活用ワークショップ 2019 発表論文集 半教師あり語義曖昧性解消における各ジャンルの語義なし用例文の利用 谷田部梨恵 ( 茨城大学大学院理工学研究科 ) 佐々木稔 ( 茨城大学工学部情報工学科 ) Semi-Supervised Word Sense Disambiguation Usin

コーパスを用いた中国語ネット語の判定システム 竇梓瑜 ( 東京農工大学工学府情報工学専攻 ) 古宮嘉那子 ( 東京農工大学工学研究院先端情報科学部門 ) 小谷善行 ( 東京農工大学工学研究院先端情報科学部門 ) A Detection System of Chinese Netspeak Using

A Japanese Word Dependency Corpus ÆüËܸì¤Îñ¸ì·¸¤ê¼õ¤±¥³¡¼¥Ñ¥¹

自然言語処理24_705

IPSJ-TOD

1. はじめに 2

x i 2 x x i i 1 i xi+ 1xi+ 2x i+ 3 健康児に本剤を接種し ( 窓幅 3 n-gram 長の上限 3 の場合 ) 文字 ( 種 )1-gram: -3/ 児 (K) -2/ に (H) -1/ 本 (K) 1/ 剤 (K) 2/ を (H) 3/ 接 (K) 文字 (

3.BCCWJ における固有表現抽出のエラー分析手法 3.1 BCCWJ における KNP のエラー分析今回エラーの分析をするにあたって BCCWJ のうち YAHOO! 知恵袋 白書 YAHOO! ブログ 書籍 雑誌 新聞 の 6 つからランダムサンプリングした計 136 個のテキストに対して人手

¥ì¥·¥Ô¤Î¸À¸ì½èÍý¤Î¸½¾õ

コーパスに基づく言語学教育研究報告 8

( : A8TB2163)

Microsoft PowerPoint LRW.pptx

No. 3 Oct The person to the left of the stool carried the traffic-cone towards the trash-can. α α β α α β α α β α Track2 Track3 Track1 Track0 1

自然言語処理21_249

21 Pitman-Yor Pitman- Yor [7] n -gram W w n-gram G Pitman-Yor P Y (d, θ, G 0 ) (1) G P Y (d, θ, G 0 ) (1) Pitman-Yor d, θ, G 0 d 0 d 1 θ Pitman-Yor G

/4 2012

[4], [5] [6] [7] [7], [8] [9] 70 [3] 85 40% [10] Snowdon 50 [5] Kemper [3] 2.2 [11], [12], [13] [14] [15] [16]

jpaper : 2017/4/17(17:52),,.,,,.,.,.,, Improvement in Domain Specific Word Segmentation by Symbol Grounding suzushi tomori, hirotaka kameko, takashi n

(fnirs: Functional Near-Infrared Spectroscopy) [3] fnirs (oxyhb) Bulling [4] Kunze [5] [6] 2. 2 [7] [8] fnirs 3. 1 fnirs fnirs fnirs 1

(Microsoft Word - JCLWorkshop2013_2\214\303\213{.doc)


(2008) JUMAN *1 (, 2000) google MeCab *2 KH coder TinyTextMiner KNP(, 2000) google cabocha(, 2001) JUMAN MeCab *1 *2 h

自然言語は曖昧性だらけ! I saw a girl with a telescope 構文解析 ( パージング ) は構造的な曖昧性を解消 2

NLP プログラミング勉強会 5 HMM による品詞推定 自然言語処理プログラミング勉強会 5 隠れマルコフモデルによる品詞推定 Graham Neubig 奈良先端科学技術大学院大学 (NAIST) 1

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

1 7.35% 74.0% linefeed point c 200 Information Processing Society of Japan

IPSJ SIG Technical Report Vol.2010-NL-199 No /11/ treebank ( ) KWIC /MeCab / Morphological and Dependency Structure Annotated Corp

プログラム・抄録集.indd

™…{,

DEIM Forum 2015 F8-4 Twitter Twitter 1. SNS

タイトルは14ポイント&ボールドMS明朝

6 68

i

独立行政法人情報通信研究機構 Development of the Information Analysis System WISDOM KIDAWARA Yutaka NICT Knowledge Clustered Group researched and developed the infor

main.dvi

先行研究 pp

(NICT) ( ) ( ) (NEC) ( )

Computational Semantics 1 category specificity Warrington (1975); Warrington & Shallice (1979, 1984) 2 basic level superiority 3 super-ordinate catego

レビューテキストの書き の評価視点に対する評価点の推定 29 3

main.dvi

[1], B0TB2053, i

gengo.dvi

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成

一般社団法人電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGIN

3.1 Thalmic Lab Myo * Bluetooth PC Myo 8 RMS RMS t RMS(t) i (i = 1, 2,, 8) 8 SVM libsvm *2 ν-svm 1 Myo 2 8 RMS 3.2 Myo (Root

ス言語学の影響でコロケーション分析がコーパスと統計指標 (raw frequency, t-score, log-likelihood ration, MI-score, など ) によって行われるようになった それにも関わらず現在でも統計的に採集されるデータは手作業で分析しなければならない 一般的

( )

Modal Phrase MP because but 2 IP Inflection Phrase IP as long as if IP 3 VP Verb Phrase VP while before [ MP MP [ IP IP [ VP VP ]]] [ MP [ IP [ VP ]]]

Corrected Version NICT /11/15, 1 Thursday, May 7,

3. データ本発表では 2011 年 12 月にリリースされた 現代日本語書き言葉均衡コーパス の DVD 版を使用した Disk1 の M-XML フォルダに含まれる xml ファイルが対象である この xml ファイルは可変長サンプルと固定長サンプルを統合したもので 短単位 長単位の形態論情報の

20mm 63.92% ConstantZoom U 5

Vol. 9 No. 5 Oct (?,?) A B C D 132

IPSJ SIG Technical Report Vol.2017-SLP-115 No /2/18 1,a) 1 1,2 Sakriani Sakti [1][2] [3][4] [5][6][7] [8] [9] 1 Nara Institute of Scie

計量国語学 アーカイブ ID KK 種別 特集 招待論文 A タイトル Webコーパスの概念と種類, 利用価値 語史研究の情報源としてのWebコーパス Title The Concept, Types and Utility of Web Corpora: Web Corpora as

untitled

IPSJ SIG Technical Report Vol.2015-MUS-106 No.10 Vol.2015-EC-35 No /3/2 BGM 1,4,a) ,4 BGM. BGM. BGM BGM. BGM. BGM. BGM. 1.,. YouTube 201

els08ws-kuroda-slides.key

!

1

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

corpus.indd

The Plasma Boundary of Magnetic Fusion Devices

b n m, m m, b n 3


IPSJ SIG Technical Report Vol.2018-SE-200 No /12/ Proposal of test description support environment for request acquisition in web appli

_314I01BM浅谷2.indd

0210研究会

Twitter Twitter [5] ANPI NLP 5 [6] Lee [7] Lee [8] Twitter Flickr FreeWiFi FreeWiFi Flickr FreeWiFi 2. 2 Mikolov [9] [10] word2vec word2vec word2vec k

385 安全 / 環境関連国際規格特集号 ISO の概要と日本人への適用の妥当性 ISO ISO ISO キーワード 1. はじめに ISO IEC Guide 51 ISO ISO ISO ISO


CJL NEWS VOL JANUARY contents

fiúŒ{„ê…Z…fi…^†[…j…–†[…X

Medical3


Izard 10 [1]Plutchik 8 [2] [3] Izard Neviarouskaya [4][5] 2.2 Hao [6] 1 Twitter[a] a) Shook Wikipedia


Microsoft Word - DEIM論文3.doc

13金子敬一.indd

IPSJ SIG Technical Report Vol.2010-GN-75 No /3/19 1. Proposal and Evaluation of Laboratory Experiments for understanding Offshore Software Deve

untitled

BOK body of knowledge, BOK BOK BOK 1 CC2001 computing curricula 2001 [1] BOK IT BOK 2008 ITBOK [2] social infomatics SI BOK BOK BOK WikiBOK BO

音響モデル triphone 入力音声 音声分析 デコーダ 言語モデル N-gram bigram HMM の状態確率として利用 出力層 triphone: 3003 ノード リスコア trigram 隠れ層 2048 ノード X7 層 1 Structure of recognition syst

IPSJ SIG Technical Report Vol.2009-DBS-149 No /11/ Bow-tie SCC Inter Keyword Navigation based on Degree-constrained Co-Occurrence Graph

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

Mimehand II[1] [2] 1 Suzuki [3] [3] [4] (1) (2) 1 [5] (3) 50 (4) 指文字, 3% (25 個 ) 漢字手話 + 指文字, 10% (80 個 ) 漢字手話, 43% (357 個 ) 地名 漢字手話 + 指文字, 21

24 Region-Based Image Retrieval using Fuzzy Clustering

5temp+.indd

298

2 3

Haiku Generation Based on Motif Images Using Deep Learning Koki Yoneda 1 Soichiro Yokoyama 2 Tomohisa Yamashita 2 Hidenori Kawamura Scho

IPSJ SIG Technical Report Vol.2016-ICS-183 No /3/16 1,a) 2,b) 2,c) 1,d) e- Maeda Kaoru 1,a) Yoshida Naoto 2,b) Fujiwara Kunihiko 2,c) Yonezawa T

IPSJ SIG Technical Report Vol.2009-BIO-17 No /5/ (SVM) Boosting SVM Prediction of Drug Clearance Pathway by Boosting Algorithm Ka

電子情報通信学会ワードテンプレート (タイトル)

2014年度の研究報告

main.dvi

2 21, Twitter SNS [8] [5] [7] 2. 2 SNS SNS Cheng [2] Twitter [6] Backstrom [1] Facebook 3 Jurgens

IPSJ SIG Technical Report Vol.2013-CE-119 No /3/15 C 1 1 Web C MILES(Model-based Interactive Learning Support) MILES 1. C C MILES(Model-based In

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Vol. 22 No. 2 June 2015 and language expressions. Based on these backgrounds, in this study, we discuss the definition of a tag set for recipe terms a

Title 中國宗教文獻研究國際シンポジウム報告書 ( 大規模佛教文獻群に對する確率統計的分析の試み / 師茂樹 ) Author(s) Citation (2004) Issue Date URL Right Typ

Transcription:

分類器の確信度確信度を用いたいた合議制合議制によるによる語義曖昧性解消語義曖昧性解消の unsupervised な領域適応 古宮嘉那子 ( 東京農工大学工学研究院 ) 奥村学 ( 東京工業大学精密工学研究所 ) 小谷善行 ( 東京農工大学工学研究院 ) Unsupervised Domain Adaptation in Word Sense Disambiguation Based upon the Comparison of Multiple Classifiers Kanako Komiya (Institution of Engineering, Tokyo University of Agriculture and Technology) Manabu Okumura (Precision and Intelligence Laboratory, Tokyo Institution of Technology) Yoshiyuki Kotani (Institution of Engineering, Tokyo University of Agriculture and Technology) 1. はじめにテストのターゲットとなるドメインとは異なるドメインのデータ ( ソースデータ ) を利用して学習を行い, ターゲットドメインのデータ ( ターゲットデータ ) に適応することを領域適応といい, 近年さまざまな手法が研究されている. 本稿では, あるドメイン ( ジャンル ) のターゲットデータに対して, 複数のジャンルのコーパスの集合になっているソースデータがある場合, ソースデータの全体集合から, ターゲットデータに適した訓練事例の部分集合を自動的に選択する試みについて述べる. なお, ターゲットデータのラベルは未知とし, 語義曖昧性解消 (Word Sense Disambiguation, WSD) について領域適応を行った. また本稿では, ターゲットデータの用例ごとに適切な訓練事例は異なると仮定し, 用例ごとに訓練事例の選択を行った. 具体的には, あるターゲットデータに対して, 二つのジャンルからなるコーパスがソースデータとして与えられた際, それぞれのジャンルのコーパスによって訓練する方式と, コーパス全体によって訓練する方式を使って三つの分類器を作成し, 用例ごとに学習された分類器の出力する確信度が最大である答えを採用することにより, 分類の精度を向上させる手法を示す. 2. 関連研究領域適応は, 学習に使用する情報により,fully supervised,semi-supervised,unsupervised の三種に分けられる.(Daumé III, Kumar and Saha, (2010)) によれば,fully supervised の領域適応は, ラベルつきのソースデータに加え少量のラベルつきのターゲットデータを用いて学習を行うもので, 訓練事例としてソースデータまたは少量のターゲットデータだけを利用する場合よりも, 分類器を改良することを目指す. 次の semi-supervised の領域適応は, 多量なラベルつきのソースデータに加え, 多量なラベルなしのターゲットデータと少量のラベルつきのターゲットデータを利用するものである. また, 最後の unsupervised の領域適応は, ラベルつきのソースデータと, ラベルなしのターゲットデータを利用するものである 1. 本研究で扱うのは unsupervised の領域適応である. 領域適応の研究は自然言語処理の分野の内外においてさまざまなされており,supervised のものには (Chan and Ng (2006)),(Daumé III(2007)),(Jiang and Zhai (2007)) などがある. 本稿では, 分類器の確信度により領域適応に用いる訓練事例集合を選択する手法につい て述べる. これに関連した研究として ( 張本, 宮尾, 辻井 (2010)) や (Asch and Daelemans kkomiya@cc.tuat.ac.jp 1 (Daumé III(2007)) では (Daumé III, Kumar and Saha, (2010)) で unsupervised としているものを semi-supervised としているが, 本稿では新しい方を採用した. 1

(2010)),(McClosky, Charniak, and Johnson (2010)),( 古宮, 奥村 (2012)),(Komiya and Okumura (2012)),( 古宮, 小谷, 奥村 (2013)), がある.( 張本, 宮尾, 辻井 (2010)) は, 構文解析において, 分野間距離をはかり, より適切なコーパスを利用して領域適応を行えるようにした. また,(Asch and Daelemans (2010)) は, 構文解析において, 自動的にタグ付けされたコーパスを用いて, ソースデータとターゲットデータの類似度から性能を予測できることを示した.( 古宮, 奥村 (2012)) は WSD について supervised な領域適応を行った場合, 最も効果的な領域適応手法はソースデータとターゲットデータの性質により異なることを示し, 最も効果的な領域適応手法を,WSD の対象単語タイプ, ソースデータ, ターゲットデータの三つ組ごとに自動的に選択する手法について述べた. また,(Komiya and Okumura (2012)) は,WSD の supervised な領域適応において, 本稿でも使用する確信度という尺度を用い, 用例ごとに適切な領域適応手法を自動的に選択した. また,( 古宮, 小谷, 奥村 (2013)), unsupervised な領域適応において, あるターゲットデータに対して複数のジャンルのソースデータが混在した場合, 確信度と LOO-bound という指標を利用して, 領域適応のための訓練事例の部分集合を WSD の対象単語タイプごとに自動的に選択する手法について述べた. 3. 用例ごとの訓練事例集合の自動選択あるドメイン ( ジャンル ) のターゲットデータを対象に WSD を行うことを考える. このターゲットデータのラベル ( 語義 ) は未知であるとする. 一方, 複数のジャンルのコーパスの集合となっているソースデータが入手可能であるとすると, 本稿ではこれらのソースデータの全体集合から, ターゲットデータに適した訓練事例の部分集合を自動的に選択する. この際, 以下の手順で訓練事例の部分集合の選択を行う. なお, 我々は最も効果的な訓練事例集合は用例ごとに異なると仮定しているため, 訓練事例集合の選択はターゲットデータの用例ごとに行う. (1) 訓練事例集合を変えて複数の分類器を学習する. (2) 用例ごとに, 複数の訓練事例集合による分類器の確信度を比較する. (3) 分類器の確信度の最も高い訓練事例集合による結果を採用する. ここでの分類器の確信度 (Komiya and Okumura (2012)) は, 分類の確からしさの度合いの予測値であり, 能動学習においてラベル付けする用例を選択するのによく利用される. 本手法では (Komiya and Okumura (2012)) と同様に, この確信度が確率として出力されることに注目し, 確信度を比較することで, 複数の分類器の合議を行う. 4. 実験 4.1WSD のための訓練事例集合 WSD のための訓練事例集合として, 本研究では以下に示す三つを用いる. One: 複数のジャンルのコーパスの集合であるソースデータのうち, ひとつのジャンルのコーパスを訓練事例に用いる. Another: One とは別のひとつのジャンルのコーパスを訓練事例に用いる. Together: One と Another で利用したふたつのコーパスを訓練事例に用いる. 分類器としてはマルチクラス対応の SVM(libsvm)(Chang and Lin (2001)) を使用した. ま 2

た,libsvm の確率として出力される分類の確からしさを確信度として用いた. カーネルは 予備実験の結果, 線形カーネルが最も高い正解率を示したため, これを採用した. また, 学習の素性には, 以下の 17 種類の素性を用いた. WSD の対象単語の前後二語までの形態素の表記 (4 種類 ) WSD の対象単語の前後二語までの品詞 (4 種類 ) WSD の対象単語の前後二語までの品詞の細分類 (4 種類 ) WSD の対象単語の前後二語までの分類コード (4 種類 ) 係り受け (1 種類 ) - 対象単語が名詞の場合はその名詞が係る動詞 - 対象単語が動詞の場合はその動詞のヲ格の格要素 分類語彙表の分類コードには ( 国立国語研究所 (1964)) を使用した. 4.2 合議の方法上記で示した One, Another の二つ, また Together を含めた三つのうちから確信度を用いて, 最も適切な分類器の結果を合議により決定した. One, Another の二種類から選ぶ際には, より確信度が高い方の分類器の結果を採用した. Together を含めた三種類の合議の方法は, 以下の 4 通りを試した. なお, 一番が複数あるときには最も高い確信度の分類器の語義を採用した. Highest: 最も高い確信度の分類器の結果 ( 語義 ) を採用する Time: 語義ごとに, 複数分類器から出力された確信度を積算し, 最も高い確信度となった語義を採用する Plus: 語義ごとに, 複数分類器から出力された確信度を足しあわせ, 最も高い確信度となった語義を採用する Majority ajority: 分類器ごとに, 最も高い確信度となった語義に一票入れ, 最も多数の票が入った語義を採用する 4.3 実験データ実験には, 現代日本語書き言葉均衡コーパス (BCCWJ コーパス )(Maekawa (2008)) の白書のデータと Yahoo! 知恵袋のデータ, また RWC コーパスの毎日新聞コーパス (Hashida et al. (1998)) の三つのジャンルのデータを利用した. これらのデータには岩波国語辞典 ( 西尾ら (1994)) の語義が付与されている. 三つのジャンルのコーパスのうち, ひとつをターゲットデータにし, 残りの二つを利用可能なソースデータとして利用することで, 全部で 3 通りの領域適応を行った. これらのコーパス中の多義語のうち, 三つのコーパス中全てに 50 トークン以上存在する単語を実験対象としたところ, 全体で 22 種類となった. それぞれのジャンルのコーパスにおけるケースごとの最小, 最大, 平均用例数を表 1 に示す. また, 実験には岩波国語辞典の小分類の語義を採用した. 語義数ごとの単語の内訳は,2 語義 : 場合, 自分,3 語義 : 事業, 情報, 地方, 社会, 思う, 子供,4 語義 : 考える,5 語義 : 含む, 技術,6 語義 : 関係, 時間, 一般, 現在,7 語義 : 今,8 語義 : 前,10 語義 : 持つ, 12 語義 : 見る,14 語義 : 入る,16 語義 : 言う,22 語義 : 手 である. 3

表 1 それぞれのジャンルのコーパスにおける単語ごとの最小, 最大, 平均用例数 コーパスの種類 最小 最多 平均 BCCWJ 白書 58 7610 2240.14 BCCWJ Yahoo! 知恵袋 130 13976 2741.95 RWC 新聞 56 374 183.36 5. 結果表 2 に全体の合議の方法別の実験結果を, また, 表 3 にターゲットデータと合議の方法別の実験結果を示す. これらの表において, Self は, タグつきターゲットデータが手に入ったと仮定して,supervised の学習を 5 分割交差検定を用いて行った結果である. ふたつのコーパスの平均 は, ふたつのジャンルのソースデータそれぞれをジャンルごとに分けて訓練事例とした場合の結果の平均である. 入手可能なジャンルのコーパスをそれぞれソースデータとして使用した場合の平均的な結果を示している. 例えば,Yahoo! 知恵袋のデータがターゲットデータの時のソースデータは白書と新聞であるが, このときの ふたつのコーパスの平均 は, 白書の全データで訓練した Yahoo! 知恵袋のデータの正解率と, 新聞の全データで訓練した Yahoo! 知恵袋のデータの正解率の平均となる. また, 大きい方のコーパス は, ふたつのジャンルのソースデータのうち, 用例数が多いジャンルのソースデータをすべて訓練事例とした場合の結果である. 例えば,Yahoo! 知恵袋のデータがターゲットデータの時の 大きい方のコーパス は, 白書よりも新聞のほうが全単語タイプで比較したときに用例数が多かったため, 新聞の全データで訓練した Yahoo! 知恵袋のデータの正解率の平均となる. 最後に, 全てのコーパス とは, ふたつのジャンルのソースデータ全て ( つまり全ソースデータ ) を訓練事例とした際の結果である. 例えば,Yahoo! 知恵袋のデータがターゲットデータの時の 全てのコーパス は, 白書と新聞のコーパス全てを訓練事例として利用した際の結果である. 表 2 全体の合議の方法別の実験結果 マイクロ平均 マクロ平均 Self 93.29% 85.97% ふたつのコーパスの平均 76.92% 71.20% 大きいきい方のコーパス 81.99% 74.25% 全てのコーパス 81.76% 75.86% 二種類からから選択 82.46% 74.71% Highest 82.62% 74.92% Time 77.11% 65.85% Plus 82.48% 74.07% Majority 80.89% 70.88% このとき, Self は upper bound であり, ふたつのコーパスの平均, 大きい方のコー パス, 全てのコーパス はベースラインである. 表において Self 以外でコーパスごとに 4

一番高い正解率を太字で示した. またその値をベースラインのうち一番目に高い正解率と 比較した際,0.05 水準で有意である場合にはその値に下線を引いた. 表 3 ターゲットデータと合議の方法別の実験結果 マイクロ平均 マクロ平均 ターゲットデータ 白書 新聞 Yahoo! 知恵袋 白書 新聞 Yahoo! 知恵袋 Self 96.07% 79.57% 91.93% 91.53% 78.59% 87.80% ふたつのコーパスの平均 73.54% 72.94% 79.95% 70.80% 71.23% 71.57% 大きいきい方のコーパス 80.72% 74.86% 83.50% 75.64% 74.39% 72.73% 全てのコーパス 81.80% 75.95% 82.11% 76.91% 74.91% 75.76% 二種類からから選択 82.02% 74.81% 83.33% 76.68% 72.71% 74.75% Highest 82.28% 74.94% 83.42% 76.88% 72.80% 75.07% Time 76.72% 66.39% 78.13% 65.94% 62.28% 69.32% Plus 81.93% 71.44% 83.67% 75.81% 70.65% 75.75% Majority 80.10% 67.03% 82.46% 71.45% 67.28% 73.92% 6. 考察まず, 表 2 と表 3 においてマイクロ平均を比べると,Yahoo! 知恵袋コーパスがターゲットデータの時と全体で比較した際には, 全てのコーパス の正解率より 大きい方のコーパス の正解率の方が高い. このことから, 訓練事例は必ずしも多ければ良いわけではないことが分かる. 次に, 同じ二つの表から, 二種類から選択 のマイクロ平均は新聞がターゲットデータのとき以外は総じて良いことが分かる. しかし Together を含めた三種類から選択する Highest の方が, マイクロ平均, マクロ平均ともにいつも良い. その Highest は, 提案手法で最も高い正解率を示している. 特にマイクロ平均においては, ベースライン中で最も高い正解率の 大きい方のコーパス を有意に上回っている. しかし, マクロ平均についてはどの提案手法も 全てのコーパス というベースラインを上回ることが出来なかった. マクロ平均をあげることが今後の課題である. また, 二つの表から, Highest と Plus は Time や Majority よりも正解率が高いことが分かる. 最後に, 表 3 から, マイクロ平均において, 新聞がターゲットデータになった際には 全てのコーパス が全てのうちで最も高い正解率である. これは, 訓練事例となった Yahoo! 知恵袋と白書のコーパスがふたつとも大きいため, 全てのコーパスを利用した場合には片方のコーパスよりずっと大きくなるためであると考えられる. 訓練事例数は必ずしも多ければいいわけではないが, 一方で, 訓練事例数に大きな差があった場合には, 多い方を選ぶと高い正解率となると思われるので, 今後は訓練事例数を加味した指標を考える予定である. 7. まとめテストのターゲットとなるドメインとは異なるドメインのデータを利用して学習を行い, ターゲットドメインのデータに適応することを領域適応といい, 近年さまざまな手法が研究されている. 我々は, 語義曖昧性解消 (WSD: Word Sense Disambiguation) の領域適応を行う際, ターゲットデータの用例によって適切な訓練事例集合は異なると考え, ソースデータとして二つのジャンルによるコーパスが与えられた際, それぞれのジャンルのコ 5

ーパスによって訓練する方式と, 全体のコーパスによって訓練する方式を使って三つの分類器を作成し, 用例ごとに学習された分類器の出力する確信度が最大である答えを採用することにより, 分類の精度を向上させる手法を示した. 用例ごとに自動的に選択された訓練事例集合を用いて領域適応を行うことで, 全体のコーパスを使用して学習した時や大きい方のコーパスを利用して学習した時に比べ,WSD の平均正解率がマイクロ平均に関して有意に向上した. マクロ平均を上昇させることが今後の課題である. 謝辞本研究は, 文部科学省科学研究費補助金 [ 若手 B(No:24700138)] の助成により行われた. ここに, 謹んで御礼申し上げる. 文献 Vincent Van Asch and Walter Daelemans (2010). Using Domain Similarity for Performance Estimation. Proceedings of the 2010 Workshop on Domain Adaptation for Natural Language Processing, ACL 2010, pp. 31 36. Yee Seng Chan and Hwee Tou Ng (2006). "Estimating Class Priors in Domain Adaptation for Word Sense Disambiguation." Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, pp89-96. Hal Daumé III(2007). Frustratingly Easy Domain Adaptation. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp 256 263. Hal Daumé III, Abhishek Kumar, Avishek Saha, (2010). Frustratingly Easy Semi-Supervised Domain Adaptation, Proceedings of the 2010 Workshop on Domain Adaptation for Natural Language Processing, ACL 2010, pages 53 59. Koichi Hashida, Hitoshi Isahara, Takenobu Tokunaga, Minako Hashimoto, Shiho Ogino, and Wakako Kashino (1998). The Rwc Text Databases. In Proceedings of The First International Conference on Language Resource and Evaluation, pp. 457 461. Jing Jiang and ChengXiang Zhai (2007). Instance Weighting for Domain Adaptation in NLP, Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp49-56, pp 264 271. Kanako Komiya and Manabu Okumura (2012). Automatic Domain Adaptation for Word Sense Disambiguation Based on Comparison of Multiple Classifiers, Proceedings of 26 th Conference on Language Information and Computation, pp 77-85. Pacific Asia David McClosky, Eugene Charniak, and Mark Johnson (2010). Automatic domain adaptation for parsing. Proceedings of the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp 28 36. Kikuo Maekawa (2008). Balanced Corpus of Contemporary Written Japanese. In Proceedings of the 6th Workshop on Asian Language Resources (ALR), pp. 101 102. 国立国語研究所 (1964). 分類語彙表. 秀英出版. 古宮嘉那子, 奥村学 (2012). 語義曖昧性解消のための領域適応手法の決定木学習による自動選択, 自然言語処理,Vol.19, No.3, pp.143-166. 古宮嘉那子, 小谷善行, 奥村学 (2013). 語義曖昧性解消の領域適応のための訓練事例集合の選択, 第 19 回言語処理学会年次大会予稿集,In Press. 西尾実, 岩淵悦太郎, 水谷静夫 (1994). 岩波国語辞典第五版. 岩波書店. 張本佳子, 宮尾祐介, 辻井潤一 (2010). 構文解析の分野適応における精度低下要因の分析及び分野間距離の測定手法. 言語処理学会第 16 回年次大会発表論文集, pp. 27 30. 6