(NICT) ( ) () (NEC) ( )
! Paraphrase (Paraphrasing) l l
! l h"p://paraphrasing.org/bib- cat.html l 12 50 l 640 (2014 6)! l l l l l l
! [ ] 2! [ ] ( )! :............ 1 2 1 = 2 =
! [ ]! [ ]! :............
! l / e.g., / l e.g., () e.g., ( ) l l! ( ) l [ ] l [ ] ( ) l :
?! : l Ja: [ +, 12] l En/Fr: + [Max+, 12]! : l 18[ +, 03] 828k à 630 l l! : l En: MicrosoJ Research Paraphrase Corpus (MSRP) [Dolan+, 04] Ja: NTCIR Recognizing Inference in TExt (RITE2) [Watanabe+, 13]
FY2014!! l : l : l :! l l...
: MSRP! [Dolan+, 04] l 8-20 l 1147, 578 l state- of- the- art F : 84.1 MT [Madnani+, 12]! l [Xu+, 14] cf. : F 79.9 state- of- the- art l l? : 0.715, 0.600
: RITE- 2! [Watanabe+, 13] l Wikipedia l 4 : B ( ), F (), C ( ), I ( ) l state- of- the- art F : 69.3 [Ha]ori+, 13]!? l :? [Kaneko+, 13] l?: e.g.,! l : (!) l : WordNetWeb
RITE- 2! / l... l t 1 r 1 : 0.771 Token overlap ratio against t2 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 B 以外 0.408/0.607 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Token overlap ratio against t1 B 0.726/0.712 B F C I
! ID=242, B, r 1 =1.00: B(17), F(3), I(1) l! ID=186, B, r 1 =1.00: B(15), F(4), C(1), I(1) l
! ID=199, B, r 1 =0.79: B(12), F(2), C(0), I(6), (1) l +! ID=330, B, r 1 =0.75: B(10), F(2), C(4), I(5) l + / 20
false negaave! ID=292, B, r 1 =0.62: B(4), F(10), C(1), I(6) l + / + +...! ID=86, B, r 1 =0.56: B(4), F(3), C(1), I(12)! ID=26, B, r 1 =0.42: B(2), F(7), C(0), I(12)
false posiave! ID=20, C, r 1 =1.00: F(1), B(12), C(3), I(4)! ID=65, I, r 1 =0.94: F(5), B(11), C(4), I(1) 4 3! ID=91, F, r 1 =0.91: F(4), B(14), C(0), I(3)
: RITE- 2 (contd.)! [Kaneko+, 13] l l : / l : / l! l l? (cf. WSC [Levesque, 11])! : 70
! 1 l 3 :! 2 [Sammons+, 10] l () cf.! 3 l l [ +, 15( WS)] l
3 (Goal)! l cf.... l () ()!? state- of- the- art! l à l à! l / l
2 ( =)! l ( ) ( ) l l ( ) l l l? [ +, 15( WS)]
(1)! [ +, 15( WS)] 15 10 9 + 9 1 or 2 6 5 4 4 3 2 2 2 29
(2)! WSD [ +, 15( WS)] 教師あり機械学習に基づく手法の問題訓練データの不足他に手がかりなし素性抽出が不適切助詞の取り扱い格の交替の取り扱い連体修飾の取り扱い有効な素性の不足トピック素性長いコロケーション間接的な係り受け既存の素性の組み合わせ文脈に出現する語の語義語釈文と文脈の関連性手法の問題 (27)[0.134] 意味クラスの抽象度システムのバグ (21)[0.104] (2)[0.010] (5)[0.025] (10)[0.050] (3)[0.015] (8)[0.040] (3)[0.015] (7)[0.035] (10)[0.050] (2)[0.010] (3)[0.015] (7)[0.035] (2)[0.010] (3)[0.015] 素性のコーディングが困難文の解釈文脈の解釈学習アルゴリズムの問題過学習辞書の用例に基づく手法の問題 (1)[0.005] (20)[0.100] (18)[0.009] (14)[0.070] 照応 省略解析 (3)[0.015] 消去法知識の問題過学習辞書の文法的制約に基づく手法の問題文間類似度の不備類似度が低すぎる類似度が高すぎる表層的には似ていないシステムのバグタイブレークが不適切辞書の用例に基づく手法の問題文法的制約が緩い規則の不備分類器の組み合わせ手法の問題シソーラスの不備前処理の問題形態素解析の誤りデータの不備正解語義の誤り訓練データテストデータ問題設定の不備対象語が不適切文節の係り受け解析の誤り文脈不足人間でも判定が困難熟語 連語として扱う方が適切その他 (14)[0.070] (7)[0.035] (20)[0.100] (6)[0.030] (1)[0.005] (1)[0.005] (7)[0.035] (1)[0.005] (3)[0.015] (1)[0.005] (15)[0.075] (32)[0.159] (1)[0.005] (16)[0.080] (5)[0.025] (1)[0.005] (14)[0.070]
(3)! [ +, 03] 138 75 19 39 20 60 221 58 630 137 57 9 35 17 53 172 36 516 (a) 125 41 3 31 7 43 47 6 303 (b) 42 14 2 3 5 8 4 78 (c) 6 2 8 (d) 7 4 11 (e) 66 8 28 57 3 162 (f) 0 (g) (e) 3 28 5 36 (h) 30 1 31 (i) 1 5 3 13 22 (j) 2 1 3 6 (k) 1 1 (l) 23 2 7 2 34 (m) 10 1 10 1 22 (n) 2 4 2 8 38 16 2 7 8 3 19 22 115 (A) 9 1 26 4 40 (B) 18 20 38 (C) 7 5 5 1 22 1 41 (D) 8 1 1 1 1 1 2 15
2 ( =)! l [Sammons+, 10] / OntoNotes[Hovy+, 06] l? l
1( )! 3 l : l 8-20 [Dolan+, 04] [Dagan+, 05] l : ( ) l e.g., [Zaenen+, 05] l / [Fujita+, 05] Ref. WSC [Levesque, 11] l : :
! l l l l! l (1) l ( ) l ( )!!? l
()
?! RITE2[Kaneko+, 13] l l ( ) l! l 61 241 163 l l Ref.8 40 l h"p://paraphrasing.org/paraphrase.html
! ID=90-4, Type=synonymy:phrase トンネルズ& トロールズ第 5 版 はケン セント アンドレらによってデザインされた 助詞の交替 トンネルズ& トロールズ第 5 版 がケン セント アンドレらによってデザインされた 態の交替ケン セント アンドレらが トンネルズ & トロールズ第 5 版 をデザインした 分裂文 トンネルズ & トロールズ第 5 版 をデザインしたのはケン セント アンドレらである 節と名詞句の交替 ケン セント アンドレらは トンネルズ & トロールズ第 5 版 のデザイナーである 節と名詞句の交替 分裂文 スコープの変更 トンネルズ & トロールズ第 5 版 のデザイナーはケン セント アンドレらである ケン セント アンドレは トンネルズ & トロールズ第 5 版 のデザイナーの一人である スコープの変更 分裂文 トンネルズ & トロールズ第 5 版 のデザイナーの一人はケン セント アンドレである
! 163à 306 l : 108 l : 58 l : 45 (e.g., ) : 60à 203 l l : 156 : 47 l 42 +
. / 1 7 8 / 0 2 2 / 0 6 6 / 1 2 3 / 1 2 3 / 1 1 2 0 1 1 0 2 2 2 31 33 0 4 4 0 2 2 0 3 3 1 1 2 1 0 1 1 0 1 / 0 5 5 2 1 3 0 2 2 4 9 13 0 1 1 9 10 19 0 1 1 9 10 19 5 6 11 2 0 2 1 4 5 / 0 1 1 0 3 3 0 1 1 1 1 2 0 2 2 / 0 3 3 / 1 0 1 2 1 3 0 2 2 / 0 4 4 3 5 8 / 1 3 4 / 15 9 24 2 3 5 0 1 1 0 2 2 0 1 1 0 4 4 1 8 9 58 156 214
/! ID=bc580-0- 6:! ID=bc- 160-2- 1
! ( ) l : 100 l BCCWJ à 150 /5 ( ) l l trivial minimal pair l
! l? WSD in MT [+, 15( WS)] l l? cf. : etc. l?... e.g., RITE- 2 w/ 250à e.g., SMT OOVà X%
FY2014! l! l l : l ü ü