コーパスへの 意 味 的 注 釈 の 重 層 的 付 与 乾 健 太 郎 東 北 大 学 大 学 院 情 報 科 学 研 究 科
コーパスへの 注 釈 付 け 依 存 構 造 SBJ OBJ PMOD NMOD APPO LOC NAME COORD CONJ COORD COORD CONJ Bell, based in Los Angeles, makes and distributes electronic, computer and building products. AGENT THEME AGENT INSTITUTION AM- LOC AGENT PRODUCT THEME MATERIAL base.01 make.01 distribute.01 building.01 product.01 述 語 項 構 造 2
意 味 情 報 の 注 釈 付 け: 何 のために?! 意 味 的 に 注 釈 付 けされたコーパス 意 味 解 析 研 究 のための 共 有 資 源! 意 味 的 注 釈 の 仕 様 を 設 計 することは 意 味 解 析 の 部 分 タスクを 設 計 すること 言 語 理 論 を 実 データで 検 証 すること Bell, based in Los Angeles, makes and distributes electronic, computer and building products. AGENT THEME AGENT INSTITUTION AM- LOC AGENT PRODUCT THEME MATERIAL base.01 make.01 distribute.01 building.01 product.01 3
講 演 概 要 1. 意 味 情 報 の 注 釈 付 け 何 を 何 のために? 2. 海 外 でのコーパス 構 築 の 動 向 3. 仕 様 設 計 の 課 題 述 語 項 構 造, 照 応 共 参 照,モダリティ 4
注 釈 付 きコーパスの 例 談 話 関 係 時 間 関 係 モダリティ センチメント 述 語 項 構 造 ( 省 略 ) 照 応 共 参 照 句 / 依 存 構 造 形 態 素 Prague Discourse TB Penn Discourse Treebank TimeBank FactBank MPQA NomBank PropBank GNOME Unified Linguistic Annotation (X-Bank) Penn Treebank FrameNet ACE/EDT EDR コーパス 京 都 4.0 NAIST テキスト コーパス 京 都 コーパス GDA GDA GDA コーパス 英 語 日 本 語 5
計 算 言 語 学 者 が 牽 引! C. Fillmore( 認 知 言 語 学,フレーム 意 味 論 )! C. Baker, C. Fillmore, and J. Lowe. The Berkeley FrameNet project. COLING/ACL, 1998.! N. Ide, C. Baker, C. Fellbaum, C. Fillmore, and R. Passonneau. MASC: The manually annotated sub-corpus of American English. LREC, 2008.! J. Pustejovsky( 語 彙 意 味 論, 生 成 語 彙 論 )! J. Pustejovsky, A. Meyers, M. Palmer, and M. Poesio. Merging PropBank, NomBank, TimeBank, Penn Discourse Treebank and Coreference. Workshop on Frontiers in Corpus Annotation II, 2005.! R. Sauri, J. Littman, B. Knippen, R. Gaizauskas, A. Setzer, and J. Pustejovsky. TimeML Annotation Guidelines Version 1.2.1. 2006.! R. Sauri and J. Pustejovsky. FactBank: A corpus annotated with event factuality. Language Resources and Evaluation, 2009. 6
計 算 言 語 学 者 が 牽 引! Prague Tectogrammatics http://ufal.mff.cuni.cz/pdt/corpora/pdt_1.0/doc/tect.html 7
PropBank! 述 語 項 構 造 ( 意 味 役 割 ) (Palmer, Gildea and Kingsbury, 2005) Babko-Malaya. Propbank annotation guidelines, 2005. 8
PropBank (Palmer, Gildea and Kingsbury, 2005) Babko-Malaya. Propbank annotation guidelines, 2005. He was accused of conducting illegal business. 9
TimeBank (Sauri, Littman, Knippen, Gaizauskas, Setzer and Pustejovsky, 2006) R. Sauri. FactBank 1.0 Annotation Guidelines, 2008 10
FactBank (Sauri and Pustejovsky, 2009) R. Sauri. FactBank 1.0 Annotation Guidelines, 2008 11
FactBank (Sauri and Pustejovsky, 2009) R. Sauri. FactBank 1.0 Annotation Guidelines, 2008 12
Penn Discourse Treebank Discourse relation (Miltsakaki, Prasad, Joshi and Webber, 2004) Prasad, et al. Attribution and its annotation in the Penn Discourse TreeBank. L object, 2004. 13
Penn Discourse Treebank Attribution (Miltsakaki, Prasad, Joshi and Webber, 1994) Arg2 Arg1 Arg1 Arg2 Communication, Belief, Fact, Eventuality Prasad, et al. Attribution and its annotation in the Penn Discourse TreeBank. L object, 2004. 14
XBank! PropBank, NomBank, TimeBank, Discourse, MPQAを 統 合 http://timeml.org/ula/xbank-browser/ 15
照 応 共 参 照 と 述 語 項 構 造 の 組 合 せ! 述 語 の 項 (ゼロ 照 応 )の 先 行 詞 が 複 数 ある 場 合 就 任 後 初 めて 地 元 の 大 分 県 へ 里 帰 りしていた 村 山 富 市 首 相 i は 三 十 一 日 夕, 三 泊 四 日 の 日 程 を 終 えて 日 航 機 で 羽 田 空 港 に 到 着 した. 首 相 i は 記 者 団 に 対 し, 突 然 大 分 に 帰 った ガ:i が, 温 かい 歓 迎 に 接 し ガ:i 地 元 はい いなあ という 感 謝 ガ:i の 気 持 ちでいっぱい ガ:i. 期 待 に 応 え ガ:i てしっかり 頑 張 ら ガ:i ないといかんという 気 持 ち を 一 層 強 く 持 った ガ:i と 感 想 を 述 べ ガ:i た. 16
講 演 概 要 1. 意 味 情 報 の 注 釈 付 け 何 を 何 のために? 2. 海 外 でのコーパス 構 築 の 動 向 3. 仕 様 設 計 の 課 題 述 語 項 構 造, 照 応 共 参 照,モダリティ 17
注 釈 付 きコーパスの 例 談 話 関 係 時 間 関 係 モダリティ センチメント 述 語 項 構 造 ( 省 略 ) 照 応 共 参 照 句 / 依 存 構 造 形 態 素 Prague Discourse TB Penn Discourse Treebank TimeBank FactBank MPQA NomBank PropBank GNOME Unified Linguistic Annotation (X-Bank) Penn Treebank FrameNet ACE/EDT EDR コーパス 京 都 4.0 NAIST テキスト コーパス 京 都 コーパス GDA GDA GDA コーパス 英 語 日 本 語 18
科 研 特 定 領 域 日 本 語 コーパス (2006 2011)! 様 々なレベルのアノテーションが 進 行 / 計 画 中 談 話 関 係 ( 飯 田 ) 時 間 関 係 ( 浅 原 ) モダリティ( 乾 ) 述 語 項 構 造 ( 飯 田, 乾 ; 小 原 ) 照 応 共 参 照 ( 飯 田, 乾 ) 固 有 表 現 ( 橋 本 ) 語 義 ( 奥 村, 白 井 ) 形 態 素, 文 節, 係 り 受 け, 並 列 ( 浅 原, 松 本 ) 日 本 語 書 き 言 葉 コーパス(コアデータ) 19
NAISTテキストコーパス! 京 都 コーパス 全 文 に 述 語 項 構 造 共 参 照 を, 一 部 に 間 接 照 応 をタグ 付 け 毎 日 新 聞 2,929 記 事 (38,384 文 ) 述 語 106,628 事 態 性 名 詞 28,569 共 参 照 同 一 文 節 内 係 り 関 係 ゼロ 照 応 ( 文 内 ) ゼロ 照 応 ( 文 間 ) ゼロ 照 応 ( 文 章 外 ) 全 体 同 一 文 節 内 係 り 関 係 ゼロ 照 応 ( 文 内 ) ゼロ 照 応 ( 文 間 ) ゼロ 照 応 ( 文 章 外 ) 全 体 ガ 格 ヲ 格 ニ 格 177 (0.002) 44,402 (0.419) 32,270 (0.305) 13,181 (0.124) 15,885 (0.150) 105,915 (1.000) 2,195 (0.077) 4,332 (0.152) 9,222 (0.324) 5,190 (0.183) 7,525 (0.264) 28,464 (1.000) 60 (0.001) 35,882 (0.835) 5,625 (0.131) 1,307 (0.030) 96 (0.002) 42,970 (1.000) 5,574 (0.506) 2,890 (0.263) 1,645 (0.149) 854 (0.078) 42 (0.004) 11,005 (1.000) 25,764 591 (0.027) 18,912 (0.879) 1,417 (0.066) 542 (0.025) 45 (0.002) 21,507 (1.000) 846 (0.436) 298 (0.154) 586 (0.302) 201 (0.104) 10 (0.005) 1,941 (1.000) 20
述 語 項 構 造 ( 省 略 /ゼロ 照 応 ) 政 府 は が を 低 所 得 者 を 支 援 する が 述 語 項 構 造 を 計 画 を 発 表 した に が を 関 係 省 庁 の 協 力 を 要 請 する 係 り 受 け 構 造 21
述 語 項 構 造 ( 省 略 /ゼロ 照 応 ) モノ 政 府 は 低 所 得 者 を 支 援 する 計 画 を 発 表 した が 関 係 省 庁 の 協 力 を に 要 請 する 事 態 22
照 応 共 参 照 横 尾 i は 画 家 でもないし デザイナーでもない そんなことは 彼 iにとってはどうでもよいことなのだ 間 接 照 応 (bridging reference) 5 年 間 水 質 調 査 を 行 った このデータは 機 械 的 に 処 理 される 23
さまざまな 課 題! 述 語 項 構 造! 真 に 曖 昧 な 場 合 の 扱 い... 自 民 さきがけ 新 進 各 党 の 与 野 党 の 党 首 会 談 を 呼 び 掛 けて 協 力 を 求 めるべきだ (A) 与 野 党 ガ 協 力 する (B) ( 与 野 党 の) 党 首 ガ 協 力 する 24
さまざまな 課 題! 事 象 性 名 詞 の 項 構 造! イベント か モノ( 結 果 物, 内 容 ) か?! 結 果 物 に 項 を 認 めるか? 文 化 庁 の 2005 年 の 報 告 によると 各 宗 教 団 体 の 報 告 による 信 者 数 は 合 計 2 億 1100 万 人 である 文 化 庁 ガ 報 告 する (?) 25
さまざまな 課 題! 事 象 性 名 詞 の 項 構 造! イベント か モノ( 結 果 物, 内 容 ) か?! 結 果 物 に 項 を 認 めるか? 文 化 庁 の 2005 年 の 報 告 によると 各 宗 教 団 体 の 報 告 による 信 者 数 は 合 計 2 億 1100 万 人 である 党 内 には 社 会 党 会 派 の 離 脱 者 は 従 来 通 り 除 名 す べきだ との 意 見 が 根 強 く... また 経 済 問 題 については 日 本 経 済 の 構 造 変 革 の ため 規 制 緩 和 に 積 極 的 に 取 り 組 むと 訴 える 26
さまざまな 課 題! genericな 名 詞 句 間 の 照 応 共 参 照 関 係 をどのように 規 定 するか? フロンによる 環 境 破 壊 への 対 策 が 地 球 的 規 模 の 課 題 となって 久 し い 特 に フロンがオゾン 層 を 破 壊 することが 報 告 されてから フロンによる 環 境 破 壊 への 対 策 が 地 球 的 規 模 の 課 題 となって 久 し い 特 に この 物 質 がオゾン 層 を 破 壊 することが 報 告 されてから 兵 庫 県 内 の 暗 やみの 中 で 人 々が 水 と 食 べ 物 の 不 足 に 苦 しんで いる 同 じ 夜 隣 接 した 大 阪 の 繁 華 街 ではネオンが 光 り 飲 食 店 は にぎわっている 水 も 食 料 も 被 災 地 を 離 れるとふんだんにある 27
広 義 のモダリティ! テキスト 中 の 各 事 象 表 現 にテンス,アスペクト, 極 性, モダリティ 等 の 情 報 を 付 与 ( 自 然 言 語 処 理 研 究 会,2009.9)! 仕 様 書 :http://cl.naist.jp/nltools/modality/ これからは 酒 を 飲 むのを 控 えようと 思 います 態 度 表 明 者 時 制 仮 想 態 度 真 偽 判 断 価 値 判 断 焦 点 書 き 手 未 来 ー 意 志 高 確 率 から 低 確 率 ネガティブ ー 販 売 開 始 のめどが 立 たない 状 況 に 陥 っている 態 度 表 明 者 時 制 仮 想 態 度 真 偽 判 断 価 値 判 断 焦 点 書 き 手 未 来 ー 叙 述 低 確 率 ー ー 全 員 がこの 案 に 賛 成 しているというわけではない 態 度 表 明 者 時 制 仮 想 態 度 真 偽 判 断 価 値 判 断 焦 点 書 き 手 非 未 来 ー 叙 述 成 立 ー 否 定 ( 全 員 ) 28
さまざまな 課 題! 拡 張 モダリティ! 否 定 のスコープ, 部 分 否 定, 程 度 をどう 扱 うか? 否 定 の 対 象 薬 を 飲 んだから 元 気 になったわけではない 成 立 成 立 中 村 はあまり 酒 を 飲 まない 還 元 水 は 体 内 の 活 性 酸 素 を 消 去 するのには ほとんど 役 に 立 ちません 29
まとめ! コーパスへの 意 味 情 報 付 与 の 動 向! 述 語 項 構 造,モダリティ, 照 応 共 参 照, 談 話 関 係! 欧 米 では 計 算 言 語 学 者 が 牽 引! 意 味 情 報 付 与 はまだ 仕 様 設 計 の 模 索 段 階! 言 語 処 理 にとっても 言 語 研 究 にとっても 興 味 深 い 研 究 課 題 の 宝 庫! 言 語 研 究 者 との 連 携 強 化 が 不 可 欠! 他 のコーパス,レイヤとの 相 互 連 携 性 も 課 題 30