統語 意味解析コーパスの開発と言語研究 : アノテーション方式 検索 抽出方法を中心に NINJAL サロン 2016 年 11 月 29 日 ( 火 ) 窪田愛 アラステア J バトラー プラシャント パルデシ 1
今回の発表に関してより詳しくは 日本言語学会第 153 回大会予稿集 pp. 428-433 h5p://www.ls-japan.org/modules/documents/ index.php?cat_id=30 2
I. 導入 本発表の目的 : 1. 文の構造 意味を研究する言語学者にとって 必要なコーパスとはどういうものか考える 2. 現在開発中の NINAL Parsed Corpus of Modern Japanese (NPCMJ) とウェブインターフェースを紹介し それが統語 意味研究においてどのような意義 可能性があるか議論する 3. 現段階の NPCMJ 及びインターフェースに足りないもの 今後の可能性について考える 3
I. 導入 本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 4
本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 5
II. 先行研究コーパスを使った様々な日本語研究 南 (1991) 様々な連用節内に生じうる要素 ( 主題 補足語 修飾語 助動詞 ) の出現頻度 ナロック (2006) モダリティと接続助詞の組み合わせの分布 大曾 (2007) を / に参拝する が / を好き などの格助詞の出現頻度 スルダノヴィッチ他 (2008) 推量副詞のレジスター別出現頻度 茂木 (2008) ( ない ) ために の二つの用法 ( 理由 目的 ) の分布 小西 (2009) カラ節 ノデ節における丁寧体のレジスター別出現頻度 杉本 (2009) 非規範的形容詞 ( 例 : 違かった ) の用法 田野村 (2009) そうも言う そうとも言う の用法の違い 野口 仁科 (2009) ガ格と共起する名詞の種類 萩野 (2009) 格助詞のレジスター別出現頻度 李他 (2009) 形容詞の連体形 / 連用形で意味が変わるもの 建石 (2011) たばかりに / ばかりか たところが / ところで の用法 丸山 (2011) 連用節が多重に連鎖する現象 李 (2011) X が Y に V する の意味の多様性 丸山 (2012) 様々な連用節のレジスター別出現頻度及び連用節内のモダリティ形式 ( 石川 2012 丸山 2014) 6
II. 先行研究 日本語コーパスを用いた複文構文の研究は 現在までのところ 連用節の接続形式が持つ形態的な側面に着目した研究が多いよ うに思われる 一方 例えば 連用節の接続形式が主節のモダリ ティ形式に制限を与えるといった文法的制約をコーパスから検索し 定量的に分析するような研究の事例は 管見の限りない これは 離れた位置にある構文要素の対応関係を自動的に取得するため の研究用情報 ( 統語構造情報 ) が 一般に使いやすい形で整備されていないことが理由として考えられる ( 丸山 2014; p. 391) キーワード 1: 離れた位置にある構文要素の対応関係 キーワード 2: 統語構造情報 7
本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 8
III. 統語 意味研究の観点からの研究トピック例 :Subjacency (CSC) viola]on Coordinate Structure Constraint (CSC; 等位接続構造制約 ) In a coordinate structure, no conjunct may be moved nor may any element contained in a conjunct be moved out of that conjunct. (Ross 1967: 89) (1) *This is the magazine that John [[bought _] and [read the newspaper]]. (2) This is the magazine that John [[bought _] and [didn t read _]]. 9
III. 統語 意味研究の観点からの研究トピック例 :Subjacency (CSC) viola]on 例外 : (3) Here s the whiskey which I [[went to the store] and [bought _]]. (Ross 1967) (4) That s the stuff that the guys in the Caucasus [[drink _] and [live to be a hundred]]. (Schmerling 1972) 10
III. 統語 意味研究の観点からの研究トピック例 :Subjacency (CSC) viola]on 日本語ではどうか?(Kubota & Lee 2015) (5) * 太郎が [[ 雑誌を買って ] [_ 読んだ ]] 本 CSC viola]on (6) 太郎が [[_ 買って ] [_ 読んだ ]] 本 例外はあるか? (7) 太郎が [[ 紀伊国屋に行って ] [_ 買った ]] 本 こういう例外を例えば Google から拾ってくるのは大変! 11
本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 12
IV. NPCMJ について NPCMJ = NINJAL Parsed Corpus of Modern Japanese 2016 年度公開のデータ 出典 例文数 河北新報 記事 4,243 Wikipedia 記事 2,752 新約 旧約聖書 1,659 益岡 田窪 (1992) 例文 1,378 合計 : 10,032 6 年間のプロジェクト終了後には 合計 5 6 万文を公開予定 13
IV. NPCMJ について ペン通時コーパスの方式を採用 - Annota]on Manual for the Penn Historical Corpora and the PCEEC (Santorini 2010) 利点 1: 世界の多様な言語のコーパスに利用されており ( 例 : 英語 フランス語 アイスランド語 ポルトガル語 ギリシャ語 イディッシュ語等 ) 他の言語のコーパスとの比較 対照が容易 利点 2: 句や節に機能タグが付けられ より詳細な統語情報及び意味情報が得られる例 : NP-SBJ, NP-OB1, NP-TMP IP-REL, IP-EMB 14
IV. NPCMJ について 例 1 昨日撮った写真 子供が泳いでいる写真 どちらも 名詞 + 動詞 + 名詞という並び方だが 文法関係はだいぶ違う 15
NPCMJ のアノテーション方針 : IV. NPCMJ について 1. 後置詞句 (PP) が文中で主語や目的語として機能する場合 その直後に NP-SBJ NP-OB1 または NP-OB2 などを付加し 文法機能を明示する 2. 関係節が修飾する名詞句において 主名詞が関係節内で文法役割を果たす場合は 関係節内に空所に相当するノード ( トレース *T*) を与えて 文法役割を明示する 3. 主語または目的語が動詞の必須として求められるにもかかわらず文中で表現されていない場合の多くについて それらをゼロ代名詞 (*pro*) として明示する 16
NPCMJ のアノテーション方針 : IV. NPCMJ について 4. 埋め込まれた用言の主語 目的語が主節の主語 目的語からコントロールされている場合 ゼロ代名詞を足さない 5. いくつかの単語が緊密に連結して一つの機能語として働くものは 一つのまとまった助詞 (P) として扱う 例 : について という として 6. いくつかの単語が緊密に連結し一つのモーダル的機能を果たすものは 一つのまとまった助動詞 (MD) として扱う 例 : かもしれない だろう なければならない 7. 例外的な場合 ( 数量詞遊離 外置など ) を除き インデクスは使用しない 17
本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 18
V. ウェブインターフェースの紹介 現在開発途中のウェブインターフェース : Explore NPCMJ h5p://npcmj.ninjal.ac.jp:9999/ npcmj で Google 検索 NPCMJ コーパスで調べる 19
復習 III. 統語 意味研究の観点からの研究トピック例 :Subjacency (CSC) viola]on 日本語では CSC が見られるか? (5) * 太郎が [[ 雑誌を買って ] [_ 読んだ ]] 本 CSC viola]on (6) 太郎が [[_ 買って ] [_ 読んだ ]] 本 例外は? (7) 太郎が [[ 紀伊国屋に行って ] [_ 買った ]] 本 探したい構造 : [ 関係節 [... て ] [...]] 名詞 いずれかの conjunct にのみ *T* がある 20
本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 21
VI. まとめ 本発表の目的 : 1. 文の構造 意味を研究する言語学者にとって 必要なコーパスとはどういうものか 句構造や文法関係が明示されたコーパス例 : CSC 違反の例をコーパスから検索したい 2. 現在開発中の NINAL Parsed Corpus of Modern Japanese (NPCMJ) とウェブインターフェースを紹介 実際にウェブインターフェースを使い CSC 違反の例を探し出した! 3. 現段階の NPCMJ 及びインターフェースに足りないもの 今後の可能性について 22
VI. まとめ 今後の課題 : 1. インターフェース開発に関して XPath 言語が自由に操れないと できることが限られている 例 : CNPC( 複合名詞句制約 ) など他の Subjacency 違反を探す 2. NPCMJ 構築に関して コーパスのサイズとともにジャンルにもバリエーション レンマ情報やマクロ ローマ字表記や英訳 否定 モーダル要素および量化表現におけるスコープ情報 PropBank (Bonial et al. 2010) 方式の格フレーム情報 など 23
参考文献 石川慎一郎 (2012) ベーシックコーパス言語学 ひつじ書房 Yusuke Kubota and Jungmee Lee (2015) The Coordinate Structure Constraint as a discourse-oriented principle: Further evidence from Japanese and Korean Language. 91(3) 642-675. Beatrice Santorini (2010) Annota]on Mannual for the Penn Historical Corpora and the PCEEC (Release 2). University of Pennsylvania. 丸山岳彦 (2014) コーパス言語学 語用論の観点から見た日本語複文研究の動向と課題 日本語複文構文の研究 pp.385-398. ひつじ書房 24
謝辞 Special thanks to 敬称略 窪田悠介 筑波大学 吉本啓 東北大学 スティーブン W ホーン 国立国語研究所 国立国語研究所と東北大学のアノテーターの皆さん 25