NINJAL_salon_ _final.pptx

Similar documents
2 2.1 NPCMJ ( (Santorini, 2010) (NPCMJ, 2016) (1) (, 2016) (1) (2) (1) ( (IP-MAT (CONJ ) (PP (NP (D ) (N )) (P )) (NP-SBJ *

4 学習の活動 単元 Lesson 1 (2 時間 ) 主語の決定 / 見えない主語の発見 / 主語の it 外国語表現の能力 適切な主語を選択し英文を書くことができる 外国語理解の能力 日本の年中行事に関する内容の英文を読んで理解できる 言語や文化についての知識 理解 適切な主語を選択 練習問題の

i


Wide Scanner TWAIN Source ユーザーズガイド

nlp1-05.key




o 2o 3o 3 1. I o 3. 1o 2o 31. I 3o PDF Adobe Reader 4o 2 1o I 2o 3o 4o 5o 6o 7o 2197/ o 1o 1 1o

178 5 I 1 ( ) ( ) ( ) ( ) (1) ( 2 )

44 4 I (1) ( ) (10 15 ) ( 17 ) ( 3 1 ) (2)

生活設計レジメ


I II III 28 29

平成 29 年度年間授業計画 & シラバス 東京都立足立高等学校定時制課程 対象学年 教科 科目名 担当者名 1 学年 ( 普通科 商業科 ) 外国語科コミュニケーション 佐々木友子 風見岳快 英語 Ⅰ 使用教科書 出版社 : 三省堂 教科書名 :Vista English Communicatio

先行研究 pp

2014年度の研究報告

京都立石神井高等学校平成 31 年度教科 ( 外国語 ( 英語 ) ) 科目 ( 英語表現 Ⅱ ) 年間授業計 ( 標準 α) 教 科 : 外国語 ( 英語 ) 科目 : 英語表現 Ⅱ 単位数 : 2 単位 対象学年組 : 第 2 学年 A 組 ~G 組 教科担当者 :(A 組 : 岡本 松井 )(

ii

untitled

i


AccessflÌfl—−ÇŠš1

2

使用上の注意 はじめに ( 必ずお読みください ) この SIGN FOR CLASSROOM の英語の動画資料について 作成の意図の詳細は 2 ページ以降に示されているので できるだけすべてを読んでいただきたい 要約 このビデオは 聴覚障がいを持つ生徒たちに英語を教える時 見てわかる会話を表 出さ

計量国語学 アーカイブ ID KK 種別 特集 招待論文 A タイトル Webコーパスの概念と種類, 利用価値 語史研究の情報源としてのWebコーパス Title The Concept, Types and Utility of Web Corpora: Web Corpora as

数理言語


<43534A2F925A925088CA814592B CA B835E B D836A B202D B B69>

修士論文 ( 要旨 ) 2015 年 1 月 付帯状況を表す X ヲ Y ニ に関する考察 指導新屋映子教授 言語教育研究科日本語教育専攻 213J3025 周阳

第 6 回コーパス日本語学ワークショップ予稿集 (2014 年 9 月, 国立国語研究所 ) BCCWJ と日英パラレル新聞コーパスに基づいた格外連体修飾形の研究 田邊和子 ( 日本女子大学文学部 ) Study of the Case-Outer Relative Clauses Based on


86 7 I ( 13 ) II ( )

入門ガイド

博士論文概要 タイトル : 物語談話における文法と談話構造 氏名 : 奥川育子 本論文の目的は自然な日本語の物語談話 (Narrative) とはどのようなものなのかを明らかにすること また 日本語学習者の誤用 中間言語分析を通じて 日本語上級者であっても習得が難しい 一つの構造体としてのまとまりを

Microsoft Word - ベーシックの英文法.docx

<4D F736F F F696E74202D C835B B E B8CDD8AB B83685D>

SC-85X2取説


untitled

日本語の動詞活用の歴史的変化の一側面 金水敏 ( 大阪大学大学院文学研究科 ) 2012/02/14 1 はじめに 活用の 3 つの捉え方 1. 形態素境界の形態 ( 接続用法 ) 例 : 書きたり [ 連用形 ] 2. 統語論的な節境界の形態 ( 独立用法 ) 例 : 書きたり [ 終止形 ] 3

第1部 一般的コメント

untitled

表1票4.qx4

福祉行財政と福祉計画[第3版]

技能継承に関するアンケートの結果概要

(NICT) ( ) ( ) (NEC) ( )

第1章 国民年金における無年金

2016


橡ミュラー列伝Ⅰ.PDF

コーパスに見る談話辞 I mean を例に 講師京都外国語大学藤本和子 間接疑問文を導く if と whether Bank of English のデータから 講師京都外国語大学巳波義典 話し言葉における many について Bank of English を使った分析 講師島根大学井上永 幸 閉

p.14 p.14 p.17 1 p レッテル貼り文 2015: PC 20 p : PC 4

1 つなぎ言葉の使い方を理解している 2 パラグラフの構成を理解している 3 文章の要点をつかむことが出来る (4) 言語や文化についての知識 理解 1 いろんなトピックについて 内容を理解することが出来る 2 それぞれのページで学んだ文法や表現を理解し 知識として定着させている ( 定期考査等を用

平成 30 年度シラバス 3 学年前期 (1 単位 ) コミュニケーション英語 Ⅰ 教科書 ENGLISH NOW Ⅰ 開隆堂 授業時数 01 単元名 Lesson 6 Sempai and Ko hai 本時 Lesson 6 (1) 学習内容備考 常日頃から使っている 先輩 後輩 ということばを


II III I ~ 2 ~

中堅中小企業向け秘密保持マニュアル


PR映画-1

- 2 -


1 (1) (2)


II

これわかWord2010_第1部_ indd

パワポカバー入稿用.indd

これでわかるAccess2010

南 1974 の ( 潜在的 顕在的 ) 影響力 ある要素があるタイプの節に出現できるか否かというテスト の浸透 階層 サイズ が目に見えやすいという従属節の特徴 複文( 従属節 )/ 単文に特有の現象 への注目度の増加 ( 高山 2005 Yanagida2006 山田 2010 他へ ) 1-2

Microsoft Word - hozon-fujimura-HP-伊勢工業高校における造船教育の歴史から学ぶ

Microsoft PowerPoint - NMC-ProjectIntro-KobeU

Sinopsis

東京書籍 /NEW HORIZON English Course3 1 Sign Language S.O 受け身 ( 肯定文 ) 14 受動態 (1) D 受け身 ( 疑問文と応答 ) 15 受動態 (2) R.C SVOC 30 文構造 (2) 2 A Fireworks Fetival S.O

東京都立葛西南高等学校平成 28 年度コミュニケーション英語 Ⅰ(R) 年間授業計画 教科 :( 英語 ) 科目 :( コミュニケーション英語 Ⅰ(R) ) 単位数 :(2) 単位対象 :( 第 1 学年 1 組 ~7 組 ) 教科担当者 :(1 組 : 船津印 )(2 組 : 佐々木印 )(3 組

時間節および時間句 時 頃 の用法 前田直子 1 はじめに 時( とき ) と 頃 ( ころ ) はどちらも時間的状況を指定する副詞的従属節を構成する要素である 1) 東京へ出てきた { 時 / 頃 } この鞄を買った 品詞論的に言えば どちらも形式的な名詞であるが 時 は次のように 実質名詞として

平成18年版 男女共同参画白書

ÿþ

博士学位論文審査報告書

(3) 他の語句を持つので 長い 場合は 分詞を名詞の後ろに付ける 分詞以外に 修飾語や目的語などの他の語句があって 長い 場合は be 動詞は使わず に 現在分詞や過去分詞そして他の語句も そのまま名詞の後ろに付ける 設例 2 be 動詞を使わないことが 分詞の形容詞的用法の目印だ 進行の動作を形

provider_020524_2.PDF

「産業上利用することができる発明」の審査の運用指針(案)

Microsoft Word - 佐々木和彦_A-050(校了)

英語の女神 No.21 不定詞 3 学習 POINT 1 次の 2 文を見てください 1 I want this bike. ワント ほっ want ほしい 欲する 2 I want to use this bike. 1は 私はこの自転車がほしい という英文です 2は I want のあとに to

27 チュウ・ロザリン.indd

福翔高等学校「ライティング」学習指導案

エクセルカバー入稿用.indd


textual datatm : Text Mining TM TDA : Textual Data Analysis word segmentation orthography morpheme tokenization lemmatization, stemmingpart-of-speech


untitled

自立語と付属語 文法的な面からもう少し詳しく解説します ひとつの文は複数の文節からなります 文 つなみ津波が文節 き来ます文節 そして 文節は自立語だけ あるいは自立語プラス付属語で構成されています つなみ津波 が 自 + 付 き来ます 自 自 自立語 付 付属語 自立語とはその語だけで意味を持ち

科目名 総合英語 ⅠA 対象学年 1 年 期間 通年 曜日 時限 金 1-2 限 授業回数 90 分 34 回 授業種別 講義 回 / 週 1 回 取得単位 4 単位 授業目的達成目標 読み 書き を通して 聞く こと 話す ことにも役立つ英語の力を習得させる 文法を踏まえてパラグラフの内容を迅速か

01_.g.r..

4 学習の活動 単元 ( 配当時間 ) Lesson 1 ( 15 時間 ) 題材内容単元の目標主な学習内容単元の評価規準評価方法 Get Your Goal with English より多くの相手とコミュニケーションをとる 自己紹介活動を行う コミュニケーションを積極的にとろうとしている スピー

0210研究会

活用ガイド (ソフトウェア編)

研究成果報告書(基金分)

<4D F736F F D A A838B B96E291E82E646F63>

untitled

Transcription:

統語 意味解析コーパスの開発と言語研究 : アノテーション方式 検索 抽出方法を中心に NINJAL サロン 2016 年 11 月 29 日 ( 火 ) 窪田愛 アラステア J バトラー プラシャント パルデシ 1

今回の発表に関してより詳しくは 日本言語学会第 153 回大会予稿集 pp. 428-433 h5p://www.ls-japan.org/modules/documents/ index.php?cat_id=30 2

I. 導入 本発表の目的 : 1. 文の構造 意味を研究する言語学者にとって 必要なコーパスとはどういうものか考える 2. 現在開発中の NINAL Parsed Corpus of Modern Japanese (NPCMJ) とウェブインターフェースを紹介し それが統語 意味研究においてどのような意義 可能性があるか議論する 3. 現段階の NPCMJ 及びインターフェースに足りないもの 今後の可能性について考える 3

I. 導入 本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 4

本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 5

II. 先行研究コーパスを使った様々な日本語研究 南 (1991) 様々な連用節内に生じうる要素 ( 主題 補足語 修飾語 助動詞 ) の出現頻度 ナロック (2006) モダリティと接続助詞の組み合わせの分布 大曾 (2007) を / に参拝する が / を好き などの格助詞の出現頻度 スルダノヴィッチ他 (2008) 推量副詞のレジスター別出現頻度 茂木 (2008) ( ない ) ために の二つの用法 ( 理由 目的 ) の分布 小西 (2009) カラ節 ノデ節における丁寧体のレジスター別出現頻度 杉本 (2009) 非規範的形容詞 ( 例 : 違かった ) の用法 田野村 (2009) そうも言う そうとも言う の用法の違い 野口 仁科 (2009) ガ格と共起する名詞の種類 萩野 (2009) 格助詞のレジスター別出現頻度 李他 (2009) 形容詞の連体形 / 連用形で意味が変わるもの 建石 (2011) たばかりに / ばかりか たところが / ところで の用法 丸山 (2011) 連用節が多重に連鎖する現象 李 (2011) X が Y に V する の意味の多様性 丸山 (2012) 様々な連用節のレジスター別出現頻度及び連用節内のモダリティ形式 ( 石川 2012 丸山 2014) 6

II. 先行研究 日本語コーパスを用いた複文構文の研究は 現在までのところ 連用節の接続形式が持つ形態的な側面に着目した研究が多いよ うに思われる 一方 例えば 連用節の接続形式が主節のモダリ ティ形式に制限を与えるといった文法的制約をコーパスから検索し 定量的に分析するような研究の事例は 管見の限りない これは 離れた位置にある構文要素の対応関係を自動的に取得するため の研究用情報 ( 統語構造情報 ) が 一般に使いやすい形で整備されていないことが理由として考えられる ( 丸山 2014; p. 391) キーワード 1: 離れた位置にある構文要素の対応関係 キーワード 2: 統語構造情報 7

本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 8

III. 統語 意味研究の観点からの研究トピック例 :Subjacency (CSC) viola]on Coordinate Structure Constraint (CSC; 等位接続構造制約 ) In a coordinate structure, no conjunct may be moved nor may any element contained in a conjunct be moved out of that conjunct. (Ross 1967: 89) (1) *This is the magazine that John [[bought _] and [read the newspaper]]. (2) This is the magazine that John [[bought _] and [didn t read _]]. 9

III. 統語 意味研究の観点からの研究トピック例 :Subjacency (CSC) viola]on 例外 : (3) Here s the whiskey which I [[went to the store] and [bought _]]. (Ross 1967) (4) That s the stuff that the guys in the Caucasus [[drink _] and [live to be a hundred]]. (Schmerling 1972) 10

III. 統語 意味研究の観点からの研究トピック例 :Subjacency (CSC) viola]on 日本語ではどうか?(Kubota & Lee 2015) (5) * 太郎が [[ 雑誌を買って ] [_ 読んだ ]] 本 CSC viola]on (6) 太郎が [[_ 買って ] [_ 読んだ ]] 本 例外はあるか? (7) 太郎が [[ 紀伊国屋に行って ] [_ 買った ]] 本 こういう例外を例えば Google から拾ってくるのは大変! 11

本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 12

IV. NPCMJ について NPCMJ = NINJAL Parsed Corpus of Modern Japanese 2016 年度公開のデータ 出典 例文数 河北新報 記事 4,243 Wikipedia 記事 2,752 新約 旧約聖書 1,659 益岡 田窪 (1992) 例文 1,378 合計 : 10,032 6 年間のプロジェクト終了後には 合計 5 6 万文を公開予定 13

IV. NPCMJ について ペン通時コーパスの方式を採用 - Annota]on Manual for the Penn Historical Corpora and the PCEEC (Santorini 2010) 利点 1: 世界の多様な言語のコーパスに利用されており ( 例 : 英語 フランス語 アイスランド語 ポルトガル語 ギリシャ語 イディッシュ語等 ) 他の言語のコーパスとの比較 対照が容易 利点 2: 句や節に機能タグが付けられ より詳細な統語情報及び意味情報が得られる例 : NP-SBJ, NP-OB1, NP-TMP IP-REL, IP-EMB 14

IV. NPCMJ について 例 1 昨日撮った写真 子供が泳いでいる写真 どちらも 名詞 + 動詞 + 名詞という並び方だが 文法関係はだいぶ違う 15

NPCMJ のアノテーション方針 : IV. NPCMJ について 1. 後置詞句 (PP) が文中で主語や目的語として機能する場合 その直後に NP-SBJ NP-OB1 または NP-OB2 などを付加し 文法機能を明示する 2. 関係節が修飾する名詞句において 主名詞が関係節内で文法役割を果たす場合は 関係節内に空所に相当するノード ( トレース *T*) を与えて 文法役割を明示する 3. 主語または目的語が動詞の必須として求められるにもかかわらず文中で表現されていない場合の多くについて それらをゼロ代名詞 (*pro*) として明示する 16

NPCMJ のアノテーション方針 : IV. NPCMJ について 4. 埋め込まれた用言の主語 目的語が主節の主語 目的語からコントロールされている場合 ゼロ代名詞を足さない 5. いくつかの単語が緊密に連結して一つの機能語として働くものは 一つのまとまった助詞 (P) として扱う 例 : について という として 6. いくつかの単語が緊密に連結し一つのモーダル的機能を果たすものは 一つのまとまった助動詞 (MD) として扱う 例 : かもしれない だろう なければならない 7. 例外的な場合 ( 数量詞遊離 外置など ) を除き インデクスは使用しない 17

本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 18

V. ウェブインターフェースの紹介 現在開発途中のウェブインターフェース : Explore NPCMJ h5p://npcmj.ninjal.ac.jp:9999/ npcmj で Google 検索 NPCMJ コーパスで調べる 19

復習 III. 統語 意味研究の観点からの研究トピック例 :Subjacency (CSC) viola]on 日本語では CSC が見られるか? (5) * 太郎が [[ 雑誌を買って ] [_ 読んだ ]] 本 CSC viola]on (6) 太郎が [[_ 買って ] [_ 読んだ ]] 本 例外は? (7) 太郎が [[ 紀伊国屋に行って ] [_ 買った ]] 本 探したい構造 : [ 関係節 [... て ] [...]] 名詞 いずれかの conjunct にのみ *T* がある 20

本発表の流れ : I. 導入 II. 先行研究 III. 統語 意味研究の観点からの研究トピック例 IV. NPCMJの紹介 V. ウェブインターフェースの紹介 VI. まとめ 21

VI. まとめ 本発表の目的 : 1. 文の構造 意味を研究する言語学者にとって 必要なコーパスとはどういうものか 句構造や文法関係が明示されたコーパス例 : CSC 違反の例をコーパスから検索したい 2. 現在開発中の NINAL Parsed Corpus of Modern Japanese (NPCMJ) とウェブインターフェースを紹介 実際にウェブインターフェースを使い CSC 違反の例を探し出した! 3. 現段階の NPCMJ 及びインターフェースに足りないもの 今後の可能性について 22

VI. まとめ 今後の課題 : 1. インターフェース開発に関して XPath 言語が自由に操れないと できることが限られている 例 : CNPC( 複合名詞句制約 ) など他の Subjacency 違反を探す 2. NPCMJ 構築に関して コーパスのサイズとともにジャンルにもバリエーション レンマ情報やマクロ ローマ字表記や英訳 否定 モーダル要素および量化表現におけるスコープ情報 PropBank (Bonial et al. 2010) 方式の格フレーム情報 など 23

参考文献 石川慎一郎 (2012) ベーシックコーパス言語学 ひつじ書房 Yusuke Kubota and Jungmee Lee (2015) The Coordinate Structure Constraint as a discourse-oriented principle: Further evidence from Japanese and Korean Language. 91(3) 642-675. Beatrice Santorini (2010) Annota]on Mannual for the Penn Historical Corpora and the PCEEC (Release 2). University of Pennsylvania. 丸山岳彦 (2014) コーパス言語学 語用論の観点から見た日本語複文研究の動向と課題 日本語複文構文の研究 pp.385-398. ひつじ書房 24

謝辞 Special thanks to 敬称略 窪田悠介 筑波大学 吉本啓 東北大学 スティーブン W ホーン 国立国語研究所 国立国語研究所と東北大学のアノテーターの皆さん 25