3. データ本発表では 2011 年 12 月にリリースされた 現代日本語書き言葉均衡コーパス の DVD 版を使用した Disk1 の M-XML フォルダに含まれる xml ファイルが対象である この xml ファイルは可変長サンプルと固定長サンプルを統合したもので 短単位 長単位の形態論情報の

Similar documents
タイトルは14ポイント&ボールドMS明朝

<mergedsample sampleid=" サンプル ID" type="bccwj MorphXML" version="1.1" NumTrans="true"> M-XML_NT のファイルであっても 対象となる数字列が存在せず NumTrans 処理がなされていないものについてはこの属

<43534A2F925A925088CA814592B CA B835E B D836A B202D B B69>

先行研究 pp

コーパスに基づく言語学教育研究報告 8


課題研究の進め方 これは,10 年経験者研修講座の各教科の課題研究の研修で使っている資料をまとめたものです 課題研究の進め方 と 課題研究報告書の書き方 について, 教科を限定せずに一般的に紹介してありますので, 校内研修などにご活用ください

博士論文概要 タイトル : 物語談話における文法と談話構造 氏名 : 奥川育子 本論文の目的は自然な日本語の物語談話 (Narrative) とはどのようなものなのかを明らかにすること また 日本語学習者の誤用 中間言語分析を通じて 日本語上級者であっても習得が難しい 一つの構造体としてのまとまりを

(2) 国語科 国語 A 国語 A においては 平均正答率が平均を上回っている 国語 A の正答数の分布では 平均に比べ 中位層が薄く 上位層 下位層が厚い傾向が見られる 漢字を読む 漢字を書く 設問において 平均正答率が平均を下回っている 国語 B 国語 B においては 平均正答率が平均を上回って

T_BJPG_ _Chapter3

pp DC 2,

知識・技能を活用して、考えさせる授業モデルの研究

Title 必ず 絶対 きっと の文体的特徴 現代日本語書き言葉均衡コーパス の調査から Author(s) 前坊, 香菜子 Citation 一橋大学国際教育センター紀要, 5: Issue Date Type Departmental Bulletin Pap

論 文 pp 要 旨 a 20 キーワード 1. 目 的 : 外 来 語 の 基 本 語 化 の 文 章 論 的 要 因 a

_第279回消費者委員会本会議_資料1-3

24 京都教育大学教育実践研究紀要 第17号 内容 発達段階に応じてどのように充実を図るかが重要であるとされ CAN-DOの形で指標形式が示されてい る そこでは ヨーロッパ言語共通参照枠 CEFR の日本版であるCEFR-Jを参考に 系統だった指導と学習 評価 筆記テストのみならず スピーチ イン

フトを用いて 質問項目間の相関関係に着目し 分析することにした 2 研究目的 全国学力 学習状況調査結果の分析を通して 本県の児童生徒の国語及び算数 数学の学習 に対する関心 意欲の傾向を考察する 3 研究方法平成 25 年度全国学力 学習状況調査の児童生徒質問紙のうち 国語及び算数 数学の学習に対

メタデータスキーマレジストリ MetaBridge の概要

(Microsoft Word - \207U\202P.doc)

タイトルは14ポイント&ボールドMS明朝

nlp1-12.key

神戸芸術工科大学紀要『芸術工学』原稿作成の手引き

6回目

0210研究会

今年度は 創立 125 周年 です 平成 29 年度 12 月号杉並区立杉並第三小学校 杉並区高円寺南 TEL FAX 杉三小の子

(3) 現実は甘くなかった 人材紹介会社に登録に行くと まず 年齢がネック だと言われた ( 朝日新聞 ) 上記の用例は日本の新聞記事から引いた実際の使用例である しかし 例 (1) と例 (2) における 甘い の意味用法は 上の 4 つの国語辞書の意味項目に該当するものが見つけ

京都立石神井高等学校平成 31 年度教科 ( 外国語 ( 英語 ) ) 科目 ( 英語表現 Ⅱ ) 年間授業計 ( 標準 α) 教 科 : 外国語 ( 英語 ) 科目 : 英語表現 Ⅱ 単位数 : 2 単位 対象学年組 : 第 2 学年 A 組 ~G 組 教科担当者 :(A 組 : 岡本 松井 )(

PowerPoint プレゼンテーション

Microsoft Word - JSQC-Std 目次.doc

甲37号

日本語「~ておく」の用法について

特殊なケースでの定式化技法

情報C 4月スクーリング プリント

Microsoft Word - EDSマニュアル.doc

言語処理学会創立 20 周年おめでとう ございます /10/7

1. はじめに 2

HからのつながりH J Hでは 欧米 という言葉が二回も出てきた Jではヨーロッパのことが書いてあったので Hにつながる 内開き 外開き 内開きのドアというのが 前の問題になっているから Hで欧米は内に開くと説明しているのに Jで内開きのドアのよさを説明 Hに続いて内開きのドアのよさを説明している

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

調査の概要 1 目的義務教育の機会均等とその水準の維持向上の観点から 全国的な児童生徒の学力や学習状況を把握 分析し 教育施策の成果と課題を検証し その改善を図るとともに そのような取組を通じて 教育に関する継続的な検証改善サイクルを確立する また 学校における児童生徒への教育指導の充実や学習状況の

スライド 1

目次 Ⅰ. 調査概要 調査の前提... 1 (1)Winny (2)Share EX (3)Gnutella データの抽出... 2 (1) フィルタリング... 2 (2) 権利の対象性算出方法... 2 Ⅱ. 調査結果 Win

Microsoft Word - CiNiiの使い方.doc

指導内容科目国語総合の具体的な指導目標評価の観点 方法 読むこと 書くこと 対象を的確に説明したり描写したりするなど 適切な表現の下かを考えて読む 常用漢字の大体を読み 書くことができ 文や文章の中で使うことができる 与えられた題材に即して 自分が体験したことや考えたこと 身の回りのことなどから 相

情報C 4月スクーリング プリント

<4D F736F F D AA90CD E7792E88D5A82CC8FF38BB5816A819A819B2E646F63>

<4D F736F F D E382E32372E979B82D982A98C7697CA8D918CEA8A77975C8D658F575F93FC8D6594C52E646F6378>

PowerPoint プレゼンテーション

平成 29 年度年間授業計画 & シラバス 東京都立足立高等学校定時制課程 対象学年 教科 科目名 担当者名 1 学年 ( 普通科 商業科 ) 外国語科コミュニケーション 佐々木友子 風見岳快 英語 Ⅰ 使用教科書 出版社 : 三省堂 教科書名 :Vista English Communicatio

平成23年度全国学力・学習状況調査問題を活用した結果の分析   資料

学習指導要領

<4D F736F F F696E74202D FA8C6F B938C8FD888EA95948FE38FEA8AE98BC6817A81758A4F8D91906C97AF8A7790B682CC8DCC977082C693FA967B8CEA945C97CD82C98AD682B782E992B28DB881768C8B89CA838C837C815B83678DC58F4994C52E70707

はじめてのPFD

<4D F736F F F696E74202D E93788A B68CA381458FEE95F182CC925482B595FB F8AFAA58DC58F4994C5816A2E70707

Microsoft PowerPoint LRW.pptx

(NICT) ( ) ( ) (NEC) ( )

EBNと疫学

次は三段論法の例である.1 6 は妥当な推論であり,7, 8 は不妥当な推論である. [1] すべての犬は哺乳動物である. すべてのチワワは犬である. すべてのチワワは哺乳動物である. [3] いかなる喫煙者も声楽家ではない. ある喫煙者は女性である. ある女性は声楽家ではない. [5] ある学生は

スライド 1

Taro-H29結果概要(5月25日最終)

図 5 一次微分 図 6 コントラスト変化に伴う微分プロファイルの変化 価し, 合否判定を行う. 3. エッジ検出の原理ここでは, 一般的なエッジ検出の処理内容と, それぞれの処理におけるパラメータについて述べる. 3.1 濃度投影検出線と直交する方向に各画素をスキャンし, その濃度平均値を検出線上

教科 : 外国語科目 : コミュニケーション英語 Ⅰ 別紙 1 話すこと 学習指導要領ウ聞いたり読んだりしたこと 学んだことや経験したことに基づき 情報や考えなどについて 話し合ったり意見の交換をしたりする 都立工芸高校学力スタンダード 300~600 語程度の教科書の文章の内容を理解した後に 英語

調査の概要 1 目的義務教育の機会均等とその水準の維持向上の観点から 的な児童生徒の学力や学習状況を把握 分析し 教育施策の成果と課題を検証し その改善を図るとともに 学校における児童生徒への教育指導の充実や学習状況の改善等に役立てる さらに そのような取組を通じて 教育に関する継続的な検証改善サイ

国語科学習指導案

多言語版「チュウ太のweb辞書」を用いた語彙学習

平成 22 年度全国学力 学習状況調査結果の概要と分析及び改善計画 調査実施期日 平成 22 年 4 月 20 日 ( 火 )AM8:50~11:50 平成 22 年 9 月 14 日 ( 火 ) 研究主任山口嘉子 調査実施学級数等 三次市立十日市小学校第 6 学年い ろ は に組 (105 名 )

講義の進め方 第 1 回イントロダクション ( 第 1 章 ) 第 2 ~ 7 回第 2 章 ~ 第 5 章 第 8 回中間ミニテスト (11 月 15 日 ) 第 9 回第 6 章 ~ 第 回ローム記念館 2Fの実習室で UML によるロボット制御実習 定期試験 2

Microsoft Word - 【提言2】④新聞70(最終).doc

ったが 祝日もあり 学生の習得状況を見ながら調整することもあったため 一週間で 1 課が終わらない場合もあった 作文を書く練習は 1 課が終わった授業の最後の 15 分間を用いて実施した 教師が添削した作文を次回の授業のときに学習者に返し グループ内で読み合い 話し合いをした後 各グループで代表者一

Microsoft PowerPoint - ???????

Microsoft PowerPoint _Textmining2018_山崎.pptx

ス言語学の影響でコロケーション分析がコーパスと統計指標 (raw frequency, t-score, log-likelihood ration, MI-score, など ) によって行われるようになった それにも関わらず現在でも統計的に採集されるデータは手作業で分析しなければならない 一般的

Microsoft Word - manuscript_kiire_summary.docx

PISA 型読解力と国語科の融合 -PISA 型読解力とワークシート- ( ア ) 情報を取り出す PISA 型読解力ア情報の取り出しイ解釈ウ熟考 評価エ論述 情報を取り出す力 とは 文章の中から無目的あるいは雑多に取り出すことではない 目的つまりこの場合は学習課題に沿って 自己の判断を加えながらよ

第2章

shippitsuyoko_

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft Word MT操作マニュアル(ユーザ編).doc

DVIOUT

6 68

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

スライド 1

mycards の使い方 1. カードの登録方法 2. カードセットの作成と編集 3. STUDY モードについて 4. CHALLENGE モードについて 5. カード閲覧 について 6. 設定 について 1. カードの登録方法 mycards のトップページから 以下の方法で登録ができます レッ

言語資源活用ワークショップ 2019 発表論文集 半教師あり語義曖昧性解消における各ジャンルの語義なし用例文の利用 谷田部梨恵 ( 茨城大学大学院理工学研究科 ) 佐々木稔 ( 茨城大学工学部情報工学科 ) Semi-Supervised Word Sense Disambiguation Usin

英語の音声教育と音声研究

Exploring the Art of Vocabulary Learning Strategies: A Closer Look at Japanese EFL University Students A Dissertation Submitted t

タイトルを1~2行で入力 (長文の場合はフォントサイズを縮小)

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

スライド 1

4 学習の活動 単元 Lesson 1 (2 時間 ) 主語の決定 / 見えない主語の発見 / 主語の it 外国語表現の能力 適切な主語を選択し英文を書くことができる 外国語理解の能力 日本の年中行事に関する内容の英文を読んで理解できる 言語や文化についての知識 理解 適切な主語を選択 練習問題の

36 Theoretical and Applied Linguistics at Kobe Shoin No. 20, 2017 : Key Words: syntactic compound verbs, lexical compound verbs, aspectual compound ve

【第一稿】論文執筆のためのワード活用術 (1).docx.docx

306

Microsoft PowerPoint - syogaku [互換モード]

( 計算式は次ページ以降 ) 圧力各種梁の条件別の計算式の見出し 梁のタイプ 自由 案内付 支持 のタイプ 片持ち梁 短銃ん支持 支持 固定 固定 固定 固定 ====== はねだし単純梁 ====== 2 スパンの連続梁 集中 等分布 偏心分布 等偏分布 他の多スパン 条件につ いては 7 の説

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 欧州における参入企業や技

中納言 の使い方 凡例 検索例 1 注 検索例 参考情報 注意点 1

ニュースレター 報道関係各位 2018 年 10 月 26 日 株式会社ベネッセホールディングス広報 IR 部 小学生の読書に関する実態調査 研究 読書は学力が低い子どもたちに大きなプラス効果 自分で調べる 話題が増える 幅広いメリットが明らかに 株式会社ベネッセホールディングスの子会社 株式会社ベ

A

3 調査結果 1 平成 30 年度大分県学力定着状況調査 学年 小学校 5 年生 教科 国語 算数 理科 項目 知識 活用 知識 活用 知識 活用 大分県平均正答率 大分県偏差値

小学校国語について

Transcription:

共起語率の分布からみるテキストの語彙的特徴 山崎誠 ( 国立国語研究所言語資源研究系 ) Lexical Characteristics of Text as Seen in the Distribution of Co-occurrence Rate Makoto Yamazaki (Dept. Corpus Studies, NINJAL) 1. はじめに 現代日本語書き言葉均衡コーパス (Balanced Corpus of Contemporary Written Japanese 以下 BCCWJ と略す ) が 2011 年に完成し それを利用した日本語研究のさまざまな展開が期待されている BCCWJ の特徴として 多様な日本語を収録していることやアノテーションの充実が挙げられる それらを生かした研究が今後発多く発表されることと思われる 本発表では BCCWJ のアノテーション情報を利用してテキストの結束性に関する特徴を捉える試みを紹介する 2. テキストにおける結束性結束性 (cohesion) とは 文章をひとつの統一体としてまとめあげるために必要な性質のひとつとされる 結束性について最初に詳細に研究を行ったのは Halliday & Hasan(1976) である それによると 結束性について次のように紹介されている 結束性が生じるのは, 談話のある要素の解釈 (INTERPRITATION) が別の要素の解釈に依存する場合である 一方を効果的に解釈するためには他方に頼らなければならないという意味で, 一方は他方を前提 (PRESUPPOSE) とする こういうことが生じるとき, 結束関係が成立する その結果, 前提語と被前提語という 2 つの要素が 少なくとも潜在的には, 統合されて 1 つのテクストになるのである ( 邦訳 p.5) 庵 (2007:12) によれば 結束性は推論にもとづくつながりである一貫性 (coherence) の下位概念であるとされる また 結束性には文法的結束性と語彙的結束性とがあり 前者の手段として 指示 代用 省略 が 後者には 再叙 (reiteration) と コロケーション がある 1 再叙には以下の 4 つのタイプがある (a) 同一語 ( 繰り返し ) (b) 同義語 ( または近似同義語 ) (c) 上位語 (d) 一般語 Károly(2002:162) によれば 英語の作文においては (a) の同一語の繰り返しよりは (b)~(d) を合わせた 異なる語の繰り返し の方が多く用いられるということだが 同義語 ( 類義語 ) や上位語の判断を自動的に行うことが難しいため 本発表では (a) の同一語の繰り返しのみを観察対象とする 同一語の繰り返しは 本発表で用いた図書館書籍のデータでは 10,369 サンプル中同一語の繰り返し 2 が無かったサンプルは 17 個しかなかった それらはいずれも延べ語数 22 語以下の小さなサンプルで サンプルの短さがその原因である ある程度の長さを持つテキストには必ず同一語の繰り返しがあると言ってよいだろう yamazaki@ninjal.ac.jp 1 Halliday & Hasan(1976) では 文法的結束性と語彙的結束性の中間の性質を持つものとして 接 続 が挙げられている 2 ここでは同一語の繰り返しには 助詞 助動詞は含めていない 以下も同様 221

3. データ本発表では 2011 年 12 月にリリースされた 現代日本語書き言葉均衡コーパス の DVD 版を使用した Disk1 の M-XML フォルダに含まれる xml ファイルが対象である この xml ファイルは可変長サンプルと固定長サンプルを統合したもので 短単位 長単位の形態論情報のタグのほか可変長部分には文章構造のタグを含んでいる 3 本発表ではこの xml ファイルにおいて <paragraph> というタグが付与された部分を対象にそこに含まれる短単位の形態論情報をもとに分析を行う 結束性を観察するには文も妥当な単位であるが BCCWJ に付与された文を表すタグ <sentence> は見出しや図表のキャプションにも付与されており 通常の本文との区別をしなければならないため 今回の調査では確実に本文部分を表している <paragraph> タグを対象とした <paragraph> タグを含むサンプル数は表 1 のとおりである 表 1 対象サンプル数 媒体 全サンプル数 Pサンプル数 出版書籍 10,117 9,742 雑誌 1,996 1,767 新聞 1,473 1,457 図書館書籍 10,551 10,369 白書 1,500 1,496 教科書 412 0 広報紙 354 354 ベストセラー 1,390 1,374 Yahoo! 知恵袋 91,445 0 Yahoo! ブログ 52,680 0 韻文 252 0 法律 346 56 国会会議録 159 159 合計 172,675 26,774 教科書 Yahoo! 知恵袋 Yahoo! ブログ 韻文は <paragraph> タグを用いていないため 対象サンプル数はゼロである なお <paragraph> タグの問題点については西部ほか (2011:232) を参照されたい 表 2 は 対象となったサンプルの延べ語数 段落数 1 段落あたりの延べ語数 1 段落あたりの異なり語数のそれぞれの平均値である 1 段落当たりの延べ語数を見てみると国会会議録の値が大きい これは国会会議録における段落の認定 (1 発言が 1 段落 ) が影響しているものである なお 語数には補助記号 空白 助詞 助動詞は含まれていない 表 2 各媒体の延べ語数等の平均値 サンプルの延べ語数 段落数 1 段落の延べ語数 1 段落の異なり語数 出版書籍 1,384.61 43.76 50.51 37.06 雑誌 891.17 29.81 40.05 33.27 新聞 334.33 9.28 38.78 33.33 図書館書籍 1,450.16 54.53 45.76 34.70 白書 1,793.10 29.32 64.74 44.33 3 タグの詳細については小木曽ほか (2011) を参照 222

広報紙 2,903.53 103.14 28.14 23.39 ベストセラー 1,404.46 69.30 29.52 24.28 法律 219.50 6.93 24.04 15.03 国会会議録 17,885.87 144.06 151.30 76.21 図 1 段落数の分布 図 1 は サンプルあたりの段落数の分布の様子を媒体ごとに表したものである 全体的に分布が右に ( 大きい方に ) かたよっていることが分かる また 図書館書籍と出版書籍はほぼ似たような分布を示している 4. 結束性の算出方法本発表では ある段落とそれに隣接する段落との間で共通して現れる語の多寡に着目した 語の単純な繰り返しを扱うことのメリットは 他の結束性を表す現象と比べて正確な把握がしやすいこと また 頻繁に起きる現象であるため 観察がしやすいことである 一方 デメリットとしては観察結果が 語 の単位認定基準に依拠してしまうこと及び同じ語か異なる語かだけの把握にとどまり 意味的な関係が把握できないことである 共通する語だけでなく 類義語等まで含めた計測方法として Hoey(1991) や Károly(2002) があるが 扱っているデータ量はさほど多くない 大量のデータを使って自動的に計測するには語の繰り返しがもっとも適していると思われる 本発表では 以下の式により結束性の度合いを計り 共起語率と名付けた C a, b, a, b: 段落番号 (1~n) C a, b : 段落 a の段落 b に対する共起語率 F a, b : 段落 a と段落 b とで共通して現れる語の延べ語数を段落 a 内で数えた数 : 段落 a の延べ語数 共起語率は 水谷 (1980) の非対称類似度を利用した指標である そのため 連続する 2 つの段落の間の共起語率に 2 つの値が存在する 後続の段落に対する共起語率と前接の段落に対する共起語率である 上述の式では b=a+1 のとき 後続段落に対する共起語率とな 223

り b=a-1 のとき 前節段落に対する共起語率となる ただし 文章の冒頭の段落の前接段落及び最後の段落の後続段落は存在しないため 便宜的にその場合の共起語率は 0 とする この方法で共起語率を測るにはひとつ制約がある それは 文章が 2 つ以上の段落から構成されていなければならないことである そのため 表 1 で対象としたサンプルから 1 段落しかなかったサンプル 340 サンプルを除外した なお 計測対象からは言語表現とは見なさない補助記号 空白 及び文章の結束性には影響を及ぼさない助詞 助動詞を除外した 5. 結果表 3 は 段落あたりの共起語の数と共起語率の平均値である 後続段落との共起語率と前接段落との共起語率とはほぼ等しい値を示している このことは どの媒体もそれぞれ同程度の依存関係でつながっていると解釈できる 個々に眺めてみると 法律 白書 国会会議録の共起語率が高く 新聞 ベストセラー 雑誌の共起語率が低いことが分かる 表 3 共起語の数と共起語率 後続段落との共起語数 後続段落との共起語率 前接段落との共起語数 前接段落との共起語率 出版書籍 12.98 0.22 12.74 0.22 雑誌 6.89 0.16 6.82 0.16 新聞 5.99 0.15 5.84 0.16 図書館書籍 10.49 0.19 10.36 0.19 白書 20.00 0.31 19.84 0.31 広報紙 5.19 0.18 5.13 0.17 ベストセラー 5.49 0.15 5.47 0.15 法律 12.16 0.48 12.31 0.47 国会会議録 40.45 0.30 39.01 0.30 表 4 NDC 別の共起語の数と共起語率 後続段落との共起語数 後続段落との共起語率 前節段落との共起語数 前節段落との共起語率 0 総記 12.97 0.22 12.95 0.22 1 哲学 17.55 0.25 17.73 0.24 2 歴史 14.80 0.21 14.60 0.21 3 社会科学 15.02 0.24 14.84 0.24 4 自然科学 14.32 0.24 13.96 0.24 5 技術 工学 10.72 0.22 10.56 0.21 6 産業 11.03 0.21 10.82 0.21 7 芸術 美術 12.02 0.20 11.98 0.20 8 言語 10.40 0.21 10.17 0.20 9 文学 5.07 0.12 4.97 0.12 分類なし 3.46 0.13 3.45 0.13 224

表 4 は 図書館書籍のデータについて NDC( 日本十進分類法 ) 別の共起語数と共起語率を算出したものである 図書館書籍全体では共起語率は 0.19 であったが NDC 別に見ると 9 文学 と 分類なし の値が他と比べて低いことが分かる 分類なし についてはデータを見ていないので理由は分からないが 9 文学 は会話文のような短い段落が多いため 共起語率が低くなったと推測される ( 表 3 のベストセラーの値の低さもそれに起因しているであろう ) それを確かめるために 1 段落あたりの延べ語数の平均と共起語率の平均との相関を見てみよう 図 2 にその結果を示す 正の相関が認められ 決定係数は 0.799 と高い値を示した 70.00 1 段落当たりの平均延べ語数 60.00 50.00 40.00 30.00 20.00 10.00 0.00 0.00 0.05 0.10 0.15 0.20 0.25 0.30 後続段落との共起語率 図 2 段落の延べ語数と共起語率との相関 6. 文章中の共起語率の推移共起語率の値はひとつの文章中でどのような変化を示すのだろうか 白書の例を見てみよう 図 3 は OW1X_00000( 昭和 54 年版経済白書 ) というサンプルである 共起語率 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 後続段落との共起語率 前接段落との共起語率 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 段落番号 図 3 文章中の共起語率の推移 図 3 で を付けた 3 箇所は大きな節が開始する箇所 下向きの矢印を付した 9 箇所はその節の中で小見出しが立っている箇所である 矢印の部分における後続段落との共起語率 ( 左側の棒 ) と前接段落との共起語率 ( 右側の棒 ) とを比べてみると 9 箇所のうち 8 箇所が後続段落との共起語率が前接段落との共起語率を上回っている ( 残りの 1 箇所は同じ値 ) このことは 新規の内容になった最初の段落は 新しい話題を展開させるため その次の段落との結束性が高くなっていると言えるのではないだろうか 逆に矢印の直前の段落は あるまとまりの最後の段落を意味する この部分の後続段落と前接段落の共起語率はどうなっているかというと 9 箇所中 6 箇所で前接段落との共起語率の値のほうが高い これは一つの例にすぎないが このような文章中での共起語率の推移を利用して段落のまとまりを自動的に推測することに応用出来る可能性がある 225

7. まとめと今後の課題本発表では非常に単純な指標である共起語率を用いて文章の結束性の度合いを観察した その結果 法律 白書 国会会議録のように結束性の高い文章と新聞 ベストセラー 雑誌のように結束性の低い文章があることが分かった NDC 別に観察したデータでは 文学の結束性が低いという結果になった これは文学に会話文が多く その会話が 1 段落と認定されているというデータの特徴の現れである また 文章中の共起語率の推移をみることにより文章のセグメンテーションへの応用が考えられることを示した 今後の課題として以下の 3 点を挙げる これらを通じて文章における結束性について客観的な記述を目指したい (1) 西部ほか (2011:232) によると サンプルを構成する文がすべて段落に分割される訳でないと指摘されている また <paragraph> の認定は行頭の空白をもとに自動的に認定しているとのことなので段落の実態を確認して分析に問題がないかどうか確認する必要がある (2) 段落と文の両方を利用した結束性の測定の方法を探る (3) 指示詞や接続詞など文法的結束性の手段との相関を調べること 謝辞本研究は国立国語研究所の共同研究プロジェクト テキストにおける語彙の分布と文章構造 による研究成果の一部である データとして利用した BCCCWJ の書籍部分は 文部科学省科学研究費補助金特定領域研究 代表性を有する大規模日本語書き言葉コーパスの構築 :21 世紀の日本語研究の基盤整備 ( 平成 18~22 年度 領域代表者 : 前川喜久雄 ) による補助を得て構築したものである 参考文献 Halliday, M.A.K. and Hasan, R.(1976) Cohesion in English. Longman( 邦訳 テクストはどのように構成されるか 大修館書店 1997 刊 ) Hoey,Michael.(1991) Patterns of Lexis in Text. Oxford University Press. Károly,Krisztina.(2002) Lexical Repetition in Text. Peter Lang. 庵功雄 (2007) 日本語におけるテキストの結束性の研究 くろしお出版小木曽智信 間淵洋子 前川喜久雄 (2011) 現代日本語書き言葉均衡コーパス における形態論情報付き XML フォーマット 言語処理学会第 17 回年次大会予稿集 pp.352-355. 西部みちる 大島一 間淵洋子 小林正行 田島孝治 高田智和 山口昌也 (2011) 現代日本語書き言葉均衡コーパス における電子化テキストの構築 国立国語研究所内部報告書 (LR-CCG-10-03) 水谷静夫 (1980) 用語類似度による歌謡曲仕分 湯の町エレジー 上海帰りのリル 及びその周辺 計量国語学 12(4) pp.145-161. 226