(Microsoft Word - JCLWorkshop2013_2\214\303\213{.doc)

Size: px
Start display at page:

Download "(Microsoft Word - JCLWorkshop2013_2\214\303\213{.doc)"

Transcription

1

2

3

4

5

6

7

8

9

10 分 類 器 の 確 信 度 を 用 いた 合 議 制 による 語 義 曖 昧 性 解 消 の unsupervised な 領 域 適 応 古 宮 嘉 那 子 ( 東 京 農 工 大 学 工 学 研 究 院 ) 奥 村 学 ( 東 京 工 業 大 学 精 密 工 学 研 究 所 ) 小 谷 善 行 ( 東 京 農 工 大 学 工 学 研 究 院 ) Unsupervised Domain Adaptation in Word Sense Disambiguation Based upon the Comparison of Multiple Classifiers Kanako Komiya (Institution of Engineering, Tokyo University of Agriculture and Technology) Manabu Okumura (Precision and Intelligence Laboratory, Tokyo Institution of Technology) Yoshiyuki Kotani (Institution of Engineering, Tokyo University of Agriculture and Technology) 1.はじめに テストのターゲットとなるドメインとは 異 なるドメインのデータ(ソースデータ)を 利 用 して 学 習 を 行 い,ターゲットドメインのデータ(ターゲットデータ)に 適 応 することを 領 域 適 応 といい, 近 年 さまざまな 手 法 が 研 究 されている. 本 稿 では,あるドメイン(ジャンル)のターゲットデータに 対 して, 複 数 のジャンルの コーパスの 集 合 になっているソースデータがある 場 合,ソースデータの 全 体 集 合 から,タ ーゲットデータに 適 した 訓 練 事 例 の 部 分 集 合 を 自 動 的 に 選 択 する 試 みについて 述 べる.な お,ターゲットデータのラベルは 未 知 とし, 語 義 曖 昧 性 解 消 (Word Sense Disambiguation, WSD)について 領 域 適 応 を 行 った.また 本 稿 では,ターゲットデータの 用 例 ごとに 適 切 な 訓 練 事 例 は 異 なると 仮 定 し, 用 例 ごとに 訓 練 事 例 の 選 択 を 行 った. 具 体 的 には,あるターゲ ットデータに 対 して, 二 つのジャンルからなるコーパスがソースデータとして 与 えられた 際,それぞれのジャンルのコーパスによって 訓 練 する 方 式 と,コーパス 全 体 によって 訓 練 する 方 式 を 使 って 三 つの 分 類 器 を 作 成 し, 用 例 ごとに 学 習 された 分 類 器 の 出 力 する 確 信 度 が 最 大 である 答 えを 採 用 することにより, 分 類 の 精 度 を 向 上 させる 手 法 を 示 す. 2. 関 連 研 究 領 域 適 応 は, 学 習 に 使 用 する 情 報 により,fully supervised,semi-supervised,unsupervised の 三 種 に 分 けられる.(Daumé III, Kumar and Saha, (2010))によれば,fully supervised の 領 域 適 応 は,ラベルつきのソースデータに 加 え 少 量 のラベルつきのターゲットデータを 用 いて 学 習 を 行 うもので, 訓 練 事 例 としてソースデータまたは 少 量 のターゲットデータだけを 利 用 す る 場 合 よりも, 分 類 器 を 改 良 することを 目 指 す. 次 の semi-supervised の 領 域 適 応 は, 多 量 なラベルつきのソースデータに 加 え, 多 量 なラベルなしのターゲットデータと 少 量 のラベ ルつきのターゲットデータを 利 用 するものである.また, 最 後 の unsupervised の 領 域 適 応 は,ラベルつきのソースデータと,ラベルなしのターゲットデータを 利 用 するものである 1. 本 研 究 で 扱 うのは unsupervised の 領 域 適 応 である. 領 域 適 応 の 研 究 は 自 然 言 語 処 理 の 分 野 の 内 外 においてさまざまなされており,supervised のものには(Chan and Ng (2006)),(Daumé III(2007)),(Jiang and Zhai (2007))などがある. 本 稿 では, 分 類 器 の 確 信 度 により 領 域 適 応 に 用 いる 訓 練 事 例 集 合 を 選 択 する 手 法 につい て 述 べる.これに 関 連 した 研 究 として( 張 本, 宮 尾, 辻 井 (2010)) や(Asch and Daelemans kkomiya@cc.tuat.ac.jp 1 (Daumé III(2007))では(Daumé III, Kumar and Saha, (2010))で unsupervised としているものを semi-supervised としているが, 本 稿 では 新 しい 方 を 採 用 した. 1

11 (2010)),(McClosky, Charniak, and Johnson (2010)),( 古 宮, 奥 村 (2012)),(Komiya and Okumura (2012)),( 古 宮, 小 谷, 奥 村 (2013)),がある.( 張 本, 宮 尾, 辻 井 (2010)) は, 構 文 解 析 において, 分 野 間 距 離 をはかり,より 適 切 なコーパスを 利 用 して 領 域 適 応 を 行 えるように した.また,(Asch and Daelemans (2010))は, 構 文 解 析 において, 自 動 的 にタグ 付 けされた コーパスを 用 いて,ソースデータとターゲットデータの 類 似 度 から 性 能 を 予 測 できること を 示 した.( 古 宮, 奥 村 (2012))は WSD について supervised な 領 域 適 応 を 行 った 場 合, 最 も 効 果 的 な 領 域 適 応 手 法 はソースデータとターゲットデータの 性 質 により 異 なることを 示 し, 最 も 効 果 的 な 領 域 適 応 手 法 を,WSD の 対 象 単 語 タイプ,ソースデータ,ターゲットデ ータの 三 つ 組 ごとに 自 動 的 に 選 択 する 手 法 について 述 べた.また,(Komiya and Okumura (2012))は,WSD の supervised な 領 域 適 応 において, 本 稿 でも 使 用 する 確 信 度 という 尺 度 を 用 い, 用 例 ごとに 適 切 な 領 域 適 応 手 法 を 自 動 的 に 選 択 した.また,( 古 宮, 小 谷, 奥 村 (2013)), unsupervised な 領 域 適 応 において,あるターゲットデータに 対 して 複 数 のジャンルのソース データが 混 在 した 場 合, 確 信 度 と LOO-bound という 指 標 を 利 用 して, 領 域 適 応 のための 訓 練 事 例 の 部 分 集 合 を WSD の 対 象 単 語 タイプごとに 自 動 的 に 選 択 する 手 法 について 述 べた. 3. 用 例 ごとの 訓 練 事 例 集 合 の 自 動 選 択 あるドメイン(ジャンル)のターゲットデータを 対 象 に WSD を 行 うことを 考 える.この ターゲットデータのラベル( 語 義 )は 未 知 であるとする. 一 方, 複 数 のジャンルのコーパ スの 集 合 となっているソースデータが 入 手 可 能 であるとすると, 本 稿 ではこれらのソース データの 全 体 集 合 から,ターゲットデータに 適 した 訓 練 事 例 の 部 分 集 合 を 自 動 的 に 選 択 す る.この 際, 以 下 の 手 順 で 訓 練 事 例 の 部 分 集 合 の 選 択 を 行 う.なお, 我 々は 最 も 効 果 的 な 訓 練 事 例 集 合 は 用 例 ごとに 異 なると 仮 定 しているため, 訓 練 事 例 集 合 の 選 択 はターゲット データの 用 例 ごとに 行 う. (1) 訓 練 事 例 集 合 を 変 えて 複 数 の 分 類 器 を 学 習 する. (2) 用 例 ごとに, 複 数 の 訓 練 事 例 集 合 による 分 類 器 の 確 信 度 を 比 較 する. (3) 分 類 器 の 確 信 度 の 最 も 高 い 訓 練 事 例 集 合 による 結 果 を 採 用 する. ここでの 分 類 器 の 確 信 度 (Komiya and Okumura (2012))は, 分 類 の 確 からしさの 度 合 いの 予 測 値 であり, 能 動 学 習 においてラベル 付 けする 用 例 を 選 択 するのによく 利 用 される. 本 手 法 では(Komiya and Okumura (2012))と 同 様 に,この 確 信 度 が 確 率 として 出 力 されること に 注 目 し, 確 信 度 を 比 較 することで, 複 数 の 分 類 器 の 合 議 を 行 う. 4. 実 験 4.1WSD のための 訓 練 事 例 集 合 WSD のための 訓 練 事 例 集 合 として, 本 研 究 では 以 下 に 示 す 三 つを 用 いる. One: 複 数 のジャンルのコーパスの 集 合 であるソースデータのうち,ひとつのジャンルの コーパスを 訓 練 事 例 に 用 いる. Another: One One とは 別 のひとつのジャンルのコーパスを 訓 練 事 例 に 用 いる. Together: One One と Another Another で 利 用 したふたつのコーパスを 訓 練 事 例 に 用 いる. 分 類 器 としてはマルチクラス 対 応 の SVM(libsvm)(Chang and Lin (2001))を 使 用 した.ま 2

12 た,libsvm の 確 率 として 出 力 される 分 類 の 確 からしさを 確 信 度 として 用 いた.カーネルは 予 備 実 験 の 結 果, 線 形 カーネルが 最 も 高 い 正 解 率 を 示 したため,これを 採 用 した.また, 学 習 の 素 性 には, 以 下 の 17 種 類 の 素 性 を 用 いた. WSD の 対 象 単 語 の 前 後 二 語 までの 形 態 素 の 表 記 (4 種 類 ) WSD の 対 象 単 語 の 前 後 二 語 までの 品 詞 (4 種 類 ) WSD の 対 象 単 語 の 前 後 二 語 までの 品 詞 の 細 分 類 (4 種 類 ) WSD の 対 象 単 語 の 前 後 二 語 までの 分 類 コード(4 種 類 ) 係 り 受 け(1 種 類 ) - 対 象 単 語 が 名 詞 の 場 合 はその 名 詞 が 係 る 動 詞 - 対 象 単 語 が 動 詞 の 場 合 はその 動 詞 のヲ 格 の 格 要 素 分 類 語 彙 表 の 分 類 コードには( 国 立 国 語 研 究 所 (1964))を 使 用 した. 4.2 合 議 の 方 法 上 記 で 示 した One, Another の 二 つ,また Together を 含 めた 三 つのうちから 確 信 度 を 用 いて, 最 も 適 切 な 分 類 器 の 結 果 を 合 議 により 決 定 した. One, Another の 二 種 類 か ら 選 ぶ 際 には,より 確 信 度 が 高 い 方 の 分 類 器 の 結 果 を 採 用 した. Together を 含 めた 三 種 類 の 合 議 の 方 法 は, 以 下 の 4 通 りを 試 した.なお, 一 番 が 複 数 あるときには 最 も 高 い 確 信 度 の 分 類 器 の 語 義 を 採 用 した. Highest: 最 も 高 い 確 信 度 の 分 類 器 の 結 果 ( 語 義 )を 採 用 する Time: 語 義 ごとに, 複 数 分 類 器 から 出 力 された 確 信 度 を 積 算 し, 最 も 高 い 確 信 度 となっ た 語 義 を 採 用 する Plus: 語 義 ごとに, 複 数 分 類 器 から 出 力 された 確 信 度 を 足 しあわせ, 最 も 高 い 確 信 度 とな った 語 義 を 採 用 する Majority ajority: 分 類 器 ごとに, 最 も 高 い 確 信 度 となった 語 義 に 一 票 入 れ, 最 も 多 数 の 票 が 入 っ た 語 義 を 採 用 する 4.3 実 験 データ 実 験 には, 現 代 日 本 語 書 き 言 葉 均 衡 コーパス(BCCWJ コーパス)(Maekawa (2008))の 白 書 のデータとYahoo! 知 恵 袋 のデータ,またRWC コーパスの 毎 日 新 聞 コーパス(Hashida et al. (1998))の 三 つのジャンルのデータを 利 用 した.これらのデータには 岩 波 国 語 辞 典 ( 西 尾 ら (1994))の 語 義 が 付 与 されている. 三 つのジャンルのコーパスのうち,ひとつをターゲ ットデータにし, 残 りの 二 つを 利 用 可 能 なソースデータとして 利 用 することで, 全 部 で3 通 りの 領 域 適 応 を 行 った. これらのコーパス 中 の 多 義 語 のうち, 三 つのコーパス 中 全 てに50 トークン 以 上 存 在 する 単 語 を 実 験 対 象 としたところ, 全 体 で22 種 類 となった. それぞれのジャンルのコーパスにおけるケースごとの 最 小, 最 大, 平 均 用 例 数 を 表 1 に 示 す. また, 実 験 には 岩 波 国 語 辞 典 の 小 分 類 の 語 義 を 採 用 した. 語 義 数 ごとの 単 語 の 内 訳 は,2 語 義 : 場 合, 自 分,3 語 義 : 事 業, 情 報, 地 方, 社 会, 思 う, 子 供,4 語 義 : 考 える,5 語 義 : 含 む, 技 術,6 語 義 : 関 係, 時 間, 一 般, 現 在,7 語 義 : 今,8 語 義 : 前,10 語 義 : 持 つ, 12 語 義 : 見 る,14 語 義 : 入 る,16 語 義 : 言 う,22 語 義 : 手 である. 3

13 表 1 それぞれのジャンルのコーパスにおける 単 語 ごとの 最 小, 最 大, 平 均 用 例 数 コーパスの 種 類 最 小 最 多 平 均 BCCWJ 白 書 BCCWJ Yahoo! 知 恵 袋 RWC 新 聞 結 果 表 2 に 全 体 の 合 議 の 方 法 別 の 実 験 結 果 を,また, 表 3 にターゲットデータと 合 議 の 方 法 別 の 実 験 結 果 を 示 す.これらの 表 において, Self は,タグつきターゲットデータが 手 に 入 ったと 仮 定 して,supervised の 学 習 を 5 分 割 交 差 検 定 を 用 いて 行 った 結 果 である. ふたつのコーパスの 平 均 は,ふたつのジャンルのソースデータそれぞれをジャンル ごとに 分 けて 訓 練 事 例 とした 場 合 の 結 果 の 平 均 である. 入 手 可 能 なジャンルのコーパスを それぞれソースデータとして 使 用 した 場 合 の 平 均 的 な 結 果 を 示 している. 例 えば,Yahoo! 知 恵 袋 のデータがターゲットデータの 時 のソースデータは 白 書 と 新 聞 であるが,このとき の ふたつのコーパスの 平 均 は, 白 書 の 全 データで 訓 練 した Yahoo! 知 恵 袋 のデータの 正 解 率 と, 新 聞 の 全 データで 訓 練 した Yahoo! 知 恵 袋 のデータの 正 解 率 の 平 均 となる. また, 大 きい 方 のコーパス は,ふたつのジャンルのソースデータのうち, 用 例 数 が 多 いジャンルのソースデータをすべて 訓 練 事 例 とした 場 合 の 結 果 である. 例 えば,Yahoo! 知 恵 袋 のデータがターゲットデータの 時 の 大 きい 方 のコーパス は, 白 書 よりも 新 聞 のほ うが 全 単 語 タイプで 比 較 したときに 用 例 数 が 多 かったため, 新 聞 の 全 データで 訓 練 した Yahoo! 知 恵 袋 のデータの 正 解 率 の 平 均 となる. 最 後 に, 全 てのコーパス とは,ふたつのジャンルのソースデータ 全 て(つまり 全 ソー スデータ)を 訓 練 事 例 とした 際 の 結 果 である. 例 えば,Yahoo! 知 恵 袋 のデータがターゲッ トデータの 時 の 全 てのコーパス は, 白 書 と 新 聞 のコーパス 全 てを 訓 練 事 例 として 利 用 した 際 の 結 果 である. 表 2 全 体 の 合 議 の 方 法 別 の 実 験 結 果 マイクロ 平 均 マクロ 平 均 Self 93.29% 85.97% ふたつのコーパスの 平 均 76.92% 71.20% 大 きい 方 のコーパス 81.99% 74.25% 全 てのコーパス 81.76% 75.86% 二 種 類 から 選 択 82.46% 74.71% Highest 82.62% 74.92% Time 77.11% 65.85% Plus 82.48% 74.07% Majority 80.89% 70.88% このとき, Self は upper bound であり, ふたつのコーパスの 平 均, 大 きい 方 のコー パス, 全 てのコーパス はベースラインである. 表 において Self 以 外 でコーパスごとに 4

14 一 番 高 い 正 解 率 を 太 字 で 示 した.またその 値 をベースラインのうち 一 番 目 に 高 い 正 解 率 と 比 較 した 際,0.05 水 準 で 有 意 である 場 合 にはその 値 に 下 線 を 引 いた. 表 3 ターゲットデータと 合 議 の 方 法 別 の 実 験 結 果 マイクロ 平 均 マクロ 平 均 ターゲットデータ 白 書 新 聞 Yahoo! 知 恵 袋 白 書 新 聞 Yahoo! 知 恵 袋 Self 96.07% 79.57% 91.93% 91.53% 78.59% 87.80% ふたつのコーパスの 平 均 73.54% 72.94% 79.95% 70.80% 71.23% 71.57% 大 きい 方 のコーパス 80.72% 74.86% 83.50% 75.64% 74.39% 72.73% 全 てのコーパス 81.80% 75.95% 82.11% 76.91% 74.91% 75.76% 二 種 類 から 選 択 82.02% 74.81% 83.33% 76.68% 72.71% 74.75% Highest 82.28% 74.94% 83.42% 76.88% 72.80% 75.07% Time 76.72% 66.39% 78.13% 65.94% 62.28% 69.32% Plus 81.93% 71.44% 83.67% 75.81% 70.65% 75.75% Majority 80.10% 67.03% 82.46% 71.45% 67.28% 73.92% 6. 考 察 まず, 表 2 と 表 3 においてマイクロ 平 均 を 比 べると,Yahoo! 知 恵 袋 コーパスがターゲ ットデータの 時 と 全 体 で 比 較 した 際 には, 全 てのコーパス の 正 解 率 より 大 きい 方 のコ ーパス の 正 解 率 の 方 が 高 い.このことから, 訓 練 事 例 は 必 ずしも 多 ければ 良 いわけでは ないことが 分 かる. 次 に, 同 じ 二 つの 表 から, 二 種 類 から 選 択 のマイクロ 平 均 は 新 聞 がターゲットデータ のとき 以 外 は 総 じて 良 いことが 分 かる.しかし Together を 含 めた 三 種 類 から 選 択 する Highest の 方 が,マイクロ 平 均,マクロ 平 均 ともにいつも 良 い. その Highest は, 提 案 手 法 で 最 も 高 い 正 解 率 を 示 している. 特 にマイクロ 平 均 におい ては,ベースライン 中 で 最 も 高 い 正 解 率 の 大 きい 方 のコーパス を 有 意 に 上 回 っている. しかし,マクロ 平 均 についてはどの 提 案 手 法 も 全 てのコーパス というベースラインを 上 回 ることが 出 来 なかった.マクロ 平 均 をあげることが 今 後 の 課 題 である. また, 二 つの 表 から, Highest と Plus は Time や Majority よりも 正 解 率 が 高 いことが 分 かる. 最 後 に, 表 3 から,マイクロ 平 均 において, 新 聞 がターゲットデータになった 際 には 全 てのコーパス が 全 てのうちで 最 も 高 い 正 解 率 である.これは, 訓 練 事 例 となった Yahoo! 知 恵 袋 と 白 書 のコーパスがふたつとも 大 きいため, 全 てのコーパスを 利 用 した 場 合 には 片 方 のコーパスよりずっと 大 きくなるためであると 考 えられる. 訓 練 事 例 数 は 必 ずしも 多 け ればいいわけではないが, 一 方 で, 訓 練 事 例 数 に 大 きな 差 があった 場 合 には, 多 い 方 を 選 ぶと 高 い 正 解 率 となると 思 われるので, 今 後 は 訓 練 事 例 数 を 加 味 した 指 標 を 考 える 予 定 で ある. 7.まとめ テストのターゲットとなるドメインとは 異 なるドメインのデータを 利 用 して 学 習 を 行 い, ターゲットドメインのデータに 適 応 することを 領 域 適 応 といい, 近 年 さまざまな 手 法 が 研 究 されている. 我 々は, 語 義 曖 昧 性 解 消 (WSD: Word Sense Disambiguation)の 領 域 適 応 を 行 う 際,ターゲットデータの 用 例 によって 適 切 な 訓 練 事 例 集 合 は 異 なると 考 え,ソー スデータとして 二 つのジャンルによるコーパスが 与 えられた 際,それぞれのジャンルのコ 5

15 ーパスによって 訓 練 する 方 式 と, 全 体 のコーパスによって 訓 練 する 方 式 を 使 って 三 つの 分 類 器 を 作 成 し, 用 例 ごとに 学 習 された 分 類 器 の 出 力 する 確 信 度 が 最 大 である 答 えを 採 用 す ることにより, 分 類 の 精 度 を 向 上 させる 手 法 を 示 した. 用 例 ごとに 自 動 的 に 選 択 された 訓 練 事 例 集 合 を 用 いて 領 域 適 応 を 行 うことで, 全 体 のコーパスを 使 用 して 学 習 した 時 や 大 き い 方 のコーパスを 利 用 して 学 習 した 時 に 比 べ,WSD の 平 均 正 解 率 がマイクロ 平 均 に 関 して 有 意 に 向 上 した.マクロ 平 均 を 上 昇 させることが 今 後 の 課 題 である. 謝 辞 本 研 究 は, 文 部 科 学 省 科 学 研 究 費 補 助 金 [ 若 手 B(No: )]の 助 成 により 行 われた. ここに, 謹 んで 御 礼 申 し 上 げる. 文 献 Vincent Van Asch and Walter Daelemans (2010). Using Domain Similarity for Performance Estimation. Proceedings of the 2010 Workshop on Domain Adaptation for Natural Language Processing, ACL 2010, pp Yee Seng Chan and Hwee Tou Ng (2006). "Estimating Class Priors in Domain Adaptation for Word Sense Disambiguation." Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, pp Hal Daumé III(2007). Frustratingly Easy Domain Adaptation. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp Hal Daumé III, Abhishek Kumar, Avishek Saha, (2010). Frustratingly Easy Semi-Supervised Domain Adaptation, Proceedings of the 2010 Workshop on Domain Adaptation for Natural Language Processing, ACL 2010, pages Koichi Hashida, Hitoshi Isahara, Takenobu Tokunaga, Minako Hashimoto, Shiho Ogino, and Wakako Kashino (1998). The Rwc Text Databases. In Proceedings of The First International Conference on Language Resource and Evaluation, pp Jing Jiang and ChengXiang Zhai (2007). Instance Weighting for Domain Adaptation in NLP, Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pp49-56, pp Kanako Komiya and Manabu Okumura (2012). Automatic Domain Adaptation for Word Sense Disambiguation Based on Comparison of Multiple Classifiers, Proceedings of 26 th Conference on Language Information and Computation, pp Pacific Asia David McClosky, Eugene Charniak, and Mark Johnson (2010). Automatic domain adaptation for parsing. Proceedings of the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp Kikuo Maekawa (2008). Balanced Corpus of Contemporary Written Japanese. In Proceedings of the 6th Workshop on Asian Language Resources (ALR), pp 国 立 国 語 研 究 所 (1964). 分 類 語 彙 表. 秀 英 出 版. 古 宮 嘉 那 子, 奥 村 学 (2012). 語 義 曖 昧 性 解 消 のための 領 域 適 応 手 法 の 決 定 木 学 習 による 自 動 選 択, 自 然 言 語 処 理,Vol.19, No.3, pp 古 宮 嘉 那 子, 小 谷 善 行, 奥 村 学 (2013). 語 義 曖 昧 性 解 消 の 領 域 適 応 のための 訓 練 事 例 集 合 の 選 択, 第 19 回 言 語 処 理 学 会 年 次 大 会 予 稿 集,In Press. 西 尾 実, 岩 淵 悦 太 郎, 水 谷 静 夫 (1994). 岩 波 国 語 辞 典 第 五 版. 岩 波 書 店. 張 本 佳 子, 宮 尾 祐 介, 辻 井 潤 一 (2010). 構 文 解 析 の 分 野 適 応 における 精 度 低 下 要 因 の 分 析 及 び 分 野 間 距 離 の 測 定 手 法. 言 語 処 理 学 会 第 16 回 年 次 大 会 発 表 論 文 集, pp

16 Successive Patterns of Kaku- and Fuku-Joshi in Japanese Satoshi Sato (Graduate School of Engineering, Nagoya University) 1 [1] ([2,3,4,5]) [6] (BCCWJ) , ([] ) 70 ( ) ([]) , ([]) UniDic ([UniDic]) ,.., ([]) II Juman-7.0 ([Juman]) 96 7

17 1: [] [] [] [UniDic] [] [Juman] [JLPT] () () 7.,.., ([JPLT]) Yoko M. McClain. Handbook of Modern Japanese Grammar. The Hokuseido Press, ([McClain]) Particles 49 (Colloquial form of shika) (This na is not a particle) Naoko Chino. All About Particles. Kodansha International, ([Chino]) [McClain] [Chino] [] [] [Juman] [][][UniDic] [] [UniDic] () [Chino] 8

18 2: 23 [] [] [] [UniDic] [] [Juman] [JLPT] [McClain] [Chino] 1 (4) 2 (4) 3 (4) 4 (4) 5 (4) 6 (4) 7 8 (4) 9 1 (4) 10 / (4) 11 (4) 12 (4) 13 (4) (3) (4) (4) 21 (3) 22 (3) [] [UniDic] 1 2 [] [] [Juman] [Juman] 9

19 2 3.2 A 2 Test1 X ( X) Test2 X +(X ) 23 2 no () A (1) a. b. c. () A A () 3.3 B Test3 A X (A X) A no (a) 1 () (b) 2 () (2) (a) B B (Test1: no) () (3) B (4) 2 ()

20 B (Test2: yes)b A ( Test4: yes) (5) a. b. c. d.? e.? f.? 3.4 C D Test3 yes Test4 X A (X A) 1. no yes 2 () (6) a. b. c. 2 yes no C D D () C () A (Test4: no) (Test3: yes)d A (Test4: yes) (Test3: yes) () (7) a. b. D B (8) a. b. c. C D (Test1: yes) (9) a. 11

21 3: Test1 Test3 Test2 Test4 X A X X X A A no no no no B no no yes yes 1 C yes yes no* no* D yes yes* yes yes 2 * () + D + B + A + D + C () + D + B + D : () b. c.? C + (Test2: no)+ (10) 100 D + (Test2: yes)bccwj (11) BCCWJ Test1 Test3 Test2 Test4 A D 4 Test1 Test2 2 Test3 Test4 Test2 1 4 BCCWJ BCCWJ 1. BCCWJ () (a) (b) 2 12

22 4: () D B N BN.B.N BN.B.N BN.B.N BN.B.N DN.D (.B).N DN.D.N DN.D.N // 25 7 DN.D.N 14 9 DN.D.N 11 0 DN.D.N 8 0 DN.D.N 6 0 DBN.D.B.N 5 0 DBN.D.B.N 4 0 DBN.D.B.N CN *.C.N * (c) BCCWJ UniDic + 2. UniDic ()+ () N B N D BCCWJ D B C D B +A D +C

23 5: ( 1) () D B A D C () DA.D.A 34 5 DA.D.A 16 2 BA.B.A 15 3 DA.D.A 11 4 DA.D (.B).A 4 0 DA.D.A 3 0 DA.D.A *1 34 CA *.C.A *1 0 DCA.D *.C.A DA.D.A 30 2 DA.D.A 14 0 BA.B.A 13 1 AC.A.C 8 0 DA.D.A 7 0 DA.D.A 5 0 DA.D (.B).A 3 0 DA.D.A AC.A.C AC.A.C DA.D.A DA.D (.B).A 47 0 AD.A.D 36 9 DA.D.A 20 2 AC.A.C 8 0 DA.D.A 8 0 BA.B.A 7 0 DAC.D.A.C 7 0 DAC.D (.B).A.C 7 0 AD.A.D 6 1 DA.D.A 6 1 DA.D.A 5 0 AB.A.B 4 0 AD.A.D 3 0 DAC.D.A.C 3 0 AD.A.D BC.B.C BC.B.C DB.D.B DB.D.B 13 2 DBC.D.B.C 13 0 DBC.D.B.C 13 0 DBC.D.B.C 12 0 BC.B.C 10 3 DBC.D.B.C 9 0 DB.D.B 6 0 DB.D.B 6 0 BD.B.D 5 0 DB.D.B 5 0 DB.D.B 5 1 BBC.B.B.C 5 0 BD.B.D 3 0 DBC.D.B.C 3 0 BB.B.B 3 0 BD.B.D 14

24 6: ( 2) () D B A D C () 78 0 BB.B.B 8 2 BC.B.C 7 0 BC.B.C 3 0 DB.D.B BC.B.C BC.B.C 21 0 DB.D.B (.B) 10 1 DB.D.B (.B) 7 0 BC.B.C 4 0 DB.D.B (.B) 4 0 DB.D.B (.B) BC.B.C 16 0 BC.B.C BC.B.C BC.B.C 33 0 DB.D.B 4 0 BB.B.B 4 0 BBC.B.C DC.D (.B).C 7 28 DC.D (.B).C 4 1 DD.D.B 3 0 DC.D (.B).C 69 2 DC.D.C 60 1 DC.D.C 41 4 DC.D.C 13 2 DC.D.C 8 1 CB.C.B 7 0 DC.D.C 6 1 DC.D.C 4 0 DC.D.C 4 0 DC.D.C 3 0 DC.D.C 3 0 DD.D.D 3 1 DC.D.C * (B ) (D ) DBADC BA D D BA A C A D ( D ) (B)+ (C) (C) 15

25 BA DC D B A D C N () D B A D C () D.C.A () D B () D.C 1 2: () 85% ( ) () JSPS (B) ( ) [1],,.. 2, pp , [2].., [3],,.., [4]. (3). 7 II., [5].., [6]..,

26 文 節 係 り 受 け 構 造 のジャンル 依 存 性 高 松 亮 ( 埼 玉 大 学 経 済 学 部 ) Genre Dependencies on Phrase to Phrase Modifications of Spoken Japanese Ryo Takamatsu ( Faculty of Economics, Saitama University ) 1.はじめに 本 報 告 は, 文 節 間 の 係 り 受 け 関 係 の 構 造 を 木 構 造 ( 以 下, 係 り 受 け 木 と 呼 ぶ)としてと らえた 場 合,その 形 態 的 特 徴 が 発 話 のジャンルによってどのように 変 化 するかを 定 量 的 に 記 述 分 析 することを 試 みるものである. 分 析 の 対 象 としては, 日 本 語 話 し 言 葉 コーパ ス ( 以 下 CSJ)の 学 会 講 演 と 模 擬 講 演 の 発 話 を 用 いる. 2. 発 話 のジャンルと 係 り 受 けの 構 造 発 話 のジャンルによって,そこで 用 いられる 文 体,スタイル,レジスタといった 属 性 は 異 なる.これまでさまざまな 視 点 からこの 違 いを 定 量 的 に 捉 える 試 みがなされてきた( 樺 島 (1981),Biber and Vasquez(2008), 小 磯, 小 木 曽, 小 椋 他 (2009)). 本 報 告 では, 意 味 論 的 な 構 造 を 反 映 している 最 もプリミティブな 要 素 であると 考 えられ る 文 節 間 の 係 り 受 けの 構 造 と, 発 話 のジャンルとの 関 係 に 注 目 する. 文 節 間 の 係 り 受 けの 統 計 的 性 質 については, 係 り 受 け 関 係 を 有 する 文 節 間 の 距 離 が 拡 張 された Zipf の 法 則 に 従 うことを 指 摘 した 例 ( 丸 山, 荻 野 (1992))がある.また, 金 (1996) は 小 説 に 関 して, 書 き 手 が 変 わっても 係 り 受 けの 距 離 の 分 布 はほとんど 変 化 がないことを 示 した.しかし, 係 り 受 け 木 の 構 造 とジャンルの 関 係 は 調 査 されていない. いま, 文 節 をノード, 係 り 元 の 文 節 と 係 り 先 の 文 節 の 関 係 をエッジと 考 えたグラフ 構 造 で 表 わすと, 一 般 的 には 係 り 受 けの 構 造 を 木 構 造,すなわち 係 り 受 け 木 として 表 現 できる 1. 個 々の 係 り 受 け 関 係 は, 文 節 間 の 修 飾 - 被 修 飾 や 原 因 - 結 果 のような, 意 味 の 呼 応 関 係 で あるから, 係 り 受 け 木 は 呼 応 関 係 の 構 造 を 表 現 したものである. 学 会 における 講 演 のよう に, 複 雑 な 論 理 的 構 造 を 持 つ 意 味 内 容 を, 正 確 かつ 明 確 に 伝 達 することが 必 要 な 場 面 と, 日 常 会 話 のような 場 面 とでは, 発 話 者 が 意 味 の 呼 応 関 係 の 構 造 を 場 面 に 応 じて 適 応 的 に 変 化 させている 可 能 性 がある. 係 り 受 け 木 の 形 態 を 定 量 的 に 表 す 特 徴 量 を 観 測 することがで きれば,そのようなジャンル 毎 の 傾 向 の 違 いが 観 測 値 に 表 れることが 期 待 できる. 3. 係 り 受 け 木 の 定 義 文 節 をノード, 係 り 元 の 文 節 と 係 り 先 の 文 節 の 関 係 をエッジと 考 え, 係 り 受 け 関 係 を 木 構 造 で 表 したものを 係 り 受 け 木 と 呼 ぶ. 以 下 では, 係 り 受 け 木 の 要 素 をグラフ 理 論 の 用 語 を 用 いて 呼 ぶことがある. 各 文 節 を ノード, 係 り 元 がなく, 係 り 先 がある 文 節 を 葉, 係 り 元 はあるが 係 り 先 のない 文 節 を 根 と 呼 ぶ. 係 り 受 け 関 係 のあるノード 間 を 結 ぶ 線 を エッジ,あるノード P から 根 R に 向 かってエッジをたどる 最 短 経 路 を 考 えるとき, 経 路 上 のノード Q に 到 達 するまでに 経 たエッジの 数 を P と Q の 距 離,P から 根 R までの 距 離 を ノード P の 高 さ,ある 木 の 葉 から 根 までの 高 さの 最 大 値 を 木 の 高 さ という. rtakamat@mail.saitama-u.ac.jp 1 本 報 告 ではグラフが 木 構 造 にならないような 場 合 は 扱 わない.また,ノードの 属 性 に 文 節 の 出 現 順 序 を 加 えた 順 序 木 も 考 えられるが, 本 報 告 では 文 節 の 出 現 順 序 の 情 報 を 捨 象 した 係 り 受 け 木 を 用 いた. 17

27 4. 分 析 対 象 本 報 告 では, 文 節 係 り 受 けについて 手 作 業 によるアノテーションが 施 されている,CSJ のコア 部 分 について 学 会 講 演 と 模 擬 講 演 の 2 つの 発 話 場 面 の 比 較 を 行 なった( 表 1). これは, 合 計 6 名 の 話 者 ( 以 下, 共 通 話 者 と 呼 ぶ)が 両 方 の 発 話 場 面 に 収 録 されており,それ らのデータを 用 いれば, 同 一 発 話 者 の 発 話 場 面 による 差 異 をも 比 較 可 能 なためである. CSJ では 係 り 受 け 構 造 の 記 述 を 行 なう 範 囲 として, 文 を 認 定 するかわりに 節 単 位 という 概 念 を 用 いている( 国 立 国 語 研 究 所 2006).ほとんどの 場 合 1 本 の 係 り 受 け 木 は 1 個 の 節 単 位 に 対 応 する.ただし, 係 り 元 があって, 係 り 先 のない 文 節 が 節 単 位 中 に 複 数 存 在 する 場 合 も あり,その 場 合 にはそれぞれの 文 節 を 根 に 持 つ 複 数 の 木 を 考 えることにする. 表 1: 分 析 対 象 の 種 類 と 規 模 ( 括 弧 内 は 共 通 話 者 6 名 についての 値 ) 話 者 数 節 単 位 総 数 木 の 総 本 数 学 会 講 演 70(6) 8516(790) 8723(794) 模 擬 講 演 107(6) 9675(613) 10046(640) 5. 特 徴 量 とその 傾 向 5.1 はじめに 学 会 講 演 と 模 擬 講 演 のデータは, 年 齢 や 性 別 といった 話 者 の 属 性 の 分 布 が 同 一 ではない ( 国 立 国 語 研 究 所 (2006))ため, 両 者 の 統 計 的 な 性 質 を 単 純 に 比 較 するべきではないが, 両 者 に 共 通 の 話 者 ( 共 通 話 者 )が 6 名 おり, 共 通 話 者 の 場 合 と 全 話 者 の 場 合 それぞれについて 比 較 することで, 特 徴 量 の 異 同 の 原 因 がジャンルなのか 母 集 団 の 違 いなのかをある 程 度 判 断 で きる. 以 下 では, 係 り 受 け 木 の 形 態 的 特 徴 を 表 現 する 特 徴 量 として, 木 の 高 さのような 大 域 的 な 特 徴 と,ある 文 節 に 対 して 係 る 文 節 の 個 数 やその 平 均 値 のような 局 所 的 な 特 徴 につ いて 分 析 する.なお, 係 り 受 け 木 のうち, 係 り 元, 係 り 先 の 両 方 が 存 在 しない 1 個 の 文 節 のみからなる 木 は,その 多 くがフィラーなどであるため, 分 析 対 象 から 除 外 している. 5.2 大 域 的 特 徴 木 の 高 さの 頻 度 係 り 受 け 木 の 高 さの 相 対 頻 度 の 分 布 を 図 1 および 図 2 に 示 す. 図 1 木 の 高 さの 頻 度 ( 全 話 者 ) 図 2 木 の 高 さの 頻 度 ( 共 通 話 者 ) 18

28 図 1, 図 2 のいずれも 学 会 講 演 の 方 が 模 擬 講 演 よりも 分 布 の 幅 が 狭 く, 相 対 的 に 高 い 山 の 度 数 が 多 い. 両 者 に 共 通 する 特 徴 としては, 学 会 講 演 および 模 擬 講 演 とも 木 の 高 さが 2 で 最 大 値 の 頻 度 となり,それよりも 木 の 高 さが 高 くなるにしたがって 頻 度 が 単 調 に 減 少 する ことがあげられる. 学 会 講 演 の 木 の 高 さの 平 均 値 は 3.45( 全 話 者 )および 3.27( 共 通 話 者 ), 模 擬 講 演 の 木 の 高 さの 平 均 値 は 2.98( 全 話 者 )および 2.88( 共 通 話 者 )であり, 学 会 講 演 が 模 擬 講 演 よりも 木 の 高 さの 平 均 値 が 大 きい. また, 全 話 者 と 共 通 話 者 の 双 方 で 同 様 の 傾 向 を 示 すことから, 学 会 講 演 と 模 擬 講 演 によ る 分 布 形 の 差 異 は, 母 集 団 の 属 性 の 偏 りというよりは,ジャンルに 起 因 する 違 いであるこ とが 推 察 される. 国 立 国 語 研 究 所 (1955)においては 係 り 受 けの 次 数 という, 係 り 受 け 木 の 高 さと 同 等 の パラメータを 用 いて 文 の 構 造 を 分 析 しており,ニュース 音 声 と 日 常 的 な 場 面 における 対 話 音 声 それぞれに 表 れる 文 の 次 数 を 比 較 した 結 果,ニュース 音 声 ( 平 均 値 3.76)が 対 話 音 声 ( 平 均 値 1.77)よりも 次 数 の 高 い 文 が 頻 出 すると 指 摘 している( 平 均 値 は 筆 者 による 再 計 算 ). 参 考 のために 本 報 告 における 値 も 含 め, 木 の 高 さの 値 の 順 に 並 べると, ニュース 音 声 > 学 会 講 演 > 模 擬 講 演 > 日 常 対 話 となる. ニュース 音 声 は 独 話 で,かつ 改 まり 度 が 高 く, 本 報 告 における 学 会 講 演 に 近 い 性 質 を 持 っている.また, 本 報 告 における 模 擬 講 演 は 比 較 的 くだけた 状 況 における 独 話 であり, 日 常 の 対 話 とニュースや 学 会 講 演 の 中 間 的 な 性 質 を 有 すると 考 えられ,このことが 木 の 高 さ の 平 均 値 の 大 小 にも 表 れているものと 考 えられる 文 節 数 の 頻 度 1 本 の 係 り 受 け 木 に 含 まれる 文 節 の 数 は, 木 の 規 模 の 大 小 を 表 現 するパラメターの 一 つで ある. 図 3 および 図 4 に 文 節 数 の 相 対 頻 度 の 分 布 を 示 す. 図 より, 木 の 高 さの 頻 度 の 場 合 と 同 様 に, 共 通 話 者 の 場 合 も, 話 者 全 体 の 場 合 もかなり 類 似 した 傾 向 があることがわかる. すなわち,いずれの 場 合 も 文 節 数 2( 図 の 最 も 左 側 のプロット)の 頻 度 が 例 外 的 に 高 く 以 降 単 調 に 減 少 すること, 文 節 数 が 2 においては 模 擬 講 演 の 頻 度 が 高 く,3 から 5 程 度 の 範 囲 では その 差 はわずかになり,それよりも 文 節 数 が 多 い 領 域 においては, 逆 に 学 会 講 演 の 方 がわ ずかに 頻 度 が 高 いことがわかる. これらの 特 徴 が 図 3 と 図 4 に 共 通 して 見 られることから, 文 節 数 の 頻 度 分 布 の 傾 向 も, 学 会 講 演 と 模 擬 講 演 というジャンルの 違 いから 生 じていることが 推 察 される. 図 3 木 に 含 まれる 文 節 数 の 頻 度 ( 全 話 者 ) 図 4 木 に 含 まれる 文 節 数 の 頻 度 ( 共 通 話 者 ) 19

29 5.3 局 所 的 特 徴 係 り 元 の 文 節 数 係 り 受 け 木 の 局 所 的 な 特 徴 のうちもっとも 基 本 的 なものとして,ある 文 節 に 注 目 した 場 合 に,その 文 節 に 係 る 文 節 ( 係 り 元 )の 数 が n 個 である 場 合 の 頻 度 を 考 える. 図 5 および 図 6 に 係 り 元 の 数 の 相 対 頻 度 の 分 布 を 示 す.なお, 縦 軸 は 相 対 頻 度 の 常 用 対 数 である. 図 5 係 り 元 の 文 節 数 の 頻 度 ( 全 話 者 ) 図 6 係 り 元 の 文 節 数 の 頻 度 ( 共 通 話 者 ) いずれのグラフもプロットが 傾 きがほぼ 負 の 直 線 上 にのっていること, 係 り 元 の 数 が 0, すなわち 文 節 が 葉 である 場 合 の 相 対 頻 度 が 学 会 講 演 と 模 擬 講 演 とで 一 致 すること, 係 り 元 の 数 が 0~3 ないし 4 個 の 領 域 では 学 会 講 演 が,それ 以 上 の 領 域 では 模 擬 講 演 が,それぞれ わずかずつ 頻 度 が 高 い. 共 通 話 者 と 全 体 話 者 で 傾 向 が 一 致 することから, 学 会 講 演 と 模 擬 講 演 の 間 に 見 られたわずかな 差 異 が,スタイルの 差 異 から 生 じたものである 可 能 性 がある 根 の 文 節 に 係 る 文 節 数 根 に 相 当 する 文 節 に,n 個 の 文 節 が 係 る 場 合 の 相 対 頻 度 を 図 7 および 図 8 に 示 す. 図 7 根 の 文 節 に 係 る 文 節 数 の 頻 度 ( 全 話 者 ) 図 8 根 の 文 節 に 係 る 文 節 数 の 頻 度 ( 共 通 話 者 ) 20

30 学 会 講 演 は 文 節 数 2 において 最 大 値 を, 模 擬 講 演 は 文 節 数 1 において 最 大 値 を 取 る.また, 学 会 講 演 の 方 が 分 布 の 幅 が 相 対 的 に 狭 い.これらの 傾 向 が 両 方 の 図 において 見 られること から, 以 上 の 差 異 が 学 会 講 演 と 模 擬 講 演 のスタイルの 違 いから 生 じている 可 能 性 がある 葉 の 高 さと 葉 の 累 計 係 り 元 数 ある 葉 の 高 さが n であるとき, 葉 から 根 まで 辿 って 行 く 際 に 通 過 する 各 文 節 N i (i=1,2,..,n) が 係 り 元 を d i 個 ずつ 持 っているなら,d i の 合 計 数 をその 葉 の 累 計 係 り 元 数 と 呼 ぶことに する. 葉 の 高 さと 累 計 係 り 元 数 の 平 均 値 の 関 係 を 図 9 および 図 10 に 示 す. 図 9 累 計 係 り 元 数 の 平 均 値 ( 全 話 者 ) 図 10 累 計 係 り 元 数 の 平 均 値 ( 共 通 話 者 ) 全 てに 共 通 する 特 徴 として, 葉 の 高 さが 1 から 6 ないし 7 程 度 までの 範 囲 においては, プロットが 傾 きが 正 の 直 線 上 に 良 くのっていることが 挙 げられる. 全 話 者 においてはこの 直 線 の 傾 きが 模 擬 講 演 と 学 会 講 演 とで 異 なり, 学 会 講 演 の 方 が 傾 きが 若 干 小 さく, 葉 の 高 さが 高 くなった 場 合 の 係 り 元 数 の 増 加 が 少 ない. 一 方, 共 通 話 者 においては, 学 会 講 演 の 方 が 傾 きが 小 さい 点 は 全 話 者 と 同 じではあるが,その 差 はごくわずかである.したがって, 傾 きの 差 異 が 発 話 ジャンルに 起 因 している 可 能 性 はあるが, 話 者 によってはそれほど 明 確 な 差 が 生 じないことがあることがわかる. 6. まとめと 今 後 の 課 題 今 回 得 られた 知 見 のうち,ジャンルによる 量 的 な 差 異 に 関 するものをまとめると 次 のよう になる(A は 学 会 講 演,S は 模 擬 講 演 を 指 す). 大 域 的 特 徴 木 の 高 さの 分 布 の 平 均 :A > S 木 の 高 さの 分 布 の 幅 : A < S 文 節 数 2 の 木 の 相 対 頻 度 : S > A 局 所 的 特 徴 葉 の 相 対 頻 度 :A=S 根 に 係 る 文 節 数 の 分 布 の 最 頻 値 :A=2, S=1 根 に 係 る 文 節 数 の 分 布 の 幅 :A < S 高 さ n の 葉 から 根 までの 累 積 係 り 元 数 :n に 比 例 して 増 加 ( 比 例 定 数 は A < S) 学 会 講 演 は 木 の 高 さが 高 く, 高 さの 分 布 の 散 らばりも 小 さいこと, 模 擬 講 演 は 文 節 数 が 2(すなわち 高 さで 言 えば 1)の 木 の 相 対 頻 度 が 相 対 的 に 多 いことがわかる.また, 高 さ n の 21

31 葉 から 根 までの 累 積 係 り 元 数 は n にほぼ 比 例 するが, 学 会 講 演 の 方 が 比 例 定 数 が 小 さいこ とから, 葉 が 高 い 位 置 にあっても, 根 からその 葉 までの 経 路 での 枝 分 れがより 少 ない. 以 上 より, 学 会 講 演 は 木 の 高 さが 高 いが, 枝 分 れの 少 ない 構 造 を 持 つ 傾 向 があると 言 える. 係 り 元 を 多 く 持 つ 文 節 ほど 頻 度 が 急 速 に 減 るが, 模 擬 講 演 の 方 がよりロングテールな 傾 向 を 持 つことから, 模 擬 講 演 には 1 つの 文 節 に 多 数 の 文 節 が 係 る 表 現 が 相 対 的 に 多 いこと がわかる.そのような 構 造 の 例 を 図 11 に 示 す. 図 11 1 つの 文 節 に 多 数 の 文 節 が 係 る 構 造 の 例 本 報 告 では 係 り 受 け 木 の 形 態 を 表 す 特 徴 量 として, 大 域 的 なものと 局 所 的 なものとを 定 義 し,それらが 学 会 講 演 ならびに 模 擬 講 演 というスタイルの 違 いによってどのような 傾 向 を 持 つのかについて 調 査 し,いくつかの 知 見 を 得 た. 今 後 の 課 題 としてはまず,より 多 くの 発 話 ジャンルについての 調 査 を 行 なう 必 要 がある. また, 文 節 の 順 序 関 係 についての 情 報 を 考 慮 に 入 れた 場 合,どのような 傾 向 が 見 出 される かについても 検 討 の 必 要 がある.さらに,このような 差 異 の 傾 向 が 見 られる 原 因 について, 発 話 の 生 成 過 程 についての 知 見 との 接 続 を 行 なう 必 要 がある. 謝 辞 本 報 告 でなされた 研 究 は 著 者 が 国 立 国 語 研 究 所 に 外 来 研 究 員 として 滞 在 している 際 にな されたものです. 前 川 喜 久 雄 先 生, 小 磯 花 絵 先 生 をはじめ 多 くの 方 々の 御 助 力 を 頂 きまし た. 記 して 感 謝 を 表 します. 文 献 樺 島 忠 夫 (1981) 日 本 語 はどう 変 わるか 岩 波 新 書, 岩 波 書 店 Biber, Douglas and Cammila Vasquez (2008) "Writing and Speaking", in Handbook of research on writing, ed. C. Bazerman, pp , Routledge, Oxford, 2007 小 磯 花 絵, 小 木 曽 智 信, 小 椋 秀 樹, 他 (2009) コーパスに 基 づく 多 様 なジャンルの 文 体 比 較 - 短 単 位 情 報 に 着 目 して- 言 語 処 理 学 会 第 15 回 年 次 大 会 発 表 論 文 集,pp 丸 山 宏, 荻 野 紫 穂 (1992) 日 本 語 における 文 節 間 係 り 受 け 関 係 の 統 計 的 性 質 情 報 処 理 学 会 全 国 大 会 講 演 論 文 集,45:3, pp ( よりダウ ンロード 可 能 ) 金 明 哲 (1993) 文 節 の 係 り 受 け 距 離 の 統 計 分 析 社 会 情 報 : 札 幌 学 院 大 学 社 会 情 報 学 部 紀 要,5:2, pp ( よりダウンロード 可 能 ) 国 立 国 語 研 究 所 (1955) 談 話 語 の 実 態, 国 立 国 語 研 究 所 研 究 報 告 8 ( よりダウンロード 可 能 ) 国 立 国 語 研 究 所 (2006) 日 本 語 話 し 言 葉 コーパスの 構 築 法, 国 立 国 語 研 究 所 研 究 報 告 124 ( よりダウンロード 可 能 ) 22

32 多 様 な 音 声 表 現 コーパスにおける 句 末 音 調 のクラスタリング 菊 池 英 明 ( 早 稲 田 大 学 人 間 科 学 学 術 院 ) 宮 島 崇 浩 ( 早 稲 田 大 学 人 間 科 学 学 術 院 ) 沈 睿 ( 早 稲 田 大 学 人 間 科 学 学 術 院 ) Clustering of Boundary Tones at the Accentual Phrase Edge in the Expressive Speech Corpus KIKUCHI Hideaki (Faculty of Human Sciences, Waseda University) MIYAJIMA Takahiro (Faculty of Human Sciences, Waseda University) Raymond SHEN (Faculty of Human Sciences, Waseda University) 1.はじめに 表 現 豊 かな 音 声 が 伝 える 様 々な 情 報 について 科 学 的 解 明 や 工 学 的 応 用 の 関 心 が 高 まっ ている(Erickson(2005), Schuller(2009)) 発 話 の 速 さや 大 きさ イントネーション 声 質 な ど 音 声 表 現 を 豊 かにする 音 響 特 徴 は 多 数 あるが その 中 でもアクセント 句 末 の 音 調 が 様 々 な 非 言 語 的 情 報 を 伝 達 することがわかっている Venditti et al.(1998)は アクセント 句 末 に 生 じるピッチの 変 動 を BPM: Boundary Pitch Movement と 表 現 して 日 本 語 東 京 方 言 における 句 末 音 調 (ピッチの 変 動 のない 音 調 は 含 まない)について 生 成 知 覚 の 双 方 の 観 点 で 5 種 類 の 音 調 が 独 立 して 存 在 することを 明 らかにした 日 本 語 話 し 言 葉 コーパス(CSJ: Corpus of Spontaneous Japanese)(CSJ(2011))には X-JToBI のスキーム( 前 川 ら(2001))に 基 づいてラベリングがなされており 付 与 されたラベル 系 列 のパタンからは 日 本 語 (の 主 に 東 京 方 言 )の 話 し 言 葉 においては 主 に 7 種 類 の 句 末 音 調 (ピッチの 変 動 のない 音 調 を 含 む)が 存 在 するといえる( 前 川 (2011)) 岩 田 ら(2012)は 対 話 調 の 演 技 音 声 資 料 の 文 末 音 節 の F0 形 状 をクラスタリングし 言 語 学 分 野 における 分 類 と 対 応 させながら 代 表 的 な 6 種 類 を 選 定 した 筆 者 らは 表 現 豊 かな 音 声 の 特 性 を 調 べることを 目 的 に 声 優 や 俳 優 などに 多 様 な 状 況 設 定 を 与 えて 演 技 音 声 を 収 集 することにより 表 現 豊 かな 音 声 コーパス を 構 築 している( 菊 池 ら(2012b)) このコーパスには 同 一 の 発 話 内 容 に 対 して 多 様 な 表 現 で 発 声 された 音 声 が 多 数 収 録 されているため 話 者 や 内 容 を 統 制 した 条 件 で 句 末 音 調 の 変 動 を 分 析 するのに 適 している 菊 池 ら(2012a)では 句 末 モーラにおける F0 変 動 のパタンを 観 察 して 多 様 な 音 声 表 現 に 伴 う 多 様 なパタンがあらわれていることを 確 認 した 本 稿 では 岩 田 ら(2012)と 同 様 のクラスタリング 手 法 を 用 いて 表 現 豊 かな 音 声 の F0 変 動 のパタンを 自 動 分 類 し 形 状 の 類 似 性 に 基 づいた 分 類 がどのようになるかを 調 べた 結 果 を 報 告 する 2. 表 現 豊 かな 音 声 コーパス 筆 者 らは 声 優 や 俳 優 に 指 示 を 与 えて 多 様 な 音 声 表 現 を 収 集 してコーパス( 通 称 千 の 声 コーパス 以 降 SEN の 略 称 を 用 いる)を 構 築 する 試 みを 2008 年 より 続 けている 指 示 の 具 体 的 な 例 を 表 1 に 示 す 以 下 では こうした 指 示 を 受 けて 1 名 の 40 代 女 性 声 優 が 発 声 し た 発 話 内 容 あーそうですか の 100 発 話 のデータを 用 いる Miyajima et al.(2011)はこ れらのデータについて 怒 り 喜 び 幸 福 などの 基 本 感 情 語 を 指 示 して 演 技 者 に 表 現 を 委 ねる 従 来 的 な 収 集 方 法 によって 得 られたデータとの 比 較 を 行 い 物 理 的 心 理 的 に 多 kikuchi@waseda.jp 23

33 様 性 が 高 いことを 報 告 している SEN の 収 集 方 法 の 詳 細 や 多 様 性 の 検 証 については Miyajima et al. (2011)を 参 照 されたい なお この 100 発 話 には 分 節 単 位 ラベルと X-JToBI ラベルを 付 与 しており 以 降 の 分 析 ではこれらのラベルを 用 いる 表 1 表 現 豊 かな 音 声 表 現 を 得 るための 指 示 の 例 共 通 発 話 時 の 場 所 状 況 大 家 族 を 取 り 扱 った 特 集 において(テレビ 番 組 ) 発 話 者 と 聞 き 手 の 関 係 親 子 聞 き 手 発 話 者 年 齢 / 性 別 職 業 役 柄 人 物 像 年 齢 / 性 別 職 業 役 柄 人 物 像 発 声 時 の 背 景 10 歳 未 満 / 男 小 学 生 典 型 的 なやんちゃな 小 学 生 元 気 があり 待 っている 状 態 30 代 / 女 主 婦 元 ヤンのヤンママと 言 った 感 じ 言 葉 遣 いはキレイではない 子 供 のだらしなさに 対 し 思 わず 声 を 張 って 叱 る 様 子 3. 分 析 方 法 発 話 末 のモーラ カ における F0 変 動 のパタンをクラスタリングする まず F0 につ いてはセミトーンで 話 者 正 規 化 したものを 3 次 の 最 小 二 乗 曲 線 で 近 似 する これを 始 端 終 端 を 含 めた 10 点 でサンプリングし 差 分 値 を 9 次 元 の 特 徴 ベクトルとしてクラスタリン グした クラスタリング 方 法 としては Ward 法 距 離 の 測 度 としてユークリッド 距 離 を 用 い た なお 計 算 には R を 利 用 した 図 1にセミトーンで 話 者 正 規 化 した F0 値 (a)と 近 似 曲 線 (b)と サンプリングした 10 点 (c)を 示 す このように 目 視 で 全 ての 発 話 について 近 似 の 妥 当 性 を 確 認 したところ 大 きく 外 れたものはごく 数 例 だけであった 無 声 化 により F0 値 が 抽 出 できないケースや 極 端 に 短 いために 近 似 ができなかったケースを 除 き 以 下 では 88 発 話 を 分 析 の 対 象 とした 図 2に 全 発 話 の 近 似 曲 線 を 示 す semitones[st] 20 (a)original (b)approximated (c)sampled semitones[st] L% L%H% L%HL% L%LH% L%HLH% L%LHL% L%HLHL% time[sec] samplenumber 図 1 話 者 正 規 化 した F0 値 と 近 似 曲 線 とサンプル( 例 ) 図 2 SEN の 句 末 モーラの F0 近 似 曲 線 24

34 4.クラスタリング 結 果 クラスタリング 結 果 を 図 3に 示 す 観 察 しやすいように 便 宜 上 大 きく 5 クラスタを 認 定 し それぞれにクラスタ 1~5 と 番 号 を 与 える 以 下 ではクラスタごとに 近 似 曲 線 をプロッ トしてそれぞれの 性 質 を 観 察 する 図 4にクラスタごとの 近 似 曲 線 の 分 布 を 示 す 図 4より クラスタリングによって 概 ね F0 の 形 状 が 分 離 できていることがわかる ただ し クラスタ 2 と 3 にはそれぞれ 明 らかに 異 なる 形 状 が 混 在 しており 下 位 分 類 (クラスタ 2A, 2B など)によって 分 離 されている 次 に このクラスタリング 結 果 に 基 づいて 元 の F0 変 動 パタンをクラスタごとに 分 けて 表 示 したものを 図 5に 示 す これを 図 6のように 人 手 によって 付 与 された X-JToBI ラベル に 基 づいて 句 末 境 界 音 調 (BPM: Boundary Pitch Movement) 毎 に 観 察 することにより クラス タリング 結 果 と BPM の 分 類 との 対 応 関 係 を 考 察 した 岩 田 ら(2012)は 上 昇 音 調 として 疑 問 型 上 昇 調 と 強 調 型 上 昇 調 を 分 けて 扱 ったが 形 状 を 見 る 限 り これに 相 当 するのがそれぞれ LH% と H% であると 考 えられる LH% はクラス タ 4 とほぼ 一 対 一 の 関 係 にあり クラスタリングによってほぼ 分 離 できているといえ る H% については 16 発 話 中 13 発 話 がクラスタ 2 の 下 位 分 類 2A,2B,2C に 分 類 されてい る 特 に 下 位 分 類 2A の 6 発 話 は 全 て H% の BPM が 認 定 されており H% と 対 応 したク ラスタといえる HL% はいわゆる 上 昇 下 降 調 に 相 当 するが 図 6を 見 てもわかるとおり ここにはゆるやかな 下 降 が 長 いタイプと 短 いタイプが 存 在 し それぞれがクラスタ 3 とク ラスタ 5 に 分 類 されている BPM の 認 定 そのものにも 検 討 が 必 要 であるが 聴 取 印 象 の 違 いを 調 べたうえで HL% の 下 位 分 類 の 検 討 の 必 要 性 を 示 唆 するものと 考 える なおその 他 の 音 調 ( 図 6の others )については 数 が 少 なく 充 分 な 考 察 ができない 今 後 表 現 豊 かな 音 声 コーパスの 資 料 を 利 用 して 出 現 頻 度 の 少 ない 音 調 についても 調 査 する 必 要 がある 5.まとめ 表 現 豊 かな 音 声 コーパスの 一 部 を 用 いて クラスタリング 手 法 によって 句 末 音 調 の F0 形 状 に 基 づく 自 動 分 類 を 行 った X-JToBI ラベルに 基 づく BPM の 分 類 との 対 応 関 係 を 調 べた ところ LH% と H% などの クラスタと BPM との 対 応 がよくとれる 音 調 と HL% な どの 対 応 がとれていない 音 調 が 存 在 することがわかった 現 在 のところ クラスタリン グの 特 徴 量 として 長 さや 高 さの 情 報 を 用 いていないなど クラスタリングの 精 度 を 向 上 さ せる 余 地 がある また 今 回 は 一 話 者 の 音 声 のみを 対 象 としたが ある 程 度 の 多 様 性 は 確 認 されているものの 表 現 の 種 類 には 話 者 固 有 性 があると 考 えられるため 複 数 話 者 の 音 声 についても 検 討 する 必 要 がある 今 後 は 表 現 豊 かな 音 声 コーパスの 他 のデータを 用 いてさ らに 大 規 模 な 検 討 を 進 めていく 25

35 図 3 クラスタリング 結 果 (リーフの 番 号 は 発 話 番 号 ) 20 cluster1 20 cluster2a cluster2b cluster2c cluster2d semitones[st] semitones[st] samplenumber samplenumber cluster3a cluster3b cluster3c cluster3d cluster3e cluster cluster5a cluster5b cluster5c cluster5d semitones[st] semitones[st] semitones[st] samplenumber samplenumber samplenumber 図 4 クラスタごとの 近 似 曲 線 の 形 状 分 布 ( 上 段 左 からクラスタ 1, 2 下 段 がクラスタ 3,4,5 各 曲 線 左 端 は 発 話 番 号 ) 26

36 文 献 D. Erickson (2005). Expressive speech: Production, Perception and Application to Speech Synthesis, Acoust. Sci. & Tech., vol.4, no.26, pp B. Schuller, S. Steidl, A. Batliner (2009). The INTERSPEECH 2009 Emotion Challenge, Proc. of INTERSPEECH 2009, pp J. Venditti, K. Maeda, and J. P. H. van Santen (1998). Modeling Japanese boundary pitch movements for speech synthesis. Proc. of the 3 rd ESCA Workshop on Speech Synthesis. 前 川 喜 久 雄, 菊 池 英 明, 五 十 嵐 陽 介 (2001). X-JToBI: 自 発 音 声 の 韻 律 ラベリングスキーム, 電 子 情 報 通 信 学 会 技 術 報 告 (NLC , SP ), pp 前 川 喜 久 雄 (2011). コーパスを 利 用 した 自 発 音 声 の 研 究, 東 京 工 業 大 学 大 学 院 博 士 論 文. CSJ(2011). 日 本 語 話 し 言 葉 コーパス, 国 立 国 語 研 究 所, T. Miyajima, H. Kikuchi, K. Shirai (2011). "Collection and analysis of emotional speech focused on the psychological and acoustical diversity", Proc. of ICPhS2011, pp 菊 池 英 明, 宮 島 崇 浩 (2012a), 日 本 語 話 し 言 葉 コーパスにおける 句 末 音 調 のバリエーション, 第 2 回 コーパス 日 本 語 学 ワークショップ, pp 菊 池 英 明, 宮 島 崇 浩, 前 川 喜 久 雄 (2012b), 表 現 豊 かな 音 声 の 収 集 における 多 様 性 の 追 求, 日 本 音 響 学 会 秋 季 研 究 発 表 会 講 演 論 文 集, Vol , pp 岩 田 和 彦, 小 林 哲 則 (2012), 終 助 詞 とその 音 調 とによって 聞 き 手 に 伝 わる 発 話 意 図 の 分 析, 電 子 情 報 通 信 学 会 技 術 報 告, SP , pp cluster1 cluster2 cluster3 cluster4 cluster5 10 semitones[st] time[sec] 図 5 SEN の 句 末 モーラの F0 変 動 27

37 20 cluster1 cluster2 cluster3 cluster4 cluster cluster1 cluster2 cluster3 cluster4 cluster5 10 L% HL% semitones[st] 0 semitones[st] time[sec] time[sec] H% LH% others 20 cluster1 20 cluster1 20 cluster1 cluster2 cluster3 cluster4 cluster5 cluster2 cluster3 cluster4 cluster5 cluster2 cluster3 cluster4 cluster semitones[st] 0 semitones[st] 0 semitones[st] time[sec] time[sec] time[sec] 図 6 人 手 で 分 類 した BPM とクラスタリング 結 果 との 対 応 28

38

39 X を Y にして における 形 式 動 詞 して の 脱 落 について 張 麗 ( 大 東 文 化 大 学 ) The Omission of the Formal Verb "shite" in "X wo Y ni (shite)" Patterns ZhangLi(Daito Bunka University) 1.はじめに 文 の 成 立 には 主 要 な 部 分 と 付 加 的 な 部 分 がある 益 岡 田 窪 (1992)は 付 帯 状 況 様 態 を 表 す 副 詞 節 について 次 のように 述 べている 付 帯 状 況 を 表 す 副 詞 節 は ある 動 作 に 付 随 する 状 態 や ある 動 作 と 同 時 並 行 的 に 行 われている 付 随 的 動 作 を 表 す 様 態 の 副 詞 節 は あ る 動 作 の 特 定 のやり 方 を 表 す 付 帯 状 況 を 表 す 表 現 には 動 詞 タ 形 + まま(で) 動 詞 タ 形 + きり 動 詞 テ 形 動 詞 連 用 形 + ながら 動 詞 連 用 形 + つつ 等 が ある 付 帯 状 況 を 表 す 他 の 表 現 として ヲ 格 + に の 形 式 がある ( 地 図 を 手 に 目 的 地 を 探 した ) 村 木 (1983)では (1) 超 大 国 のつばぜり 合 がチャドとスーダンを 舞 台 に 激 化 している (2) ソ 連 のアフガニスタン 侵 攻 をきっかけに 米 国 内 で 防 衛 力 増 強 の 要 望 が 高 まった のような 言 いまわしは (1 ) チャドとスーダンを 舞 台 にして (2 ) アフガニスタン 侵 攻 をきっかけにして のように して を 補 える (1)(2)のような 言 いまわしは 形 式 的 な 動 詞 する の 連 用 の 形 式 して が 脱 落 して 成 立 したものであろうと 述 べている では どのような X を Y にして の して が 脱 落 し X を Y に の 形 になれるのか どのような X を Y にして の 形 式 動 詞 して が 脱 落 できなくて X を Y に に 変 更 できないのか X を Y に の 意 味 分 布 はどうなっているのか X を Y にして と X を Y に はどちらがよく 使 われる のかという 問 題 は 管 見 のかぎりまだ 明 らかにされていない 2. X を Y に の 先 行 研 究 2.1 村 木 新 次 郎 (1983)(1991) 村 木 (1983)(1991)は 以 下 のように 要 約 している 1 N1 を N2 に のような 言 い 回 しは 発 生 的 には おそらく 形 式 的 な 動 詞 する の 連 用 の 形 式 して が 省 略 されて 成 立 したものであろう N1 を N2 にして と N1 29

40 を N2 に のように して がついても つかなくてもいい 表 現 がある して のつ かないもののほうが して のついたものよりも 多 い して の 有 無 によって 一 般 に 意 味 の 差 は 生 じないようである 動 詞 が して ではなくて 慣 用 句 を 構 成 する 動 詞 部 分 が 省 略 されて 同 じタイプの 表 現 を 作 ることがある 2 <N1 ヲ>と<N2 ニ>が 各 々 独 立 して( 主 ) 文 の 成 分 になることができない また 二 つ の 名 詞 句 の 順 序 を 入 れかえることもできない 3 <N1 を N2 に>の<N2>は 一 般 に 連 体 修 飾 をうけることがない 4 <N1 を N2>( 動 詞 省 略 )の 構 造 をもつ 表 現 では 副 助 辞 -wa によって 名 詞 句 を 主 題 化 することができない 5 <N1 を N2>はその 知 的 意 味 を 変 えないで デ カラ ニ トなどの 格 助 辞 や(ニ)オ イテ (ニ)ヨッテ (ニ) 対 シテなどの 後 置 詞 に 置 き 換 えられることがある 6 N1 と N2 が 結 合 して 複 合 語 をつくることがある ( 子 供 相 手 に ) 7 <N1 を N2>はひとまとまりとなって 構 文 上 の 機 能 をはたす 状 況 的 な 成 分 付 帯 的 な 状 況 補 語 成 分 に 分 類 している 村 木 (1983)(1991)は 相 当 な 量 の 例 を 踏 まえた 上 で 細 かく 分 類 し 今 後 の 研 究 に 非 常 に 参 考 になるが どういう 条 件 を 満 たして X を Y に という 構 文 を 作 るのかという 点 は 明 らかにされていない 2.2 寺 村 秀 夫 (1983)(1993) 寺 村 (1983)(1993)は X ヲ Y ニ S という 構 文 の 成 立 の 条 件 は 少 なくとも 以 下 のよ うなものであろうと 考 える 1 名 詞 X Y と S(あるいはそれを 構 成 する 主 格 語 と 述 語 )の 間 に X が S の Y だ とい う 意 味 関 係 が 存 在 することである 2 Y は 本 来 的 に 何 かの Y であるような 性 格 をもった 名 詞 でなければならない 3 S が 通 常 その 述 語 の 主 格 に 立 つ 名 詞 の 表 すものの 意 図 した 成 り 行 き 意 図 的 な 行 為 を 表 す 文 であるということ 以 上 の 三 つの 条 件 以 外 に 更 に 表 現 意 図 が 必 要 であると 述 べている 寺 村 はどういう 条 件 が 満 たされれば この 種 の 構 文 が 成 立 するかという 構 文 条 件 を 考 察 した その 構 文 条 件 は 村 木 による 分 類 の 例 にほとんど 通 用 するが 所 持 と 分 類 された Y が 身 体 部 分 を 表 す 場 合 は 通 用 できない 更 に その 構 文 条 件 を 満 たされても 必 ず X を Y に という 構 文 が 成 立 できるとは 限 らない 例 : あんな 女 を 女 房 にして という 例 は あ んな 女 を 女 房 に という 構 文 は 成 立 できないだろう 寺 村 は X ヲ Y ニ S という 構 文 の 成 立 条 件 は 少 なくとも 前 文 で 述 べた 三 つの 条 件 であると 述 べているが その 三 つの 条 件 は X を Y にして S の 構 文 条 件 であり X を Y に S の 構 文 条 件 ではないだろうと 考 える どのような X を Y にして の 形 式 動 詞 して が 脱 落 して X を Y に に 変 更 で きるかはまだ 明 らかにされていない 30

41 2.3 奥 田 靖 雄 (1983) 奥 田 (1983) を 格 の 名 詞 と 動 詞 とのくみあわせ では 軍 人 にする 亭 主 にする よめにする 人 質 にする 犠 牲 にする のような 単 語 のくみあわせも 人 をしめす を 格 の 名 詞 とくみあわさって 社 会 的 な 状 態 変 化 をあらわす 連 語 を 作 っていると 述 べてい る また 奥 田 (1983) ニ 格 の 名 詞 と 動 詞 とのくみあわせ において 結 果 規 定 のむすび つきをつくる 動 詞 のうちで 一 番 よくつかわれるのは なる と する とであると 述 べて いる ( 例 :すなわち おおすぎる 黒 髪 をロングカットにしている ) X を Y にする 表 現 の 例 文 は 少 し 見 えたが 詳 しくは 述 べられていない 2.4 金 子 比 呂 子 (1990) 金 子 (1990)は 東 京 外 国 語 大 学 付 属 日 本 語 学 校 の 中 級 日 本 語 に 出 ている ~を 相 手 に にして ~を 条 件 に にして ~を 理 由 に にして ~を 手 がかりに にして ~ を 中 心 に して ~を 前 に にして ~を 後 に にして ~を 片 手 に という 8 つの N1 を N2 にして を 考 察 してきた 考 察 の 指 標 は 次 のようである N1 を N2 に(して) の する は 文 末 にきて 述 語 としての 機 能 を 果 たすか 活 用 するか 意 志 があるか N1 を N2 にして の して は 他 のどんな 動 詞 に 置 き 換 えられるか N1 を N2 に と N1 を N2 にして どちらも 生 起 する 場 合 両 者 の 間 にどんな 意 味 の 違 いがあるか N1 を N2 に の に または N1 を N2 にして の にして は として に 置 き 換 えられるか などである 金 子 は 教 科 書 に 出 ている 例 は 細 かく 分 析 しているが N1 を N2 にして の し て の 脱 落 条 件 には 触 れていない 2.5 田 中 寛 (2010) 田 中 (2010)は<X を Y に> 形 式 の 中 で 特 に<きっかけ>を 表 す Y の 名 詞 の 意 味 範 疇 に 注 目 し 下 位 分 類 の 可 能 性 を 考 察 している それによれば Y にはピーク 潮 教 訓 皮 切 り 振 り 出 し 最 後 などが 含 まれる <X を Y に> 形 式 の 様 々な 派 生 形 特 に 連 体 修 飾 形 に ついての 指 摘 は して 脱 落 現 象 の 考 察 に 一 つの 道 筋 を 与 えていると 言 えるが ここでも して の 脱 落 許 容 条 件 については 詳 しく 言 及 されていない 本 論 文 は 主 に 四 つの 問 題 を 解 決 しようと 思 う (1)どのような X を Y にして の 形 式 動 詞 して が 脱 落 できなくて X を Y に に 変 更 できないのか (2)どのような X を Y にして の 形 式 動 詞 して が 脱 落 し X を Y に に 変 更 でき るのか (3) X を Y に の 意 味 分 布 はどうなっているのか (4) X を Y にして と X を Y に はどちらがよく 使 われるのか 本 論 では 村 木 氏 の N1 N2 をそれぞれ X Y としている Y は 形 式 名 詞 の 場 合 は 今 回 31

42 の 調 査 では 考 察 対 象 として 扱 っていない 3. 調 査 方 法 3.1 調 査 方 法 1 本 論 文 は 主 に 現 代 日 本 語 書 き 言 葉 均 衡 コーパス 1 の 少 納 言 を 利 用 し 調 査 した まず にして で 検 索 し ランダムに 500 件 の 例 文 が 出 てきた その 500 件 の にして がついた 例 文 の 中 から X を Y にして(いる/おる/いた/くれる )の 例 文 を 抽 出 した 更 に 得 た 例 文 から ~を Y に で 再 検 索 した たとえば にして で 検 索 して あん な 女 を 女 房 にして という 用 例 を 得 た 場 合 ~を 女 房 に というキーワードで 再 検 索 し ~を 女 房 に という 用 例 が 出 てくるかどうかによって ~を 女 房 に という 表 現 を 使 え るかどうかは 判 断 できる X を Y にして は 述 語 としての 表 現 を 考 察 対 象 外 としている コーパスでの 検 索 で X を Y に という 形 がない 場 合 念 のために Yahoo というエンジ ンで 再 検 索 した そうすると 用 例 が 大 体 2 種 類 に 分 けられる <a> X を Y にして という 形 しかなく つまり X を Y にして の して が 脱 落 で きない 用 例 <b> X を Y にして と X を Y に 両 方 の 形 が 全 部 そろっている 用 例 つまり X を Y にして の して が 脱 落 できる 用 例 ( 用 例 は 2012 年 11 月 2 日 に 検 索 100 例 を 超 えた 場 合 100 例 に 限 定 している 3.2 調 査 方 法 2 調 査 1 で X を Y にして と X を Y に 両 方 の 形 がそろっている 場 合 X を Y にし て と X を Y に のそれぞれの 使 用 数 量 と 使 用 率 を 調 べる 4. <a> X を Y にして の 形 があるが X を Y に の 形 がない 用 例 についての 分 類 <a>の 用 例 を 分 析 すれば どのような X を Y にして の して が 脱 落 できないのか 明 らかにすることができると 考 える 4.1 変 える 変 わる 意 味 を 表 す 物 の 数 量 程 度 形 色 様 子 状 態 を 変 える 種 類 1 数 量 価 格 時 間 などを 変 える (1) 相 手 国 の 輸 入 規 制 を 免 れるため 外 国 業 者 と 共 謀 し, 輸 出 貨 物 の 価 格 等 を 虚 偽 に 低 価 に 1 このサイトでは 大 学 共 同 利 用 機 関 法 人 人 間 文 化 研 究 機 構 国 立 国 語 研 究 所 と 文 部 科 学 省 科 学 研 究 費 特 定 領 域 研 究 日 本 語 コーパス プロジェクトが 共 同 で 開 発 した 現 代 日 本 語 書 き 言 葉 均 衡 コーパス (BCCWJ:Balanced Corpus of Contemporary Written Japanese)のデ ータを 検 索 できる BCCWJ には 現 代 の 日 本 語 の 書 き 言 葉 の 全 体 像 を 把 握 できるように 集 められたサンプルが 約 1 億 語 収 録 されている 32

43 して 輸 出 手 続 を 行 ったり, 国 内 における 業 界 内 の 取 決 めを 逸 脱 するために 虚 偽 の 輸 出 手 続 を 行 う ( 警 察 白 書 (1979) 昭 和 54 年 版 警 察 庁 大 蔵 省 印 刷 局 ) (2) 用 途 利 用 米 についても 平 成 元 年 度 においてはその 生 産 規 模 を 五 十 万 トン 程 度 という ふうにして いろいろな 面 で 消 費 拡 大 に 努 めているところでございます ( 説 明 員 ( 高 木 勇 樹 君 ) 国 会 会 議 録 / 参 議 院 / 常 任 委 員 会 第 114 回 国 会 1989) (3) 立 阻 止 権 (59 条 )を 弱 める 意 味 で 衆 議 院 での 再 議 決 成 立 の 要 件 を 3 分 の 2 から 過 半 数 にして 衆 議 院 の 再 議 決 がしやすくなるような 改 正 が 念 頭 におかれているのは 想 像 がつく ( 白 崎 勇 人 (2003) 秘 書 が 書 く 国 会 議 員 改 革 国 会 議 員 を 科 学 する 常 識 うんちく 論 争 学 長 崎 出 版 ) 種 類 2 程 度 を 変 える (4)そこへサバを 入 れて 少 し 強 火 のまま 煮 てから 火 を 中 火 くらいにして 煮 て 行 きます サ バには 切 れ 目 を 入 れてください (Yahoo! 知 恵 袋 / 暮 らしと 生 活 ガイド/ 料 理 グルメ レシピ 2005) (5) 岸 や 内 田 には 抵 抗 するようにいったが 改 造 を 小 直 し 程 度 にして 岸 も 国 務 大 臣 に 残 すとすれば もう 手 がない ( 吉 松 安 弘 (1989) 東 条 英 機 暗 殺 の 夏 新 潮 社 ) (6) 北 朝 鮮 は 意 図 的 に 資 料 を 隠 していて 日 本 側 が 弱 腰 だから 出 さない 情 報 を 小 出 しに して さらに 日 本 から 譲 歩 を 引 き 出 そうとしている ( 長 谷 川 慶 太 郎 (2004) 次 の 世 界 が 見 えた 徳 間 書 店 ) 種 類 3 形 を 変 える ものの 形 を 変 えたり 自 分 の 体 のある 部 分 の 形 を 変 えたりする (7) 以 上 をそれぞれ 粉 末 にして 三 年 酒 三 升 に 浸 し ( 永 山 久 夫 (1998) たべもの 日 本 史 イラスト 版 河 出 書 房 新 社 ) (8) 伊 勢 丹 新 宿 店 LULUGUINNESS 大 輪 の 深 紅 のバラを 華 麗 な 花 束 にして 入 れた ようなソワレバッグ ( 実 著 者 不 明 BISES 2004 年 6 月 夏 号 第 6 巻 第 3 号 通 巻 30 号 ) 種 類 4 色 を 変 えたり 色 が 変 わったりする (9) 社 長 は 目 を 伏 せ 顔 を 真 っ 赤 にして 恥 ずかしそうに しかし 嬉 しそうに 笑 った ( 大 原 健 士 郎 (1993) 人 はみな 心 病 んで 生 きる 精 神 科 医 の 生 き 方 カルテ 講 談 社 ) (10)そのときには ツェルト( 簡 易 テント)の 中 で 唇 を 紫 色 にして わななくアキを すっ 裸 にして 乾 いたタオルでこすってやり 抱 き 合 って ( 太 田 蘭 三 (1994) 被 害 者 の 刻 印 講 談 社 ) 種 類 5 物 事 の 様 子 を 変 える (11)だが 筆 者 の 独 断 では 原 型 はゴッホでも 全 面 を 塗 り 絵 にして 一 本 のゴッホ 原 線 す 33

44 ら 感 ぜられず 恐 らく 適 正 な 補 修 は 不 可 能 な 作 品 と 思 う 故 ( 大 川 栄 二 (2004) 新 美 術 館 の 窓 から 財 界 研 究 所 ) 種 類 6 ものをある 状 態 にさせたり 所 持 の 状 態 や 相 手 の 状 態 存 在 の 状 態 を 変 えたりする (ものをある 状 態 にさせる) (12)[ファイル 検 索 ]タブを 開 く2[UPフォルダ 内 ]ボタンをオン( 押 された 状 態 )に して UPフォルダ 内 のファイルが 検 索 されるようにする ( 実 著 者 不 明 Winny トラブル 解 決 最 終 解 答 アスキー 2004) (13) 皆 さんはどのようにして 寝 てますか? 扇 風 機 を 一 晩 中 つけて 寝 るのとクーラーをタ イマーにして 明 け 方 またつけて 寝 るのとどっちが 経 済 的 なんでしょう? (Yahoo! 知 恵 袋 / 暮 らしと 生 活 ガイド/ 家 事 住 宅 Yahoo! 2005) (14)2の 混 合 ガスを1 10 1Pa 程 度 まで 導 入 したのち, 被 処 理 品 を 陰 極 に, 容 器 を 陽 極 にして 約 600Vの 直 流 電 圧 をかけ,グロー 放 電 を 行 わせる ( 渡 辺 敏 (2004) 熱 処 理 技 術 入 門 金 属 熱 処 理 技 能 士 受 検 テキスト 日 本 熱 処 理 技 術 協 会 日 本 金 属 熱 処 理 工 業 会 編 著 三 澤 三 郎 編 大 河 出 版 ) (15) 根 元 からしっかりと 上 下 まつ 毛 につけます 下 まつ 毛 はブラシを 縦 にして 長 さをプ ラスしていきます ( 実 著 者 不 明 JJ 2001 年 9 月 号 ( 第 27 巻 第 9 号 ) 光 文 社 2001) ( 所 持 の 状 態 ) (16)タケルはナイロンバッグを 肩 から 斜 め 掛 けにして 足 を 早 めた 引 き 返 すより さ っさと 通 り 抜 ける 方 を 選 んだ ( 松 田 美 智 子 (2002) 秘 密 の 地 下 室 光 文 社 ) ( 相 手 の 状 態 を 変 える) (17)そして ぼくは 腰 かけにすわり 膝 の 上 にコドモを 横 抱 きにして まんべんなく ぼくの 皮 膚 にムスメの 皮 膚 がくっつくように 揺 すりうごかす ( 西 成 彦 (1992) パパはごきげんななめ 集 英 社 ) ある 基 準 によって 分 類 整 理 する (18) 猶 予 人 員 を5 歳 刻 みの 年 齢 層 に 分 けて 見 たものがⅣ 8 表 であり,さらにこれらを 構 成 比 にして 見 たものがⅣ 16 図 であって,1 年 齢 層 別 に 見 た 起 訴 猶 予 率 は 両 年 ともほとんど 変 わらない ( 犯 罪 白 書 平 成 3 年 版 法 務 省 法 務 総 合 研 究 所 大 蔵 省 印 刷 局 1991) 抽 象 的 なことに 変 える (19) 市 民 を 互 いに 遠 ざけておき その 相 互 のコミュニケーションを 困 難 なものにし 彼 らが 危 険 なしには 集 まれなくすることである (ツヴェタン トドロフ( 著 )/ 小 野 潮 ( 訳 ) (2003) バンジャマン コンスタン 民 主 主 義 への 情 熱 法 政 大 学 出 版 局 ) 34

45 4.1.4 親 族 名 詞 職 業 活 動 を 表 す 名 詞 につけて 社 会 的 な 意 味 を 付 与 する 種 類 1 親 族 名 詞 (20) 目 つきがこう 色 っぽくて 寒 気 がするほどだ あんな 女 を 女 房 にして 高 級 車 を 乗 り 回 して 政 治 家 どもを 足 元 に 這 いつくばらせるのが 俺 の 夢 さ ( 鶴 田 楡 (2004) ダンス ウィズ キャット 下 新 風 舎 ) 種 類 2 職 業 (21) 本 邦 初 の 腑 分 けをおこなったおなじく 古 方 派 山 脇 東 洋 の 流 れの 山 脇 某 不 遇 時 代 に 按 摩 を 生 業 にして 身 を 起 こした 賀 川 流 産 科 の 祖 賀 川 玄 悦 の 流 れの 賀 川 某 など ( 佐 藤 雅 美 (2003) 啓 順 地 獄 旅 講 談 社 ) 種 類 3 活 動 (22)できれば 柿 渋 を 塗 るメインテナンスを 家 族 の 年 中 行 事 にして 楽 しむのも 雑 草 に 悩 まされずに 雨 水 を 土 に 返 すこともできる ( 三 澤 文 子 ( 著 )/ 実 著 者 不 明 ミセス 2001 年 8 月 号 ( 通 巻 第 558 号 ) 文 化 出 版 局 ) 以 上 から X を Y にする という 文 型 は 変 える 変 わる 意 味 を 表 す 場 合 形 式 動 詞 し て の 脱 落 は 制 限 されている 傾 向 が 見 えた 4.2 慣 用 句 慣 用 句 1 気 にする (23) 声 が 炸 裂 するので 慣 れていると 言 えば 慣 れているが 外 に 出 ると 人 目 がある 人 目 を 気 にして 控 えめに 叱 ってくれるのならまだいいのだが 母 は 違 っていた ( 小 山 田 歩 美 (2005) ひまわり 日 本 文 学 館 ) 慣 用 句 2 あとにする (24) 雪 印 食 品 の 偽 装 工 作 を 知 ったのは 乞 われてやってきた 西 播 磨 をあとにして 西 宮 に 戻 り 間 もないころだった ( 今 西 憲 之 (2003) 内 部 告 発 権 力 者 に 弓 を 引 いた 三 人 の 男 たち 鹿 砦 社 ) 慣 用 句 3 ~を 異 にする (25)こうしてモザイクの 美 は 過 去 の 文 化 財 になったように 見 える だが 素 材 と 手 法 を 異 にして モザイク 画 の 精 神 は コンスタンティノポリスを 介 し ( 樺 山 紘 一 (1992) 世 界 史 への 扉 朝 日 新 聞 社 ) 5. 会 話 見 出 し レシピに 見 られた 形 式 動 詞 して の 脱 落 前 述 したように X を Y にする という 文 型 は 変 える 変 わる 意 味 を 表 す 場 合 及 び 慣 用 句 の 場 合 して が 脱 落 しにくい 傾 向 があるが すべての 変 える 変 わる 意 味 を 表 す し て とすべての X を Y にする という 形 の 慣 用 句 の して が 脱 落 しにくいとは 限 らな い 会 話 や 見 出 しやレシピなどのような 省 略 が 要 求 される 場 合 して の 脱 落 も 見 られた 5.1 X を Y にする という 文 型 は 変 える 変 わる 意 味 を 表 す 場 合 見 られた して の 脱 落 35

46 5.1.1 会 話 に 見 られた して の 脱 落 (26a) 約 四 十 人 が 収 穫 したレタスをみそ 汁 やサラダにして きれいに 管 理 された 開 放 感 のある 庭 園 で 昼 食 を 楽 しんだ 翁 長 雄 志 市 長 も 参 加 した ( 琉 球 新 報 社 朝 刊 2004/4/13 琉 球 新 報 社 ) (26b)( 会 話 )コーンも 入 れれば 彩 がキレイだったな ( 苦 笑 ) 最 初 は 発 芽 玄 米 をサラ ダに?! って 感 じでしたが 試 してみたらこれ かなり 美 味 しかったです (Yahoo!ブログ/Yahoo!サービス/Yahoo!ブログ Yahoo! 2008) 見 出 しで 見 られた して の 脱 落 (27a) 今 日 本 に 入 っている 鰻 の 大 半 が 中 国 産 です 中 国 で 養 殖 した 鰻 を 蒲 焼 きにし て 日 本 に 輸 出 するんですが 鰻 を 裂 く 技 術 が 中 国 にはない ( 深 田 祐 介 (1993) 新 新 東 洋 事 情 文 芸 春 秋 ) (27b)( 見 出 し) 浜 中 の 日 帰 りさんま を 蒲 焼 きに 札 幌 パイオニアジャパン 年 9 月 9 日 に 閲 覧 ) レシピに 見 られた して の 脱 落 (28a)ハムをみじん 切 りにしてにんにく 入 れたオリーブオイルで 炒 め (Yahoo!ブログ/ 生 活 と 文 化 /グルメ ドリンク 2008) (28b)(レシピ)にんにく ショウガ( 市 販 のチューブ 入 りでOK) 一 片 ねぎ2 3 本 を みじん 切 りに (Yahoo! 知 恵 袋 / 暮 らしと 生 活 ガイド/ 料 理 グルメ レシピ Yahoo! 2005) 5.2 慣 用 句 に 見 られた して の 脱 落 慣 用 句 心 を 一 つにする (29a)あるホノルル 行 きの 一 機 の 飛 行 機 のアクシデントにかかわり 皆 が 心 を 一 つにして 無 事 なフライトができるように 努 力 する 物 語 でした (Yahoo!ブログ/エンターテインメント/ 映 画 Yahoo!ブログ 2008) (29b)( 文 中 ) 十 本 の 指 に 満 たなくても 皆 が 心 を 一 つに 一 生 懸 命 修 行 に 専 念 すれば それ はそのまま 道 場 が 盛 んであるといっていいのだと ( 酒 井 大 岳 (1930) 人 生 を 拓 く 正 法 眼 蔵 随 聞 記 入 門 講 談 社 1994) (29c)( 見 出 し) 心 をひとつに! 山 元 町 ふれあい 産 業 祭 を 開 催 します ( 2012 年 9 月 11 日 に 閲 覧 ) 6.b X を Y にして と X を Y に 両 方 の 形 がそろっている 用 例 今 回 の 調 査 で X を Y にして と X を Y に 両 方 の 形 がそろっている 用 例 が 96 例 ある 36

47 6.1 X を Y に の 統 語 上 の 使 用 数 量 の 分 布 その 96 例 を 村 木 (1991)の 分 類 にしたがい 以 下 の 表 にまとめる 分 類 時 間 空 間 限 界 基 準 理 由 目 的 資 格 所 持 排 除 手 段 相 手 内 容 数 量 統 語 論 上 の 役 割 から 見 ると 96 例 の 例 文 は 次 のようにまとめる 統 語 論 上 の 役 割 状 況 成 分 付 帯 状 況 補 語 成 分 数 量 以 上 の 表 から 状 況 成 分 に 用 いる X を Y に が 一 番 多 く 全 体 の 66.7%を 占 めている ことが 明 らかになった その 中 で 特 に 基 準 を 表 す 用 法 が 一 番 目 立 っている つまり X を Y に の 各 用 法 の 中 で 一 番 よく 使 われるのが 基 準 を 表 す 用 法 で(30 例 ) 全 体 の 三 分 の 一 を 占 めている 次 は 空 間 を 表 す 用 法 で(14 例 ) 全 体 の 14.5%を 占 めている 6.2 X を Y にして と X を Y に のそれぞれの 使 用 数 量 と 使 用 率 調 査 方 法 1 で X を Y にして と X を Y に 両 方 の 形 がそろっている 場 合 X を Y にして と X を Y に のそれぞれの 使 用 数 量 と 使 用 率 を 調 べる 次 のようにまとめてい る 1 X を Y に の 形 があるが X を Y にして の 形 がない 例 ~を 活 動 拠 点 に ~を 限 度 に ~を 理 想 に ~を 楽 しみに ~をねらいに ~を 心 待 ち に ~を 小 脇 に 以 上 挙 げた 表 現 は X を Y にして の して が 脱 落 してから X を Y に の 形 だけ 使 われるようになり X を Y にして の 形 がまったく 使 われなくなったと 思 われる 2 X を Y に の 使 用 率 が 50%を 超 えた 例 ~をきっかけに(94%) ~を 条 件 に(92.0%)~を 契 機 に(91%) ~を 中 心 に(87.0%) ~を 理 由 に(87%) ~を 目 的 に(82.0%) ~を 基 に(76.0%)~を 根 拠 に(74.0%) ~ を 対 象 に(73%) ~を 境 に(73.0%) ~を 相 手 に(69%) ~を 目 標 に(65.0%) ~を 舞 台 に(55.0%) 以 上 から 全 体 から 見 れば X を Y に の 使 用 率 が 高 く X を Y にして の 使 用 率 が 低 いことがパーセンテージからはっきりわかった 7.まとめと 今 後 の 課 題 本 論 は X を Y にして の 形 式 動 詞 して の 脱 落 について 考 察 した 結 論 としては (1) X を Y にする という 文 型 は 変 える 変 わる 意 味 を 表 す 場 合 及 び 慣 用 句 の 場 合 し 37

48 て が 脱 落 しにくい 傾 向 があり X を Y にして の して が 脱 落 できなくて X を Y に 変 更 できない しかし 会 話 や 見 出 しなどのような 省 略 が 必 要 な 場 合 一 部 分 の X を Y にして の して が 脱 落 できることが 分 かった (2) X を Y にする という 文 型 は 変 える 変 わるという 意 味 を 表 さない 時 X を Y にし て の して が 脱 落 でき X を Y に に 変 更 できると 考 える (3) X を Y に の 一 番 よく 使 われるのが 基 準 を 表 す 用 法 で 次 は 空 間 を 表 す 用 法 である (4) X を Y にして と X を Y に 両 方 の 形 がそろっている 用 例 は X を Y に の 使 用 率 が 高 いことが 明 らかになった ~をきっかけにした N ~をよそにした N のような 連 体 修 飾 表 現 は 今 回 の 調 査 では 触 れていない また X を Y にする と X を Y とする との 区 別 は 更 に 検 討 する 余 地 が ある 田 中 (2004)は 7 時 にセットするバスのところを 9 時 にセットする(ことにする) のような 表 現 は<X ヲ Y 二 >という 附 帯 状 況 を 表 すフレーズの 一 部 と 考 えることができる と 述 べている それらについての 考 察 は 今 後 の 課 題 としたい 参 考 文 献 : 奥 田 靖 雄 (1983) を 格 の 名 詞 と 動 詞 とのくみあわせ を 格 の 形 をとる 名 詞 と 動 詞 とのく みあわせ に 格 の 名 詞 と 動 詞 とのくみあわせ 言 語 学 研 究 会 ( 編 )(1983) 日 本 語 文 法 連 語 論 ( 資 料 編 ) pp むぎ 書 房 金 子 比 呂 子 (1990) して からみた N1 を N2 にして の 位 置 付 け 方 日 本 語 学 校 論 集 pp17-39 東 京 外 国 語 大 学 外 国 語 学 部 附 属 日 本 語 学 校 田 中 寛 (2004) 日 本 語 複 文 表 現 の 研 究 : 接 続 と 叙 述 の 構 造 東 京 白 帝 社 田 中 寛 (2010) 複 合 辞 からみた 日 本 語 文 法 の 研 究 ひつじ 書 房 寺 村 秀 夫 (1983) 付 帯 状 況 表 現 の 成 立 の 条 件 X ヲ Y ニ スル という 文 型 をめ ぐって 日 本 語 学 2 巻 10 号 明 治 書 院 のちに 寺 村 秀 夫 (1993) 寺 村 秀 夫 論 文 集 Ⅰ 日 本 語 文 法 編 集 くろしお 出 版 pp 益 岡 隆 志 田 窪 行 則 (1992) 基 礎 日 本 語 文 法 くろしお 出 版 村 木 新 次 郎 (1983) 地 図 をたよりに 人 をたずねる という 言 い 方 副 用 語 の 研 究 渡 辺 実 編 明 治 書 院 pp 村 木 新 次 郎 (1985) 慣 用 句 機 能 動 詞 結 合 自 由 な 語 結 合 日 本 語 学 4 巻 1 月 号 明 治 書 院 pp15-27 のちに 村 木 新 次 郎 (1991) 日 本 語 動 詞 の 諸 相 に 改 稿 収 録 村 木 新 次 郎 (1991) 日 本 語 動 詞 の 諸 相 ひつじ 書 房 森 田 良 行 (1985) 動 詞 慣 用 句 日 本 語 学 4 巻 1 月 号 明 治 書 院 pp

49 V V V *1 () Japanese Compounds V-naosu, V-kaesu, and V-kaesu Kiyama Naoki (Graduate School of the University of Osaka) 1. (1) V V V 3 (1) a. b. c. 3 (BCCWJ) *2 (1) (1992) V (1992) V (ii) (iii) 2 1 (iii) (2a) (2b) (2) a.... b. *1 kiyama.naoki@gmail.com *2 39

50 1 V (1992: 183) (i) () (ii) a. () b. c. () d. (iii) () (iv) () 2 1(ii) (ibid: 188) (ii)a (ii)c (ii)d A C B (e.g. ) A, C, B A B A B A C (B ) (e.g. () ) A, C, (B) A B A B A C (e.g. ) A, C A A (BCCWJ *3 ) (2a) (2b) V (2009) V V (3a)-(5a) 3 (LCS) LCS (b) (3) a. [x [CONTROL [AGAIN [LCS 1 ]]]] *3 40

51 b. (4) a. [x CAUSE [y BECOME [y BECOME [y BE [AT-RIGHT]]] BY [x CONTROLE [AGAIN [LCS 1 ]]]]] b. (5) a. [x CAUSE [y BECOME [y BE [AT-z]]] BY [x CONTROL [AGAIN [LCS 1 ]]]] b. ( 2009, 2011) 3 (6) (7) (3b) (5) (3) (3) 2.3. (1999) V V V V 1 (8) (8) : X X 41

52 4 (ibid: ) : i. ii. () () iii. iv. 1 V : V : V X (9) a. b. c. 42

53 d. e. f. g. (10) a. b. c.... d. Unix Windows... e. CD-R CD-R (11) a. SP2 b. c. d. e. f. g. h. (BCCWJ) 43

54 3.2. V *4 V V (12) a. [/% ]... b. [/% ] (13) a. [% /] b. [% /]... (BCCWJ) 2 V (14) : : V 5 (15) (16) (15) a. [] b. [ ] *4 V 1 / 44

55 5 c. [] (16) a. b. c. (BCCWJ) 3.3. V V (17) a. b c.... (18) a. b. c. (BCCWJ) V V 3.4. (2007: 35) V V 45

56 3 V V 1 2 V 1 6 V 1 V Akita (2012) V : V :V V 46

57 4 V 1 V 1 V : 2 4. V V V 3 V 1 V 2 (2007) Akita (2012) Register-specific morphophonological constructions in Japanese. The 38th Annual Meeting of the Berkeley Linguistics Society. University of California. Berkeley 47

58 5 (2007). (2011) V pp (2009) V V+ V pp (1999). (1977). (2005). 48

59 私 的 な- 名 詞 個 人 的 な- 名 詞 の 使 い 分 け 渡 邊 ゆかり( 広 島 女 学 院 大 学 ) Semantic Differences of Shitekina - Noun and Kojintekina - Noun Yukari Watanabe (Hiroshima Jogakuin University) 1.はじめに ナ 形 容 詞 の 連 体 形 として 使 用 される 個 人 的 な 私 的 な は 次 の(1)のようにほぼ 同 じ 意 味 で 使 用 することが 可 能 な 場 合 と,(2)( 3)のようにいずれか 一 方 が 不 自 然 な 場 合 が 存 在 する (1)a. 個 人 的 な 見 解 を 述 べさせていただくと, b. 私 的 な 見 解 を 述 べさせていただくと, (2)a. この 問 題 は 個 人 的 な 努 力 で 解 決 するものではない b.*この 問 題 は 私 的 な 努 力 で 解 決 するものではない (3)a. * 今 日 は 個 人 的 な 会 合 がある b. 今 日 は 私 的 な 会 合 がある しかしながら, 以 下 のような 国 語 辞 典 の 意 味 記 述 から,これらがどのように 使 い 分 けら れているかを 理 解 することは 難 しい 個 人 的 [ 形 動 ] 個 人 を 主 体 とするさま 個 人 に 関 するさま 公 的 でない 立 場 や, 他 人 と 関 わりない 事 柄 についていう プライベート な 意 見 私 的 [ 形 動 ] 個 人 にかかわっているさま おおやけでないさま プライベート な 感 情 公 的 (Yahoo!JAPAN 辞 書 の 国 語 辞 典 大 辞 泉 による) また, 管 見 の 限 り,これらの 使 い 分 けについて 考 察 している 先 行 研 究 は 存 在 しない 従 って, 本 研 究 では,BCCWJ( 現 代 日 本 語 書 き 言 葉 均 衡 コーパス )から 収 集 した 用 例 の 分 析 を 通 し 個 人 的 な+ 名 詞 私 的 な+ 名 詞 の 使 い 分 けのメカニズムを 解 明 すること を 目 的 とする 2. 分 析 方 法 本 分 析 においては,まず,BCCWJ から, 検 索 エンジン 中 納 言 を 用 い, 分 析 対 象 とす る 個 人 的 な 私 的 な の 用 例 を 収 集 した 1 次 に,これらの 用 例 における 個 人 的 な 私 1 検 索 日 時 は,2012 年 9 月 6 日 である 個 人 的 な の 用 例 収 集 においては, 短 単 位 検 索 でキーを 個 人 と 後 方 共 起 条 件 の 的 に 指 定 して 用 例 を 収 集 した 後,この 中 から 個 人 的 な の 形 を 取 るもののみ 取 り 出 した また, 私 的 な の 用 例 収 集 においては, 短 単 位 検 索 でキーを 私 的 に 指 定 して 用 例 を 収 集 した 後,この 中 から 私 的 な の 形 を 取 るもののみを 取 り 出 した 49

60 的 な の 被 修 飾 名 詞 のトークン 数 とタイプ 数 を 調 べた ただし,トークン 数 については, 同 一 ID のサンプルから 同 一 の 被 修 飾 名 詞 が 複 数 得 られた 場 合 に 限 り,これを 複 数 のまま 数 えず,1 例 として 数 えた 従 って, 本 研 究 で 提 示 する 被 修 飾 名 詞 のトークン 数 は, 同 一 の 被 修 飾 名 詞 が 用 いられたサンプルタイプ 数 に 相 当 する このような 方 法 を 取 ったのは, 特 定 の 作 者 の 言 語 感 覚 がその 他 の 作 者 の 言 語 感 覚 を 凌 いでトークン 数 に 反 映 されたり, 特 定 の テキストの 性 格 が 他 のテキストの 性 格 を 凌 いでトークン 数 に 反 映 されたりするのを 防 ぐた めである また, 被 修 飾 名 詞 を 抽 出 するにあたっては, 以 下 のような 処 理 を 施 した 処 理 1: 被 修 飾 範 囲 が 複 数 の 句 からなる 場 合,その 主 要 部 に 当 たる 名 詞 を 被 修 飾 名 詞 選 択 候 補 とする また, 被 修 飾 範 囲 が 複 数 の 並 立 句 からなる 場 合 は,1 番 目 の 句 の 主 要 部 に 当 たる 名 詞 を 被 修 飾 名 詞 選 択 候 補 とする 処 理 2: 処 理 1 の 方 法 で 取 り 出 した 被 修 飾 名 詞 選 択 候 補,ならびに, 最 初 から 名 詞 の 形 で 取 り 出 された 被 修 飾 要 素 のうち, 単 純 語 については,これを 分 析 対 象 とする 被 修 飾 名 詞 として 認 定 する 複 合 語 については,これを, 国 立 国 語 研 究 所 が UniDic 用 に 規 定 した 短 単 位 レベルに 当 たる 語 彙 素 レベル 2 に 分 解 した 後, 語 彙 素 同 士 の 結 合 関 係 において 主 要 部 的 役 割 を 果 たしている 単 位 を 被 修 飾 名 詞 として 認 定 す る また, 分 解 した 語 彙 素 同 士 が 並 立 関 係 にある 場 合 は,1 番 目 の 語 彙 素 を 被 修 飾 名 詞 とする 派 生 語 については, 接 頭 辞 は 被 修 飾 名 詞 から 除 き, 接 尾 辞 は 被 修 飾 名 詞 に 含 めることとする 処 理 3: 処 理 1, 処 理 2 の 方 法 で 収 集 した 被 修 飾 名 詞 中 に, 表 記 の 揺 れが 見 られるものが 存 在 した 場 合 も, 個 々を 異 なる 被 修 飾 名 詞 とせず, 同 一 の 被 修 飾 名 詞 として 扱 う 次 に, 個 人 的 な 私 的 な の 被 修 飾 名 詞 トークン 数 を 分 類 語 彙 表 3 の 意 味 項 目 別 に 割 り 出 し,この 結 果 を 基 に 個 人 的 な+ 名 詞 私 的 な+ 名 詞 が 保 有 する 意 味 スキーマを 抽 出 した 後, 個 人 的 な+ 名 詞 私 的 な+ 名 詞 の 意 味 構 造 と 両 者 の 相 違 を 明 らかにした 2 短 単 位 認 定 の 方 法 として 以 下 が 記 されている (1) 一 般 和 語 漢 語 2 最 小 単 位 の 1 次 結 合 を 1 短 単 位 とする 母 = 親 食 べ= 歩 く 音 = 声 本 = 箱 外 来 語 原 則 として 1 最 小 単 位 を 1 短 単 位 とする コール センター オレンジ 色 (2) 数 数 以 外 の 最 小 単 位 と 結 合 させない 数 どうしの 結 合 については, 一 十 百 千 のとなえを 取 る 桁 ごとに 1 短 単 位 とする 万 億 兆 などの 最 小 単 位 は,それだけで 1 短 単 位 とする 小 数 部 分 は 1 最 小 単 位 を 1 短 単 位 とする 十 二 月 二 十 三 日 七 百 五 十 二 万 語 五 分 の 二 二 三 十 回 〇. 四 五 (3)その 他 1 最 小 単 位 を 1 短 単 位 とする 付 属 要 素 扱 い 兼 ねる 助 詞 助 動 詞 豊 か な 暮 らし に つい て 人 名 星 野 仙 一 アンディー シーツ 地 名 大 阪 府 豊 中 市 待 兼 山 町 六 甲 山 記 号 図 A JR 3 国 立 国 語 研 究 所 編 (2004) 分 類 語 彙 表 増 補 改 訂 版 大 日 本 図 書 50

61 次 節 では,まず 前 述 の 方 法 で 収 集 した 個 人 的 な 私 的 な の 被 修 飾 名 詞 のトークン 数 とタイプ 数 を 見 ていく 3. 個 人 的 な 私 的 な の 被 修 飾 名 詞 のトークン 数 とタイプ 数 前 節 で 示 した 方 法 を 用 い 分 析 対 象 として 収 集 した 個 人 的 な 私 的 な の 被 修 飾 名 詞 の トークン 数,タイプ 数 は, 次 の 表 1 の 通 りである 表 1 個 人 的 な 私 的 な の 被 修 飾 名 詞 のトークン 数 とタイプ 数 個 人 的 な の 被 修 飾 名 詞 私 的 な の 被 修 飾 名 詞 トークン 数 1, タイプ 数 表 1 より,トークン 数,タイプ 数 ともに, 個 人 的 な の 被 修 飾 名 詞 の 方 が 多 いことがわ かる 個 人 的 な の 被 修 飾 名 詞 トークン 数 は, 私 的 な の 被 修 飾 名 詞 トークン 数 の 約 3.6 倍 で, 個 人 的 な の 被 修 飾 名 詞 タイプ 数 は, 私 的 な の 被 修 飾 名 詞 タイプ 数 の 約 2.3 倍 で ある 以 上 の 結 果 より, 個 人 的 な+ 名 詞 私 的 な+ 名 詞 の 意 味 構 造 の 相 違 について 次 のよ うな 可 能 性 が 挙 げられる なお,これらの 可 能 性 はいずれも 個 人 的 な+ 名 詞 私 的 な+ 名 詞 各 々が 複 数 の 意 味 スキーマを 保 有 していることを 前 提 としている 可 能 性 1 個 人 的 な+ 名 詞 は 私 的 な+ 名 詞 に 比 べ,より 多 くの 種 類 の 意 味 スキー マを 保 有 している 可 能 性 2 個 人 的 な+ 名 詞 は 私 的 な+ 名 詞 に 比 べ, 使 用 頻 度 の 高 い 意 味 スキーマ を 多 く 保 有 している 可 能 性 3 個 人 的 な+ 名 詞 が 保 有 する 意 味 スキーマの 中 には, 私 的 な+ 名 詞 のそ れとほぼ 同 じものが 存 在 するが, 個 人 的 な+ 名 詞 のスキーマとしての 典 型 性 の 方 が 高 いために, 対 応 形 式 として 個 人 的 な+ 名 詞 の 方 が 選 択 されやすい 次 節 では,これらの 可 能 性 を 考 慮 しながら, 分 類 語 彙 表 の 意 味 項 目 別 に 分 類 した 個 人 的 な 私 的 な の 被 修 飾 名 詞 をてがかりに, 個 人 的 な+ 名 詞 私 的 な+ 名 詞 が 保 有 する 意 味 スキーマを 抽 出 する 4. 分 類 語 彙 表 の 各 意 味 項 目 に 属 する 被 修 飾 名 詞 トークン 数 4.1. 意 味 項 目 X.1-X.5 の 各 々に 属 する 被 修 飾 名 詞 トークン 数 分 類 語 彙 表 の X.1-X.5 の 意 味 項 目 別 に, 個 人 的 な の 被 修 飾 名 詞 トークン 数, 私 51

62 的 な の 被 修 飾 名 詞 トークン 数 を 調 べたところ, 結 果 は 次 の 表 2 の 通 りであった 4,5 なお, 個 人 的 な の 被 修 飾 名 詞 トークン 含 有 率 と 私 的 な の 被 修 飾 名 詞 トークン 含 有 率 とで 有 意 差 が 認 められる 項 目 には,, のいずれかの 記 号 を 付 した 6 は 被 修 飾 名 詞 トーク ンの 含 有 率 が 他 方 より 有 意 に 高 いことを, は 被 修 飾 名 詞 トークンの 含 有 率 が 他 方 より 有 意 に 低 いことを 示 している 7 表 2 分 類 項 目 X.1-X.5 に 属 する 個 人 的 な 私 的 な の 被 修 飾 名 詞 トークン 数 X.1 X.2 X.3 X.4 X.5 抽 象 的 関 係 人 間 活 動 の 人 間 活 動 生 産 物 およ 自 然 物 およ 該 当 なし 主 体 び 用 具 び 自 然 現 象 a. 個 人 的 な 290/ / / /1069 8/ /1069 ( 含 有 率 %) (27) (2) (70) (6) (1) (2) b. 私 的 な 105/296 37/ /296 31/296 3/296 7/296 ( 含 有 率 %) (35) (13) (57) (10) (1) (2) a-b 表 2 より,まず,トークン 数 の 最 も 高 い 意 味 項 目 に 着 目 すると, 個 人 的 な 私 的 な ともに,X.3 の 人 間 活 動 に 属 する 被 修 飾 名 詞 トークン 数 が 最 も 多 いことがわかる ただ し, 個 人 的 な と 人 間 活 動 に 属 する 名 詞 との 結 合 例 は 750 トークンであるのに 対 し, 私 的 な と 人 間 活 動 に 属 する 名 詞 との 結 合 例 は 170 トークンで, 両 者 の 間 には 580 トークンもの 差 が 存 在 する,また, 人 間 活 動 に 属 する 被 修 飾 名 詞 トークン 含 有 率 も 個 人 的 な の 方 が 私 的 な より 有 意 に 高 い 従 って, 個 人 的 な 私 的 な はいずれも, 他 の 意 味 項 目 の 被 修 飾 名 詞 より 人 間 活 動 に 属 する 被 修 飾 名 詞 と 結 合 する 傾 向 にあるも のの,その 傾 向 は 個 人 的 な の 方 がはるかに 強 いということができる 次 に, 個 人 的 な の 被 修 飾 名 詞 トークン 数 と 私 的 な の 被 修 飾 名 詞 トークン 数 の 差 に 着 目 すると,X.2 の 人 間 活 動 の 主 体 を 除 く,X.1 の 抽 象 的 関 係,X.3 の 人 間 活 動, X.4 の 生 産 物 および 用 具,X.5 の 自 然 物 および 自 然 現 象 の 4 項 目 において 個 人 的 な の 被 修 飾 名 詞 トークン 数 が 私 的 な の 被 修 飾 名 詞 トークン 数 を 上 回 っている これら 4 項 目 のうちトークン 数 の 差 が 最 も 顕 著 なのは,580 トークン 差 の 人 間 活 動 であり,その 後 に 185 トークン 差 の 抽 象 的 関 係,30 トークン 差 の 生 産 物 および 用 具,5 トークン 4 X は, 分 類 語 彙 表 の 1. 体 の 類 2. 用 の 類 3. 相 の 類 のいずれかであることを 示 す なお, 収 集 した 用 例 のほとんどは 1. 体 の 類 であったが, 一 部 2. 相 の 類 のものも 存 在 した 5 分 類 語 彙 表 に 記 載 されている 語 の 中 には, 意 味 の 多 面 性 ならびに 多 義 性 を 考 慮 し, 異 なる 複 数 の 意 味 項 目 に 分 類 されているものが 存 在 する 本 調 査 で 収 集 した 被 修 飾 名 詞 の 中 にもこのような 語 が 含 まれて いた このような 語 については, 意 味 が 多 面 的 であるという 理 由 で 異 なる 複 数 の 意 味 項 目 に 分 類 されてい る 場 合 のみ, 各 項 目 のトークン 数 に 計 上 した 多 義 的 であるという 理 由 で 異 なる 複 数 の 意 味 項 目 に 分 類 さ れている 場 合 については, 前 後 の 文 脈 から 用 いられている 意 味 を 特 定 し,この 意 味 と 合 致 する 意 味 項 目 に おいてのみトークン 数 に 計 上 した 6 T 検 定 を 行 った 結 果,p 0.05 で 有 意 差 が 認 められたものについて, の 記 号 を 付 した 7 該 当 なし は,X.1-X.5 のいずれの 意 味 項 目 にも 属 さないことを 示 す 52

63 差 の 自 然 物 および 自 然 現 象 が 続 く このように, 意 味 項 目 別 に 個 人 的 な の 被 修 飾 名 詞 トークン 数 と 私 的 な の 被 修 飾 名 詞 トークン 数 を 比 較 すると, 項 目 により 両 者 のトークン 差 に 偏 りが 存 在 することがわか る そして,この 偏 りは, 個 人 的 な+ 名 詞 と 私 的 な+ 名 詞 の 意 味 構 造 の 相 違 に 由 来 する 従 って, 次 の 4.2 からは,この 相 違 を 明 らかにするために, 個 人 的 な の 被 修 飾 名 詞 ト ークン 数 が 私 的 な のそれを 大 きく 上 回 る 人 間 活 動 ならびに, 個 人 的 な の 被 修 飾 名 詞 トークン 数 が 私 的 な のそれを 下 回 る 人 間 活 動 の 主 体 に 限 定 し, 個 人 的 な 私 的 な とこれらの 項 目 に 属 する 被 修 飾 名 詞 との 意 味 的 な 結 び 付 きについて 考 察 する 4.2. X.3 人 間 活 動 の 下 位 項 目 に 属 する 被 修 飾 名 詞 トークン 数 個 人 的 な 私 的 な のいずれにおいても 被 修 飾 名 詞 のトークン 含 有 率 が 最 も 高 く 且 つ 両 者 のトークン 差 が 最 も 大 きかった X.3 の 人 間 活 動 は, 分 類 語 彙 表 においてさらに 心 言 語 芸 術 生 活 行 為 交 わり 待 遇 経 済 事 業 の 9 種 類 の 下 位 項 目 に 分 けられる 各 下 位 項 目 に 属 する 個 人 的 な 私 的 な の 被 修 飾 名 詞 トークン 数 は 次 の 表 3 の 通 りである 表 3 分 類 項 目 X.3.0-X.3.8 の 個 人 的 な 私 的 な の 被 修 飾 名 詞 トークン 数 X.3.0 心 X.3.1 言 語 X.3.2 芸 術 X.3.3 生 活 X.3.4 行 為 X.3.5 交 わり X.3.6 待 遇 X.3.7 経 済 X.3.8 事 業 a. 個 人 的 な b. 私 的 な a-b まず, 表 3 より, 個 人 的 な 私 的 な ともに,X.3.0 の 心 に 属 する 被 修 飾 名 詞 トー クン 数 が 最 も 多 いことがわかる しかしながら 心 に 属 する 個 人 的 な の 被 修 飾 名 詞 トークン 数 は 479 トークンであるのに 対 し, 心 に 属 する 私 的 な の 被 修 飾 名 詞 トーク ン 数 は 42 トークンと, 両 者 の 間 には 437 トークンもの 差 が 存 在 する 心 に 属 する 個 人 的 な 私 的 な の 被 修 飾 名 詞 のうち,トークン 数 が 2 トークン 以 上 で 且 つ 上 位 5 位 以 内 のものには, 以 下 が 存 在 した なお,( ) 内 の 数 値 はトークン 数 を 示 している また, 名 詞 の 右 肩 に 付 された は,その 語 が 個 人 的 な の 被 修 飾 名 詞 と しても 私 的 な の 被 修 飾 名 詞 としても 用 いられていたことを 示 す 心 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 意 見 ( 64), 2 位 問 題 ( 42), 3 位 経 験 ( 28), 4 位 感 情 (25), 5 位 感 想 見 解 ( 各 23) 私 的 な 1 位 意 見 ( 4), 2 位 思 い 出 感 情 感 想 研 究 調 査 ( 各 2) 53

64 個 人 的 な の 被 修 飾 名 詞 のうち,トークン 数 を 私 的 な の 被 修 飾 名 詞 トークン 数 で 割 った 値 が 最 も 高 いものは 問 題 で, 個 人 的 な 問 題 のトークン 数 は 私 的 な 問 題 の トークン 数 の 42 倍 にあたる また,この 値 が 2 番 目 に 高 いものは 経 験 で, 個 人 的 な 経 験 のトークン 数 は 私 的 な 経 験 のトークン 数 の 28 倍 に 当 たる これらの 被 修 飾 名 詞 と 個 人 的 な 私 的 な との 意 味 的 な 結 び 付 きは 以 下 の 意 味 スキーマ 1 と 対 応 している 意 味 スキーマ 1 A 他 者 とは 関 係 なく, 自 己 と 密 接 に 関 わる +B 物 事 従 って, 以 上 より, 意 味 スキーマ 1 は, 私 的 な+ 被 修 飾 名 詞 より 個 人 的 な+ 被 修 飾 名 詞 と 強 く 結 び 付 いていると 言 える また, 意 見 感 情 感 想 見 解 といった 個 人 の 認 識 を 表 す 被 修 飾 名 詞 トークン 数 も 個 人 的 な が 私 的 な を 大 きく 上 回 る 個 人 的 な 意 見 個 人 的 な 感 情 個 人 的 な 感 想 のトークン 数 はそれぞれ 私 的 な 意 見 私 的 な 感 情 私 的 な 感 想 のトークン 数 の 16 倍, 約 13 倍, 約 12 倍 に 相 当 する この 他 個 人 的 な 見 解 のトークン 数 は 23 であ ったが, 私 的 な 見 解 のトークン 数 は 0 であった これらの 被 修 飾 名 詞 と, 個 人 的 な 私 的 な との 意 味 的 な 結 び 付 きは 以 下 の 意 味 スキーマ 2 と 対 応 している 意 味 スキーマ 2 A 他 者 より 自 己 の 立 場, 価 値 観 を 優 先 した +B 心 情, 言 葉 従 って, 意 味 スキーマ 2 についても, 私 的 な+ 被 修 飾 名 詞 よりは 個 人 的 な+ 被 修 飾 名 詞 と 強 く 結 び 付 いていると 言 える ただし, 個 人 的 な+ 被 修 飾 名 詞 私 的 な+ 被 修 飾 名 詞 のトークン 数 の 比 率 を 見 る 限 り, 個 人 的 な+ 被 修 飾 名 詞 私 的 な+ 被 修 飾 名 詞 各 々とスキーマ 2 との 結 び 付 きの 程 度 差 は,スキーマ 1 ほど 大 きくはないと 考 えられる 次 に, 他 の 意 味 項 目 についても,どのような 名 詞 が 個 人 的 な 私 的 な の 被 修 飾 名 詞 として 含 まれているかを 見 ていく 言 語 芸 術 生 活 行 為 交 わり 待 遇 経 済 事 業 に 属 する 個 人 的 な 私 的 な の 被 修 飾 名 詞 のうち,トークン 数 が 2 トークン 以 上 で 且 つ 上 位 5 位 以 内 のもの には, 以 下 が 存 在 した 言 語 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 話 ( 22), 2 位 相 談 (7), 3 位 情 報 ( 5), 4 位 質 問 (4), 5 位 会 話 発 言 魅 力 メール メッセージ ( 各 3) 私 的 な 1 位 情 報 ( 2) 芸 術 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 日 記 悲 劇 ( 各 2) 私 的 な 2 トークン 以 上 の 語 は 無 い 生 活 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 経 験 ( 28), 2 位 趣 味 生 活 ( 各 10), 4 位 仕 事 楽 しみ 54

65 ( 各 4) 私 的 な 1 位 生 活 ( 7), 2 位 労 働 (2) 行 為 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 努 力 能 力 ( 各 6),3 位 仕 事 ( 各 4),4 位 行 為 責 任 力 用 事 ( 各 3) 私 的 な 1 位 行 為 ( 7), 2 位 活 動 用 事 ( 各 3), 4 位 労 働 (2) 交 わり に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 付 き 合 い ( 14),2 位 相 談 (7), 3 位 交 際 ( 4), 4 位 対 立 (3), 5 位 知 り 合 い (2) 私 的 な 1 位 関 係 (6), 2 位 会 合 付 き 合 い ( 各 3), 4 位 加 入 サービ ス ( 各 2) 待 遇 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 意 見 ( 64), 2 位 アドバイス 指 導 要 請 要 望 ( 各 2) 私 的 な 1 位 意 見 ( 各 4) 経 済 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 利 益 ( 6), 2 位 財 産 収 入 ( 各 2) 私 的 な 1 位 年 金 利 益 ( 各 5), 3 位 利 害 ( 4), 4 位 財 産 ( 3), 5 位 交 換 サービス ( 各 2) 事 業 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 使 用 (2) 私 的 な 1 位 施 設 (3) これらの 名 詞 の 多 くは, 個 人 的 な 私 的 な のいずれとも 共 起 する しかし, 名 詞 に より 共 起 のしやすさに 違 いが 見 られる 先 に 示 した 意 味 スキーマ 1, 意 味 スキーマ 2 の B と 対 応 する 名 詞 は, 個 人 的 な と 共 起 しやすい それ 以 外 の 名 詞 の 中 には, 以 下 の 意 味 スキ ーマ 3 と 対 応 するものも 存 在 した 意 味 スキーマ 3: A 職 務 や 職 場 とは 関 係 せず, 個 人 の 自 由 意 志 と 権 利 に 拠 る +B 物 事 例 えば, 個 人 的 な 私 的 な と 仕 事 付 き 合 い との 結 び 付 きは, 意 味 スキーマ 3 と 対 応 する 意 味 スキーマ 3 の B と 対 応 する 名 詞 のトークン 数 は, 個 人 的 な 私 的 な と で 大 差 がないことから, 意 味 スキーマ 3 は, 個 人 的 な+ 名 詞 私 的 な+ 名 詞 のいずれ とも 同 程 度 に 結 び 付 くスキーマであると 見 ることができる また,この 他 には, 以 下 の 意 味 スキーマ 4 と 対 応 するものも 存 在 した 意 味 スキーマ 4: A 公 的 なものとしての 資 格 を 持 たない +B 物 事 例 えば, 私 的 な と 年 金 施 設 との 結 び 付 きは, 意 味 スキーマ 4 と 対 応 する なお, これらの 名 詞 については, 個 人 的 な とは 結 び 付 きにくい 従 って, 意 味 スキーマ 4 は, 55

66 個 人 的 な よりも 私 的 な との 結 び 付 きの 強 いスキーマであると 見 ることができる 4.3. X.2 人 間 活 動 の 主 体 に 属 する 被 修 飾 名 詞 トークン 数 私 的 な の 被 修 飾 名 詞 トークン 数 が 唯 一 個 人 的 な の 被 修 飾 名 詞 トークン 数 を 上 回 っている X.2 の 人 間 活 動 の 主 体 の 項 目 は, 分 類 語 彙 表 においてさらに 人 間 家 族 仲 間 人 物 成 員 公 私 社 会 機 関 の 8 種 類 に 分 けられる 各 々の 下 位 項 目 に 属 する 個 人 的 な 私 的 な の 被 修 飾 名 詞 トークン 数 は 次 の 表 4 の 通 りである 表 4 分 類 項 目 X.2.0-X.2.7 の 個 人 的 な 私 的 な の 被 修 飾 名 詞 トークン 数 X.2.0 人 間 X.2.1 家 族 X.2.2 仲 間 X.2.3 人 物 X.2.4 成 員 X.2.5 公 私 X.2.6 社 会 X.2.7 機 関 a. 個 人 的 な b. 私 的 な a-b 各 々の 意 味 項 目 に 属 する 個 人 的 な 私 的 な の 被 修 飾 名 詞 のうち,トークン 数 が 2 ト ークン 以 上 で 且 つ 上 位 5 位 以 内 のものには, 以 下 が 存 在 した 人 間 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 アイデンティ (2) 私 的 な 2 トークン 以 上 の 名 詞 は 存 在 しない 家 族 に 属 する 被 修 飾 名 詞 例 個 人 的 な 2 トークン 以 上 の 名 詞 は 存 在 しない 私 的 な 2 トークン 以 上 の 名 詞 は 存 在 しない 仲 間 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 知 り 合 い (2) 私 的 な 1 位 友 人 (2) 人 物 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 ボランティア (2) 私 的 な 2 トークン 以 上 の 名 詞 は 存 在 しない 成 員 に 属 する 被 修 飾 名 詞 例 個 人 的 な 1 位 ボランティア (2) 私 的 な 2 トークン 以 上 の 名 詞 は 存 在 しない 公 私 に 属 する 被 修 飾 名 詞 例 個 人 的 な 2 トークン 以 上 の 名 詞 は 存 在 しない 私 的 な 1 位 個 人 (6) 社 会 に 属 する 被 修 飾 名 詞 例 56

67 個 人 的 な 2 トークン 以 上 の 名 詞 は 存 在 しない 私 的 な 1 位 施 設 (3), 2 位 場 ( 2) 機 関 に 属 する 被 修 飾 名 詞 例 個 人 的 な 2 トークン 以 上 の 名 詞 は 存 在 しない 私 的 な 1 位 機 関 研 究 会 施 設 ( 各 3) 上 記 の 名 詞 のうち, アイデンティティ は 意 味 スキーマ 1 の B と, 知 り 合 い 友 人 ボ ランティア は 意 味 スキーマ 3 の B と, 個 人 施 設 場 機 関 研 究 会 は 意 味 スキ ーマ 4 の B と 対 応 する 以 上, 本 節 では, 分 類 語 彙 表 の 意 味 項 目 別 に 分 類 した 個 人 的 な 私 的 な の 被 修 飾 名 詞 を 手 がかりに, 個 人 的 な+ 名 詞 私 的 な+ 名 詞 が 保 有 する 意 味 スキーマを 抽 出 し, 各 スキーマと 個 人 的 な+ 名 詞 私 的 な+ 名 詞 との 結 び 付 きの 強 さを 分 析 した 次 節 では, 本 分 析 を 踏 まえ, 個 人 的 な+ 名 詞 私 的 な+ 名 詞 の 意 味 構 造 を 記 述 する とともに, 両 者 の 相 違 について 言 及 する 5. 個 人 的 な 私 的 な の 意 味 構 造 の 相 違 前 節 での 分 析 より, 個 人 的 な 私 的 な の 意 味 構 造 は 以 下 のようなものであると 考 え られる 個 人 的 な の 意 味 構 造 A= 個 人 的 な,B= 被 修 飾 名 詞 典 型 的 非 典 型 的 スキーマ 1: A 他 者 とは 関 係 なく, 自 己 と 密 接 に 関 わる +B 物 事 (1 と 2 の 関 係 : 他 者 との 共 有 を 否 定 ) スキーマ 2: A 他 者 より 自 己 の 立 場, 価 値 観 を 優 先 した +B 心 情, 言 葉 (2 と 3 の 関 係 : 自 己 の 主 観 を 重 視 ) スキーマ 3: A 職 務 や 職 場 とは 関 係 せず, 自 己 の 自 由 意 志 と 権 利 に 拠 る +B 物 事 (3 と 4 との 関 係 : 公 的 性 を 否 定 ) スキーマ 4: A 公 的 なものとしての 資 格 を 持 たない +B 物 事 57

68 私 的 な の 意 味 構 造 A= 私 的 な,B= 被 修 飾 名 詞 非 典 型 的 典 型 的 スキーマ 1: A 他 者 とは 関 係 なく, 自 己 と 密 接 に 関 わる +B 物 事 (1 と 2 の 関 係 : 他 者 との 共 有 を 否 定 ) スキーマ 2: A 他 者 より 自 己 の 立 場, 価 値 観 を 優 先 した +B 心 情, 言 葉 (2 と 3 の 関 係 : 自 己 の 主 観 を 重 視 ) スキーマ 3: A 職 務 や 職 場 とは 関 係 せず, 自 己 の 自 由 意 志 と 権 利 に 拠 る +B 物 事 (3 と 4 との 関 係 : 公 的 性 を 否 定 ) スキーマ 4: A 公 的 なものとしての 資 格 を 持 たない +B 物 事 上 記 のように, 個 人 的 な の 意 味 構 造 と 私 的 な の 意 味 構 造 は 極 めて 類 似 している いずれの 意 味 構 造 においても,スキーマ 1 の A とスキーマ 2 の A には, 他 者 との 共 有 を 否 定 する 態 度 が 反 映 されており,スキーマ 2 の A とスキーマ 3 の A には, 自 己 の 主 観 を 重 視 する 態 度 が 反 映 されており,スキーマ 3 の A とスキーマ 4 の A には, 公 的 性 を 否 定 する 態 度 が 反 映 されている 各 スキーマは,このような 形 で 結 び 付 き, 個 人 的 な+ 名 詞 私 的 な+ 名 詞 の 意 味 構 造 を 形 成 している しかしながら, 個 人 的 な+ 名 詞 私 的 な+ 名 詞 とでは,それぞれの 意 味 スキーマの 典 型 性 が 異 なる 個 人 的 な+ 名 詞 では, 意 味 スキーマ 1 の 典 型 性 が 最 も 高 く, 意 味 スキ ーマ 4 の 典 型 性 が 最 も 低 い 一 方 私 的 な+ 名 詞 では, 反 対 に 意 味 スキーマ 4 の 典 型 性 が 最 も 高 く, 意 味 スキーマ 1 の 典 型 性 が 最 も 低 い 従 って,このような 意 味 スキーマの 典 型 性 の 相 違 より,1 節 の(2)において 努 力 が 個 人 的 な と 共 起 し, 私 的 な と 共 起 しにくいのは, 努 力 がスキーマ 1 の B と 対 応 することによると 見 ることができる 一 方, (3)において 会 合 が 私 的 な と 共 起 し, 個 人 的 な と 共 起 しにくいのは, 会 合 がスキーマ 4 の B と 対 応 することによると 見 ることができる また, 個 人 的 な の 被 修 飾 名 詞 の 方 が 私 的 な の 被 修 飾 名 詞 よりトークン 数,タイプ 数 がともに 多 いのは, 個 人 的 な+ 名 詞 と 結 び 付 きの 強 い 意 味 スキーマ 1, 意 味 スキーマ 2 へのアクセス 頻 度 が 他 の 意 味 スキーマに 比 べ 高 いことに 起 因 すると 考 えられる 6.さいごに 本 稿 では,ナ 形 容 詞 の 連 体 形 として 用 いる 個 人 的 な 私 的 な に 焦 点 を 当 て 考 察 を 進 めてきたが, 類 義 語 に プライベートな が 存 在 する プライベートな と 個 人 的 な 私 的 な との 比 較 については 今 後 の 研 究 課 題 とする 58

69 対 訳 対 と 協 調 フィルタリングを 用 いた 商 品 推 薦 柴 田 翔 平 ( 東 京 農 工 大 学 工 学 部 情 報 工 学 科 ) 古 宮 嘉 那 子 ( 東 京 農 工 大 学 工 学 研 究 院 ) 小 谷 善 行 ( 東 京 農 工 大 学 工 学 研 究 院 ) Product Recommendation using Translation Pairs and Collaborative Filtering Shohei Shibata (Department of Computer and Information Sciences Faculty of Engineering, Tokyo Agriculture and Technology) Kanako Komiya (Institution of Engineering, Tokyo Agriculture and Technology) Yoshiyuki Kotani (Institution of Engineering, Tokyo Agriculture and Technology) 1.はじめに 近 年,アニメや 映 画 といった 日 本 のメディア 作 品 が 海 外 で 人 気 となり,それに 関 連 する 商 品 を 外 国 人 が 購 入 する 機 会 が 増 えている.しかし, 日 本 語 と 外 国 語 の 間 に 存 在 する 言 語 の 壁 から 目 的 の 商 品 を 検 索 するのは 難 しい. 特 に, 作 品 内 の 登 場 人 物 や 地 名 は 機 械 翻 訳 で も 対 応 できない 場 合 が 多 く,このような 言 語 の 壁 が 妨 げとなって, 外 国 人 が 目 的 の 商 品 を 購 入 できない 場 合 がある. 本 稿 では, 商 品 タイトルの 日 本 語 と 外 国 語 が 対 となった 対 訳 対 と, 日 本 ユーザと 外 国 ユ ーザの 商 品 購 入 情 報 を 基 にして 協 調 フィルタリングを 用 いることで, 言 語 の 壁 を 越 え, 外 国 人 が 目 的 とする 商 品 を 推 薦 することを 目 的 とする. 協 調 フィルタリングとは, 一 般 的 な インターネットのショッピングサイトでも 利 用 される,ユーザの 嗜 好 情 報 に 基 づいて 推 薦 を 行 う 方 法 であり,この 方 法 を 用 いれば, 日 本 と 外 国 ユーザの 嗜 好 の 類 似 点 を 見 つけ 出 し, 言 語 をまたいで 商 品 推 薦 を 行 うことができると 考 える. 2. 関 連 研 究 商 品 推 薦 に 関 しては,これまで 様 々な 研 究 が 行 われている.その 中 でも, 類 似 している ユーザを 選 択 するための 類 似 度 に 関 する 研 究 が 多 くある. ソーシャルネットワークサービス(SNS) 上 でのつながりをグラフで 表 現 した 情 報 と, 商 品 購 入 情 報 の 二 種 類 を 用 いて 類 似 度 を 定 義 する 研 究 ( Symeonidis and Tiakas and Manolopoulos (2011))や,SNS 上 のつながりの 強 さまで 考 慮 した 類 似 度 を 定 義 する 研 究 (Symeonidis and Tiakas and Manolopoulos (2010))などがある. また, 類 似 度 には 時 事 性 を 含 ませることが 難 しいため, 時 事 性 を 含 まない 類 似 度 を 用 い ると,ユーザの 嗜 好 の 変 化 に 合 った 推 薦 を 行 うことが 困 難 にある.そのような 問 題 に 対 応 する 研 究 も 行 われている. 意 外 性 のある Web ページをリコメンデーションするため,ユーザの Web ページのブッ クマーク 情 報 と Wikipedia のコンテンツを 照 らし 合 わせる 研 究 (Chang and Quiroga(2010)) や,ユーザ 間 の 関 係 と 嗜 好 の 時 間 による 変 化 を 反 映 させた 協 調 フィルタリングによる 推 薦 の 研 究 ( 川 前, 坂 野, 山 田, 上 田 (1997))などがある. 59

70 しかし, 我 々の 調 査 した 限 り,これまでの 研 究 では 言 語 をまたがる 商 品 推 薦 は 考 えられ ていない.そこで 本 稿 では, 商 品 推 薦 に 一 つの 国 のユーザの 情 報 を 用 いるだけでなく, 二 つ 目 の 国 のユーザの 情 報 を 用 いることで, 商 品 推 薦 の 結 果 に 幅 を 持 たせ, 言 語 をまたいだ リコメンデーションが 行 えるようなシステムを 提 案 する. 3. 対 訳 対 を 用 いた 商 品 推 薦 ある 外 国 ユーザを 対 象 に, 日 本 ユーザの 商 品 購 入 情 報 から 商 品 推 薦 を 行 うことを 考 える. 外 国 ユーザと 日 本 ユーザ 間 の 類 似 度 を 計 算 し, 協 調 フィルタリングによる 商 品 推 薦 を 行 い たいが, 商 品 購 入 情 報 をそのまま 用 いるだけでは 言 語 の 違 いが 存 在 するために, 外 国 ユー ザと 日 本 ユーザの 間 で 情 報 の 共 有 ができず, 類 似 度 の 計 算 が 行 えない.そこで, 双 方 の 言 語 の 違 いを 埋 めるため, 商 品 タイトルの 日 本 語 と 外 国 語 との 対 関 係 を 蓄 積 した 対 訳 対 を 作 成 する. 商 品 タイトルの 対 関 係 が 存 在 している 場 合 には, 日 本 と 外 国 で 異 なる 商 品 タ イトルでも, 同 じ 商 品 を 購 入 していると 扱 うことができる. 提 案 する 商 品 推 薦 システムにおいて, 外 国 ユーザと 日 本 ユーザの 商 品 購 入 情 報 は,ベク トル 化 して 類 似 度 計 算 に 用 いる.このベクトルの 素 性 は 商 品 であり, 素 性 値 は 商 品 への 評 価 値 である.このベクトルと 対 訳 対 を 用 いて, 同 じ 商 品 を 購 入 して 評 価 している 外 国 ユー ザと 日 本 ユーザ 間 でコサイン 類 似 度 を 計 算 し, 協 調 フィルタリングによる 商 品 推 薦 を 行 う. 日 本 ユーザの 商 品 購 入 情 報 は 楽 天 株 式 会 社, 外 国 ユーザの 商 品 購 入 情 報 は GroupLens Research より 提 供 していただいた 情 報 を 用 いた. 対 訳 対 は,Wikipedia より 配 布 されてい るダンプデータからタイトルの 対 応 関 係 を 抽 出 することで 作 成 した. なお,ユーザの 商 品 購 入 情 報 や 対 訳 対 に 存 在 する 商 品 タイトルには, 英 語 の 大 文 字 と 小 文 字 やバージョンの 違 いなど, 表 記 の 揺 れが 存 在 するため,それを 削 除 した 状 態 の 情 報 も 用 いることとする.この 情 報 を, 商 品 タイトルを 整 形 した 情 報 と 呼 ぶ. 4. 実 験 4.1 商 品 推 薦 システムの 評 価 実 験 商 品 推 薦 システムの 出 力 となる 推 薦 結 果 の 評 価 は, 推 薦 された 商 品 がユーザの 意 図 する ものであったかという 判 断 になる.しかし,その 判 断 は 主 観 的 なものであるため,システ ムへの 評 価 が 集 まったとしてもその 性 能 について 議 論 することは 難 しい. そこで,システムの 定 量 的 な 評 価 を 行 うため, 外 国 ユーザの 商 品 購 入 情 報 に 存 在 する 商 品 を 対 象 に 商 品 購 入 情 報 をマスキングした 上 で 商 品 推 薦 を 行 った. 商 品 を 推 薦 した 数 のう ち, 商 品 推 薦 結 果 に 現 れるマスキングした 商 品 の 割 合 を 適 合 率 とし,また, 商 品 推 薦 結 果 に 現 れるマスキングした 商 品 の 順 位 を 用 いた 平 均 逆 順 位 (MRR) を 定 義 し, 商 品 推 薦 システムの 評 価 実 験 の 指 標 とした. 適 合 率 と MRR は, 以 下 の 式 で 計 算 される. 適 合 率 P 適 合 率 P において, C はマスキングされた 商 品 の 数, N は 商 品 推 薦 数,e は 外 国 ユー ej ee jj ee jj C N ej ej 1 MRR N ザ,E は 外 国 ユーザの 集 合,j は 日 本 ユーザ,J は 日 本 ユーザの 集 合 を 表 す. MRR において,N はテストデータ 数 を 表 し, 本 稿 では 類 似 度 が 計 算 された 外 国 ユーザと 日 本 ユーザの 組 み 合 わせ 数 の 2 倍 である.また,rank(i)は,i に 対 する 推 薦 結 果 中,マスキ N i1 rank( i) ej 1 60

71 ングされた 商 品 の 最 高 順 位 を 表 す. 商 品 推 薦 の 結 果 に 正 解 が 含 まれなかった 場 合 には, rank(i) = とする. MRR が 高 いほど, 推 薦 結 果 の 上 位 にマスキングされた 商 品 が 出 現 し ているということになる.なお, 評 価 実 験 は, 外 国 ユーザの 購 入 している 商 品 のうち,マ スキング 対 象 の 商 品 を 情 報 を 二 つに 分 割 して, 二 分 割 交 差 検 定 によって 行 った. 商 品 タイ トルの 整 形 有 無 も 考 慮 に 入 れたため, 計 四 種 類 の 評 価 実 験 を 行 っている.また, 評 価 実 験 結 果 だけでなく, 実 際 のリコメンデーション 結 果 についても 示 す. 4.2 実 験 結 果 外 国 ユーザ 一 人 あたり 推 薦 される 商 品 数 を 1 から 5 まで 変 化 させたときの 適 合 率 のグラ フを 図 1 に,MRR のグラフを 図 2 に 示 す.また, 実 際 の 商 品 推 薦 結 果 の 一 部 を 表 1 に 示 す. 図 1 システムの 評 価 実 験 における 適 合 率 図 2 システムの 評 価 実 験 における MRR の 値 表 1 システムによる 実 際 の 商 品 推 薦 結 果 英 語 ユーザ ID 日 本 ユーザ ID 商 品 番 号 商 品 名 pinocchio cinderella さるかにばなし 三 びきのこぶた Howl's Moving Castle となりのトトロ 新 装 版 61

72 図 1 と 図 2 において, 凡 例 の A はマスキング 対 象 を 対 訳 対 に 存 在 する 商 品,B は 外 国 ユ ーザの 購 入 している 商 品 を 示 す.また, 有 無 は 商 品 タイトルの 整 形 を 施 したかどうかを 示 す. 図 1 と 図 2 を 見 ると,マスキング 対 象 A,B ともに 商 品 タイトルの 整 形 を 行 わない 方 が 適 合 率,MRR ともに 高 い 値 を 示 している.このことは, 商 品 タイトルの 整 形 によって 商 品 タ イトルの 対 応 関 係 が 増 加 したため, 商 品 推 薦 の 数 自 体 は 増 加 したものの, 類 似 度 が 計 算 さ れるユーザも 増 えることでその 推 薦 内 容 も 多 様 になり, 推 薦 結 果 にマスキングした 商 品 が 現 れにくくなっていると 考 えられる. しかし, 表 1 に 示 したシステムによる 実 際 の 商 品 推 薦 結 果 を 見 ると, pinocchio (ピノ キオ)や cinderella (シンデレラ)から さるかにばなし が 推 薦 され, 童 話 によるつ ながりから 推 薦 が 行 われていると 考 えられる 結 果 や, Howl s Moving Castle (ハウルの 動 く 城 )から となりのトトロ が 推 薦 され,ジブリ 作 品 のつながりから 推 薦 が 行 われて いると 考 えられる 結 果 が 存 在 した.このことから, 評 価 実 験 とは 別 に, 商 品 推 薦 システム は 本 稿 の 目 的 に 沿 った 推 薦 を 行 っているといえる. 4.3 まとめと 今 後 の 展 望 商 品 推 薦 システムの 評 価 において, 適 合 率 は, 商 品 タイトルを 整 形 していない 情 報 を 用 いた 実 験 で, 外 国 ユーザ 一 人 あたりに 推 薦 される 最 大 商 品 数 を 1 に 設 定 したとき, 適 合 率 46% を 得 た.また,MRR は, 商 品 タイトルを 整 形 していない 情 報 を 用 いた 実 験 で, 外 国 ユーザ 一 人 あたりに 推 薦 される 最 大 商 品 数 を 1 に 設 定 したとき,0.61 という 値 を 得 た. また, 表 1 に 示 した 実 際 の 商 品 推 薦 結 果 から, 商 品 推 薦 システムは, 本 稿 の 目 的 に 沿 っ た 結 果 を 出 力 することができていると 考 えられる. しかし, 本 稿 の 対 訳 対 のみでは 日 本 と 外 国 の 商 品 の 対 応 関 係 が 少 ないため, 今 後 は 日 本 ユーザと 外 国 ユーザとの 間 をより 広 く 取 り 持 てるような 条 件 の 拡 張 を 行 っていく 必 要 があ る. 謝 辞 本 研 究 を 行 うにあたり 楽 天 株 式 会 社 と 国 立 情 報 学 研 究 所 が 協 力 して 提 供 している 楽 天 データセット を 利 用 させて 頂 いた.また,GroupLens Research より 提 供 していただいた データも 利 用 させていただいた. 利 用 を 快 諾 して 下 さった 各 社 に 謹 んで 御 礼 申 し 上 げる. 文 献 Pei-Chia Chang and Luz M. Quiroga (2010). Using Wikipedia s Content for Cross-Website Page Recommendations that Consider Serendipity. Proceedings of the Interna-tional Conference on Technologies and Applications of Articial Intelligence, pp Panagiotis Symeonidis and Eleftherios Tiakas and Yannis Manolopoulos (2011). Product Recommendation and Rating Prediction based on Multi-modal Social Networks Proceedings of the ACM Conference Series on Recommender Systems 2011, pp Panagiotis Symeonidis and Eleftherios Tiakas and Yannis Manolopoulos (2010). Tran-sitive Node Similarity for Link Prediction in Social Networks with Positive and Negative Links Proceedings of the ACM Conference Series on Recommender Sys-tems 2010, pp 川 前 徳 章, 坂 野 鋭, 山 田 武 士, 上 田 修 功 (1997). ユーザの 嗜 好 の 時 系 列 性 と 先 行 性 に 着 目 した 協 調 フィルタリング. 電 子 情 報 通 信 学 会 論 文 誌 D Vol.J92-D No.6,pp

73 BCCWJ 図 書 館 サブコーパス 全 テキストへの 文 体 情 報 付 与 結 果 の 分 析 柏 野 和 佳 子 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) 立 花 幸 子 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 保 田 祥 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 飯 田 龍 ( 東 京 工 業 大 学 大 学 院 情 報 理 工 学 研 究 科 ) 丸 山 岳 彦 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) 奥 村 学 ( 東 京 工 業 大 学 精 密 工 学 研 究 所 ) 佐 藤 理 史 ( 名 古 屋 大 学 大 学 院 工 学 研 究 科 ) 徳 永 健 伸 ( 東 京 工 業 大 学 大 学 院 情 報 理 工 学 研 究 科 ) 大 塚 裕 子 (はこだて 未 来 大 学 メタ 学 習 センター) 佐 渡 島 紗 織 ( 早 稲 田 大 学 留 学 センター) 椿 本 弥 生 (はこだて 未 来 大 学 メタ 学 習 センター) 沼 田 寛 (はこだて 未 来 大 学 メタ 学 習 センター) Writing Style Annotation for the Library Subcorpus of the Balanced Corpus of Contemporary Written Japanese Wakako Kashino (Dept. Corpus Studies, NINJAL) Sachiko Tachibana (Center for Corpus Development, NINJAL) Sachi Yasuda (Center for Corpus Development, NINJAL) Ryu Iida (Dept. Computer Science Graduate School of Information Science and Engineering, Tokyo Instiute of Technology) Takehiko Maruyama (Dept. Corpus Studies, NINJAL) Manabu Okumura (Precision and Intelligence Laboratory, Tokyo Institute of Technology) Satoshi Sato (Graduate School of Engineering, Nagoya University) Takenobu Tokunaga (Dept. Computer Science Graduate School of Information Science and Engineering, Tokyo Instiute of Technology) Hiroko Otsuka (Center for Meta-Learning, Future University Hakodate) Saori Sadoshima (Center for International Education, Waseda University) Mio Tsubakimoto (Center for Meta-Learning, Future University Hakodate) Hiroshi Numata (Center for Meta-Learning, Future University Hakodate) 1.はじめに 本 研 究 は, 国 立 国 語 研 究 所 の 共 同 研 究 プロジェクト テキストの 多 様 性 を 捉 える 分 類 指 標 の 策 定 ( 平 成 21~24 年 度 )の 成 果 報 告 である 現 代 日 本 語 書 き 言 葉 均 衡 コーパス (BCCWJ)の 図 書 館 サブコーパスには,10,551 の 書 籍 サンプルが 収 録 されている 本 研 究 ではそのコーパスをより 有 効 に 活 用 し,テキスト 研 究 を 進 めるために, 書 籍 テキストの 多 種 多 様 な 形 式, 内 容, 表 現 に 関 わる 特 徴 を 捉 えるための 分 類 指 標 の 設 計 と 付 与, 検 証 とを 行 ってきた( 柏 野 奥 村 2012, 柏 野 ほか 2012, 柏 野 ほか 2012a, 柏 野 ほか 2012b, 保 田 ほか 2012, 保 田 ほか 2012a,2012b) コーパスへ 文 体 情 報 を 付 与 することの 重 要 性 は,EAGLES(1996) 等 より 議 論 され, 例 え ば Lee(2001)によって,British National Corpus(BNC)への 付 与 が 実 現 されている また, BCCWJ に 収 録 されるテキストの 文 体 を 計 量 的 に 考 察 する 試 みがすでにいくつか 行 われてい る( 小 磯 ほか 2008,2011, 間 淵 ほか 2010) しかしながら,サブコーパスに 収 録 される 約 1 waka@ninjal.ac.jp 63

74 万 という 大 量 の 書 籍 サンプルすべてを 精 査 し, 体 系 的 に 文 体 情 報 を 付 与 するような 試 みは, 本 プロジェクトの 実 践 がはじめてのことである これまで, 柏 野 ほか(2012), 柏 野 ほか(2012a,2012b)において 述 べてきたとおり,ア ノテーション 作 業 は 次 の 二 段 階 で 行 った 1 主 に 形 式 による 判 定 を 行 う 構 造 的 に 単 純 なテキストタイプ( 例 : 章 節 構 造 )であれ ば2の 細 分 類 の 対 象 とする 2 内 容 表 現 の 細 分 類 をする 専 門 度 ( 幼 児 小 学 生 ~ 専 門 家 :5 段 階 ), 客 観 度 (と ても 客 観 的 ~とても 主 観 的 :4 段 階 ), 硬 度 (とても 硬 い~とても 軟 らかい:4 段 階 ), くだけ 度 (とても どちらかといえば くだけていない:3 段 階 ), 語 りかけ 性 度 (とて もある どちらかといえば 特 にない:3 段 階 ) の 分 類 指 標 を 付 与 する 上 記 1の 段 階 で 図 書 館 サブコーパスの 10,551 の 書 籍 サンプルのうち,8,887(84%)を 構 造 的 に 単 純 なテキストタイプ と 判 断 し, 上 記 2の 内 容 表 現 の 細 分 類 の 対 象 とした 柏 野 ほか(2012), 柏 野 ほか(2012a,2012b)では,その2のアノテーション 作 業 結 果 に 関 す る 報 告 を 重 ねてきた 本 稿 では,これまで 取 り 上 げなかった,2の 細 分 類 の 対 象 外 とした ものを 取 り 上 げ,それらの 類 型 とアノテーション 作 業 結 果 について 報 告 する 該 当 サンプ ルは, 全 部 で 1,664(16%)である これまで 対 象 外 としたサンプルの 分 類 結 果 まで 分 析 す ることにより, 図 書 館 サブコーパスに 収 録 される 書 籍 サンプルの 全 体 像 と 特 徴 とをより 正 確 に 把 握 することが 狙 いである 本 稿 で 取 り 上 げる 一 群 のテキストを, 以 降 特 徴 的 な 類 型 のテキスト と 呼 ぶこととする 2. 特 徴 的 な 類 型 のテキストのアノテーション 作 業 2.1 特 徴 的 な 類 型 のテキストの 分 類 指 標 柏 野 ほか(2009)では,BCCWJ 構 築 のサンプリングの 過 程 で 観 察 されたサンプルの 多 様 性 を 報 告 した その 際 に, 文 章 形 式 に 特 徴 のあるサンプルとして,Q&A 形 式 ( 例 1), 会 話 形 式 ( 例 2), 引 用 編 集 形 式 ( 例 3)を 取 り 上 げた 例 3 は, 講 義 のあまった 時 間 に 学 生 に 書 かせたものを 集 めたものであるらしい 編 者 がそれらを 引 用 して 編 集 しているものと して, 引 用 編 集 方 式 と 呼 ぶこととする さらに, 紙 面 形 式 に 特 徴 のあるサンプルとし て,コマ 割 りや 図,イラストなどの 視 覚 的 表 現 を 多 用 する 一 群 ( 例 4)を 取 り 上 げた 以 下, 例 を 示 す(サンプルの 出 典 は,BCCWJ のサンプル ID と 書 名 とで 記 す) 例 1:Q&A 形 式 (PB33_00111 環 境 経 営 なるほど Q&A 環 境 先 進 企 業 へのヒント ) Q3 7 マネジメントのための 環 境 会 計 マネジメントのための 環 境 会 計 にはどんなものがありますか? それぞれの 特 徴 を 教 えて 下 さ い A 内 部 環 境 会 計 の 意 義 環 境 会 計 は,その 目 的 により, 外 部 報 告 目 的 の 環 境 会 計 と 内 部 管 理 目 的 の 環 境 会 計 とに 分 類 されています わが 国 では 環 境 省 のガイドラインも 推 進 力 となって, 多 数 の 企 業 が 環 境 会 計 を 外 部 に 公 表 するようになってきた 一 方, 企 業 の 意 思 決 定 に 役 立 つ 内 部 管 理 目 的 の 環 境 会 計 の 研 究 も 進 められています 64

75 例 2: 会 話 形 式 (PB53_00480 感 性 ちゃんと 頭 脳 君 の 対 話 ) 感 性 そういうことか 分 かったわ つまり, 肌 の 表 面 に 何 を 塗 っても,その 物 質 がバリアゾーン を 通 過 して 有 棘 細 胞 層 や 基 底 細 胞 層 にまで 到 達 するわけがない ってことなのね? 頭 脳 そうだよ そんなことは 不 可 能 なんだよ もしもそれが 可 能 だとしたら, 肌 の 防 衛 網 が 機 能 していないことになるから,おそらくそういう 人 は 生 きていけないだろうね 感 性 物 質 のサイズを 小 さく, 細 かくしてもダメなの? 頭 脳 ダメだよ 無 理 だね バリアゾーンが 健 全 な 場 合 には, 水 の 分 子 一 個 ですら 通 さないん だ 例 3: 引 用 編 集 形 式 (PB23_00427 ほろっと 本 音 キラッと 青 春 ) 一 八 歳 ってこんなものかなあ ちょっと 予 定 とはちがう なんだか 毎 日 平 凡 だけど, 毎 日 平 凡 に 過 ごせていることを 幸 せだと 思 う 何 も 特 別 じゃなくて いいと 思 いながら, 毎 日 を 平 凡 に 頑 張 ってます 友 よ! おまえらみんなさめすぎや もっと 毎 日, 感 動 的 に 生 きろよ 例 4:コマ 割 り(PB5n_00141 トヨタだけがなぜ 儲 かるのか!? ) 以 上 の 観 察 に 加 え, 辞 書 形 式 やカタログ 形 式 をもつテキスト( 例 5,6)も 文 章 形 式 に 特 徴 のあるものと 考 えられる 65

76 例 5: 辞 書 形 式 (LBp6_00009 蕎 麦 屋 のしきたり ) 例 6:カタログ 形 式 (LBj6_00025 熱 帯 魚 水 草 カタログ ) 以 上 述 べたようなものを 分 類 するために, 次 のような 指 標 を 設 けた (a) 対 話 系 ( 対 話, 対 談 座 談,インタビュー, 往 復 書 簡,シナリオ,その 他 対 話 形 式 ) (b) 引 用 系 (Q&A 形 式, 投 稿 形 式,その 他 引 用 編 集 形 式 ) (c) 視 覚 表 現 多 用 系 (コマ 割 多 用, 図 解,その 他 写 真 やイラストの 多 用 ) (d) データベースやリスト 系 ( 用 語 解 説, 辞 書 形 式, 見 本 カタログ 形 式,その 他 リスト 形 式 ) 66

77 さらに, 文 体 を 吟 味 する 際, 本 文 であるのか 前 書 き や 後 書 き であるのかは 区 別 すべきと 考 えた また, 内 容 や 表 現 の 文 体 判 断 が 困 難 になるようなものもそ れぞれ 別 扱 いすべきと 考 えた その 結 果 設 けた 指 標 は 次 のものである (e) 前 書 きや 後 書 きである (f) 明 治 時 代 より 以 前 の 古 い 言 葉 が 多 い (g) 外 国 語 が 多 い (h) 数 式 やプログラミング 言 語 などが 多 い (i) 法 律 文 が 多 い (j) 教 育 現 場 で 使 いがたそうである 1 (k) その 他 一 定 量 の 本 文 が 認 めがたい なお, 収 録 サンプルの 中 には, 後 書 き が 本 文 であるテキストが 存 在 する(LBr9_00086 あとがき 大 全 ) この 場 合 は(e)ではない 引 用 編 集 形 式 であるため,(b)の 指 標 が 付 与 されている 2.2 アノテーション 作 業 の 概 要 作 業 対 象 と 内 容 は 次 のとおりである 対 象 テキスト:BCCWJに 収 録 されている 図 書 館 サブコーパス(10,551サンプル)の 書 籍 テ キスト 1テキストの 範 囲 と 長 さ:コーパス 収 録 テキストの 分 類 指 標 とするため,その 一 部 を 字 数 を 揃 えて 抽 出 することはせず,1サンプル 全 体 ( 平 均 3,000 語 )を 範 囲 とする 作 業 ファイル:サンプルを 取 得 した 書 籍 の 紙 面 コピーを 参 照 する 作 業 量 :1セット 約 400~500の 書 籍 テキストに 対 する 指 標 付 与 を 延 べ 約 10 日 で 行 う 内 容 : 下 記 に 該 当 する 場 合 に 指 標 を 付 与 する 排 他 的 ではなく 該 当 するものすべてを 付 与 する (a) 対 話 系,(b) 引 用 系,(c) 視 覚 表 現 多 用 系,(d)データベースやリスト 系,(e) 前 書 き や 後 書 きである,(f) 明 治 時 代 より 以 前 の 古 い 言 葉 が 多 い,(g) 外 国 語 が 多 い,(h) 数 式 やプログラミング 言 語 などが 多 い,(i) 法 律 文 が 多 い,(j) 教 育 現 場 で 使 いがたそう である,(k)その 他 一 定 量 の 本 文 が 認 めがたい 3.アノテーション 作 業 結 果 3.1 分 類 指 標 の 付 与 結 果 今 回 の 対 象 データである 1,664 テキストに 対 する NDC 別 分 類 指 標 の 付 与 結 果 を 表 1 に 示 す 分 類 指 標 は 排 他 的 ではないため 合 計 は 1,664 を 超 える 図 書 館 サブコーパス 収 録 サンプ ルの NDC 別 の 数 と 比 率 は, 図 1 に 示 すとおり 9. 文 学 と 5. 社 会 科 学 が 多 い よって, 表 1 で 9. 文 学 5. 社 会 科 学 が 全 体 的 に 多 いのは,もともとのサンプル 数 の 比 率 の 大 き さに 寄 るところがある しかしながら, 図 2 の NDC 別 分 類 指 標 の 付 与 比 率 をみてみると, 収 録 サンプル 比 率 とは 異 なる 次 のような 特 徴 を 確 認 することができる 1 厳 密 には,(j)は 文 体 判 断 が 困 難 な 類 型 ではない 小 中 学 校 の 教 育 現 場 等 において 用 例 表 示 をする 際 に 避 けた 方 が 無 難 だと 思 われるような, 例 えば, 暴 力 的 な 描 写 や 性 的 な 描 写 を 含 むものを 区 別 するための 指 標 である 文 体 情 報 付 与 のための 指 標 という 目 的 からは 外 れるが,コーパス 活 用 のためのテキスト 整 理 の 指 標 として 設 けたものである 田 野 村 (2009)は,そういったテキストに 対 し 日 本 語 の 学 術 的 研 究 という 観 点 からそれらを 排 除 すべき 理 由 は 本 来 ない が, 危 うい 内 容 のデータは 排 除 ないし 隔 離 するという 処 置 を 講 じる 必 要 があるように 筆 者 には 思 われる と 述 べている この 分 類 はその 試 みの 一 つになると 考 える 67

78 表 1 NDC 別 分 類 指 標 の 付 与 結 果 (1,664 テキスト) NDC (a) 対 話 サンプル 数 系 (b) 引 用 系 (C) 視 覚 表 現 多 用 系 (d)データ ベースや リスト 系 (e) 前 書 きや 後 書 きである (f) 明 治 時 代 より 以 前 の 古 い 言 葉 が 多 い (g) 外 国 語 が 多 い (h) 数 式 やプログ ラミング 言 語 など が 多 い (i) 法 律 文 が 多 い (j) 教 育 現 場 で 使 い がたそう である (k)その 他 一 定 量 の 本 文 が 認 めがたい 0. 総 記 哲 学 歴 史 社 会 科 学 自 然 科 学 技 術 産 業 芸 術 言 語 文 学 n.なし 計 図 1 図 書 館 サブコーパス 収 録 サンプルの NDC 別 の 数 と 比 率 (DVD 収 録 現 代 日 本 語 書 き 言 葉 均 衡 コーパス 利 用 の 手 引 第 1.0 版 (2011 年 )より) 図 2 NDC 別 分 類 指 標 の 付 与 比 率 (1,664 テキスト) 68

79 指 標 の(a)(b)(e)は,NDC の 区 別 なく, 広 く 用 いられている 形 式 である 指 標 の(c)は, 5. 技 術 7. 芸 術, n.なし に 多 い これは 5. 技 術 にコンピュー タのマニュアル 等 が 多 く,そこにキャプチャ 画 面 が 多 用 されていること, 7. 芸 術 に 図 画 が 多 く 提 示 されていること, n.なし にカタログ 状 の 紙 面 が 多 いことに 起 因 すると 思 われる 指 標 の(d)は, 6. 産 業 と 8. 言 語 に 多 い 6. 産 業 には 用 語 解 説 が, 8. 言 語 に は 辞 書 形 式 がそれぞれ 多 用 されることによるものと 考 えられる 指 標 の(f)は, 3. 歴 史 が 多 くを 占 める 歴 史 を 扱 うテキストの 中 で 古 い 言 葉 が 多 用 されるからであろう ただし, 該 当 サンプル 数 はそもそも 少 ない 指 標 の(g)は, 8. 言 語 が 大 半 を 占 める 外 国 語 のテキストで 外 国 語 が 本 文 に 入 り 込 んでいるケースが 多 いためであろう ただし, 該 当 サンプル 数 はそもそも 少 ない 指 標 の(h)は, 0. 総 記 4. 自 然 科 学 が 大 半 を 占 める 前 者 にはコンピュータのプロ グラミング 言 語 が, 後 者 には 数 式 が,それぞれ 多 用 されているためであろう 指 標 の(i)は, 3. 社 会 科 学 の 比 率 が 高 い 法 学 を 含 むこの NDC で, 法 律 が 多 く 引 用 されていることがうかがえる 指 標 の(j)は 9. 文 学 が 非 常 に 多 くを 占 める 暴 力 的 な 描 写 や 性 的 な 描 写 を 含 む 小 説 がこの NDC に 入 っているためである 4.おわりに BCCWJ に 収 録 する 図 書 館 サブコーパスの 有 効 活 用 を 可 能 とするために, 特 徴 的 な 類 型 のテキスト に 分 類 指 標 を 人 手 付 与 した 作 業 結 果 を 報 告 した 多 種 多 様 な 形 式 をもつサン プルがどの NDC にどの 程 度 収 録 されているかを 明 らかにした 特 に,テキスト 形 式 の 選 択 に 関 し,(a) 対 話 系,(b) 引 用 系 のテキスト 形 式 は NDC の 区 別 なく 多 用 されていること,(c) 視 覚 表 現 多 用 系 は, 5. 技 術 7. 芸 術 に,(d)データベースやリスト 系 は, 6. 産 業 8. 言 語 に 選 択 的 に 多 用 されていることを 確 認 することができた プロジェクト 終 了 に 際 し,BCCWJ の 図 書 館 サブコーパスに 収 録 される 10,551 サンプルの 全 ての 分 類 結 果 についてもまとめ 中 である その 成 果 報 告 と 分 類 結 果 を 近 いうちに 公 開 す る 予 定 でいる 本 成 果 に 基 づき,さらに 文 体 的 な 特 徴 を 支 える 言 語 表 現 の 分 析 を 進 め, 辞 書 記 述 への 応 用 を 具 体 的 に 考 えていきたい 謝 辞 本 研 究 は, 国 立 国 語 研 究 所 の 共 同 研 究 プロジェクト テキストの 多 様 性 を 捉 える 分 類 指 標 の 策 定 に 基 づくものです また,BCCWJ の 構 築 は, 文 部 科 学 省 科 学 研 究 費 補 助 金 特 定 領 域 研 究 代 表 性 を 有 する 大 規 模 日 本 語 書 き 言 葉 コーパスの 構 築 :21 世 紀 の 日 本 語 研 究 の 基 盤 整 備 ( 平 成 18~22 年 度, 領 域 代 表 者 : 前 川 喜 久 雄 )による 補 助 を 得 たものです 文 献 EAGLES. (1996). EAGLES Preliminary recommendation on Text Typology, EAGLES Document EAG TCWG TTYP/P, Version of Jun Lee, Y. D. (2001) Genres, Registers, Text Types, Domains, and Styles: Clarifying the Concepts and Navigating a Path Through the BNC Jungle, Language Learning & Technology, 5:3, pp 柏 野 和 佳 子, 奥 村 学 (2012) 書 籍 テキストへの 分 類 指 標 人 手 付 与 の 試 み 現 代 日 本 語 書 き 言 葉 均 衡 コーパス の 収 録 書 籍 を 対 象 に 言 語 処 理 学 会 第 18 回 年 次 大 会 予 稿 集 pp

80 柏 野 和 佳 子, 立 花 幸 子, 保 田 祥 (2012) 書 籍 テキストをその 形 式, 内 容, 表 現 に 関 わる 特 徴 によって 分 類 する ことば 工 学 研 究 会 41,pp 柏 野 和 佳 子, 立 花 幸 子, 保 田 祥, 丸 山 岳 彦, 奥 村 学, 佐 藤 理 史, 徳 永 健 伸, 大 塚 裕 子, 佐 渡 島 紗 織 (2012a) テキストの 硬 さと 軟 らかさの 考 察 現 代 日 本 語 書 き 言 葉 均 衡 コー パス の 収 録 書 籍 を 対 象 に 第 1 回 コーパス 日 本 語 学 ワークショップ 予 稿 集,pp 柏 野 和 佳 子, 立 花 幸 子, 保 田 祥, 飯 田 龍, 丸 山 岳 彦, 奥 村 学, 佐 藤 理 史, 徳 永 健 伸, 大 塚 裕 子, 佐 渡 島 紗 織, 椿 本 弥 生, 沼 田 寛 (2012b) 書 籍 テキストへの 文 体 情 報 付 与 の 試 み 第 2 回 コーパス 日 本 語 学 ワークショップ 予 稿 集,pp 柏 野 和 佳 子 丸 山 岳 彦 稲 益 佐 知 子 田 中 弥 生 秋 元 祐 哉 佐 野 大 樹 大 矢 内 夢 子 山 崎 誠 (2009). 現 代 日 本 語 書 き 言 葉 均 衡 コーパス における 収 録 テキストの 抽 出 手 順 と 事 例, 特 定 領 域 研 究 日 本 語 コーパス 平 成 20 年 度 研 究 成 果 報 告 書 (JC-D-08-01), 特 定 領 域 研 究 日 本 語 コーパス データ 班. 小 磯 花 絵, 小 木 曽 智 信, 小 椋 秀 樹, 冨 士 池 優 美, 宮 内 佐 夜 香 (2008) 現 代 日 本 語 書 き 言 葉 均 衡 コーパス にもとづくジャンル 間 の 文 体 差 に 関 わる 要 因 の 分 析 社 会 言 語 科 学 会 第 22 回 研 究 大 会 発 表 論 文 集 pp 小 磯 花 絵, 田 中 弥 生, 小 木 曽 智 信, 近 藤 明 日 子 (2011) 評 定 実 験 に 基 づくテキスト 分 類 尺 度 の 体 系 化 の 試 み 現 代 日 本 語 書 き 言 葉 均 衡 コーパス 完 成 記 念 講 演 会 予 稿 集,pp 田 野 村 忠 温 (2009) コーパスを 用 いた 日 本 語 研 究 の 精 密 化 と 新 しい 研 究 領 域 手 法 の 開 発 人 工 知 能 学 会 誌 24-5,pp 間 淵 洋 子, 柏 野 和 佳 子, 山 口 昌 也, 高 田 智 和 (2010) コーパスを 用 いたテキスト 分 類 指 標 の 検 討 BCCWJ の 文 書 構 造 情 報 分 析 を 中 心 に 言 語 処 理 学 会 第 16 回 年 次 大 会 予 稿 集 pp 保 田 祥, 柏 野 和 佳 子, 立 花 幸 子 (2012) 総 体 として 印 象 を 与 える 表 現 : 語 りかけ 性 を 有 すると 判 断 する 根 拠 ことば 工 学 研 究 会 41,pp 保 田 祥, 柏 野 和 佳 子, 立 花 幸 子, 丸 山 岳 彦 (2012a) 語 り 性 を 有 する 書 きことばの 典 型 例 の 分 析 第 1 回 コーパス 日 本 語 学 ワークショップ 予 稿 集, pp 保 田 祥, 柏 野 和 佳 子, 立 花 幸 子, 丸 山 岳 彦 (2012b) 語 りかけ 性 を 有 すると 判 断 される 書 きことばの 表 現 第 2 回 コーパス 日 本 語 学 ワークショップ 予 稿 集, pp 関 連 URL EAGLES 国 立 国 語 研 究 所 の 言 語 コーパス 整 備 計 画 KOTONOHA 特 定 領 域 研 究 日 本 語 コーパス 70

81 複 合 機 能 表 現 という の 分 類 にみる MCN コーパスの 方 法 論 検 証 叢 悠 悠 (お 茶 の 水 女 子 大 学 理 学 部 ) 田 中 リベカ(お 茶 の 水 女 子 大 学 理 学 部 ) 中 村 絢 子 (お 茶 の 水 女 子 大 学 理 学 部 ) 酒 向 美 帆 (お 茶 の 水 女 子 大 学 理 学 部 ) 佐 宗 智 子 (お 茶 の 水 女 子 大 学 理 学 部 ) 清 水 蘭 (お 茶 の 水 女 子 大 学 理 学 部 ) 劉 月 晴 (お 茶 の 水 女 子 大 学 理 学 部 ) 川 添 愛 ( 国 立 情 報 学 研 究 所 ) 戸 次 大 介 (お 茶 の 水 女 子 大 学 院 人 間 文 化 創 成 科 学 研 究 科 / 国 立 情 報 学 研 究 所 ) Methodology of the MCN Corpus in the Classification of a Functional Compound toiu Yuyu So (Faculty of Science, Ochanomizu University) Ribeka Tanaka (Faculty of Science, Ochanomizu University) Ayako Nakamura (Faculty of Science, Ochanomizu University) Miho Sako (Faculty of Science, Ochanomizu University) Tomoko Saso (Faculty of Science, Ochanomizu University) Ran Shimizu (Faculty of Science, Ochanomizu University) Yuechin Ryu (Faculty of Science, Ochanomizu University) Ai Kawazoe (National Institute of Informatics) Daisuke Bekki (Graduate School of Humanities and Sciences, Ochanomizu University / National Institute of Informatics) 1. はじめに 自 然 言 語 で 記 述 されるテキストには 書 き 手 にとって 真 であることが 確 実 な 情 報 と そ うでない 情 報 が 混 在 する 例 えば 太 郎 が 結 婚 した という 命 題 について 以 下 のような 文 が 考 えられる 1. 太 郎 が 結 婚 した 2. 花 子 は 太 郎 が 結 婚 したと 言 う 3. 噂 によると 太 郎 が 結 婚 したという 4. 仮 に 太 郎 が 結 婚 したとする このうち 1.は 事 実 だが は 事 実 として 捉 えてはならない なぜなら 書 き 手 にと って 命 題 の 真 偽 がはっきりとしておらず 書 き 手 が 命 題 に 対 して 何 らかの 心 的 態 度 を 持 っ ているためである このように ある 命 題 に 対 する 書 き 手 の 認 識 や 態 度 を 表 す 言 語 表 現 を モダリティという モダリティ 表 現 には という かもしれない といった 様 相 表 現 でない のような 否 定 表 現 ~なら という 条 件 表 現 などがある 人 間 はモダ リティ 表 現 から 情 報 の 確 実 性 を 判 断 しているのである また 上 に 挙 げた 例 文 は Web 上 で 太 郎 結 婚 というキーワード 検 索 を 行 ったとき 71

82 にヒットする 可 能 性 のあるものとしてみることもできる 膨 大 なテキスト 情 報 の 中 から 確 実 性 の 高 い 情 報 を 選 り 抜 くためには 事 実 である 1.と そうでない を 区 別 したいも のである すなわち モダリティ 表 現 に 着 目 することが 必 要 になる 本 研 究 では MCN コーパス( 川 添 ら(2011))のアノテーションガイドラインで 使 用 して いる 言 語 学 的 テストの 改 良 を 行 っている MCN コーパスは モダリティ 表 現 に 意 味 アノテ ーションを 付 与 した 言 語 データである 具 体 的 には 各 表 現 の 用 法 ごとの 分 類 が 示 された ガイドラインを 用 いて テキスト 中 の 表 現 にラベル 付 けしたものである 言 語 学 的 テスト とは 理 論 言 語 学 の 知 識 に 基 づいて 作 成 されたテストで 文 または 文 の 一 部 の 容 認 性 や 適 切 性 を 判 定 するものである MCN コーパスのアノテーションにおいては 言 語 学 的 テスト として ネガティブテスト ( 田 中 ら(2012a, 2012b))を 採 用 しており 各 表 現 に 対 するネ ガティブテストを 用 意 したガイドラインを 作 成 している 本 論 文 では 様 相 表 現 (と)い う とする に 対 する 最 新 のガイドラインについて その 問 題 点 を 考 察 する 本 論 文 では 以 下 第 2 節 で MCN コーパスのガイドラインで 用 いているネガティブテスト の 概 要 を 述 べる 第 3 節 では 実 際 のアノテーション 作 業 で アノテータ 間 の 意 見 が 分 か れやすかった 表 現 について 論 じる 2. MCN コーパスのガイドラインにおける 言 語 学 的 テスト MCN コーパスのアノテーションでは アノテータの 判 断 の 不 一 致 を 避 けるために ネガ ティブテストを 導 入 している ネガティブテストは 文 中 の 表 現 を 別 の 表 現 に 置 き 換 えた ときに 文 として 成 立 しない あるいは 意 味 が 変 化 する 場 合 その 用 法 としてアノテーショ ン 不 可 能 (つまりそのカテゴリに 分 類 されない) という 形 式 をとる ここで 置 き 換 え 不 可 能 であればアノテーション 対 象 ではない としているのは 置 き 換 えが 可 能 という 判 断 よりも 置 き 換 えは 不 可 能 という 判 断 の 方 が アノテータ 間 での 一 致 度 が 高 いとい う 傾 向 が 見 られるためである( 田 中 ら(2012a, 2012b)) ネガティブテストで 置 き 換 え 不 可 と 判 定 された 場 合 その 分 類 に 属 さないことが 断 定 できるため これを 用 いたアノテーシ ョン 作 業 では 消 去 法 で 分 類 先 を 一 つに 特 定 することになる 一 つの 表 現 に 対 する 分 類 先 が 一 意 に 決 定 されることは 一 貫 性 のあるコーパスを 構 築 するにあたって 重 要 である 消 去 法 を 行 った 結 果 として 複 数 のカテゴリが 残 った 場 合 は それらのうち 本 来 の 分 類 先 で ないカテゴリのテストが 不 適 切 であることを 意 味 する MCN コーパスのアノテーションで 使 用 しているガイドラインは 言 語 情 報 の 確 実 性 に 影 響 する 表 現 およびそのスコープのためのアノテーションガイドライン Ver.2.4 ( 川 添 ら (2011))をもとにしている これは 言 語 情 報 の 確 実 性 に 関 わる 表 現 にアノテーションを 付 与 し 機 械 による 確 実 性 判 断 の 基 盤 となるコーパスを 構 築 するために 作 成 されたもので ある もともとのガイドラインには 各 言 語 表 現 について 用 法 別 のカテゴリが 例 文 や 統 語 環 境 などとともに 示 されている しかし これらの 基 準 だけでは ある 表 現 がどのカテゴ リに 属 するかを 判 断 できない 場 合 がある 例 えば 以 下 の 文 中 の という に 対 し 例 文 ベースのガイドラインを 用 いて 他 人 の 認 識 を 表 す (と)いう としてアノテーション 可 能 かを 考 える 1. 太 郎 が 責 任 をとるべきという 人 はどうかしている 2. 太 郎 が 結 婚 したという 話 だ ガイドラインの 記 述 : 72

83 他 人 の 認 識 (と)いう 分 類 : 他 人 の 認 識 ( 他 人 の 報 告 する 事 柄 や 命 題 の 真 偽 に 関 する 他 人 の 判 断 を 表 す 表 現 ) 例 : 今 年 のインフルエンザの 流 行 は 全 国 的 に 遅 れているという 1.および 2.の という は ともに 名 詞 句 を 修 飾 しており 例 文 と 異 なる 形 をとっている ようにみえるが ガイドライン 設 計 者 は 1.は 他 人 の 認 識 としてアノテーション 可 能 であり 2.は 不 可 能 であると 意 図 している 両 者 の 違 いは 専 門 的 な 知 識 を 有 しない 一 般 のアノテー タが 容 易 に 見 出 せるものではない そこで 田 中 ら(2012a, 2012b)は (と)いう を との と (と) 述 べる のそれぞ れに 置 き 換 えるテストを 作 成 し どちらに 置 き 換 え 可 能 かで 別 々のカテゴリに 分 類 するよ うにした 上 の 文 にこの 二 つのテストをそれぞれ 適 用 すると 以 下 のようになる 1a. 太 郎 が 責 任 をとるべきとの 人 はどうかしている 1b. 太 郎 が 責 任 をとるべきと 述 べる 人 はどうかしている 2a. 太 郎 が 結 婚 したとの 話 だ 2b. 太 郎 が 結 婚 したと 述 べる 話 だ 1.の という は と 述 べる の 置 き 換 えは 可 能 だが との に 置 き 換 えると 不 自 然 な 文 になる 一 方 2.は との に 置 き 替 え 可 能 だが と 述 べる に 置 き 換 えることはでき ない このように テストを 用 いると 判 断 がしやすく アノテータ 間 の 一 致 度 も 高 くなる 場 合 が 多 い 無 論 複 数 のアノテータによるアノテーション 結 果 が 完 全 に 一 致 するようなテストを 作 成 することは 難 しい 例 えば 今 回 の 募 金 は 10 万 円 を 目 標 とする という 文 に 対 し と する を にする に 置 き 換 えたとき 容 認 できるか 不 自 然 に 感 じるかは 人 それぞれで ある テスト 適 用 時 に 生 じる 変 化 は 個 々 人 の 言 語 感 覚 に 問 うものであり 容 認 の 可 否 が 分 かれるのは 避 けられない また 太 郎 は 花 子 を 許 さないという という 文 に テストと して わざわざ を 挿 入 したとき 明 らかにニュアンス 上 の 変 化 が 起 こるが それが 意 味 に 影 響 するか 否 かの 判 断 はアノテータに 委 ねられる このような 置 き 換 えや 挿 入 による 語 感 の 変 化 がどれだけ 大 きいと 置 き 換 え 不 可 となるかを 明 確 に 定 義 するのは 事 実 上 不 可 能 である それでもテストを 採 用 しているのは 実 際 にテストを 用 いてアノテーションを 行 った 際 に 例 文 ベースのガイドラインを 使 用 するのに 比 べてアノテータの 判 断 が 容 易 になり 一 致 度 も 向 上 する 傾 向 があるからだ また テストを 使 用 しない 場 合 は 例 文 との 類 似 性 の みから 判 断 するほかないが そうして 得 られたアノテーション 結 果 に 確 たる 根 拠 は 見 出 せ ない テストを 用 いたアノテーションは より 信 頼 性 のあるコーパスを 得 るのに 必 要 な 手 法 であると 考 えられる 3. 現 在 のガイドラインの 問 題 表 1 は (と)いう とする のアノテーションに 対 する 最 新 のガイドラインから 一 部 を 抜 粋 したものである ガイドラインの 完 成 度 は テストをもとにしてアノテーションを 行 った 際 に 分 類 先 が 一 つに 特 定 できたか また アノテータの 判 断 がどれだけ 一 致 して いるかによって 測 られるが 現 在 のガイドラインは 改 良 の 途 上 にあり 問 題 点 が 多 くある 本 節 では 以 下 アノテーション 結 果 の 不 一 致 を 招 く 要 因 となるもののうち アノテータの 73

84 判 断 に 対 する 影 響 が 顕 著 であった 4 つの 問 題 を 取 り 上 げる 表 1: 最 新 のガイドライン( 一 部 抜 粋 ) sem 表 現 別 表 記 特 徴 例 文 テスト 統 語 環 境 備 考 3 いう 人 あるいは 物 と そ その 人 は 山 田 という 呼 ばれ(てい)る [ 動 作 主 (NP)]が という5 との の 名 前 を 関 連 づけ そのホルモンはインスリンという に 置 き 換 えて 意 味 [ 名 前 (NP)]という 区 別 がつきにく る と の 前 には 原 初 めまして 私 山 田 といいます が 変 化 する 場 合 いが という 則 として 固 有 名 詞 で その 人 は 名 前 を 山 田 という はこのカテゴリで [ 動 作 主 (NP)]が 名 の 前 が 固 有 名 あり インスリン の そのホルモンは 名 前 をインスリンという はない 前 を/ 名 を[ 名 前 詞 でも 専 門 用 ような 専 門 用 語 の 一 初 めまして 私 名 前 を 山 田 といいます ( 主 語 が1 人 称 (NP)]という 語 でもない 場 合 般 名 詞 が 現 れること の 場 合 は 違 和 感 は という3 で もある 日 本 には 富 士 山 という 山 があります がある ) はないと 考 えて 語 用 論 的 には とい 富 士 山 という 山 は どこにあるのですか? よい う の 前 の 固 有 名 詞 長 崎 の 名 物 に トルコライスというものがあ ~という の 前 に あるいは 専 門 用 語 の ります 名 前 を/ 名 を~と 指 示 する 対 象 が 話 いう のように 名 し 手 か 聞 き 手 の 少 な 前 を/ 名 を を 補 っ くとも 一 方 にとって 馴 て 意 味 が 変 化 する 染 みのないものであ 場 合 はこのカテゴ ることを 表 す リではない 2 とする 仮 想 的 な 状 況 を 記 述 太 郎 が 犯 人 だったとする その 場 合 アリバ とする を 想 定 [S]とする する 想 定 する 仮 イはどう 説 明 するんだ? する 仮 定 する [NP]を[NP]とする 定 する に 近 い 意 味 無 人 島 に 一 つだけ 物 を 持 っていけるとしよ のいずれにも 置 き をもつ う 君 は 何 を 持 っていく? 換 え 不 可 あるい 運 転 中 に 視 界 が 悪 くなったとします その 場 は 置 き 換 えて 意 味 合 はどうすればよいでしょうか が 変 化 する 場 合 来 年 三 月 までの 収 入 の 合 計 を 300 万 円 とす はこのカテゴリで る その 場 合 税 金 はいくらになるか はない 直 線 AB 上 の 点 を Q とする 3.1 いう 1 いう 2 の 区 別 について 本 ガイドライン 中 の いう 1 は 言 葉 を 発 するという 意 図 的 な 動 作 を 表 す とある また 動 作 主 を 特 定 の 人 物 以 外 に 世 間 一 般 人 々 みんな と 設 定 し 多 くの 場 合 は 明 示 される としている 一 方 いう 2 は 伝 聞 の 意 味 を 持 つ とある 動 作 主 に 関 して は 明 示 されない としている また ~によると とともに 使 われる 場 合 が 多 いとされ ている しかし 動 作 主 が (と)いう の 直 前 にない 場 合 いう 1 か いう 2 かの 決 定 が 困 難 なことがあった 以 下 は 家 庭 訪 問 の 実 態 を 題 材 にした 新 聞 記 事 からの 引 用 である 1. 家 庭 訪 問 は 明 治 初 期 に 不 就 学 児 を 登 校 させるよう 親 を 説 得 する 目 的 で 始 まった 師 範 学 校 付 属 校 のような 中 核 校 から 周 辺 に 広 がっていったのでは と 佐 藤 教 授 はみている ま た 家 庭 と 学 校 の 不 干 渉 が 徹 底 している 欧 米 では 家 庭 訪 問 は 基 本 的 にないという 74

85 表 2: いう 1 および いう 2 表 現 特 徴 例 文 テスト いう 1 言 葉 を 発 するという 意 図 的 太 郎 は 昨 日 渋 谷 で 花 子 を 見 た と 言 う 話 す 主 張 する 述 べる な 動 作 が 意 味 の 中 心 であ 花 子 はまだ 怒 っているようで 太 郎 を 絶 対 に 許 さな 表 現 する 評 価 する 判 る いという 断 する のいずれにも 置 き 換 また NP が という 形 の 項 と 太 郎 が 責 任 をとるべき と 言 う 人 は どうかしてい え 不 可 あるいは 置 き 換 えて して 動 作 主 を 要 求 する( 多 く る 意 味 が 変 化 する 場 合 はこの の 場 合 節 内 に 動 作 主 が 明 示 叶 わない 夢 はない と 人 はいう カテゴリではない される) 花 子 は 太 郎 を 天 才 だと 言 う 動 作 主 が 世 の 人 人 々 その 時 警 官 が 通 りかかったことは 幸 運 だったという わざわざ 口 に 出 して あ みんな 誰 か である 場 しかない えて しつこく のいずれを 合 という2 と 意 味 的 に 近 花 子 が おいしい という 店 には 行 かない 方 がいい 挿 入 しても 意 味 が 不 自 然 に くなるが これは という1 で よ なる 場 合 はこのカテゴリでは ある ない いう 2 伝 聞 の 意 味 をもつ 言 葉 を ニュースによると インフルエンザが 流 行 っていると そう(だ) と 置 き 換 えて 違 和 発 する 動 作 よりも むしろ いう 感 がある 場 合 はこのカテゴリ 言 説 の 存 在 あるいは 言 警 察 の 調 べでは 男 は 以 前 から 現 場 付 近 で 目 撃 さ ではない 説 が 流 布 している 状 態 を 表 れていたという しているもの 駅 前 の 焼 肉 屋 は このあたりで 一 番 おいしいという いわれる いわれている 動 作 主 が 明 示 されない 日 本 人 の9 割 が 何 らかのストレスを 抱 えているとい に 置 き 換 え 不 可 あるいは 語 用 論 的 には 話 者 が 間 接 う 置 き 換 えて 意 味 が 変 化 する 的 な 言 語 情 報 として 得 たこと 世 界 には 自 分 と 同 じ 顔 の 人 間 が7 人 はいるという ( 尊 敬 の 意 味 になる 等 ) 場 合 を 表 す( 直 接 経 験 して 知 って 私 たちの 普 段 の 生 活 の 中 にも 空 海 が 中 国 からもた はこのカテゴリではない いることについては 使 わな らしたというものがあります それは 一 体 何 でしょ い) う 情 報 源 を 表 す ~によると と 私 たちの 普 段 の 生 活 の 中 にも 空 海 が 中 国 からもた 共 起 することが 多 い 情 報 源 らしたというものがあります それは 一 体 何 でしょ が 明 示 されない 場 合 世 間 う 一 般 人 々 専 門 機 関 ある いは 公 的 機 関 の 公 式 発 表 である 例 文 1.の という は 動 作 主 が 明 示 されておらず いう 1 と いう 2 両 方 のテス トが 適 用 可 能 であるため どちらか 一 方 に 分 類 することは 難 しい ここで 注 目 すべき 点 は 欧 米 では 家 庭 訪 問 は 基 本 的 にない という 言 葉 を 佐 藤 教 授 が 実 際 に 発 したのか ある いは 話 者 が 他 の 情 報 源 から 伝 聞 したものなのかというところである この 前 後 の 文 を 参 考 にすれば どちらか 特 定 できる 可 能 性 もあるが 実 際 のアノテーション 時 におけるアノテ ータの 負 担 を 考 慮 すると 一 つの 命 題 を 判 断 するために 広 範 囲 の 文 章 を 参 照 するのはなる べく 避 けたいものである 次 に 1.の 最 後 の 一 文 を 次 のように 換 えてみる 2. 家 庭 訪 問 は 基 本 的 に ない という 75

86 こちらは かぎ 括 弧 をつけたことによって 一 見 佐 藤 教 授 が 発 した 言 葉 のように 感 じら れる しかし このかぎ 括 弧 は 話 者 が 強 調 のためにつけたとも 考 えられ その 場 合 は 佐 藤 教 授 から 直 接 聞 いた 言 葉 でない 可 能 性 がある かぎ 括 弧 がせりふを 表 すものであるか 強 調 のためにつけられたものであるかは 文 章 全 体 を 読 んでもなかなかわかるものではない 新 聞 等 では 既 出 の 人 物 の 発 した 言 葉 が 主 語 を 伴 わず かぎ 括 弧 に 括 られた 形 で 出 現 す ることが 多 々あるが その 場 合 にこのような 問 題 に 直 面 してしまう また ガイドラインにおいては いう 1 の 動 作 主 として 世 間 一 般 人 々 みんな 等 が 挙 げられている しかし これらが 動 作 主 となっている 場 合 は 主 語 を 省 略 する 傾 向 がある 特 に 新 聞 等 においてはそれが 顕 著 で (と)いう の 前 にある 命 題 が 動 作 主 を 明 示 していないが 世 間 一 般 で 言 われていること であるケースが 少 なくない 3. よく 朝 食 を 摂 る 子 供 は 成 績 が 良 い という それは 本 当 なのだろうか? かぎ 括 弧 の 中 は 世 間 一 般 でよく 言 われているという 点 においては 不 特 定 多 数 の 人 物 が 意 図 的 に 発 している 言 葉 である しかし この 文 には 動 作 主 が 明 示 されておらず 話 者 が 伝 聞 したことのようにもとれるため いう 2 としてもアノテーションできてしまう 実 際 いう 1 と いう 2 のテストを 適 用 すると いう 1 のテスト よく~と 話 す よりも いう 2 のテスト よく~といわれる の 方 が 自 然 である これらの 問 題 を 根 本 的 に 解 決 する 方 策 として 省 略 されている 動 作 主 を 補 うことができ るか( 補 ったことによって 文 が 不 自 然 にならないか) といったテストを 追 加 することが 考 えられるが 文 脈 に 応 じて 適 切 な 動 作 主 を 補 うのは 多 くのアノテータにとって 容 易 でな いことが 推 測 される 3.2 (と)いう とする の 命 題 / 名 詞 句 の 判 断 (と)いう と とする のどちらにも 共 通 して 直 前 が 命 題 か 名 詞 句 かの 判 断 が 必 要 となるカテゴリがある 例 えば 3 は 奇 数 である インフルエンザが 流 行 している は 命 題 であり 私 の 赤 いドレス 野 球 をすること は 名 詞 句 である ここで 三 平 方 の 定 理 直 角 三 角 形 の 斜 辺 の 二 乗 は 他 の 二 辺 の 二 乗 の 和 に 等 しい を 考 える 三 平 方 の 定 理 は 紛 れもなく 名 詞 句 である 一 方 直 角 三 角 形 の 斜 辺 を c 他 の 二 辺 をそれぞれ a, b とおくと この 定 理 は a 2 + b 2 は c 2 に 等 しい と 表 せるが これは 命 題 である しかし 同 じ 等 式 を 意 味 する a 2 + b 2 = c 2 が 命 題 であるか 名 詞 句 であるかの 判 断 は 困 難 である そのため a 2 + b 2 = c 2 という 式 の という に 対 して いう 5 い う 7 の 二 つのカテゴリが 候 補 となってしまう 別 の 例 として 自 分 を 含 めて 客 が 4 人 というライヴに 行 ったことがある という 文 を 考 える という の 前 の 部 分 は 一 見 名 詞 句 のように 見 えるが これは 自 分 を 含 めて 客 が 4 人 である から である が 省 略 された 形 となっており 命 題 であるとされる このように 数 式 の 形 になっているものや 語 尾 の である が 省 略 されているものは 統 語 環 境 を 判 定 できず 分 類 の 決 定 時 に 混 乱 を 招 く 恐 れがある 現 在 のガイドラインにお いては 命 題 と 名 詞 句 に 対 する 定 義 が 不 十 分 であるため 今 後 より 幅 広 い 表 現 に 対 応 でき るよう 改 善 する 必 要 がある 76

87 表 3: いう 5 および いう 7 表 現 特 徴 例 文 テスト いう 5 という の 前 の NP として 今 今 日 という 日 を 忘 れないようにしよう ( 補 助 テスト*) 日 お 前 のような 直 示 的 表 お 前 という 人 間 がわからなくなった NP という NP の 形 で 現 や 東 京 のような 固 有 長 年 住 んでいるが 東 京 という 町 には (1) 前 方 NP が 固 有 名 詞 / 専 門 用 語 でない 名 詞 コーヒー のような 一 親 しみがわいてこない 場 合 という5 般 名 詞 が 現 れることが 可 コーヒーという 飲 み 物 は 実 に 奥 が 深 い (2) 固 有 名 詞 / 専 門 用 語 の 場 合 能 ( 前 の NP の 意 味 が 後 ろ ね 1 前 方 NP の 指 示 対 象 が 話 し 手 聞 き 手 の NP の 意 味 に 含 まれてい 犬 や 猫 の 目 には 人 間 という 動 物 がど の 少 なくとも 一 方 にとって 馴 染 みのないも ることを 表 す) のように 映 るのだろう のである という3 前 方 の NP の 意 味 が 後 方 の ボランティアという 生 きがいに 出 会 って 2 双 方 にとってなじみのあるものである NP の 意 味 に 含 まれているこ から 毎 日 が 楽 しくなりました 場 合 という5 とが 常 識 的 に 明 らかな 場 合 相 手 の 女 性 も 私 という 妻 の 存 在 を 知 強 調 の 効 果 らないわけがありません 後 方 の NP が 妻 や 生 きが 私 は 家 族 という 重 荷 を 背 負 って 生 きて い などのロール 概 念 を 表 す いくのには 向 いていない 場 合 前 方 の NP のどの 側 経 済 成 長 という 病 (* 本 の 名 前 ) 面 に 着 目 するかを 限 定 する アメリカという 記 憶 (* 本 の 名 前 ) 効 果 人 間 というものは よほどのことがない 前 後 の NP 間 に 意 味 的 な 包 限 り 考 えを 変 えようとしない 含 関 係 があることが 明 らか それが 男 というものだと 割 り 切 るしかな でない 場 合 それらの 間 に い 包 含 関 係 があるとする( 話 者 まったく 限 度 というものを 知 らないんだ の) 主 張 を 強 調 する 効 果 から いう 7 特 に 意 味 的 な 内 容 はなく 関 子 供 が 高 校 生 や 大 学 生 という 世 帯 は ( 名 詞 or 状 詞 )+という NP の 場 合 : 係 節 的 な 特 徴 を 持 つ[ 命 題 全 世 帯 の 中 でも 特 に 出 費 が 目 立 つ ( 名 詞 or 状 詞 )+(の or な)NP に 置 (S)]と 係 り 先 の[NP]との 間 の 僕 もデビューする 前 は 一 年 間 収 入 が き 換 え 不 可 の 場 合 はこのカテゴリではな つなぎとしての 役 割 のみを 持 全 くないという 時 期 を 過 ごしたこともあり い つ ます ( 動 詞 or 形 容 詞 ) 連 体 形 +という NP この 人 となら 結 婚 してもうまくいくだろ の 場 合 : ( 動 詞 or 形 容 詞 ) 連 体 形 + う という 人 がなかなか 現 れないのよ NP に 置 き 換 え 不 可 の 場 合 はこのカテゴ ね リではない 3.3 いう 6 の 抽 象 名 詞 リストについて 本 ガイドラインでは [ 命 題 ]という[ 名 詞 句 ] という 形 のものを 名 詞 句 が 抽 象 名 詞 であるかどうかで それぞれ いう 6 いう 7 に 分 類 している 文 中 の 名 詞 が 抽 象 名 詞 であるかを 判 断 する 際 には 表 4 の 抽 象 名 詞 リストを 参 照 している しかし 実 際 のアノ テーション 作 業 において 文 中 の 名 詞 がリストにないが リスト 中 のほかの 抽 象 名 詞 と 近 い 意 味 を 持 つ 場 合 判 断 が 困 難 であった 例 えば 教 室 にエアコンを 設 置 してほしいとい う 要 望 があった の 要 望 はリストに 挙 げられていないが それに 類 似 した 表 現 要 求 声 は 含 まれている このように あらかじめリストの 形 で 提 示 できる 抽 象 名 詞 の 数 は 限 られてしまい 現 実 世 界 の 表 現 すべてに 対 応 するのは 原 理 的 に 不 可 能 である 77

88 事 象 ことば 情 報 媒 体 表 4: 抽 象 名 詞 リスト 事 実 真 実 事 態 事 件 こと 出 来 事 事 情 状 況 状 態 症 状 人 事 例 事 例 判 例 現 象 問 題 言 葉 格 言 名 言 せりふ 文 文 句 文 言 遺 言 言 い 方 情 報 ニュース 話 記 事 報 告 知 らせ 便 り メール 電 話 口 コミ 噂 報 道 記 録 声 音 声 明 手 紙 言 語 行 為 ( 発 話 内 行 為 ) 命 令 忠 告 約 束 説 明 発 言 発 表 指 示 主 張 提 案 提 言 要 求 決 定 指 摘 質 問 答 え 思 考 行 為 具 体 的 行 為 感 情 概 念 モダリティ 表 出 内 容 手 順 性 質 意 図 理 解 認 識 反 省 考 え 意 見 見 解 結 論 仮 定 前 提 行 動 行 為 作 業 仕 事 習 慣 感 情 気 持 ち 意 識 感 じ 不 安 希 望 不 満 欲 望 恐 れ 寂 しさ 幸 せ 喜 び 悩 み 心 配 懸 念 疑 問 空 しさ 自 信 概 念 思 想 主 義 知 識 理 屈 理 由 目 的 説 学 説 理 論 法 則 印 象 可 能 性 見 込 み 危 険 態 度 そぶり ふり 表 情 内 容 あらすじ ( 話 の) 流 れ シナリオ 作 戦 手 順 順 序 順 番 手 続 き 計 画 企 て 予 定 プロジェクト 性 質 特 性 側 面 一 面 点 利 点 長 所 短 所 特 徴 観 点 いう 6 のテスト: という の 後 の NP が 命 題 (あるいは 命 題 の 集 合 )を 意 味 する 抽 象 名 詞 ( 句 )でない 場 合 はこのカテゴリではない ( ただし というもの の 場 合 は もの と 同 一 指 示 関 係 を 持 つ 名 詞 の 種 類 が 抽 象 名 詞 ( 句 )であるかを 考 える) いう 7 のテスト: ( 名 詞 or 状 詞 )+という NP の 場 合 : ( 名 詞 or 状 詞 )+(の or な)NP に 置 き 換 え 不 可 の 場 合 はこのカテゴリではない ( 動 詞 or 形 容 詞 ) 連 体 形 +という NP の 場 合 : ( 動 詞 or 形 容 詞 ) 連 体 形 +NP に 置 き 換 え 不 可 の 場 合 はこのカテゴリではない ( ということ の 場 合 は こと が 抽 象 名 詞 句 のいずれかに 解 釈 可 能 な 場 合 が 多 い) 3.4 として 3 の 慣 用 表 現 について 3.3 項 と 類 似 した 問 題 が として 3 でも 生 じる このカテゴリは 結 果 として 時 と して などといった 慣 用 表 現 に 特 化 したもので 例 文 の 項 目 に 代 表 的 な 表 現 がいくつか 提 示 されており 例 文 に 含 まれていない 表 現 については 慣 用 表 現 かどうかの 判 断 がアノテ ータに 委 ねられている しかし 慣 用 表 現 かどうかについての 認 識 には 個 人 差 がある 例 えば 感 じとして という 表 現 について 慣 用 表 現 である という 意 見 と 単 なる 言 い 回 しである という 考 えに 分 かれる 傾 向 があった そもそも 慣 用 表 現 と 言 い 回 しをどう 区 別 するのかも 自 明 ではない 78

89 表 5: として 1 および として 3 表 現 特 徴 例 文 テスト として 1 ~という 位 置 づ 山 田 氏 を 課 長 として 採 用 する 予 定 [NP を][NP として] という 形 で 出 現 し けで とほぼ 同 大 人 として 恥 ずかしくないのか ている 場 合 : [NP として][NP を] の 順 義 賞 金 として 二 十 万 円 が 贈 られます 序 に 入 れ 替 えることができない 入 れ ~という 立 場 働 きがいのある 会 社 として 注 目 されている 企 業 替 えると 意 味 が 変 化 する 場 合 はこのカ で ~という 役 テゴリではない 割 で ~という [NP として]を 省 略 することができない 名 目 で などと 言 省 略 すると 意 味 が 変 化 する 場 合 はこの い 換 えると 自 然 な カテゴリではない 場 合 がある [NP として] 単 独 で 出 現 した 場 合 : ~と いう 位 置 づけで ~という 立 場 で ~ という 役 割 ( 役 職 )で ~という 名 目 で のいずれにも 置 き 換 え 不 可 あるいは 置 き 換 えて 意 味 が 変 化 する 場 合 はこの カテゴリではない として 3 慣 用 的 な 表 現 原 則 として 部 外 者 の 立 ち 入 りを 禁 ずる 結 果 として その 年 の 合 格 者 はたったの 五 人 だっ た 人 生 には 時 として 何 をしてもうまくいかないこと がある 誰 一 人 として 理 解 してくれない 一 日 として 忘 れたことがない 遅 々として 進 まない 彼 の 行 方 は 杳 として 知 れない 一 見 単 なる 言 い 回 しとの 区 別 がしにくい 慣 用 表 現 であるが 単 独 のカテゴリを 設 ける のは 妥 当 なのだろうか 以 下 の 文 を 考 える 1. それは 原 則 としてしっかり 押 さえておく 必 要 がある 2. 原 則 として 部 外 者 の 立 ち 入 りを 禁 ずる 1.の として は 位 置 づけの 働 きを 持 つので として 1 に 分 類 される 一 方 2.の 原 則 として は 慣 用 表 現 である こちらは 副 詞 的 な 役 割 であり 文 中 から 除 いたときに 程 度 上 の 変 化 はあっても 重 要 な 情 報 の 欠 落 は 生 じない このことから 慣 用 表 現 の とし て は ほかのカテゴリと 明 白 に 異 なる 機 能 を 持 つため 特 別 なカテゴリを 設 ける 必 要 が あると 筆 者 らは 考 えている 文 中 の 表 現 が 慣 用 表 現 であるか 否 かの 判 断 は 一 般 のアノテータには 困 難 である その ため 筆 者 らは 慣 用 表 現 を 列 挙 したリストをガイドラインで 提 示 し リストに 含 まれない 表 現 は 慣 用 表 現 ではない というテストを 今 後 追 加 する 予 定 である このようなリストの 作 成 にあたって 3.3 項 で 述 べたような 問 題 が 危 惧 されるが 慣 用 表 現 は 抽 象 名 詞 に 比 べる と 数 が 限 られている よって リストにはないが 慣 用 表 現 であると 判 断 した 場 合 はテスト 設 計 者 にフィードバックし その 過 程 を 通 してリストの 内 容 が 収 束 していくことが 期 待 で 79

90 きると 考 えている 4. おわりに 本 稿 では MCN コーパスにおけるアノテーションの 問 題 点 を 考 察 した 今 後 より 一 貫 性 のあるアノテーション 結 果 が 得 られるよう テストの 改 良 を 行 う 方 針 である 文 献 田 中 リベカ 小 池 恵 里 子 戸 次 大 介 川 添 愛 (2012a) 言 語 学 テストに 基 づく 意 味 アノテー ションのガイドライン 設 計 確 実 性 判 断 に 関 わる 表 現 を 中 心 に 言 語 処 理 学 会 第 18 回 年 次 大 会 発 表 論 文 集, pp 田 中 リベカ 川 添 愛 戸 次 大 介 (2012b) MCN コーパス: 言 語 学 的 テストに 基 づくモダリ ティ アノテーションの 理 論 と 実 証 国 立 国 語 研 究 所 第 2 回 コーパス 日 本 語 学 ワークシ ョップ 予 稿 集, pp 川 添 愛 齊 藤 学 片 岡 喜 代 子 崔 栄 殊 戸 次 大 介 (2011) 言 語 情 報 の 確 実 性 に 影 響 する 表 現 およびそのスコープのためのアノテーションガイドライン Ver.2.4 Technical Report of Department of Information Science, Ochanomizu University, OCHA-IS

91 () Comparison of Syntactic Dependency Annotation Schemata Masayuki Asahara (Center for Corpus Development, NINJAL) 1. Penn Treebank (Marcus et al. (1993)) (Head percolation rules) (projective) (Magerman (1994), Collins (1999), Yamada and Matsumoto (2003)) Wh (topicalization) (cleft) Johansson and Nugues (2007) (gapping) Penn Treebank (secondary edge) (trace) KNB (Kyoto-University and NTT Blog ) ( KC ; (2000)) ( CSJ ; (2004)) ( BCCWJ ; (2013)) KNB 2. 1 masayu-a@ninjal.ac.jp 81

92 BCCWJ D D D DUMMY Z Parallel Parallel 1 D D Z BCCWJ Parallel Apposition Generic - DUMMY ChaKi (Matsumoto et al. (2005)) DUMMY CSJ KC, BCCWJ D CSJ D BCCWJ BCCWJ D Parallel CSJ KC P 82

93 BCCWJ D D D D D CSJ KC Parallel P Parallel D CSJ KC P BCCWJ D CSJ KC Parallel CSJ KC P BCCWJ BCCWJ CSJ KC P D D D P CSJ KC I pseudo projective (Nivre and Nilsson (2005)) BCCWJ 83

94 BCCWJ D D D D D D CSJ KC Parallel P I I BCCWJ BCCWJ D D D D CSJ KC P Parallel 3.2 BCCWJ Apposition D CSJ KC A BCCWJ D F D CSJ KC A Apposition F BCCWJ CSJ KC 84

95 3.3 BCCWJ CSJ BCCWJ Generic D CSJ A2 KC BCCWJ D CSJ D D D A2 Generic 3.4 KC Strictly Head Final BCCWJ CSJ CSJ R BCCWJ BCCWJ DUMMY BCCWJ F D CSJ R DUMMY 3.5 KC BCCWJ CSJ CSJ X BCCWJ ChaKi.NET Dependency Panel BCCWJ CSJ D D D X 85

96 3.6 KC BCCWJ CSJ CSJ BCCWJ B CSJ B+ KC BCCWJ CSJ D 3.7 B B+ BCCWJ supersentence supersentence supersentence BCCWJ supersentence BCCWJ Z CSJ KC BCCWJ D D D D D D DUMMY Z Z 3.8 KC BCCWJ CSJ CSJ 86

97 3.8.1 CSJ F DUMMY BCCWJ F DUMMY BCCWJ CSJ F F DUMMY Z CSJ C DUMMY BCCWJ F DUMMY BCCWJ / CSJ BCCWJ F/ CSJ C D D D D D DUMMY BCCWJ Z/ CSJ undef BCCWJ ( D ) BCCWJ D D D D D Parallel 87

98 3.8.3 CSJ E DUMMY BCCWJ F DUMMY BCCWJ CSJ F D E DUMMY Z DUMMY CSJ Y DUMMY BCCWJ Z DUMMY BCCWJ CSJ DUMMY Y Z Z DUMMY CSJ N DUMMY BCCWJ F DUMMY BCCWJ / CSJ BCCWJ F/ CSJ N D D D DUMMY BCCWJ Z/ CSJ undef 3.9 BCCWJ (1974) (2013) 88

99 BCCWJ ( ) CSJ KC D - D D (Parallel) P P D (Parallel) I I D (Apposition) A A D (Generic) A2 A D (Disfluency) D D - R BCCWJ - CSJ KC B - B+ BCCWJ () CSJ KC F - F F - ForD C D ForD - E D Z - Y F - F - N F - URL F - D - X (A ) D (Foreign) D (Foreign) K( S1 E1) Z - BCCWJ () CSJ KC - S: ( ) F (Disfluency) S: ( S1 E1) CSJ D S: (S1) (E1) BCCWJ Disfluency BCCWJ F DUMMY CSJ BCCWJ URL BCCWJ F DUMMY URL CSJ K K (S1) (E1) BCCWJ Foreign 89

100 CSJ S ( ) 4. (2013) Collins, Michael J. (1999). Head-driven statistical models for natural language. Unpublished doctoral dissertation, University of Pennsylvania. Johansson, Richard, and Pierre Nugues (2007). Extended constituent-to-dependency conversion for english. Proc. of The 16th Nordic Conference of Computational Linguistics (NODALIDA- 2007). Magerman, David M. (1994). Natural language parsing as statistical pattern recognition. Unpublished doctoral dissertation, Stanford University. Marcus, Mitchell P., Beatrice Santorini, and Mary Ann Marcinkiewicz (1993). Building a large annotated corpus of english: the penn treebank. Computational Linguistics, 19:2, pp Matsumoto, Yuji, Masayuki Asahara, Kou Kawabe, Yurika Takahashi, Yukio Tono, Akira Ohtani, and Toshio Morita (2005). Chaki: An annotated corpora management and search system. Proc. of the Corpus Linguistics Conference Series (Corpus Linguistics 2005). Nivre, Joakim, and Jens Nilsson (2005). Pseudo-projective dependency parsing. Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics (ACL 05), pp Ann Arbor, Michigan: Association for Computational Linguistics. Yamada, Hiroyasu, and Yuji Matsumoto (2003). Statistical dependency analysis with support vector machines. Proc. of 8th International Workshop of Parsing Technologies (IWPT-2003). (2013) (Version 0.6) Technical report, (2004) (Version 1.0) Technical report, (2000) (Version 1.8) Technical report, (1974) 90

101 結 果 こういうことが 言 えそうです ~コーパスにみる 名 詞 の 文 副 詞 的 用 法 ~ 東 泉 裕 子 ( 東 京 学 芸 大 学 ) 高 橋 圭 子 ( 東 洋 大 学 ) Result, We Can Say Something like That. Usage of Sentential-Adverb-like Nouns in Some Corpora Yuko Higashiizumi (Tokyo Gakugei University) Keiko Takahashi (Toyo University) 1.はじめに 現 代 日 本 語 においては 名 詞 が 副 詞 のように 使 われることがある 例 えば 結 果 や 挙 げ 句 には 次 のような 用 例 が 観 察 される (1) (ゴミの 分 別 の 説 明 ) 結 果 松 戸 市 では7つに 分 類 されました (1998 年 5 月 27 日 NHK ニュース) (2) 通 い 続 けている 鍼 治 療 院 の 院 長 から 身 体 の 異 変 を 指 摘 され ガンが 発 見 されたのだ 結 果 早 期 治 療 に 結 びついた (BCCWJ: 段 勲 私 はこうして がん を 克 服 した 1997 年 ) (3) 向 井 は 中 浜 にこだわった 挙 げ 句 迷 宮 入 りした (BCCWJ: 東 野 圭 吾 週 刊 プレイボーイ 2002 年 ) これらの 表 現 は 従 来 た 結 果 その 結 果 (として) た 挙 げ 句 (の 果 てに) その 挙 げ 句 (に) などとされていたものから 先 行 の その 後 続 の として に などが 脱 落 し 単 独 で 用 いられるようになったものである 1 しかし 脱 落 の 前 後 で 意 味 や 機 能 は 変 わらない こういった 脱 落 後 の 表 現 は (1)~(3)の 例 に 見 るように 文 頭 で 用 いら れ 文 副 詞 的 に 文 全 体 にかかることが 多 い そこで 本 研 究 ではこれらの 表 現 を 名 詞 の 文 副 詞 的 用 法 と 呼 ぶこととする そして 歴 史 語 用 論 の 観 点 から このような 用 法 の 広 がりの 様 相 と 変 化 の 道 筋 の 持 つ 意 味 を 考 察 するために 結 果 と あげく ( あげく 挙 (げ) 句 揚 (げ) 句 を あげく で 代 表 させる)を 対 象 として 現 代 語 と 近 代 語 のコーパスを 用 いて 調 査 する 2. 先 行 研 究 2.1 歴 史 語 用 論 高 田 他 (2011)によれば 語 用 論 的 現 象 を 歴 史 的 に 研 究 する 歴 史 語 用 論 は 1990 年 代 後 半 1 見 坊 (1988)はこのような 結 果 の 用 法 を 副 詞 的 用 法 と 呼 んでいる また 見 坊 (1990)では 究 極 結 果 正 直 事 実 の 用 例 を 挙 げ 同 じ 型 に 属 する 定 着 した 語 形 である と 指 摘 している 91

102 に 登 場 した 新 しい 学 問 分 野 の 名 称 であるが 同 様 の 問 題 意 識 をもった 研 究 はかなり 以 前 か ら 行 われていたという これまでの 研 究 成 果 から 語 の 意 味 が 実 質 的 意 味 を 表 すものか ら 話 し 手 の 主 観 的 な 意 味 を 表 す 方 向 へと 変 化 していくことが その 逆 方 向 の 変 化 よりは 多 いという 傾 向 が 指 摘 されている 例 えば 英 語 の 名 詞 fact は in fact という 形 で 実 際 に おいて という 意 味 を 表 すようになり やがて たしかに しかしながら という 話 し 手 の 真 実 性 に 対 する 判 断 を 表 す 副 詞 句 となり 次 いで 前 述 したことよりこれから 述 べる ことのほうが 大 切 である ということを 知 らせる 談 話 標 識 (discourse marker)として 用 いら れるようになったという 本 研 究 では 結 果 あげく といった 名 詞 の 文 副 詞 的 用 法 もこれと 同 様 のプロセス をたどっているのではないかという 仮 説 から 出 発 する 2.2 コーパスによる 量 的 調 査 髙 橋 (2012)では 現 代 日 本 語 書 き 言 葉 均 衡 コーパス(BCCWJ) と 日 本 語 用 例 検 索 を 用 い 実 際 事 実 結 果 正 直 ある 意 味 といった 名 詞 句 の 用 法 の 変 化 を 調 査 した BCCWJ は 2001 年 以 降 のデータが 多 い 他 方 日 本 語 用 例 検 索 は 青 空 文 庫 ( 収 録 された 約 3400 作 品 の 中 から 用 例 検 索 を 行 え るサイトで 明 治 から 昭 和 20 年 代 頃 までのデータが 多 い 調 査 の 結 果 対 象 とした 名 詞 句 ではいずれも 名 詞 から 文 副 詞 的 用 法 へのプロセスをた どっているが その 時 期 は 語 句 によって 異 なることが 明 らかになった BCCWJ と 日 本 語 用 例 検 索 の 間 で 顕 著 な 相 違 が 現 れたのは 正 直 ある 意 味 である ある 意 味 の 各 コーパスにおける 用 法 は 表 1のように 分 類 できた 表 1 BCCWJ と 日 本 語 用 例 検 索 における ある 意 味 の 用 法 BCCWJ 日 本 語 用 例 検 索 文 副 詞 的 142( 29%) 0( 0%) 中 間 的 340( 68%) 117( 84%) 名 詞 句 15( 3%) 23( 16%) 計 497(100%) 140(100%) 表 1において 中 間 的 とは 対 象 とする 表 現 (この 場 合 は ある 意 味 ) 自 体 は 名 詞 句 であるが ある 意 味 では ある 意 味 において 等 のように 用 いられ 文 において は 副 詞 句 として 機 能 しているもののことである この 中 間 的 な 表 現 の 種 類 も BCCWJ に おいては ある 意 味 で(は) が 329 例 と 大 半 を 占 め 他 の 形 式 は ある 意 味 において(は) ある 意 味 から 言 うと/ 言 えば ある 意 味 に にしぼられていたのに 対 し 日 本 語 用 例 検 索 では BCCWJ で 見 られる 形 式 に 加 え ある 意 味 から ある 意 味 から 言 えば/ 言 うと/ 言 って ある 意 味 からすれば/して ある 意 味 から 見 れば/ 見 て とバリエ ーションが 豊 富 であった つまり 文 副 詞 化 の 過 程 をたどる 中 で 中 間 的 用 法 も 一 定 の 形 92

103 式 に 収 斂 し 固 定 化 していったと 考 えられる しかし この 調 査 においては 日 本 語 用 例 検 索 の 限 界 もまた 明 らかになった その 最 大 のものは 出 典 となる 青 空 文 庫 の 底 本 がまちまちである( 雑 誌 単 行 本 初 版 やそ れ 以 降 全 集 など)ため 厳 密 な 比 較 には 適 さないことである そこで この 限 界 を 補 う べく 本 研 究 では 太 陽 コーパス を 用 いることを 考 えた 太 陽 コーパス は 明 治 大 正 期 の 雑 誌 太 陽 の 1985 年 から 1925 年 までの 記 事 を 収 録 したものである 3 節 では BCCWJ の 用 例 と 太 陽 コーパス の 用 例 を 比 較 することによって 文 副 詞 化 のプロセ スを 観 察 する 3. 調 査 3.1 調 査 方 法 本 研 究 では BCCWJ と 太 陽 コーパス における 結 果 と あげく の 用 例 を 比 較 し 文 副 詞 的 用 法 が 現 れるプロセスを 観 察 する BCCWJ の 用 例 検 索 には 少 納 言 を 太 陽 コーパス の 用 例 検 索 には 同 梱 の 全 文 検 索 システム ひまわり を 用 いた 3.2 調 査 結 果 上 掲 の 表 1を 利 用 して BCCWJ と 太 陽 コーパス における 結 果 と あげく の 用 法 を 分 類 すると それぞれ 表 2と 表 3のようになる 予 想 通 り 文 副 詞 的 用 法 はどち らの 語 も BCCWJ のほうが 太 陽 コーパス より 多 かった 太 陽 コーパス においては 文 副 詞 的 用 法 と 考 えられる 例 はそれぞれ1 例 のみであっ た 結 果 の 例 (4)は 上 の(2)と 同 様 文 副 詞 的 用 法 と 認 められる (4) 政 本 合 同 をやつて 現 内 閣 を 倒 すなどの 荒 藝 は 出 來 ない 結 果 野 垂 れ 死 ぬまでズラ~~ グツタリで 行 くだらうと 云 ふのだ ( 太 陽 コーパス : 鬼 谷 庵 政 界 鬼 語 1925 年 ) 一 方 あげく については 上 の(3)のような 文 頭 に 現 れる 例 は 皆 無 だった 次 の 例 は 揚 句 が 文 中 に 現 れているが 文 副 詞 的 用 法 の 萌 芽 だと 考 えられる (5) 一 人 ならず 三 人 までも 行 方 が 知 れない 子 供 の 事 だから 無 論 闇 雲 迷 ひ 歩 つて 揚 句 何 處 かでのたれ 死 をするか 野 獸 に 咬 み 殺 されるかだ ( 太 陽 コーパス : 中 村 星 湖 みじか 夜 1917 年 ) 93

104 表 2 BCCWJ と 太 陽 コーパス における 結 果 の 用 法 分 類 表 現 BCCWJ 太 陽 コーパス 文 副 詞 的 結 果 % % N の 結 果 % % 中 間 的 こ/その 結 果 % % ( 副 詞 寄 り) ル/タ 結 果 % % N の 結 果 として % % その 結 果 として % % ル/タ 結 果 として % % 中 間 的 結 果 として % % ( 名 詞 寄 り) その 結 果 において(は) % % 結 果 において(は) % % 結 果 的 には % % 名 詞 名 詞 % % 動 詞 動 詞 % % 合 計 % % 表 3 BCCWJ と 太 陽 コーパス における あげく の 用 法 分 類 表 現 BCCWJ 太 陽 コーパス 文 副 詞 的 あげく % % あげくのはて % % 中 間 的 N の/その+あげく % % ( 副 詞 寄 り) タあげく % % あげく+ 助 詞 % % 中 間 的 あげくのはて+ 助 詞 % % ( 名 詞 寄 り) N の/その+あげく+ 助 詞 % % タあげく+ 助 詞 /copula % % その 他 % % 計 % % さらに 表 2と 表 3からは 表 1の ある 意 味 ほどは 中 間 的 用 法 が 減 っておらず BCCWJ と 太 陽 コーパス における 結 果 と あげく の 用 例 はそれほど 変 化 して いないことが 分 かる ただし 中 間 的 用 法 のうち 太 陽 コーパス にみられた 名 詞 + の 結 果 として その 結 果 として その 結 果 においては は BCCWJ では 例 がなか った 太 陽 コーパス では 多 様 であった 中 間 的 用 法 の 表 現 が BCCWJ では 固 定 化 定 型 化 していったことが 分 かる 94

105 あげく については 単 独 での 文 副 詞 的 用 法 の 増 加 (0.03% 2%)に 加 え あげく のはて という 定 型 表 現 の 増 加 にも 注 目 したい あげくのはて+ 助 詞 が 7%から 14%に 倍 増 したのに 加 え あげくのはて という 名 詞 句 単 独 の 文 副 詞 的 用 法 も 太 陽 コーパス では 皆 無 だったが BCCWJ では 1.33% 出 現 している 4. 考 察 前 節 の 量 的 調 査 の 結 果 から 結 果 あげく の 用 法 について 次 のような 変 化 のプ ロセスを 仮 説 として 提 示 することができる (6) 名 詞 中 間 的 用 法 ( 名 詞 寄 り) 中 間 的 用 法 ( 副 詞 寄 り) 文 副 詞 的 先 行 後 続 部 分 あり 表 現 の 種 類 は 多 様 先 行 後 続 部 分 脱 落 定 型 的 表 現 に 収 斂 これは 髙 橋 (2012)の 実 際 事 実 正 直 ある 意 味 の 調 査 結 果 とも 軌 を 一 に する そして 個 々の 用 例 を 観 察 すると いずれの 名 詞 句 においても (6)のプロセスを 進 むに 従 い 実 質 的 意 味 の 希 薄 化 が 起 こっているようである (7) 結 局 居 住 者 の 承 諾 を 取 らず 無 断 で 立 ち 入 った 案 件 がありました 結 果 居 住 者 は 300 万 円 相 当 の 腕 時 計 と 指 輪 がなくなったと 主 張 し 警 察 を 呼 びました (BCCWJ: Yahoo! 知 恵 袋 2005 年 ) (8) hanamarin さん 的 には 絶 対 にもぉない!と 踏 んでいて 結 果 お 年 玉 クジは 終 了 して いて (BCCWJ: Yahoo! ブログ 2008 年 ) これらの 例 における 結 果 は 因 果 関 係 の 結 果 を 表 すわけではなく そして のよう に 単 に 時 間 の 前 後 関 係 をつないでいるだけのようである 歴 史 語 用 論 の 観 点 からみると 実 質 語 がその 意 味 を 失 い 機 能 語 に 近 い 役 割 を 果 たすようになる 変 化 であり よく 観 察 さ れるケースである また 文 副 詞 的 用 法 を 獲 得 した 名 詞 句 の 中 には 語 用 論 化 し 談 話 標 識 化 したと 考 えら れるものもある (9) 真 似 好 き( 上 手 )だから 日 本 はここまで 発 展 したと 思 えばしかたないのかな?ある 意 味 日 本 らしいのかも (BCCWJ: Yahoo! 知 恵 袋 2005 年 ) (10) その 美 容 師 は ぱっと 見 ておかしくなければいいんじゃないですか と 断 言 正 直 ほとほと 閉 口 しました (BCCWJ: 山 田 みどり はじめての 接 客 サービス 2005 年 ) (9)の 場 合 どのような 意 味 で 日 本 らしい のか 別 の 意 味 なら 日 本 らしさとは 別 の 要 因 95

106 がみえるのか といった 議 論 は 起 こらない (10)の 場 合 も 正 直 であるかないかと 言 った 議 論 は 無 縁 である どちらの 場 合 も 後 続 部 分 の 前 置 きとして これから 述 べる 表 現 が 適 切 かどうかわからないが ある 意 味 では~のように 言 える 正 直 な 気 持 ちを 述 べれば ~ということになる というクッション 的 やわらげ 的 機 能 を 果 たしていると 考 えられる 5.まとめと 課 題 小 規 模 ではあるが 今 回 の 調 査 で 名 詞 の 文 副 詞 的 用 法 が 歴 史 語 用 論 の 知 見 に 沿 うもの であることを 提 示 できた 今 回 は 量 的 調 査 にとどまってしまったが 今 後 1つ1つの 用 法 のパターンを 文 脈 を 考 慮 しつつ 質 的 に 研 究 する 必 要 がある また 本 研 究 で 例 示 した 名 詞 句 の 他 にも 究 極 (において のところ) ( 見 坊 1990) 基 本 ( 的 に) (その) 瞬 間 (そ れに) 対 して などの 文 副 詞 的 用 法 も 増 えているようである こういった 変 化 はどのよう な 語 句 に 生 じやすく それはどのような 要 因 によるのかを 綿 密 に 調 査 検 討 していきたい 謝 辞 本 研 究 の 一 部 は ひと ことば 勉 強 会 において 発 表 したものです 佐 竹 秀 雄 先 生 ( 武 庫 川 女 子 大 学 ) 三 宅 和 子 先 生 ( 東 洋 大 学 )はじめ ご 助 言 をくださった 方 々に 感 謝 申 し 上 げます 文 献 見 坊 豪 紀 (1988) 結 果 ( 副 詞 的 用 法 ) 現 代 日 本 語 用 例 全 集 pp 筑 摩 書 房 見 坊 豪 紀 (1990) 究 極 する 日 本 語 の 用 例 採 取 法 pp 南 雲 堂 高 田 博 行 椎 名 美 智 小 野 寺 典 子 編 著 (2011) 歴 史 語 用 論 入 門 大 修 館 書 店 髙 橋 圭 子 (2012) コーパスにみる 名 詞 句 の 文 副 詞 的 用 法 第 10 回 対 照 言 語 行 動 学 研 究 会 ( コーパス 国 立 国 語 研 究 所 (2005) 太 陽 コーパス ( 国 語 研 究 所 資 料 集 15) 博 文 館 新 社 関 連 URL 国 立 国 語 研 究 所 の 言 語 コーパス 整 備 計 画 KOTONOHA 日 本 語 用 例 検 索 96

107 語 義 曖 昧 性 解 消 の 領 域 適 応 のための 訓 練 データの 選 択 法 ~ 複 数 ドメインからの 選 択 ~ 堀 内 浩 史 郎 ( 東 京 農 工 大 学 工 学 部 情 報 工 学 科 ) 古 宮 嘉 那 子 ( 東 京 農 工 大 学 工 学 研 究 院 ) 小 谷 善 行 ( 東 京 農 工 大 学 工 学 研 究 院 ) Selection of Training Data for Domain Adaptation of Word Sense Disambiguation - Selection from Multiple Domains - Koshiro Horiuchi (Department of Computer and Information Sciences, Faculty of Engineering, Tokyo University of Agriculture and Technology) Kanako Komiya (Institute of Engineering, Tokyo University of Agriculture and Technology) Yoshiyuki Kotani (Institute of Engineering, Tokyo University of Agriculture and Technology) 1.はじめに ターゲットデータと 異 なるドメインのデータ(ソースデータ)で 分 類 器 を 学 習 し,ター ゲットデータに 適 応 することを 領 域 適 応 という.しかし, 語 義 曖 昧 性 解 消 ついて 領 域 適 応 を 行 う 際, 分 類 したいデータごとに 適 切 なソースデータは 異 なる. 近 年 では 複 数 のドメイ ンの 語 義 タグつきコーパスが 入 手 できるため, 分 類 したいデータに 対 して 適 切 なソースデ ータを 選 択 することが 望 ましい. 本 稿 では,ソースデータとして 利 用 できるコーパスを 複 数 を 持 っている 場 合 を 想 定 し, 未 知 のターゲットデータが 現 れた 際 に, 用 例 全 体 の 素 性 の 平 均 ベクトルの 類 似 度 用 例 全 体 の 出 現 素 性 の 類 似 度 用 例 全 体 の 素 性 の 分 布 分 類 器 の 示 す 確 率 を 使 って 訓 練 データの 選 択 を 試 みて, 訓 練 データの 選 択 方 法 として 利 用 できるものがあるか 模 索 する. 2. 関 連 研 究 領 域 適 応 についての 関 連 研 究 として,(Vincent Van Asch,Walter Daelemans(2010))の 異 な るドメインである 訓 練 データとテストデータのコーパス 同 士 の 類 似 度 から, 品 詞 タグづけ タスクにおける 領 域 適 応 時 の 分 類 器 の 正 解 率 を 予 測 する 研 究 がある.この 研 究 では,コー パス 同 士 の 類 似 度 と 正 解 率 の 間 に 線 形 相 関 があることが 示 されている.(Daumé III(2007)) は, 素 性 空 間 を 三 倍 にすることで,さまざまな supervised の 領 域 適 応 に 併 用 でき,さらに 簡 単 に 実 装 できマルチドメインに 拡 張 も 簡 単 であることを 示 した. ( 古 宮, 奥 村 (2012))は, 語 義 曖 昧 性 解 消 について 領 域 適 応 を 行 った 場 合, 最 も 効 果 的 な 領 域 適 応 手 法 はソースデータとターゲットデータの 性 質 により 異 なることを 示 した. 訓 練 データを 選 択 する 研 究 としては,(Komiya and Okumura(2012))の 訓 練 データの 選 択 に 分 類 器 の 確 信 度 を 用 いる 研 究 がある. 全 ての 訓 練 データについて 分 類 器 をつくり, 分 類 したと きの 各 分 類 器 の 示 す 確 信 度 によって 訓 練 データを 選 択 する 手 法 である.さらに, 確 信 度 に 加 えて LOO-bound という 指 標 を 用 いる 研 究 も( 古 宮, 小 谷, 奥 村 (2013))によって 行 われて いる. 本 研 究 でも, 確 信 度 と LOO-bound のような 指 標 を 用 いた 実 験 を 行 うが,( 古 宮, 小 谷, 奥 村 (2013))では 分 類 器 にサポートベクトルマシン(Support Vector Machine, 以 下 SVM) を 用 いているのに 対 して, 本 研 究 では 最 大 エントロピー(Maximum Entropy, 以 下 ME) 法 (Suarez and Palomar(2002))の 分 類 器 を 用 いている 点 が 異 なっている. また,( 古 宮, 小 谷 (2011))では 領 域 適 応 が 行 われる 状 況 によって 最 も 良 い 手 法 が 異 なる とし, 与 えられたデータの 性 質 を 用 いて 三 手 法 からひとつの 手 法 を 選 択 している. 97

108 3. 訓 練 データ 選 択 方 法 いくつかのドメイン(ジャンル)のラベルつきデータを 全 て 訓 練 データとして 利 用 でき る 際 に,ドメインのわからない 未 知 のラベルなしデータを 分 類 したい 場 合 を 考 える. 本 稿 では, 未 知 のテストデータ( 分 類 対 象 のターゲットデータ)に 合 わせた 訓 練 データをいく つかの 手 法 によって 選 択 し, 各 手 法 が 正 解 率 の 向 上 につながるか 調 べる. 実 験 は 次 のよう なステップで 行 う. I. 各 手 法 による 訓 練 データの 選 択 II. Iで 選 択 した 訓 練 データでの 領 域 適 応 ( 分 類 実 験 ) III. 他 の 手 法 で 選 択 した 訓 練 データを 用 いた 場 合 との 語 義 曖 昧 性 解 消 の 正 解 率 の 比 較 ステップ I において, 次 に 示 す 手 法 を 試 みる. i. 類 似 度 を 用 いた 訓 練 データの 選 択 用 例 全 体 の 素 性 平 均 ベクトルの 類 似 度 を 利 用 する 手 法 用 例 全 体 の 出 現 素 性 ベクトルの 類 似 度 を 利 用 する 手 法 ii. 素 性 分 布 の 距 離 を 用 いた 訓 練 データの 選 択 iii. 分 類 器 の 示 す 確 率 を 用 いた 訓 練 データの 選 択 分 類 器 の 分 類 確 率 を 利 用 する 手 法 分 類 器 の 自 信 度 を 利 用 する 手 法 分 類 器 の 分 類 確 率 と 自 信 度 を 利 用 する 手 法 なお, 語 義 曖 昧 性 解 消 の 対 象 単 語 タイプごとに 分 類 器 を 作 成 するため, 訓 練 データの 選 択 は 単 語 のタイプごとに 行 った.また,iii に 関 しては,(Komiya and Okumura(2012))にな らい,テストデータの 用 例 ごとに 選 択 を 行 う 実 験 も 行 った. 3.1 類 似 度 を 用 いた 訓 練 データの 選 択 テストデータと 訓 練 データを 表 すベクトルを 各 ひとつずつ,それぞれの 素 性 ベクトル 集 合 を 用 いて 作 成 し,そのベクトル 同 士 の 類 似 度 を 訓 練 データの 選 択 指 標 として 用 いる.ベ クトルは, 各 要 素 を 足 して 用 例 数 で 割 った 素 性 平 均 ベクトル と, 全 ての 要 素 の OR を 取 った 出 現 素 性 ベクトル の 二 つについて 調 べる. 利 用 する 類 似 度 は,ユークリッド 距 離 (ED),コサイン 類 似 度 (CS),ジャッカード 係 数 (JSD),ダイス 係 数 (DSC),シンプ ソン 係 数 (SSC),ランド 類 似 度 (RS)を 用 いる.なお, 全 ての 類 似 度 についてテストデー タとの 類 似 度 が 最 高 値 であったデータを 訓 練 データにした 場 合 ( 以 後,( 最 大 )と 表 記 )と, 最 小 であったデータを 訓 練 データにした 場 合 ( 以 後,( 最 小 )と 表 記 )の 2 通 りを 調 べる. 3.2 素 性 分 布 の 距 離 を 用 いた 訓 練 データの 選 択 テストデータと 訓 練 データの 素 性 ベクトル 集 合 において 各 素 性 の 分 布 ( 本 稿 では 17 個 の 分 布 )を 作 成 し, 各 素 性 分 布 同 士 の 距 離 を 測 り,その 距 離 の 総 和 が 最 も 小 さくなる 訓 練 デ ータを 選 択 する. 各 素 性 分 布 の 距 離 の 測 定 にはジェンセン シャノン ダイバージェンス を 用 いる. 3.3 分 類 器 の 示 す 確 率 を 用 いた 訓 練 データの 選 択 ME 法 を 用 いて 分 類 を 行 うと, 各 ラベルに 分 類 される 確 率 が 算 出 される.この 確 率 を 分 類 確 率 と 呼 び, 分 類 確 率 の 中 の 最 大 値 を 最 大 分 類 確 率 と 呼 ぶこととする.また, 訓 練 デ ータを 5 分 割 交 差 検 定 した 結 果 を 自 信 度 と 呼 ぶこととする. 自 信 度 は,その 分 類 器 98

109 がその 訓 練 データと 同 じドメインのコーパスをどの 程 度 正 確 に 分 類 できるかを 表 す. 訓 練 データの 選 択 には, 最 大 分 類 確 率 の 平 均 値 が 最 大 となる 訓 練 データを 選 択 する 手 法 と, 自 信 度 を 用 いて 訓 練 データを 選 択 する 手 法,そしてこれら 二 つの 値 の 積 を 用 いて 訓 練 データを 選 択 する 手 法 を 試 みる. 上 記 の 訓 練 データ 選 択 実 験 に 加 えて, 各 用 例 ごとに 分 類 確 率 を 用 いて 訓 練 データの 選 択 する 手 法 を 試 みた. 訓 練 データを 変 えて 分 類 器 を 学 習 し, 学 習 された 分 類 器 の 中 で 最 高 の 分 類 確 率 を 示 した 分 類 器 の 結 果 を 用 例 ごとに 選 択 する. 4. 訓 練 データ 選 択 実 験 4.1 最 大 エントロピー 法 本 実 験 の 分 類 手 段 として ME 法 を 用 いる.ME モデルの 実 現 には(Le Zhang(2011))の Maximum Entropy Modeling Toolkit for Python and C++を 用 いた. 4.2 実 験 データ 実 験 には 現 代 日 本 語 書 き 言 葉 均 衡 コーパス(BCCWJ)(Maekawa (2008))の 白 書 のデータと Yahoo! 知 恵 袋 のデータ,またRWCコーパス(Hashida et al. (1998))の 新 聞 記 事 を 用 いた. 単 語 の 語 義 は 岩 波 国 語 辞 典 ( 西 尾 ら (1994))の 小 分 類 の 語 義 を 採 用 した. 語 義 数 ごとの 単 語 の 内 訳 は,2 語 義 : 場 合, 自 分,3 語 義 : 事 業, 情 報, 地 方, 社 会, 思 う, 子 供,4 語 義 : 考 える,5 語 義 : 含 む, 技 術,6 語 義 : 関 係, 時 間, 一 般, 現 在, 作 る,7 語 義 : 今,8 語 義 : 前,10 語 義 : 持 つ, 12 語 義 : 見 る, 14 語 義 : 入 る,16 語 義 : 言 う,22 語 義 : 手 である. 表 1 ドメインごとの 単 語 の 最 小, 最 大, 平 均 用 例 数 コーパスの 種 類 最 小 最 多 平 均 BCCWJ 白 書 BCCWJ Yahoo! 知 恵 袋 RWC 新 聞 実 験 は, 三 つのドメインのうちひとつのドメインをテストデータとして 利 用 し, 他 の 二 つのドメインのデータから 訓 練 データを 選 択 する.たとえば Yahoo! 知 恵 袋 をテストデー タとした 場 合 は, 訓 練 データの 選 択 肢 は 新 聞 記 事 白 書 新 聞 記 事 + 白 書 の 三 通 り である. 各 ドメインの 各 単 語 ごとに 選 択 実 験 を 行 うので,それぞれの 手 法 に 対 して 計 66 回 の 実 験 を 行 う. 5. 結 果 本 実 験 のベースラインは 利 用 できる 訓 練 データ 二 つのドメインの 両 方 を 利 用 した 場 合 で ある. 表 2に 各 手 法 の 実 験 結 果 を 示 す.なお, 全 ての 手 法 の 中 で 最 も 良 い 正 解 率 を 下 線 に 示 す.また,テストデータのドメインごとに 最 も 良 かった 結 果 に 下 線 を 引 いた.マクロ 平 均 マイクロ 平 均 ともに, 新 聞 記 事 が 素 性 分 布 の 距 離, 白 書 が 出 現 素 性 ベクトルのユーク リッド 距 離 ( 最 大 )とランド 類 似 度 ( 最 小 ),Yahoo! 知 恵 袋 が 出 現 素 性 ベクトルのコサイ ン 類 似 度 ( 最 大 )で 訓 練 データを 選 択 したときに 語 義 曖 昧 性 解 消 の 正 解 率 が 最 も 高 くなっ た. 表 3にこれらのドメインごとの 結 果 を 示 す. なお, 出 現 素 性 ベクトルのユークリッド 距 離 ( 最 大 )とランド 類 似 度 ( 最 小 )は 各 ドメ インの 各 単 語 について 全 て 同 じ 訓 練 データを 選 択 したために, 同 じ 結 果 となっている. 99

110 表 2 訓 練 データ 選 択 実 験 結 果 手 法 マクロ 平 均 (%) マイクロ 平 均 (%) ベースライン 素 性 平 均 ベクトル ED( 最 大 ) ED( 最 小 ) CS( 最 大 ) CS( 最 小 ) JSC( 最 大 ) JSC( 最 小 ) DSC( 最 大 ) DSC( 最 小 ) SSC( 最 大 ) SSC( 最 小 ) RS( 最 大 ) RS( 最 小 ) 出 現 素 性 ベクトル ED( 最 大 ) ED( 最 小 ) CS( 最 大 ) CS( 最 小 ) JSC( 最 大 ) JSC( 最 小 ) DSC( 最 大 ) DSC( 最 小 ) SSC( 最 大 ) SSC( 最 小 ) RS( 最 大 ) RS( 最 小 ) 素 性 分 布 の 距 離 分 類 確 率 自 信 度 分 類 確 率 と 自 信 度 分 類 確 率 でラベル 予 測 考 察 表 3が 示 すように,ドメインごとに 適 当 な 訓 練 データの 選 択 手 法 は 異 なる.さらに 全 体 のマクロ 平 均 が 最 も 良 かった 出 現 素 性 ベクトルのユークリッド 距 離 ( 最 大 )について, 語 義 曖 昧 性 解 消 の 対 象 単 語 のタイプごとに 結 果 を 詳 しく 調 べると, 訓 練 データよりもテスト 100

111 表 3 ドメインごとの 実 験 結 果 マクロ 平 均 (%) マイクロ 平 均 (%) 手 法 新 聞 記 事 白 書 Yahoo! Yahoo! 新 聞 記 事 白 書 知 恵 袋 知 恵 袋 出 現 素 性 ベクトル の ED( 最 大 ) 出 現 素 性 ベクトル の RS( 最 小 ) 出 現 素 性 ベクトル の CS( 最 大 ) 素 性 分 布 の 距 離 ベースライン データの 方 が 用 例 数 が 多 い 場 合 に 正 解 率 が 上 がっているものが 多 いことが 分 かった.この ことから, 適 当 な 訓 練 データの 選 択 手 法 は 語 義 曖 昧 性 解 消 の 対 象 単 語 のタイプごとにも 異 なることが 分 かる. 訓 練 データよりもテストデータが 少 ない 場 合 について 調 べると, 素 性 平 均 ベクトルのユ ークリッド 距 離 ( 最 大 )を 用 いた 場 合 が 最 も 良 い 結 果 となった.ここで, 訓 練 データより もテストデータが 多 い 場 合 は 出 現 素 性 ベクトルのユークリッド 距 離 ( 最 大 )を, 少 ない 場 合 は 素 性 平 均 ベクトルのユークリッド 距 離 ( 最 大 )を 用 いて 訓 練 データを 選 択 した 結 果 を 表 4に 示 す. 表 4 二 手 法 を 組 み 合 わせたときの 正 解 率 マクロ 平 均 マイクロ 平 均 手 法 新 聞 記 事 白 書 Yahoo! Yahoo! 新 聞 記 事 白 書 知 恵 袋 知 恵 袋 二 手 法 組 み 合 わせ ベースライン 表 4より, 白 書 と Yahoo! 知 恵 袋 でベースラインよりも 語 義 曖 昧 性 解 消 の 正 解 率 が 良 くな り, 新 聞 記 事 でもベースラインと 同 じ 正 解 率 となった. 今 回 の 類 似 度 の 組 み 合 わせは 本 研 究 で 利 用 したデータの 特 徴 から 手 法 を 選 択 しているため,よりデータの 性 質 から 適 した 手 法 の 組 み 合 わせを 考 える 必 要 があるだろう. 分 類 確 率 を 用 いた 実 験 については,SVM で 有 効 に 働 いていたが, 本 実 験 の ME 法 では 語 義 曖 昧 性 解 消 の 正 解 率 を 上 げることができなかった. 7.まとめ 語 義 曖 昧 性 解 消 における 領 域 適 応 の 正 解 率 を 向 上 させるために, 素 性 平 均 ベクトルの 類 似 度 出 現 素 性 の 類 似 度 素 性 分 布 の 距 離 分 類 器 の 分 類 確 率 と 自 信 度 を 用 いて 訓 練 データの 選 択 を 行 い,どの 選 択 手 法 が 最 も 優 れているかを 調 べた. 全 体 の 平 均 を 見 ると, マクロ 平 均 で 出 現 素 性 ベクトルのユークリッド 距 離 ( 最 大 )とランド 類 似 度 ( 最 小 ),マ イクロ 平 均 で 出 現 素 性 ベクトルのコサイン 類 似 度 ( 最 大 )で 選 んだ 際 に, 語 義 曖 昧 性 解 消 の 正 解 率 が 最 も 高 くなった. 101

112 各 ドメインの 結 果 を 見 ると,マクロ 平 均 マイクロ 平 均 ともに, 新 聞 記 事 が 素 性 分 布 の 距 離, 白 書 が 出 現 素 性 ベクトルのユークリッド 距 離 ( 最 大 )とランド 類 似 度 ( 最 小 ),Yahoo! 知 恵 袋 が 出 現 素 性 ベクトルのコサイン 類 似 度 ( 最 大 )で 訓 練 データを 選 択 したときに 語 義 曖 昧 性 解 消 の 正 解 率 が 最 も 高 くなった. それぞれの 手 法 は 訓 練 データとテストデータの 性 質 によって 異 なる 様 相 を 見 せたため, データサイズによって 二 手 法 を 組 み 合 わせた 実 験 を 行 った. 二 手 法 を 組 み 合 わせた 結 果, 語 義 曖 昧 性 解 消 の 正 解 率 が 全 てのドメインでベースライン 以 上 となった. 分 類 確 率 を 用 いた 手 法 については, 本 研 究 では ME 法 を 用 いて 実 験 したが, 異 なる 分 類 器 である SVM を 用 いた 関 連 研 究 のように 語 義 曖 昧 性 解 消 の 正 解 率 を 上 げることができなか った. 謝 辞 本 研 究 は, 文 部 科 学 省 科 学 研 究 費 補 助 金 [ 若 手 B(No: )]の 助 成 により 行 われた. ここに, 謹 んで 御 礼 申 し 上 げる. 文 献 Vincent Van Asch,Walter Daelemans(2010) Using Domain Similarity for Performance Estimation, DANLP 2010,pp H. Daumé III(2007) Frustratingly Easy Domain Adaptation, ACL 2007,pp H. Daumé III,Abhishek Kumar,Avishek Saha(2010) Frustratingly Easy Semi-Supervised Domain Adaptation, ACL 2010,pp Le Zhang(2011) Maximum Entropy Modeling Toolkit for Python and C++, Kanako Komiya and Manabu Okumura(2011) Automatic determination of a domain adaptation method for word sense disambiguation using decision tree learning,ijcnlp 2011,pp 古 宮 嘉 那 子, 奥 村 学 (2011) 分 類 器 の 確 信 度 を 用 いた 合 議 制 による 語 義 曖 昧 性 解 消 の 領 域 適 応, 言 語 処 理 学 会 第 17 回 年 次 大 会 発 表 論 文 集,pp 古 宮 嘉 那 子, 奥 村 学 (2012) 語 義 曖 昧 性 解 消 のための 領 域 適 応 手 法 の 決 定 木 学 習 による 選 択 三 手 法 からの 決 定, 言 語 処 理 学 会 第 18 回 年 次 大 会 発 表 論 文 集,pp 古 宮 嘉 那 子, 小 谷 善 行 (2011) 階 層 型 クラスタリングを 利 用 した 文 脈 によるオノマトぺの 分 類,NLP 若 手 の 会 第 6 回 シンポジウム. Michel Marie Deza, Elena Deza(2012) Encyclopedia of Distances,Springer-Verlag. 西 尾 実, 岩 淵 悦 太 郎, 水 谷 静 夫 (1994) 岩 波 国 語 辞 典 第 五 版, 岩 波 書 店. Koichi Hashida,Hitoshi Isahara,Takenobu Tokunaga,Minako Hashimoto,Shiho Ogino,and Wakako Kashino(1998) The rwc text databases, LREC 1998,pp Kikuo Maekawa(2008) Balanced corpus of contemporary written japanese,alr 2008,pp Armándo Suarez,Manuel Palomar(2002) A Maximum Entropy-based Word Sense Disambiguation system, COLING 2002,Vol.1,pp

113 Inclusion of Loanwords into the Basic Words in the Japanese Newspaper Vocabulary : From the Viewpoint of Discourse Organizing Function Eran KIM (Center for Japanese Language, WASEDA UniversityNINJAL) a 2006b Halliday and Hasan1976 lexical cohesionmccarthy1992 discourse-organizing words 1988 general noun (1) 23 K 5320 [ ] kim_eran@aoni.waseda.jp 103

114 20 36 discourse-organizing words , ,208,396 3,183,297 3,218,737 3,265,786 3,994,933 16,664,841 1, Halliday and Hasan1976 pp.9 reiteration repetitonsynonymnear-synonymsuperordinate people, stuff, move general noun it McCarthy1992grammar wordslexical words

115 discourse-organizing words issue problem dilemma pp.105pp.107 McCarthy textuality (2) (3) (2) (3)

116 3 (4) (5) (6) (7) (8) (9) (10) (11)

117 (12) (13) (14) (15) (16) (17) (18) (19) 107

118 (20) (21) relexicalisation (22) (23) (24) (25)

119 % 20% 40% 60% 80% 100% % 20% 40% 60% 80% 100%

120 B a b pp.7-14 Halliday, M.A.K. and Hasan, R.1976Cohesion in English. London. Longman Halliday, M.A.K. and Hasan, R.1985Language, Context, and Text: Aspects of Language in a Social-Semiotic Perspective. Deakin University Press McCarthy, M.1992Discourse Analysis for Language Teachers. Cambridge Language Teaching Library. CUP

121 ( ) ( ) ( ) ( ) Comparison of Resampling Strategies for Chinese Auxiliary Word Classification Dongxu Song (Graduate School of Engineering, Tokyo University of Agriculture and Technology) Masayuki Asahara (Center for Corpus Development, NINJAL) Kanako Komiya (Institution of Engineering, Tokyo University of Agriculture and Technology) Yoshiyuki Kotani (Institution of Engineering, Tokyo University of Agriculture and Technology) 1. /de/ /de/ (Support Vector Machines; SVM) (Vapnik (1995)) SVM songdongxu123@gmail.com 111

122 ( (2005)) ( (2009)) 2.2 (2008) 60%:27%:13% 49%:51% (2012) % 2.3 Unbalanced Data Imbalanced Data SVM Kubat and Matwin (1997) (UnderSampling ) UnderSampling (OverSampling ) (Japkowicz and Stephen (2002);Chawla et al. (2000)) SVM OverSampling UnderSampling Wang and Japkowicz (2009) UnderSampling OverSampling SVM Boosting Boosting SVM 3. SVM one-against-others one-against-one (pairwise) (Hsu and Lin (2002)) SVM LibSVM L2 L1 SVM LibLinear 112

123 DE SVM SVML2 L1 (Normal) UnderSampling20% OverSampling500% UnderSampling (US Vote) 20% (20% 5 = 100%) Normal, OverSampling, US Vote (Vote) Normal, OverSampling, US Vote (PFR ) u 1 1 () (95.0%) 2156 (3.7%) 661 (1.1%) % (UnderSampling) 500% (OverSampling) (duplication) UnderSampling 113

124 (US Vote) Normal, OverSampling, US Vote 3 (Vote) F // /F 4.2 SVM SVM LibSVM 2 2 SVM (5 ) Normal 99.17% F UnderSampling 98.62% F OverSampling 99.13% F US Vote 98.63% F Vote 99.14% F SVM OverSampling SVM SVM OverSampling UnderSampling US Vote F 4.3 L2 LibLinear L2 (-s 0) 3 OverSampling Vote L2 (MAP) UnderSampling OverSampling 114

125 3 L2 (5 ) Normal 99.01% F UnderSampling 78.83% F OverSampling 99.03% F US Vote 98.45% F Vote 99.03% F US Vote Vote F F / L2 SVM SVM 4.4 L1 LibLinear L2 (-s 6) 4 4 L1 (5 ) Normal 98.97% F UnderSampling 78.80% F OverSampling 99.00% F US Vote 98.29% F Vote 98.98% F L1 Laplace (MAP) () 0 115

126 L2 US Vote Vote OverSampling /F 5. (US Vote) SVM Support Vector Chawla, N., K. Bowyer, L. Hall, and W. P. Kegelmeyer (2000). Smote: synthetic minority oversampling technique. International Conference on Knowledge Based Computer Systems. Hsu, C.-W., and C.-J. Lin (2002). A comparison of methods for multi-class support vector machines. IEEE Transactions on Neural Networks, pp Japkowicz, N., and S. Stephen (2002). The class imbalance problem: A systematic stydy. Intelligent Data Analysis,6:5. Kubat, M., and S. Matwin (1997). Addressing the curse of imbalanced training sets: One-sided selection. Proceedings of the 14th International Conference on Machine Learning. Vapnik, V. N. (1995). The Nature of Statistical Learning Theory.: Springer. Wang, B. X., and N. Japkowicz (2009). Boosting support vector machines for imbalanced data sets. Knowledge and Information Systems. (2009) (2008), 49:7, pp (2005) (2012), pp URL LibSVM cjlin/libsvm/ LibLinear cjlin/liblinear/ 116

127

128 TVCMにおける 和 製 英 語 のパイロット 調 査 文 字 テクストと 音 声 テクストの 対 照 を 軸 に 小 林 善 久 ( 一 橋 大 学 大 学 院 生 ) 1 A Pilot Study of Wasei-Eigo in TVCM ---Focusing on the Comparison Between Written Text and Spoken Text--- Yoshihisa Kobayashi (Hitotsubashi University Graduate School of Language and Society) 1. はじめに 本 発 表 では 和 製 英 語 が 日 本 国 内 における 日 常 生 活 でどの 程 度 使 用 されているか その 実 態 を 知 るために 行 ったパイロット 調 査 の 結 果 を 報 告 する 調 査 に 使 用 したデータは 2012 年 1 月 1 日 に 放 送 された TVCM100 本 における 音 声 と 画 面 上 の 文 字 である 本 発 表 は そ こで 使 われている 和 製 英 語 が 記 述 された 文 字 テクストと 音 声 テクストの 面 で 異 なった 特 徴 を 出 しているかどうかを 調 査 することを 主 たる 目 的 とする その 特 徴 分 析 は 100 本 の TVCM をサンプルに 一 つは 和 製 英 語 の 数 量 比 較 を 中 心 に もう 一 つはそれぞれの 和 製 英 語 の 語 構 成 や 共 起 する 語 句 の 特 徴 などを 調 査 することとする また 文 字 テクストにおけ る 表 記 の 特 徴 としてアルファベット 表 記 が 多 いことなども 併 せて 報 告 する TVCM を 対 象 とした 理 由 は テレビの 広 告 業 界 の 言 葉 が 人 々の 関 心 を 引 くことに 腐 心 して 創 造 された 言 葉 であり 様 々な 場 所 で 繰 り 返 し 放 映 されることで 比 較 的 広 範 囲 の 人 々 が 注 目 する 機 会 が 多 い 言 葉 だと 考 えるからである また TVCMが 話 し 言 葉 としての 音 声 言 語 に 基 づき なおかつ 画 面 には 文 字 も 表 示 されることで 言 葉 の 本 来 の 機 能 を 十 分 に 発 揮 している 言 語 として 十 分 に 研 究 の 対 象 になると 確 信 する 2. 調 査 概 要 今 回 のパイロット 調 査 では 過 去 の 国 立 国 語 研 究 所 の 調 査 方 法 2 を 参 考 にして 調 査 項 目 を 以 下 の(1)key/ 和 製 英 語 (2)CM 商 品 名 (3) 会 社 名 (4)DATE( 日 付 ) (5) 時 間 帯 (6) CH(チ ャンネル) (7) 業 種 (8)CMの 対 象 とその 属 性 ( 性 別 年 齢 職 業 等 ) (9) 時 間 ( 長 さ)(10) 英 語 への 言 い 換 え (11) 造 語 パターン (12) 語 種 (13) 語 形 (14) 外 来 語 の 有 無 (15) 備 考 (16) 画 面 上 の 広 告 ( 語 / 文 ) (17) 音 声 で 流 れた 広 告 文 (18) 発 言 者 属 性 ( 性 別 年 齢 職 業 等 ) (19) 混 種 語 サンプル (20)ローマ 字 ( 英 語 文 字 )サンプル (21)カタカナ 英 語 の 21 項 目 とした 本 発 表 では 上 記 の 調 査 項 目 の 中 でも (16) 画 面 上 の 記 述 広 告 と (17) 音 声 で 流 れた 広 告 を 中 心 にそれぞれにおける 和 製 英 語 の 実 態 調 査 を 報 告 する また 和 製 英 語 と 同 時 に 外 国 語 のアルファベット 文 字 が 画 面 上 でどのような 割 合 で 使 用 されているのかの 数 量 調 査 も 含 め て 報 告 する 1 lm112008@g.hit-u.ac.jp 2 国 立 国 語 研 究 所 編 (1995) テレビ 放 送 の 語 彙 調 査 Ⅰ--- 方 法 標 本 一 覧 分 析 --- 国 立 国 語 研 究 所 報 告

129 3. 調 査 内 容 画 面 に 現 れる 和 製 英 語 と 音 声 で 現 れる 和 製 英 語 についてー 3.1 今 発 表 のための 調 査 に 先 立 つ 事 前 調 査 語 種 調 査 (TVCM100 本 の 語 種 別 概 観 ) はじめにこのパイロット 調 査 TVCM100 本 の 言 語 景 観 を 得 るために 語 種 調 査 をした 画 面 の 記 述 文 字 と 音 声 を 文 字 化 したものを 合 計 して 数 えた 下 記 の 表 1の 語 数 は 短 単 位 3 に 基 づく 語 数 調 査 である CM100 本 の 全 語 数 6322 語 のうち 外 来 語 が 831 語 で 13%の 割 合 は 過 去 の 国 立 国 語 研 究 所 の 1990 年 代 の 雑 誌 70 種 の 調 査 と 比 べても 高 い 表 1:TVCM100 本 の 語 種 調 査 ( 茶 まめ+ 手 計 算 4 ) 全 語 数 6322 出 現 頻 度 国 研 雑 誌 調 査 5 和 語 % 41.6% 外 来 語 13% 混 種 語 4% 漢 語 % 45.9% 10.6% 外 来 語 % ( 外 国 語 を 含 む) 混 種 語 % 2% 漢 語 31% 和 語 52% 図 1:TVCM100 本 の 語 種 調 査 和 製 英 語 の 割 合 ( 長 単 位 ) 次 に 和 製 英 語 の 語 数 をまとめて 数 えた TVCM 全 体 の 中 での 和 製 英 語 の 占 める 割 合 を 見 るためである この 数 え 方 は 表 1とは 異 なり 複 合 語 を 形 態 素 に 分 けずに 1 語 とし て 数 えることにした 固 有 名 詞 を 含 めて 数 えてある なお 語 種 としての 外 来 語 の 内 和 製 英 語 を 除 いた 本 来 の 外 来 語 を 英 語 以 外 のものを 含 めて 以 降 外 国 語 として 扱 う 表 2:TVCMの 中 の 和 製 英 語 数 項 目 延 べ 数 異 なり 数 CM 本 数 (13 重 複 ) 和 製 英 語 の 語 数 (33 重 複 ) 和 製 英 語 を 含 まない TVCM 数 10 / /87 外 国 語 を 含 まない TVCM 数 4 / /87 以 上 が 画 面 と 音 声 の 双 方 を 併 せた 全 体 的 な 分 布 状 況 である 和 製 英 語 が 9 割 の CM に 登 場 し 平 均 すれば 1 本 に 2 語 ずつは 現 れるというのが 概 観 である また 外 国 語 もそれ 3 野 村 雅 昭 (1973) 複 次 結 合 語 の 構 造 国 立 国 語 研 究 所 電 子 計 算 機 による 国 語 研 究 Ⅴ 秀 英 出 版 4 茶 豆 の 形 態 素 解 析 では アルファベット 文 字 を 記 号 という 範 疇 に また 固 有 名 詞 という 語 種 分 類 に 相 当 しない 範 疇 があったりしたので それを 手 計 算 で 数 え 直 したものである 5 伊 藤 雅 光 (2007) 雑 誌 に 見 られる 外 来 語 と 外 国 語 の 1990 年 代 の 雑 誌 70 種 本 文 の 語 種 調 査 より 引 用 118

130 以 上 に 多 用 されている 実 態 がわかった 3.2 今 回 の 調 査 さて ここから 本 題 の 画 面 と 音 声 に 現 れる 和 製 英 語 の 比 較 調 査 を 報 告 する 調 査 1 文 字 列 による 総 量 比 較 和 製 英 語 には 複 合 語 も 含 まれるので 長 単 位 の 解 析 でなければならないが 今 回 の 調 査 には 間 に 合 わなかったのでそれぞれの 文 字 列 数 の 総 和 を 比 較 してみた すると 下 記 の 表 3 のように 音 声 として 現 れる 文 字 列 数 のほうが 画 面 に 現 れる 文 字 列 数 より 約 100 字 分 多 いこ とがわかった これは 全 体 数 を 考 慮 すると 大 きな 差 とは 言 えない しかし 予 想 に 反 して 音 声 テクストの 方 がわずかだが 多 かった 画 面 に 記 述 される 文 字 は 文 というより 商 品 名 会 社 名 決 まり 文 句 などの 体 言 止 め 表 現 がかなり 多 く 使 われていることがわかった 表 3: 画 面 テクストと 音 声 テクストの 比 較 画 面 テクスト 音 声 テクスト 文 字 列 の 総 和 ( 全 角 1 文 字 =1) 体 言 止 めの 総 数 調 査 2 和 製 英 語 の 出 現 頻 度 数 の 比 較 次 に 画 面 と 音 声 に 現 れる 和 製 英 語 の 出 現 頻 度 数 であるが ここでは 画 面 テクストの 方 に 音 声 で 流 れる 和 製 英 語 の 数 に 比 べて2 倍 近 く 出 てくる 表 4に 沿 って 言 えば 固 有 名 詞 を 含 めた 述 べ 語 数 で 比 較 した 場 合 は 1.92 倍 異 なり 語 数 では 1.66 倍 といずれも 大 きく 画 面 テクストに 傾 斜 して 出 現 する 固 有 名 詞 を 除 いた 数 で 比 較 すれば 延 べ 語 数 の 場 合 は 2 倍 を 超 えている これはなぜか? まず 数 が 少 なくて 扱 いやすい 異 なり 語 数 で 考 えることにする 次 に 固 有 名 詞 も 同 様 に 異 なり 語 数 で 考 察 する 表 4:TVCMの 中 の 和 製 英 語 数 画 面 TEXT(A) 音 声 TEXT (B) (A)/(B) 和 製 英 語 の 数 ( 延 べ 語 数 固 有 名 詞 を 含 む) 和 製 英 語 の 数 ( 異 なり 語 数 固 有 名 詞 を 含 む) 和 製 英 語 の 数 ( 延 べ 語 数 固 有 名 詞 を 含 ない) 和 製 英 語 の 数 ( 異 なり 語 数 固 有 名 詞 含 まず) 和 製 英 語 の 固 有 名 詞 の 割 合 ( 異 なり 語 数 ) 27.9% 31.7% 外 国 語 の 数 ( 延 べ 語 数 固 有 名 詞 を 含 む) 外 国 語 の 数 ( 延 べ 語 数 固 有 名 詞 を 含 ない) 外 国 語 の 中 での 固 有 名 詞 の 割 合 38.9% 29.8% 画 面 テクストによりはっきりと 多 く 和 製 英 語 が 現 れるその 要 因 は 語 構 成 にあると 考 え 119

131 る 和 製 英 語 全 体 は 異 なり 語 数 で 数 えると 117 語 になるが 漢 語 と 英 語 の 混 種 語 によるも のがその 内 の 7 割 にあたる 82 語 を 占 めている しかも その 混 種 語 の 半 分 以 上 の 47 語 が 画 面 にだけ 出 現 する その 中 でも 臨 時 一 語 の 占 める 割 合 が 非 常 に 大 きい 今 回 の 独 自 の 認 定 6 では 56 語 がそれに 相 当 するが その 中 で 画 面 だけに 現 れるものが 39 語 音 声 だ けに 出 現 するのがたったの 6 語 しかない 新 聞 や 雑 誌 の 見 出 し 語 と 同 じように 一 目 見 ただけで 意 味 が 分 かるような 機 能 を 持 ち 合 わせている 漢 語 との 混 種 語 を TVCMも 上 手 く 利 用 している 言 い 換 えると 漢 字 のもつ 表 意 性 が 和 製 英 語 の 混 種 語 という 形 態 で 画 面 に 多 く 出 現 するというのが 最 大 の 特 徴 と 言 える 調 査 3 TVCMの 外 国 語 の 場 合 での 比 較 純 粋 な 外 国 語 の 出 現 頻 度 は 表 4 に 示 したとおり 画 面 表 示 の 方 が 高 い その 出 現 数 差 は 和 製 英 語 での 比 較 に 比 べ あまり 大 きくはないが ここで 最 も 特 徴 的 なのが 画 面 に 現 れる 外 国 語 には 固 有 名 詞 の 比 率 がかなり 高 いことになる つまり 商 品 名 会 社 名 など に 外 国 語 が 多 く 使 われているのだ 7 アルファベット 文 字 表 記 がカタカナに 代 わる 文 字 表 記 体 として 進 出 してきていることも 特 徴 である 調 査 4 和 製 英 語 の 定 義 の 分 類 に 基 づいての 比 較 これまで 依 拠 してきた 和 製 英 語 の 定 義 にそって 語 構 成 分 類 を 試 みた 定 義 は 玉 岡 賀 津 雄 (2009) 8 の 分 類 を 下 敷 きして 独 自 に 作 ったものである 定 義 和 製 英 語 とは 日 本 語 の 語 彙 のうち 日 本 で 作 られた 英 語 風 の 外 来 語 および 混 種 語 のことを 言 う 英 語 の 母 語 話 者 が 意 味 を 理 解 するのに 苦 労 することが 多 いものである 外 来 語 を 使 った 造 語 を 指 す という 狭 い 解 釈 もあるが ここでは 以 下 のように 少 し 広 めた 解 釈 をするものとする 1 英 語 として 存 在 するが 英 語 の 意 味 用 法 とは 異 なる 意 味 用 法 で 使 われるもの ( 例 ) スマート 2 英 語 として 存 在 するが 原 語 の 発 音 とは 大 きく 異 なるもの ( 例 ) ツーダン 3 英 語 の 単 語 を 短 縮 したり 一 部 省 略 したりして 使 われるもの ( 短 縮 した 複 合 語 も 含 む) ( 例 ) デパート 4 英 語 の 単 語 と 日 本 語 の 和 語 漢 語 とを 組 み 合 わせて 使 われるもの ( 例 ) スタバる 5 英 単 語 には 存 在 しないが 日 本 語 の 中 で 使 われるようになったもの ( 例 ) ナイター 6 実 際 に 存 在 する 英 単 語 を 組 み 合 わせて 造 り 新 しい 意 味 を 付 加 した 合 成 語 ( 複 合 語 ) ( 例 ) テーブルスピーチ 7 実 際 の 英 語 とは 語 順 や 文 法 配 列 または 単 語 を 変 えて 作 り 出 されたもの ( 例 ) EXILE MUSIC VIDEO BEST 6 林 四 郎 (1982) 臨 時 一 語 の 構 造 国 語 学 131と 石 井 正 彦 (2007) 第 3 部 臨 時 一 語 の 形 成 現 代 日 本 語 の 複 合 語 形 成 論 の 定 義 が 異 なるため 前 者 をベースに 自 分 の 判 断 を 交 えながら 進 めた 7 今 回 に 先 立 つ 和 製 英 語 の 語 構 成 TVCMパイロット 調 査 の 分 析 と 考 察 で 製 品 名 58% 会 社 名 36% となっている 8 玉 岡 賀 津 雄 (2009) 韓 国 語 母 語 話 者 による 和 製 英 語 の 理 解 120

132 8 英 単 語 の 音 と 同 音 の 日 本 語 の 単 語 と 両 方 を 兼 ねて 使 われるもの ( 例 ) イエー(Yes/ 家 ) 9 英 語 や 日 本 語 の 一 部 を 省 略 して アルファベット 文 字 を 用 いた 英 語 にはない 省 略 語 ( 例 ) NHK 以 上 の 定 義 分 類 に 沿 って 今 回 の TVCM100 本 に 出 現 した 和 製 英 語 の 分 類 を 以 下 の 表 に まとめた ( ) 内 の 数 字 は 和 製 英 語 のそれぞれの 語 数 ( 異 なり 語 数 )を 示 したものであ る 表 5:TVCM 中 の 和 製 英 語 の 定 義 による 分 類 は 音 声 だけで 現 れたもの は 画 面 だけに 現 れたもの 無 印 は 両 方 に 出 現 したもの 1) 英 語 として 存 在 するが 英 語 の 意 味 用 法 とは 異 なる 意 味 用 法 で 使 われるもの (6) メイク( 名 )/ リフォーム/ スリーショット/ お 年 玉 バーレル/ オフ/ サイン( 名 )/ 2) 英 語 として 存 在 するが 原 語 の 発 音 とは 大 きく 異 なるもの (2) イメージ/ テーマソング 3) 英 語 の 単 語 を 短 縮 したり 一 部 省 略 したりして 使 われるもの ( 短 縮 複 合 語 も 含 む) (12) フラワーアレンジ/ワンセグ TV/ ファンデ/ スマホ/ デコメ/ ハピデコ/ モバプロ/ エネファーム/ アクション RPG/ モンプラ/ギャラ/シンクロ/ 4) 英 語 の 単 語 と 日 本 語 の 和 語 漢 語 とを 組 み 合 わせて 使 われるもの (82) リフォームする/ デザインする/ オフ( 動 )/ 人 気 モデル/ 水 曜 ドラマ/ 天 才 ジャズピアニスト/ 大 初 夢 フェア/ 女 子 力 アップ/ 低 燃 費 タイヤ/ 髪 ドック/ 専 用 ソフトウエア/エース 対 決 / 雪 ガール/ 売 上 シェア/ 臨 床 データ/ スパイ 大 作 戦 / 美 女 ゴルファー/ ものまねスター/ リーグ 戦 / 低 燃 費 エコカー/ 初 売 りフェア/ 証 券 コード/ 銘 柄 コード/ バネブラシ/ワイルド 現 象 / オシャレスモール/プレイヤー 同 士 / シリーズ 史 上 / プラスチック 製 / イメージ 図 / お 年 玉 クーポンパスつき/ パケット 通 信 料 / アクセス 可 能 / エネルギー 不 足 / ガソリン 車 / パッケージ 版 / ダウンロード 版 / セール 終 了 後 / メイクアップ 効 果 / 新 サービス/ 新 燃 費 測 定 モード/ 今 シーズン/ 超 一 流 パフォーマー/ 一 部 コンテンツ/ 新 エンジン/ ジャスダック 上 場 企 業 / ビデオクリップ 集 / エコカー 減 税 / 着 うた R 配 信 中 / お 年 玉 バーレル/ 酒 DS 計 綾 香 スペシャルプログラム 配 信 中 / リッター30キロ/ アルペングループ 特 選 品 / 上 下 セット/ ジュニア 3 点 セット/ 2 時 間 半 SP/ 1 回 2カプセル/ 婦 人 ジャカードストール 24%OFF/ ノンアルコールビールテイスト 飲 料 / 区 間 エントリー/ ミッション 発 令 / 5 枚 刃 モイスチャージェル BOX/ カラダまるごと コントローラーKINECT for XBOX360/ ふくだけコットンさらさらオイルインビオレ ゲーム 画 面 / アレルギー 体 質 / モバイルオンラインプロ 野 球 / 世 界 最 強 エース 陣 / JC08モード 走 行 / ダブル A 面 シングル/ 成 人 式 スーツ コート/2 倍 増 毛 感 ボリューム/ SAPPORO 企 業 CM ソング/ 新 型 MRワゴン/ 7インチワンセグ TV 内 臓 / スター ドラフト 会 議 / 新 型 アルトエコ 誕 生 // シード 決 着 / 婦 人 カシミア 100%/ タートルネックセーター37%OFF / CVT 搭 載 5) 英 単 語 には 存 在 しなかったが 日 本 語 の 中 で 使 われるようになったもの (0) 121

133 6) 実 際 に 存 在 する 英 単 語 を 組 み 合 わせてつくり 新 しい 意 味 を 付 加 した 合 成 語 ( 複 合 語 ) (6) フリーダイヤル/ カシスオレンジ/ スマイルバーゲン/ クリアファイル/ エネルギー フロンティア/ ボリ ュームマスカラ/ 7) 実 際 の 英 語 とは 語 順 や 文 法 配 列 または 単 語 を 変 えて 作 り 出 されたもの (6) EXILE MUSIC VIDEO BEST/ ジュニアスノーウエア/ アルコールゼロ/ カロリーゼロ/ 糖 質 ゼロ/ アバターGET!/ 8) 英 単 語 の 音 と 同 音 の 日 本 語 の 単 語 と 両 方 を 兼 ねて 使 われるもの (3) イエー(Yes/ 家 )/ ノンアル 気 分 / キッチン 泡 ハイター 9) 英 語 や 日 本 語 の 一 部 を 省 略 して アルファベット 文 字 を 用 いた 英 語 にはない 省 略 語 (1) NTT/ 表 全 体 から 混 種 語 が 圧 倒 的 に 多 い 英 語 と 和 語 ないし 漢 語 との 混 種 を 機 械 的 に 和 製 英 語 とした 定 義 に 問 題 があるのかもしれない 玉 岡 (2009) 以 外 にも 田 辺 (1989) 9 野 村 (1984) 10 鈴 木 (2008) 11 や 広 辞 苑 他 の 辞 書 を 通 して 作 り 上 げたものだが 更 なる 精 査 が 必 要 なのかも しれない 以 降 定 義 の 分 類 順 にそって 分 析 してみた 1) メイク が 単 独 なら 英 語 では 動 詞 扱 いなのであるが メイキャップ が 短 縮 し て 名 詞 に 転 成 した 点 および オフ が 本 来 の 英 語 では 名 詞 でも 動 詞 でもないものが 日 本 語 の 中 で 動 詞 や 名 詞 の 機 能 を 果 たしている 点 に 新 規 性 がある オシャレスモール の ス モール も 英 語 の 形 容 詞 から 日 本 語 の 名 詞 に 近 づいている 現 象 ではないかと 思 われる 以 上 は 用 法 の 観 点 からであったが 意 味 の 上 での 英 語 との 差 異 を 示 したものに スリーショ ット がある ツーショット は 日 本 語 から 生 まれた 写 真 の 被 写 体 の 数 を 指 したものだが スリーショット は 英 語 ではまだその 意 味 は 存 在 しない 2) 発 音 上 のユニークさをどこまで 厳 密 にするかで 範 囲 が 変 わりやすいもので 扱 いにくい 項 目 であるが これまで イメージ と テーマ は 英 語 母 語 話 者 に 通 じない 場 面 に 何 度 か 遭 遇 したので 避 けられない 気 がした 前 者 では 英 語 2 音 節 に 対 し 日 本 語 4 モ ーラ 後 者 は 1 音 節 対 3 モーラの 違 いが それぞれ 母 音 と 子 音 の 違 い 以 上 に 大 きな 差 異 要 素 になっている 3) 短 縮 による 複 合 構 成 が 予 想 外 に 少 なかった 窪 薗 (2002) 12 によれば 2 モーラ+2 モーラの 複 合 短 縮 の 形 が 最 も 広 く 見 られる 新 語 形 成 パターンのようだが ここでは フラ ワーアレンジ ファンデ のように 後 半 の 一 部 が 欠 け 落 ちたり スマホ デコメ のよ うに 3 モーラに 落 ち 着 くケースもあり 種 々 雑 多 な 感 がある 短 縮 の 動 機 は 言 語 の 経 済 性 であろうから 増 え 続 ける 外 来 語 のカタカナ 表 記 のウェートを 軽 くしようとする 動 き はまだまだ 活 発 化 していくと 思 われる ここでは 画 面 表 示 と 音 声 の 双 方 に 表 われる 語 がほ 9 田 辺 洋 二 (1989) 和 製 英 語 の 形 態 分 類 早 稲 田 大 日 本 語 研 究 教 育 センター 紀 要 2 10 野 村 雅 昭 (1992) 造 語 法 と 造 語 力 日 本 語 学 5 月 号 PP 鈴 木 俊 二 (2008) 和 製 英 語 の 研 究 ---その 構 造 と 思 想 国 際 短 期 大 学 紀 要 第 23 号 PP 窪 園 晴 夫 (2002) <もっと 知 りたい! 日 本 語 > 新 語 はこうして 作 られる 岩 波 書 店 122

134 とんで(9 語 ) 画 面 だけが1 語 音 声 だけが 2 語 と 偏 りはほとんどないと 言 える 4) 混 種 語 については 雑 多 な 要 素 が 入 っているので 今 後 更 なる 階 層 化 した 下 位 分 類 が 必 要 である 名 詞 であるがサ 変 動 詞 する と 結 合 できる 動 名 詞 の 諸 相 接 頭 辞 に 漢 語 和 語 が 来 る 場 合 の 造 語 法 の 特 色 接 尾 語 の 場 合 省 略 語 の 実 態 等 々の 分 類 方 法 の 確 立 が 待 たれるところである 特 に 臨 時 一 語 の 扱 いについては 慎 重 に 対 処 する 必 要 があ りそうだ いずれにしても 混 種 語 の 語 構 成 は 音 声 よりは 画 面 表 示 にした 方 が 味 わい やすいことがはっきり 数 字 に 現 れた 5) 今 回 の 該 当 例 は 存 在 しなかったが ナイター OL などがこの 例 である ここ に 該 当 するものは 現 在 では 英 語 圏 でも 使 われており 場 合 によっては 辞 書 にも 載 ってい るものもある 1)の 項 で 取 り 上 げた スリーショット の 類 義 語 でもある ツーショット も 和 製 英 語 として 取 り 上 げた 研 究 例 があり 日 本 語 が 意 味 を 一 つ 増 やしたことになる 6) これは 英 単 語 どうしの 組 み 合 わせによる 複 合 語 であり 混 種 語 でもなければ 外 来 語 としての 英 語 でもない 日 本 人 による 和 製 英 語 であるが 比 喩 というレトリックを 使 っ て 生 み 出 したものが 多 いように 思 える 例 えば フリーダイヤル は 受 話 器 の 文 字 盤 を さす ダイヤル が 電 話 という 上 位 語 に 代 わって 使 用 されたシネクドキー( 提 喩 )で あり エネルギー フロンティア は エネルギーの 開 拓 者 に 喩 えるメタファー( 隠 喩 ) であり スマイルバーゲン や ボリュームマスカラ は それぞれ バーゲンで 得 意 顔 になり 濃 厚 なマスカラを 見 てボリューム 感 を 抱 くメトニミー( 換 喩 )であると 考 えられ る 池 上 (2006) 13 が 指 摘 するように 従 来 の 語 の 意 味 の 範 囲 を 超 えて 新 規 なイメージを 作 り 出 そうとする 創 造 性 が 働 いているのだろう このあたりが TVCMの 真 骨 頂 ではなかろうか このレトリック 手 法 は 当 然 ながら 語 だけに 限 定 されるものではないので この 和 製 英 語 に 共 起 する 前 後 の 語 ( 句 )との 関 連 にも 目 を 向 ける 必 要 があるが 頁 数 の 制 限 で 割 愛 する 画 面 と 音 声 の 分 布 は 同 数 だった 7) ここでは 日 本 語 の 発 想 に 基 づいた 語 順 で 英 単 語 を 並 べるのが 主 な 特 徴 Best の 位 置 ( ~がベスト ) SOV の 文 型 パターン( アバター(を)ゲット ) 数 量 詞 ゼロの 使 い 方 等 が 代 表 的 になっている 今 回 の 調 査 では 見 られなかったが 命 令 文 ではない 主 語 抜 き 述 語 文 も 時 々 見 かけることがあるが それもここに 入 る 8) これはよくある 同 音 異 義 を 掛 詞 にするパターン 和 製 英 語 の 特 徴 というよりは 言 語 一 般 の 言 葉 遊 びと 言 っていいもの 9) 今 回 は NTT の 1 語 のみだった CM 全 体 の 中 では 頭 文 字 化 する 前 の 単 語 が 外 国 語 としての 英 語 であるものが 圧 倒 的 に 多 く 意 外 にも KY のような 軽 いノリの 言 葉 使 いが 見 られなかった 13 池 上 嘉 彦 (2006) 英 語 の 感 覚 日 本 語 の 感 覚 <ことばの 意 味 >のしくみ ( 日 本 放 送 出 版 協 会 ) 123

135 3.3 TVCM 画 面 における 文 字 表 記 の 特 徴 について 今 回 のパイロット 調 査 の 中 で 製 品 名 と 会 社 名 におけるアルファベット 文 字 の 多 さは 特 筆 である 商 品 名 では 以 下 のグラフが 示 すように アルファベットが 他 との 組 み 合 わせ も 含 めると 半 数 を 超 えているところに 特 色 がある 人 目 をひきやすいか 人 に 訴 えかける 力 が 強 い というような 新 奇 なイメージがアルファベットにはあるように 思 われる 次 にアルファベット 文 字 を 使 用 していないものをピックアップすると 以 下 のものになる [リーブ 21 ソルマック ベンザブロック 新 コンタックかぜ 総 合 キッチンハイター エ ーザイ/チョコラ BB リポビタン D 箱 根 駅 伝 初 詣 ] 上 記 項 目 で 下 線 を 施 したものは 医 薬 品 の 名 称 であるが カタカナが 多 い アルファベッ トで 表 記 されないのは 高 齢 者 を 意 識 して 時 には 生 命 に 関 わるような 重 大 な 言 い 間 違 い 等 の 回 避 をねらったものではないかと 考 えられる かってはカタカナが 翻 訳 語 として 斬 新 な 人 目 を 引 く 魅 惑 的 な 要 素 があったというが 14 ここではより 確 実 に 正 確 な 情 報 を 伝 える という 異 なる 意 味 合 いが 込 められていて かっての 注 目 を 引 くための 機 能 面 は アルファ ベット 文 字 に 移 行 しているような 印 象 を 受 ける 件 数 図 2: 商 品 の 文 字 表 記 の 分 類 次 に 会 社 名 についても 同 様 な 調 査 をするが ここで 扱 う 会 社 名 は 正 式 に 登 録 された 会 社 名 ではなく TVCM 上 に 現 れる 会 社 名 の 表 記 法 を 採 用 した つまり 会 社 のロゴのような ものである 上 記 (2)と 同 様 な 調 査 をしてみると 以 下 のようになった 表 6: 会 社 名 の 文 字 表 記 アルファベット 漢 字 アルファベット +カタカナ 漢 字 +カタカナ 漢 字 +アルファベット 柳 父 章 (2004) 近 代 日 本 語 の 思 想 翻 訳 文 体 成 立 事 情 ( 法 政 大 学 出 版 局 ) 124

136 件 数 図 3: 会 社 名 の 文 字 表 記 以 上 商 品 名 と 会 社 名 の 語 種 と 文 字 表 記 を 比 べてみると 商 品 名 は 8 割 に 外 国 語 が 使 わ れているのに 対 し 会 社 名 では 混 種 語 を 含 めても 6 割 弱 が 外 国 語 であり 漢 語 の 割 合 が 高 まっているところが 大 きな 違 いとなる 文 字 表 記 においては どちらも 外 国 語 の 生 の 形 で のアルファベット 表 記 が 際 立 って 多 いのが 特 徴 であるが 会 社 名 の 方 でも 漢 字 名 が 製 品 名 に 比 べて 多 いのも 共 通 している これまで 雑 誌 や 書 籍 様 々なコーパス 調 査 を 通 じて 語 種 調 査 15 が 行 われてきたが どれ も 和 語 と 漢 語 が 中 心 で それらが 大 勢 を 占 めるのが 趨 勢 であったが この 2 項 目 では そ れとは 全 く 異 なる 現 象 が 出 ているのが 特 徴 である TVCMにおいては 強 調 したり 相 手 の 注 目 を 引 くための 工 夫 として 生 の 外 国 語 の 文 字 表 記 を 用 いる 手 法 が 主 流 になりつつある 端 的 に 言 えば 英 語 が 文 化 として 日 常 生 活 の 中 に 深 く 入 り 込 んできている 裏 返 しではなか ろうか 是 非 は 別 として 英 語 が 政 治 的 経 済 的 に 最 有 力 な 言 語 であるが 由 に 日 本 だけで はなく 世 界 中 の 多 くの 国 でこのような 現 象 が 見 られる 16 最 後 に CM 画 面 全 体 に 現 れたアルファベット 文 字 列 の 量 を 調 査 した 結 果 は 下 記 の 表 に 示 すとおりであるが 算 定 は ワードの 文 字 カウントに 基 づいたものである アルファ ベット 文 字 の 表 示 割 合 の 5.8%が 高 いかどうかは 明 確 な 比 較 資 料 とは 言 えないかもしれな いが 先 に 示 した 1990 年 代 の 国 立 国 語 研 究 所 の 現 代 雑 誌 70 種 の 語 彙 調 査 に 見 られる ラテン 文 字 の 割 合 が 3.9%であることを 参 照 にすれば その 比 率 は 決 して 低 くはない この 数 字 の 意 味 するところは 伊 藤 (2002) 17 の 予 測 どおり アルファベット 文 字 がカタカナ 文 字 に 代 わって 新 規 性 を 示 す 代 表 的 な 文 字 になる 方 向 へ 進 んでいるのではなかろうかと 考 える 15 国 立 国 語 研 究 所 (1964) 現 代 雑 誌 九 十 種 の 用 語 用 事 第 三 分 冊 分 析 山 崎 誠 小 沼 悦 (2004) 現 代 雑 誌 における 語 種 構 成 ( 第 10 回 言 語 処 理 学 会 ポスター 発 表 要 旨, 福 田 亮 伊 藤 雅 光 塩 田 雄 大 (2007) 日 本 語 の 中 の 外 来 語 と 外 国 語 --- 新 聞 雑 誌 テレビ 国 立 国 語 研 究 所 第 30 回 ことば フォーラム 発 表 資 料 16 Armin Mester (2011) 日 本 語 とドイツ 語 における 英 語 の 影 響? ( 国 立 国 語 研 究 所 研 究 発 表 ) 17 伊 藤 雅 光 (2002) 計 量 言 語 学 入 門 大 修 館 125

137 表 7:CM 画 面 に 出 現 したアルファベット 文 字 列 アルファベット 文 字 数 CM 全 体 の 文 字 数 アルファベット 文 字 数 の 占 める 割 合 (%) % 文 献 池 上 嘉 彦 (2006) 英 語 の 感 覚 日 本 語 の 感 覚 <ことばの 意 味 >のしくみ ( 日 本 放 送 出 版 協 会 ) 石 井 正 彦 (2007) 第 3 部 臨 時 一 語 の 形 成 現 代 日 本 語 の 複 合 語 形 成 論 伊 藤 雅 光 (2007) 雑 誌 に 見 られる 外 来 語 と 外 国 語 の 1990 年 代 の 雑 誌 70 種 本 文 の 語 種 調 査 より 引 用 窪 薗 晴 夫 (2002) <もっと 知 りたい! 日 本 語 > 新 語 はこうして 作 られる 岩 波 書 店 国 立 国 語 研 究 所 編 (1995) テレビ 放 送 の 語 彙 調 査 Ⅰ--- 方 法 標 本 一 覧 分 析 --- 国 立 国 語 研 究 所 報 告 112 鈴 木 俊 二 (2008) 和 製 英 語 の 研 究 ---その 構 造 と 思 想 国 際 短 期 大 学 紀 要 第 23 号 PP.1-47 田 辺 洋 二 (1989) 和 製 英 語 の 形 態 分 類 早 稲 田 大 日 本 語 研 究 教 育 センター 紀 要 2 玉 岡 賀 津 雄 (2009) 韓 国 語 母 語 話 者 による 和 製 英 語 の 理 解 野 村 雅 昭 (1973) 複 次 結 合 語 の 構 造 国 立 国 語 研 究 所 電 子 計 算 機 による 国 語 研 究 Ⅴ 秀 英 出 版 野 村 雅 昭 (1992) 造 語 法 と 造 語 力 日 本 語 学 5 月 号 PP.4-7 林 四 郎 (1982) 臨 時 一 語 の 構 造 国 語 学 131 柳 父 章 (2004) 近 代 日 本 語 の 思 想 翻 訳 文 体 成 立 事 情 ( 法 政 大 学 出 版 局 ) 126

138 共 起 語 集 合 の 頻 度 分 布 と 語 の 属 性 との 相 関 山 崎 誠 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) Correlation between Frequency Distribution of Collocational Set and Key Word's Attribute Makoto Yamazaki (Dept. Corpus Studies, NINJAL) 1.はじめに 本 稿 は コロケーションを 計 量 語 彙 論 的 な 観 点 から 記 述 することを 目 的 とする コロー ションの 定 義 はさまざまであるが 本 稿 では 文 脈 においてある 語 と 共 起 する 別 の 語 と 組 み 合 わせのことと 広 く 捉 える Halliday & Hasan(1976:374 1 )では コロケーションは 再 叙 と 並 んで 語 彙 的 結 束 性 のひとつとされ コロケーションによる 結 束 性 がテクストに 及 ぼす 効 果 は, 微 妙 なもので 評 価 しにくい ( 同 前 :379)とされている 本 稿 では Halliday らが 取 らなかったアプローチ すなわち コロケーションという 現 象 を 集 合 としての 語 彙 を 量 的 に 観 察 した 場 合 にどのような 特 徴 が 見 えてくるかについて 考 察 するものである 2. 共 起 語 集 合 本 稿 で 利 用 する 概 念 共 起 語 集 合 について 説 明 する 計 量 語 彙 論 では 集 合 としての 語 彙 をもとに 延 べ 語 数 や 異 なり 語 数 類 似 度 などを 利 用 して 分 析 を 進 める 本 稿 ではコロ ケーションのキーとなる 語 の 前 後 の 一 定 の 距 離 に 現 れる 語 の 集 まりを 考 える 例 えば (1) のような 語 の 連 続 による 文 脈 があった 場 合 ti がキーとなる 語 ti-1 がキーの1 語 前 の 語 ti+1 がキーの1 語 後 の 語 などとなる (1)..., ti-3, ti-2, ti-1, ti, ti+1, ti+2, ti+3,... 対 象 表 現 域 において ある 単 位 語 t が 同 一 の 見 出 し 語 m に 対 応 するすべての 場 合 にお いて t との 距 離 d の 位 置 にある 語 の 作 る 集 合 を Vm(d)と 書 くことにする 距 離 は 相 手 と なる 語 の 相 対 的 位 置 からキーとなる 語 の 相 対 的 位 置 を 引 いた 値 で 表 す したがって m 自 身 との 距 離 は 0 であり 前 文 脈 方 向 がマイナス 後 文 脈 方 向 がプラスとなる 定 義 により Vm(0)は 要 素 の 異 なりが 見 出 し 語 m のみである 集 合 となる(ただし m の 延 べ 語 数 は 1 とは 限 らない) このように 定 義 した Vm(d) を 考 えたとき d の 値 の 変 化 によって Vm(d)の 計 量 的 指 標 がどのように 変 化 するか また その 変 化 は 見 出 し 語 m の 持 つ 属 性 とどのように 関 係 するかが 本 稿 の 興 味 の 中 心 となる 3.データと 方 法 本 稿 で 利 用 するデータは 現 代 日 本 語 書 き 言 葉 均 衡 コーパス ( 以 下 BCCWJ と 略 す) である BCCWJ には 13 のレジスターがあるが 本 稿 ではそのうち 主 として 図 書 館 書 籍 (LB) を 利 用 する 分 量 が 多 く 結 果 の 安 定 性 が 得 られるためである なお 本 稿 で 用 いる 言 語 単 位 は 短 単 位 である 上 で 定 義 した Vm(d)を 求 める 見 出 し 語 の 選 定 は 使 用 頻 度 の 多 い 語 から 品 詞 を 異 にするも のを 適 宜 選 んだ d の 範 囲 は 文 を 越 えないものとする 2 したがって 見 出 し 語 m を 持 つ 単 位 語 t が 文 末 にある 場 合 後 続 の 文 脈 がないため ti+1 は 存 在 しない なお 距 離 の 測 定 yamazaki@ninjal.ac.jp 1 ページは 邦 訳 による 以 降 の 同 書 からの 引 用 も 同 じ 2 文 の 認 定 は BCCWJ の DVD に 含 まれる 短 単 位 TSV ファイルの 文 頭 ラベルを 使 用 した 文 頭 ラベルが B(= 文 頭 )である 語 から 次 の B が 出 てくるまでを 1 文 とした 127

139 の 対 象 からは 空 白 と 補 助 記 号 を 除 いている 4. 分 析 概 観 図 1~ 図 8 3 は 適 宜 選 択 した 見 出 し 語 8 語 について キーとなる 語 の 前 後 20 語 について 延 べ 語 数 と 異 なり 語 数 の 推 移 を 示 したものである 調 査 対 象 は BCCWJ 全 体 である 図 1 の 思 う の 例 では 延 べ 語 数 はキーのマイナス 側 は -1 語 まで 増 え 続 け +1 語 以 降 は 下 降 に 転 じる この 傾 向 は 図 2 の 見 る 図 3 関 係 でも 同 じである 一 方 図 4 人 間 図 5 新 しい 図 6 すごい 図 7 しかし 図 8 なお は +1 語 まで 延 べ 語 数 が 増 え 続 け +2 語 以 降 は 下 降 に 転 じる 延 べ 語 数 の 推 移 は キーから 文 頭 ないし 文 末 思 う 見 る 図 1 計 量 的 指 標 の 推 移 : 思 う 図 2 計 量 的 指 標 の 推 移 : 見 る 関 係 no. of tokens (left axis) no.of types (right axis) 図 3 計 量 的 指 標 の 推 移 : 関 係 図 4 計 量 的 指 標 の 推 移 : 人 間 新 しい すごい no. of tokens (left axis) no.of types (right axis) no. of tokens (left axis) no.of types (right axis) 人 間 no. of tokens (left axis) no.of types (right axis) no. of tokens (left axis) no.of types (right axis) no. of tokens (left axis) no.of types (right axis) 図 5 計 量 的 指 標 の 推 移 : 新 しい 図 6 計 量 的 指 標 の 推 移 : すごい 3 図 1~8 のいずれも 棒 グラフが 延 べ 語 数 ( 左 軸 ) 折 れ 線 グラフが 異 なり 語 数 ( 右 軸 )を 表 す 横 軸 はキ ーからの 相 対 的 位 置 である これは 離 散 的 な 値 をとるため 折 れ 線 グラフにするのは 妥 当 ではないが 見 やすさのため 便 宜 的 に 使 用 した 以 降 のグラフも 同 様 である 128

140 しかし なお no. of tokens (left axis) no.of types (right axis) no. of tokens (left axis) no.of types (right axis) 図 7 計 量 的 指 標 の 推 移 : しかし 図 8 計 量 的 指 標 の 推 移 : なお まで 何 語 あるかの 分 布 を 意 味 していることから その 語 が 平 均 して 文 のどの 辺 に 位 置 して いるかを 表 していることになる 思 う が 見 る に 比 べてプラス 側 の 延 べ 語 数 の 減 少 が 大 きいのは 文 末 によく 現 れることを 意 味 している また 接 続 詞 である しかし なお はマイナス 側 が 非 常 に 少 ない 非 対 称 的 な 形 をしているのもその 品 詞 性 の 表 れである 図 で 折 れ 線 で 示 した 異 なり 語 数 の 推 移 は 延 べ 語 数 の 推 移 とは 違 って やや 複 雑 な 様 相 を 示 している 図 1 思 う では キーのマイナス 側 は -7 語 まで 上 昇 し 続 け -1 語 ま で 下 降 し +4 語 まで 再 上 昇 し +5 語 で 若 干 下 降 し +6 語 で 上 昇 +7 語 以 降 は 下 降 する 個 別 に 異 なる 部 分 はあるものの 思 う 見 る 関 係 人 間 ではキー 付 近 に 谷 ができる 形 の 分 布 となっている 図 5 新 しい と 図 6 すごい は-1 語 と+2 語 との2 か 所 に 谷 ができる 分 布 であり 図 7 しかし と 図 8 なお はマイナス 側 は 語 数 が 少 なく 推 移 はほぼ 一 定 しているようであるが プラス 側 は+1 語 で 急 に 上 昇 し いったん 小 さな 谷 を 作 り 下 降 するという 分 布 になっている 大 局 的 に 見 ると 異 なり 語 数 の 推 移 は 延 べ 語 数 の 増 減 に 伴 う 自 然 増 自 然 減 となってい ると 見 られる 部 分 と その 傾 向 に 反 し 延 べ 語 数 が 増 えても 減 少 する あるいは 延 べ 語 数 が 減 っても 増 加 する 部 分 とに 分 けられる 前 者 は 語 彙 の 量 的 な 特 徴 として 一 般 的 な 現 象 と 考 えられるが 後 者 は 当 該 のキーとなる 語 の 持 つ コロケーションとしての 特 徴 が 現 れ ているものと 解 釈 できる すなわち キーとなる 語 の 影 響 によって 特 定 の 語 の 出 現 が 多 く なったため 延 べ 語 数 の 値 と 異 なり 語 数 の 値 の 関 係 にも 影 響 したものであろう このよう なコロケーションの 影 響 を 受 けていると 思 われる 部 分 をマイナス 側 からの 自 然 増 の 傾 向 が 破 られる 箇 所 (すなわち 減 少 に 転 じた 箇 所 ) 同 様 にプラス 側 を 値 の 大 きい 方 から 見 た 場 合 の 自 然 増 の 傾 向 が 破 られる 箇 所 で 特 定 すると 思 う が-6 語 から+5 語 の 範 囲 見 る が-3 語 から+3 語 関 係 が-2 語 から+4 語 人 間 が-3 語 から+3 語 新 しい すごい が-3 語 から+4 語 しかし が+2 語 なお が+3 語 となっている 4 こ のプラス 側 の 転 移 箇 所 およびマイナス 側 の 転 移 箇 所 にはさまれた 部 分 をコロケーション の 影 響 を 受 けている 範 囲 と 考 えることができる 図 9 図 10 は 思 う について レジスターごとに 延 べ 語 数 と 異 なり 語 数 の 推 移 を 見 た ものである 図 9 の 延 べ 語 数 では 13 のレジスターのうち 12 個 が-1 語 目 が 最 大 になり 以 降 下 降 する 傾 向 を 取 っている 5 ちなみに-1 語 目 における 延 べ 語 数 がいちばん 多 いのは Yahoo! 知 恵 袋 (OC)で 以 下 図 書 館 書 籍 (LB) 出 版 書 籍 (PB) Yahoo!ブログ(OY) 国 会 会 議 録 (OM)と 続 く 国 会 会 議 録 のマイナス 側 のカーブは 他 のレジスターと 比 べてゆるやかであ るが これは 一 文 が 長 いということの 現 れであろう 表 1 は 図 10 の 異 なり 語 数 の 推 移 に ついて 法 律 (OL)を 除 くレジスターごとにキーとなる 語 に 向 かってプラス マイナスそれ 4 接 続 詞 についてはマイナス 側 は 語 数 が 少 ないため 評 価 は 行 わない 5 残 りの 一 つのレジスターは 法 律 (OL)で 思 う が 5 回 しか 現 れないため 傾 向 を 把 握 することは 難 しい 129

141 LB OB OC OL OM OP OT OV OW OY PB PM PN 図 9 レジスター 別 延 べ 語 数 の 推 移 思 う LB OB OC OL OM OP OT OV OW OY PB PM PN 図 10 レジスター 別 異 なり 語 数 の 推 移 思 う 表 1 レジスターごとの 転 移 箇 所 レジスター マイナス 側 の 転 移 箇 所 プラス 側 の 転 移 箇 所 図 書 館 書 籍 (LB) ベストセラー(OB) Yahoo! 知 恵 袋 (OC) 法 律 (OL) * 6 * 国 会 会 議 録 (OM) 広 報 紙 (OP) 教 科 書 (OT) 韻 文 (OV) 白 書 (OW) Yahoo!ブログ(OY) 出 版 書 籍 (PB) 出 版 雑 誌 (PM) 出 版 新 聞 (PN) 法 律 (OL)は 用 例 数 が 少 ないため 転 移 箇 所 を 判 断 できない 130

142 ぞれの 方 向 から 自 然 増 の 傾 向 が 破 られる 転 移 箇 所 を 示 したものである BCCWJ 全 体 では 前 述 のようにこの 範 囲 は-6 語 から+5 語 であったが レジスターで 見 ると ベストセラー (OB) Yahoo! 知 恵 袋 (OC)はプラス 方 向 にもマイナス 方 向 にも 範 囲 が 狭 くなっている また Yahoo!ブログ(OY)と 広 報 紙 (OP)はプラス 方 向 のみ 出 版 雑 誌 (PN)はマイナス 方 向 のみ 範 囲 が 狭 くなっている 範 囲 が 広 くなった 主 な 理 由 は 異 なり 語 数 が 少 なく 値 が 安 定 していな いためであろう 例 えば 白 書 (OW)のマイナス 側 の 数 値 の 推 移 は 次 のようになっている 下 線 を 施 した 5 箇 所 が 上 昇 から 下 降 に 転 じた 点 である 4.2 TTRによる 観 察 図 11~14 は Vm(d)の 異 なり 語 数 をその 延 べ 語 数 で 割 った 値 Type/Token Ratio( 以 下 TTR とする)の 推 移 を 示 したものである TTR は 語 彙 の 豊 かさを 表 す 指 標 とされ 語 彙 の 計 量 的 な 分 析 や 文 章 の 評 価 によく 用 いられている TTR の 値 が 高 いほど 集 合 における 見 出 し 語 の 種 類 が 多 く 語 彙 的 に 豊 かであるとされる 本 分 析 でのデータは キーとなる 語 か ら 等 距 離 にある 語 を 集 めた 集 合 であるため 文 脈 を 有 していない 見 出 し 語 の 集 合 という 特 徴 がある したがって そのような 集 合 における TTR の 値 が 意 味 するものは データ 中 に 同 一 文 脈 がどれだけ 複 数 回 使 用 されているかということの 観 察 になるだろう 図 11~14 により TTR の 動 きはキー 付 近 に 谷 を 形 成 することから 図 1~8 の 異 なり 語 数 の 推 移 にやや 似 ているが 違 う 点 もある 図 11 の 動 詞 ではマイナス 方 向 プラス 方 向 ともに 相 対 位 置 の 絶 対 値 が 大 きくなると TTR の 値 も 高 くなる 傾 向 がある これは 図 12 の 名 詞 図 13 の 形 容 詞 でも 同 じである 7 図 14 の 接 続 詞 ではマイナス 方 向 には TTR が 高 くなる 傾 向 があるが プラス 方 向 ではそれがなく フラットになっているのが 特 徴 的 である 図 7 8 からプラス 方 向 で 延 べ 語 数 の 減 少 が 見 られることから 延 べ 語 数 が 一 定 のためこのように フラットになったわけではない キーから 離 れるにしたがって TTR の 値 が 大 きくなって 思 う 見 る 関 係 人 間 図 11 TTRの 推 移 : 動 詞 図 12 TTRの 推 移 : 名 詞 新 しい すごい しかし なお 図 13 TTRの 推 移 : 形 容 詞 図 14 TTRの 推 移 : 接 続 詞 7 図 13 は 谷 が 二 つある 型 であるが その 外 側 は 絶 対 値 の 大 きい 方 向 に 対 して 単 調 増 加 の 傾 向 が 見 て 取 れる 131

143 いくということは コロケーションの 影 響 がどの 辺 まで 届 いているかの 判 断 にも 関 係 する TTR の 値 が 一 定 になるまでコロケーションの 影 響 があるとすると 少 なくとも 図 11~13 に 挙 げた 語 群 についてはキーから 前 後 20 語 までコロケーションの 範 囲 ということになる これは4.1 節 で 述 べた 異 なり 語 数 の 推 移 から 見 たコロケーションの 範 囲 (ほぼ 一 ケタ 台 前 半 の 値 )とはずいぶん 違 っている どちらがコロケーションの 範 囲 として 妥 当 かは 本 稿 では 決 めがたいが その 検 証 方 法 のひとつとして 延 べ 語 数 を 一 定 にしておいて TTR を 測 ることを 次 の 課 題 としたい 5. 分 析 動 詞 の 場 合 この 節 では 対 象 を 図 書 館 書 籍 (LB)に Vm(d)の 距 離 の 範 囲 を±5にした 場 合 について 考 察 をする 図 は 動 詞 を 対 象 にして TTR の 値 を 観 察 したものである 図 15 は UniDic の 品 詞 体 系 で 動 詞 - 一 般 を 図 16 は 動 詞 - 非 自 立 可 能 を 品 詞 に 持 つものである いずれも 似 たような 動 きを 示 しているが 特 徴 的 なのは -1 語 と+1 語 の TTR の 値 が 低 くなっており その 部 分 を 谷 として 両 側 に 開 いた 形 を 作 ることである また 動 詞 一 般 の 考 える 出 る 使 う 聞 く 書 く には-3 語 目 に 小 さな 谷 が 出 来 ている 図 16 の 非 自 立 可 能 の 方 でも 見 る 掛 ける 終 わる の-3 語 目 に 小 さな 谷 ある 始 める 続 ける 切 る は-3 語 目 に 谷 はないが -4 語 目 -5 語 目 まで 観 察 すると 値 が 減 少 して いる 箇 所 が 認 められる また -3 語 目 ほど 顕 著 ではないが +3 語 目 にも TTR の 値 が 鈍 化 する 部 分 がある 図 15 では 使 う 聞 く 図 16 では 見 る 掛 ける 切 る であ る TTR の 値 が 単 調 に 推 移 しない 理 由 は キーから±3 語 目 によく 出 現 する 語 があること を 想 定 させる この 場 合 キーの 前 後 3 語 目 までがコロケーションとして 注 目 すべき 範 囲 であると 推 測 される 思 う 考 える 分 かる 出 る 使 う 聞 く 書 く 見 る 掛 ける 始 める 続 ける 切 る 終 わる 図 15 TTR の 推 移 : 動 詞 一 般 図 16 TTR の 推 移 : 動 詞 非 自 立 可 能 図 からはキーを 挟 んで TTR の 値 が 対 称 的 になっているのではなく 全 体 的 にキ ーの 前 の 方 が 値 が 高 いように 見 受 けられる 特 に 図 15 のプラス 側 は 折 れ 線 が 混 み 合 ってい るのに 対 し マイナス 側 はばらけている 印 象 がある このことを 確 かめるために プラス 側 の TTR の 値 からマイナス 側 の TTR の 値 を 引 いた 値 を 表 2 3 に 示 した この 値 が 0 より 小 さければマイナス 側 の TTR の 方 が 大 きいということになる 表 2 3 の 網 掛 けの 部 分 は その 差 が 0 より 小 さい 部 分 である 表 2 では 35 箇 所 中 20 箇 所 のセルが 0 より 小 さく TTR の 値 に 関 しては 対 象 でなく マイナス 側 のほうが 値 が 高 いことが 分 かる このことは キーとなる 語 の 前 5 語 以 内 に 現 れる 語 彙 のバラエティーの 方 が 後 の5 語 以 内 に 現 れる 語 彙 のバラエティーよりも 多 いことを 意 味 する ただし 表 3 ではその 傾 向 は 確 認 されず 網 掛 けの 箇 所 は 30 箇 所 中 16 箇 所 にとどまるが キーから 1 語 目 の 部 分 を 除 くと 若 干 傾 向 が 高 まる(24 箇 所 中 15 箇 所 ) 132

144 表 2 キーから 等 距 離 はなれた 語 集 合 の TTR の 差 : 動 詞 一 般 キーからの 距 離 1 語 2 語 3 語 4 語 5 語 思 う 考 える 分 かる 出 る 使 う 聞 く 書 く 表 3 キーから 等 距 離 はなれた 語 集 合 の TTR の 差 : 動 詞 非 自 立 可 能 キーから の 距 離 1 語 2 語 3 語 4 語 5 語 見 る 掛 ける 始 める 続 ける 切 る 終 わる 名 詞 の 場 合 名 詞 における TTR の 分 布 を 見 てみよう 図 17 は 普 通 名 詞 図 18 は 固 有 名 詞 及 び 普 通 名 詞 だが 助 数 詞 としても 使 うもの( 時 間 パーセント)を 選 んだ 名 詞 は 動 詞 と 違 い TTR の 谷 に 相 当 する 部 分 が1 例 を 除 いては1 箇 所 (+1 語 目 )である この 違 いは それぞれ 動 詞 名 詞 の 前 後 にくる 助 詞 助 動 詞 の 影 響 ではないかと 思 われる 前 節 で 述 べたように -3 語 目 +3 語 目 に TTR の 値 が 鈍 化 する 箇 所 があることも 同 様 である 次 に 意 味 的 な 違 いは TTR の 推 移 にどのように 関 係 しているかを 見 てみよう 図 17 か ら 女 と 男 の TTR の 値 がほぼ 重 なるくらいによく 一 致 していることが 分 かる 意 味 的 な 類 似 性 のためとも 解 釈 できるが 対 比 する 意 味 で 挙 げた 人 間 と 子 供 もその 分 布 はかなり 似 ているため 必 ずしも 意 味 的 な 類 似 が 理 由 とは 言 い 切 れないようである 図 18 の 日 本 と アメリカ は 値 の 大 きさは 異 なるが 値 の 推 移 の 様 子 は 似 ている 助 数 詞 にもなる 時 間 パーセント は 谷 の 位 置 がずれており 推 移 が 似 ているとは 言 い 難 い ちなみに 動 詞 の 場 合 と 同 じように キーから 等 距 離 にある TTR の 値 をプラス 側 からマイナ ス 側 を 引 いた 値 は 図 17 の 4 語 では 20 箇 所 中 18 箇 所 が 図 18 では 20 箇 所 中 13 箇 所 がマイナスの 値 をそれぞれ 示 した 名 詞 においてもキーの 前 の 語 彙 の 種 類 の 方 が 後 ろに 女 男 人 間 子 供 日 本 アメリカ 時 間 パーセント 図 17 TTR の 推 移 : 普 通 名 詞 図 18 TTR の 推 移 : 固 有 名 詞 助 数 詞 可 能 133

145 くる 語 彙 の 種 類 よりも 多 い 傾 向 があることが 確 認 された 5.3 形 容 詞 の 場 合 形 容 詞 は 図 19 の 活 用 の 場 合 と 図 20 のシク 活 用 の 場 合 とに 分 けた 1 例 を 除 いて-1 語 目 に 谷 を 作 る 分 布 を 示 している 動 詞 名 詞 の 場 合 とはやや 異 なり TTR の 値 が 鈍 化 する 箇 所 がマイナス 側 は-3 語 目 であるが プラス 側 が+2 語 目 と+4 語 目 の2 箇 所 あるのが 特 徴 的 である 図 19 では 意 味 的 に 関 連 の 深 い 良 い 悪 い と 大 きい 小 さい の 値 の 推 移 がそれぞれ 類 似 していることが 分 かる 図 20 では 嬉 しい の 谷 の 位 置 が+1 語 目 にずれているが 今 のところこれを 説 明 する 解 釈 は 持 ち 合 わせていない プラス 側 とマイ ナス 側 の 値 の 差 は 図 19 で 20 箇 所 中 12 箇 所 が 図 20 で 25 箇 所 中 16 箇 所 が 0 より 小 さ く 名 詞 動 詞 と 類 似 の 傾 向 を 示 すことが 確 認 された 良 い 悪 い 大 きい 小 さい 図 19 TTR の 推 移 : 形 容 詞 ク 活 用 図 20 TTR の 推 移 : 形 容 詞 (シク 活 用 ) 6.まとめと 今 後 の 課 題 本 稿 では 共 起 語 集 合 (キーとなる 語 の 前 あるいは 後 ろの 特 定 の 位 置 に 出 現 する 語 の 集 合 )という 考 えを 用 いて BCCWJ においてコロケーションが 現 れる 様 子 を 計 量 的 な 指 標 の 観 察 から 記 述 した 用 いた 指 標 は 延 べ 語 数 異 なり 語 数 TTR である 得 られた 知 見 を まとめると 次 の 3 点 になる (1) 異 なり 語 数 の 推 移 からは 異 なり 語 数 が 自 然 増 ではなくなる 範 囲 をコロケーションとして 位 置 付 け 思 う 見 る などの 語 について 個 別 の 記 述 を 行 った (2)TTR の 推 移 については±20 語 目 でも 値 が 一 定 しないことから TTR によりコロケ ーションの 範 囲 を 定 めるのは 別 の 工 夫 が 必 要 であることが 示 唆 された (3) 図 書 館 書 籍 (LB) に 限 ってキーの 前 後 5 語 の TTR の 動 きを 観 察 した 場 合 動 詞 名 詞 形 容 詞 それぞれ 特 徴 的 な 推 移 があること また キーからマイナス 側 の 方 がプラス 側 よりも 値 が 高 い 傾 向 にあ ることが 分 かった 今 後 の 課 題 としては 調 査 語 の 範 囲 を 広 げること 共 起 語 集 合 同 士 の 類 似 度 を 用 いた 分 析 特 に 類 似 度 を 用 いた 語 の 分 類 を 試 みたい 謝 辞 本 研 究 は 国 立 国 語 研 究 所 の 共 同 研 究 プロジェクト コーパス 日 本 語 学 の 創 成 による 研 究 成 果 の 一 部 である データとして 利 用 した BCCCWJ は 国 立 国 語 研 究 所 のプロジェクト 及 び 文 部 科 学 省 科 学 研 究 費 補 助 金 特 定 領 域 研 究 代 表 性 を 有 する 大 規 模 日 本 語 書 き 言 葉 コ ーパスの 構 築 :21 世 紀 の 日 本 語 研 究 の 基 盤 整 備 ( 平 成 18~22 年 度 領 域 代 表 者 : 前 川 喜 久 雄 )による 補 助 を 得 て 構 築 したものである 参 考 文 献 Halliday, M.A.K. and Hasan, R.(1976)Cohesion in English.Longman( 邦 訳 テクストはどのよう に 構 成 されるか 大 修 館 書 店 1997 刊 ) 楽 しい 嬉 しい 美 味 しい 新 しい 134

146 BCCWJ 係 り 受 け 関 係 アノテーション 付 与 のための 文 境 界 再 認 定 小 西 光 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 小 山 田 由 紀 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 浅 原 正 幸 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 柏 野 和 佳 子 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) 前 川 喜 久 雄 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 /コーパス 開 発 センター) Revision of Sentence Boundaries in BCCWJ for Syntactic Dependency Structure Annotation Hikari Konishi (Center for Corpus Development, NINJAL) Yuki Oyamada (Center for Corpus Development, NINJAL) Masayuki Asahara (Center for Corpus Development, NINJAL) Wakako Kashino (Dept.Corpus Studies, NINJAL) Kikuo Maekawa (Dept.Corpus Studies/Center for Corpus Development, NINJAL) 1.はじめに 現 代 日 本 語 書 き 言 葉 均 衡 コーパス ( 以 下,BCCWJ)では, 文 を 機 械 的 に 自 動 認 定 し, コアデータのみ 人 手 による 文 境 界 の 修 正 を 行 っている.このコアデータの 文 境 界 情 報 を 元 に 係 り 受 け 関 係 アノテーションを 付 与 しようとすると, 係 り 先 のない 文 が 出 現 する. これは, 文 書 を 電 子 化 した 際 に 認 定 したレイアウトに 基 づく 階 層 構 造 1 の 影 響 であったり, 係 り 受 け 関 係 にあると 判 断 されるものが 自 動 文 認 定 の 際 に 一 文 とされなかったりしたこと に 由 来 する.そこで,BCCWJ のコアデータに 関 して 係 り 受 け 関 係 アノテーション 付 与 を 目 的 とした 文 の 再 認 定 を 行 うこととした. 2. 自 動 文 認 定 sentence 要 素 sentence 要 素 は, 文 に 相 当 するまとまりを 表 す 要 素 として 機 械 的 に 自 動 認 定 されて いる.BCCWJ の 電 子 化 フォーマットでは, 自 動 認 定 は 以 下 のように 行 われる. 図 1 sentence 要 素 の 自 動 認 定 hkonishi@ninjal.ac.jp 1 山 口 ほか(2011)によると 上 位 から article> cluster/titleblock>paragraph>sentence という 階 層 構 造 を 持 つ 135

147 自 動 認 定 により sentence 要 素 冒 頭 と 判 断 された 箇 所 には XML 形 式 で<sentence>タグを, 末 尾 と 判 断 された 箇 所 には</sentence>タグを 挿 入 する. 現 在 公 開 されている BCCWJ(DVD 版 )の 電 子 化 フォーマットのうち,XML で 構 成 され るものとして 文 字 ベース XML(C-XML)と 形 態 論 情 報 付 きの 統 合 形 式 XML(M-XML)の 二 種 類 がある.C-XML は sentence 要 素 の 入 れ 子 構 造 を 認 めるが, M-XML では sentence 要 素 の 入 れ 子 構 造 を 認 めず,C-XML で 入 れ 子 構 造 の 外 側 の sentence 要 素 を<superSentence>とし ている 2 ( 図 2 上 ).また C-XML では,<sentence>タグに 属 性 quasi ( 文 区 切 り 文 字 以 外 の 基 準 により 自 動 付 与 された sentence 要 素 )と verse ( 韻 文 内 の sentence 要 素 )を 付 与 しており,M-XML では,その 二 属 性 に 加 えて 入 れ 子 構 造 外 側 の sentence 要 素 に 対 して fragment という 属 性 を 新 たに 導 入 している. <supersentence> M-XML <sentence type="fragment"> 声 明 は 同 大 統 領 の 法 案 署 名 へ 歓 迎 と 感 謝 を 表 明 し</sentence> <quote> <sentence> 米 国 の 支 持 は 台 湾 の(WHO 参 加 への) 努 力 が 既 に 友 邦 の 理 解 を 得 たことを 意 味 する </sentence> <sentence type="quasi"> 今 後 全 力 を 挙 げて 国 際 社 会 の 全 面 的 な 賛 同 を 得 られるよう 努 力 する </sentence> </quote> <sentence type="fragment">と 述 べている </sentence> </supersentence> <br type="automatic_original"/> <paragraph> C-XML <sentence> 声 明 は 同 大 統 領 の 法 案 署 名 へ 歓 迎 と 感 謝 を 表 明 し <quote> <sentence> 米 国 の 支 持 は 台 湾 の(WHO 参 加 への) 努 力 が 既 に 友 邦 の 理 解 を 得 たことを 意 味 する </sentence> <sentence type="quasi"> 今 後 全 力 を 挙 げて 国 際 社 会 の 全 面 的 な 賛 同 を 得 られるよう 努 力 する</sentence> </quote> と 述 べている </sentence> <br type="automatic_original" /> </paragraph> 図 2 M-XML( 上 )と C-XML( 下 )の 比 較 (PN4g_00001) 2.1 sentence 要 素 の 現 状 と 問 題 点 係 り 受 け 関 係 アノテーション 付 与 を 目 的 とした 場 合,BCCWJ の sentence 要 素 における 問 題 点 は, 大 きく 以 下 の 二 つに 分 けられる. 1 文 境 界 と 判 断 されるべき 箇 所 に<sentence>タグが 付 与 されていない. 2 文 境 界 と 判 断 されるべきでない 箇 所 に<sentence>タグが 付 与 されている. まず1について, 前 述 のとおり<sentence>タグはほぼ 自 動 付 与 である.そのため, 現 段 階 で 本 来 複 数 の 文 とされるべき 発 話 や 引 用 補 足 などが 認 定 基 準 が 原 因 でひとつの sentence 要 素 となっており, 分 割 されていない 場 合 がある. 例 えば <sentence> 受 験 勉 強 に 明 け 暮 れて 東 大 に 入 って 官 僚 になってもちっとも 幸 福 じゃない 最 近 では そんなセリフを 大 人 も 子 供 も 口 にします </sentence> (PB33_00032)のように 自 動 認 定 の 基 準 から 外 れてお り, 機 能 的 には 括 弧 引 用 符 と 同 様 に 用 いられているのだが sentence 要 素 とされていないよ うな 場 合 である.ただし,これらは 人 手 修 正 のチェック 漏 れということも 考 えられる. 2 小 木 曽 ほか(2011) 上 位 の 文 は supersentence として 文 書 構 造 タグの 一 種 とした 下 位 の sentence はそのまま 残 し supersentence の 一 部 分 を 新 たに sentence で 囲 み type= fragment とした (p.39) 136

148 次 に2であるが,これには 二 つの 問 題 がからんでいる. 一 つは 資 料 原 本 のレイアウト 情 報 を 元 に 認 定 した 文 書 階 層 構 造 により 発 生 している 問 題 であり,もう 一 つは 自 動 及 び 人 手 修 正 による sentence 要 素 の 認 定 基 準 と, 係 り 受 け 関 係 アノテーションを 目 的 とした 文 の 認 定 基 準 とが 異 なるという 問 題 である. 一 つ 目 の 問 題 は, 例 えば 原 本 が 図 3のように 会 話 文 に 入 る 直 前 の 地 の 文 で 改 行 (<br type= automatic_original />)されるようなレイアウトだと,sentence 要 素 より 上 位 の 文 書 構 造 である<paragraph>タグ 3 や<quotation>タグ 4 に 阻 まれ, 文 が 続 いているにもかかわらず 一 つ の 文 としては 認 定 されていない. <paragraph> ( 中 略 ) <sentence type="quasi"> 観 光 客 は しきりに</sentence> <br type="automatic_original"/> </paragraph> <quotation> <speech> <sentence type="quasi"> すごいですねえ </sentence> <br type="automatic_original"/> </speech> </quotation> <quotation> <speech> <sentence type="quasi"> 感 激 しています </sentence> <br type="automatic_original"/> </speech> </quotation> 係 り 受 け 関 係 に <sentence>という 言 葉 を 口 にした </sentence> 必 要 な 文 の 範 囲 観 光 客 は と 口 にした に 係 り 受 け 関 係 が ある 図 3 階 層 構 造 により 複 数 の sentence 要 素 となった 例 (M-XML) [PB1n_00024] 図 3では 観 光 客 は しきりに という sentence 要 素 と という 言 葉 を 口 にした とい う sentence 要 素 が 認 定 されており, 観 光 客 は の 本 来 の 係 り 先 ( 口 に)した は 文 を 越 えて 存 在 することになる. 文 を 越 えた 係 り 受 け 関 係 は 付 与 できないため, 観 光 客 は の 係 り 先 は 不 明 となり, 正 しい 係 り 受 け 関 係 アノテーションの 付 与 ができないこととなる. <paragraph> ( 中 略 ) <sentence type="quasi">その 点 私 なら </sentence> <br type="automatic_original"/> </paragraph> <quotation> <speech> <supersentence>の 範 囲 <supersentence type= quasi > <sentence> 少 しだけ 待 ってください </sentence> <sentence> 小 学 校 の 時 に 詰 め 込 み 教 育 をしてはいけないんです </sentence> ~ 中 略 ~ <sentence type= quasi > 絶 対 に 後 悔 はさせません </sentence> </supersentence> <br type="automatic_original" /> </speech> </quotation> <sentence>と 言 うでしょう </sentence> 係 り 受 け 関 係 に 必 要 な 文 の 範 囲 図 4 <supersentence>タグの 範 囲 (M-XML) 私 なら と 言 うでしょう に 係 り 受 け 関 係 がある [PB33_00032] 3 段 落 を 表 す 文 書 構 造 要 素. 原 則 として, 一 字 下 げで 始 まる.sentence 要 素 よりも 上 位 階 層 となり,sentence 要 素 が 上 位 階 層 の 要 素 をまたぐことはない. 4 山 口 ほか(2011) 当 該 記 事 とは 異 なる 著 作 物 からの 引 用 や, 発 話 心 内 発 話 の 引 用 描 写 書 き 起 こしを 表 す 137

149 二 つ 目 の 問 題 は, 今 回 作 業 対 象 としたコアデータについては 人 手 による 修 正 が 行 われて いるものの,それらは 係 り 受 け 関 係 を 付 与 する という 基 準 で 作 業 されていないため, 係 り 受 け 関 係 アノテーション 付 与 を 目 的 とした 文 認 定 が 再 度 必 要 となる.M-XML に 付 与 さ れた<superSentence>タグを 利 用 した 文 の 認 定 も 可 能 だが, 図 4のような 過 不 足 のある 範 囲 と なっている 場 合 もあるため, 自 動 的 に 抽 出 することは 難 しい. またこれとは 別 に,C-XML から M-XML に 変 換 する 際 に 図 5のような 問 題 も 生 じている. <supersentence> <quote> <sentence> 固 体 をどんどん 小 さくするとどうなる? </sentence> </quote> <sentence type="fragment"> </sentence> </supersentence> <br type="automatic_original" /> 図 5 句 点 のみで 1 文 と 認 定 されている 例 (M-XML) 以 上 のことからも, 係 り 受 け 関 係 アノテーションを 付 与 する 場 合, 現 状 の 文 境 界 の 認 定 では 問 題 があるため, 今 回 は 係 り 受 け 関 係 アノテーション 付 与 に 影 響 の 大 きい2の 文 境 界 と 判 断 されるべきでない 箇 所 に<sentence>タグが 付 与 されている sentence 要 素 につい てのみ 文 境 界 の 再 認 定 作 業 を 行 った.なお 浅 原 (2013)によると,1は 係 り 受 け 関 係 アノテー ション 作 業 時 に 文 境 界 を 表 現 する 係 り 受 け 関 係 ラベル( Z ラベル)を 導 入 している. 3. 文 境 界 再 認 定 作 業 3.1 作 業 対 象 BCCWJ のコアデータ 全 60,374 文 を 対 象 とする.XML データの<sentence>タグや <supersentence>タグを 修 正 するのではなく,XML データの sentence 要 素 を 参 考 にした 係 り 受 け 関 係 アノテーション 用 の 文 を 別 途 認 定 する. 3.2 認 定 基 準 まず 前 提 として 以 下 の 二 点 を 示 す. [PB33_00037] 係 り 受 け 関 係 アノテーション 付 与 を 目 的 としたもっとも 長 い 単 位 としての 文 の 認 定 を 行 う 現 在 XML 等 に 付 与 されている 改 行 やタグ 情 報 (<sentence>タグ <paragraph>タグ 等 ) には 縛 られない 一 文 と 認 定 するもの 現 状 の sentence 要 素 では 係 り 受 け 関 係 アノテーション 付 与 に 問 題 があり, 以 下 の 三 点 のい ずれかを 満 たすものを 文 と 再 認 定 する. 1 括 弧 や 引 用 符 などの 括 り 記 号 で 括 られた 発 話 や 引 用 補 足 部 分 を 挟 んだり, 引 用 の 助 詞 と で 受 けたりして 係 り 受 け 関 係 を 結 べる 要 素 が 前 中 後 に 接 続 する 2 箇 条 書 き( 改 行 を 伴 う)を 内 包 する 要 素 が 前 中 後 に 接 続 する( 主 にウェブ 媒 体 ) 3 本 来 一 文 であるべきものが, 書 き 手 による 意 図 的 な 改 行 で 分 割 されている( 主 に ウェブ 媒 体 ) 3.2に 記 したとおり 係 り 受 け 関 係 がもっとも 長 い 単 位 としての 文 境 界 越 えないことを 基 準 とするが, 例 えば 掛 け 給 え <br>と 部 長 は 言 った や 手 でひたいをおさえて <br> 138

150 なにをいっているんだ わたしは? のように 括 られた 要 素 に 対 して 後 ろのみ, 前 のみ に 接 続 する 場 合 がある.この 場 合 は 掛 け 給 え と 部 長 は 言 った 手 でひたいをおさえ て なにをいっているんだ わたしは? という 文 を 認 定 した. 接 続 詞 のみの 場 合 や 助 詞 と だけで 括 られた 要 素 を 受 ける 場 合 も 同 様 に 処 理 する. 1 約 束 した 場 所 で 待 っていると 突 然 後 ろから 手 で 目 隠 しされ 待 った? なんて 言 われる 甘 酸 っぱ 系 の 目 隠 しもある 2 防 災 対 策 にとって, 情 報 は, 平 常 時 から 的 確 に 災 害 に 備 えるためにも, 災 害 時 に 状 況 に 即 応 した 対 応 を 行 うためにも 基 礎 となるものである 3 将 来 いつもそばにいて 力 になるよ みたいな 意 味 だったら こんな 感 じかなあ 一 文 一 文 一 文 [PB12_00001] [OW6X_00041] [OC12_01176] 点 線 枠 内 が 修 正 後 の 一 文 とする 範 囲 図 6 一 文 と 認 定 するもの 一 文 と 認 定 しないもの 以 下 の 場 合 は, 現 状 のままひとつの 文 にまとめ 上 げることはしない. 1 倒 置 部 分 が 改 行 されている 2 改 行 を 伴 って 文 がねじれている 3 接 続 助 詞 ではなく 接 続 詞 と っと と 判 断 されるものが 文 頭 にくる 4 前 後 の sentence 要 素 と 括 弧 や 引 用 符 などで 括 られた 要 素 がそれぞれ 独 立 して 係 り 受 け 関 係 にない 1 本 当 に 早 くに 行 った 方 がいいですよ 卵 巣 の 病 気 もありますから [OC09_03045] 2 セルフは 降 りないとダメですが しみこんで 痛 いのなんのって [OC06_00333] 3 初 歩 的 な 質 問 ですが 研 修 医 って 一 番 若 くて 何 歳 でなれますか? と いうのはたまたま 知 り 合 った 人 が23 歳 研 修 医 ということなのですが なんだかうそ 臭 くて... [OC04_00001] 4 中 田 家 の 新 しい 住 人 は オスのシャムネコだった チャールズ フォン モンテ(Charles von Monte) ニックネームはチャックにしよう どう? さっそく 中 田 は 新 住 人 に 名 前 をつけた [PB54_00027] 点 線 枠 内 が 一 文 の 範 囲 図 7 一 文 と 認 定 しないもの 139

151 3.3 作 業 手 順 M-XML を 元 に sentence 要 素,<superSentence>タグの 範 囲 情 報,<sentence>/<superSentence> タグの type 情 報 (fragment,quasi, verse),sentence 要 素 の 冒 頭 と 末 尾 の 品 詞 情 報 を 抽 出 し, それらを 参 考 にして 作 業 を 行 った. 例 えば,sentence 要 素 が 助 詞 や 括 弧 閉, 読 点 カンマで 始 まっている 場 合 は, 一 つ 前 (も しくはそれ 以 前 から)の sentence 要 素 を 受 けていると 考 えられる.また sentence 要 素 が 読 点 やカンマ, 助 詞, 括 弧 開 で 終 わっている 場 合 は, 文 の 途 中 で 分 割 されており, 係 り 先 と なるはずの 文 要 素 がそれ 以 降 に 後 続 していると 考 えられる.このように 手 がかりを 見 つけ 次 第,その 前 後 の sentence 要 素 を 確 認 して 文 の 範 囲 を 認 定 した. 4. 作 業 結 果 4.1 再 認 定 結 果 表 1に 作 業 結 果 をまとめた. コアデータ 全 文 60,374 文 に 対 する 修 正 箇 所 の 割 合 は,4,585 文 と 約 7.6%である.この 4,585 文 を 係 り 受 け 関 係 アノテーション 用 の 文 に 修 正 すると 1,385 文 となる.これは 修 正 前 の 約 三 文 が 一 つの 文 にまとまるという 割 合 になる(まとめ 上 げ 文 数 ). 修 正 箇 所 全 体 の 約 66%は, 私 は ~ と 言 った のように 括 弧 や 引 用 符 等 で 括 られた 要 素 を 前 と 後 ろに 挟 んで 係 り 受 け 関 係 を 結 べるもの( 前 後 型 とする)である.また 約 25% は, ~ と 言 った のように 括 られた 要 素 を 後 ろのみで 受 けるもの( 後 型 とする) である( 表 2 5 ). レジスター 別 では,Yahoo!ブログ(OY)と 新 聞 (PN)の 修 正 する 割 合 が 高 い. 各 レジ スターのまとめあげ 文 数 を 見 てみると,それぞれの 特 徴 の 一 端 を 示 している. 表 1 文 境 界 再 認 定 の 結 果 括 弧 内 が 複 数 文 文 途 中 での 改 行 頻 度 が 高 い 接 続 詞 接 続 助 詞 で 改 行 新 聞 は, 約 3.69 文 が 一 つの 文 にまとめ 上 げられているのに 対 し,Yahoo!ブログは 約 2.76 文 が 一 つの 文 にまとめ 上 げられている. これは, 新 聞 が 括 り 記 号 内 に 文 区 切 り 文 字 で 区 切 られる sentence 要 素 が 複 数 含 まれ, 再 認 定 作 業 後 の 文 が 長 文 化 するのに 対 し, Yahoo!ブログは, 図 8のようにブログ 執 筆 者 によって 接 続 詞 や 接 続 助 詞 の 後 ろなど 文 の 途 中 で 改 行 されている 例 が 修 正 箇 所 全 体 の 約 三 分 の 一 (100 例 )と 多 くを 占 め,それら 表 2 修 正 箇 所 の 構 造 ( 単 位 : 文 ) 5 前 後 型 後 型 以 外 にも 前 中 後 型 前 中 型 中 後 型 前 型 があるが,それらは 数 が 少 ないためここでは 省 いた. 140

152 文 の 断 片 を 結 びつけるための 単 純 な 再 認 定 である 場 合 が 多 い. PN( 新 聞 ) これに 対 し 男 性 は 示 談 での 解 決 を 希 望 したことはなく 事 件 化 を 求 めない 発 言 をした 覚 えもない 納 得 できない 結 果 で 国 家 賠 償 などの 法 的 手 段 をとりたい と 言 っている OY(Yahoo!ブログ) 一 文 [PN2e_00015] さすがに 今 日 は 冷 たいモノ 食 べたい 気 分 なので そうめんにしちゃいました 一 文 [OY01_00848] 点 線 枠 内 が 修 正 後 の 一 文 とする 範 囲 図 8 新 聞 と Yahoo!ブログの 比 較 4.2 括 弧 引 用 符 等 の 機 能 別 分 類 4.1の 作 業 結 果 をもとに 括 弧 引 用 符 等 の 機 能 別 に 以 下 の 分 類 を 試 みたので,レジスタ ー 別 の 特 徴 を 示 す. 補 足 : 語 や 文 を 補 う 目 的 で 用 いる( 主 に( )) 補 足 部 分 がなくても 文 が 成 立 する 発 話 : と 言 う 等 で 受 ける 発 話 心 内 : と 思 う 等 で 受 ける 心 内 語 引 用 : 上 記 以 外 のもの 箇 条 書 き : 行 頭 の 中 点 等 記 号 および 改 行 によって 複 数 の 項 目 を 列 挙 したもの 強 調 : 主 に 括 弧 を 用 いて 他 の 文 字 列 よりも 強 調 するために 用 いる ( 書 籍 名 やタイトル 等 も 含 む) 表 3 機 能 別 分 類 ( 単 位 : 文 ) 表 3を 見 ると,レジスターごとに 特 徴 が 表 れている. 白 書 (OW)は, 丸 括 弧 による 補 足 と 箇 条 書 きが 多 用 されている. 新 聞 (PN)は, 括 られた 要 素 の 前 後 で 係 り 受 け 関 係 を 結 べるような 発 話 が 多 用 される.これ は, 文 頭 に 発 話 者 の 情 報 や 状 況 が 来 て, 続 いて 引 用 部 分 を 挟 み, 引 用 の と 等 でそれを 141

153 受 けて 係 り 受 け 関 係 を 結 ぶというある 種 の 文 型 が 決 まっていると 考 えられる 6.また 書 籍 (PB)や 雑 誌 (PM)でも 発 話 が 多 用 されている. Yahoo! 知 恵 袋 (OC)は,Q&A 形 式 の 特 徴 ( 答 える 際 に 文 献 からの 引 用 や 列 挙 を 用 いる)が 引 用 や 箇 条 書 きの 多 用 に 表 れている. Yahoo!ブログ(OY)は, 他 のレジスターより 心 内 語 が 多 用 され,ブログ 執 筆 者 の 心 情 を 表 わす 傾 向 をとらえている. 5.まとめ 係 り 受 け 関 係 アノテーション 付 与 を 目 的 とした 文 境 界 の 再 認 定 作 業 について 報 告 を 行 っ た. 修 正 を 必 要 とする 4,585 文 (7.6%)のみではあるが, 各 媒 体 の 特 徴 の 一 部 が 明 らかにな った.またランダムサンプリングではないデータではあるが, 文 を 単 位 とした 括 弧 引 用 符 等 の 機 能 別 でのアノテーションもレジスター 分 析 に 有 効 な 指 標 を 設 定 するための 予 備 調 査 に 位 置 づけることができるだろう. 今 回 の 報 告 により 文 を 自 動 で 認 定 する 困 難 さが 具 体 的 なものとなり,また 文 分 析 の 可 能 性 の 一 端 を 示 すことができた. 今 後 はより 精 度 の 高 い 自 動 文 認 定 解 析 の 確 立 を 待 ちつつ, 係 り 受 け 関 係 アノテーション 付 与 の 研 究 に 着 目 していきたい. 謝 辞 本 研 究 を 行 うにあたり, 助 言 いただきました 丸 山 岳 彦 氏 に 感 謝 いたします.また 本 研 究 は, 国 立 国 語 研 究 所 基 幹 型 共 同 研 究 プロジェクト コーパスアノテーションの 基 礎 研 究 および 国 立 国 語 研 究 所 超 大 規 模 コーパス 構 築 プロジェクト による 補 助 を 得 ています 文 献 小 木 曽 智 信 間 淵 洋 子 前 川 喜 久 雄 (2011) 階 層 的 形 態 論 情 報 を 考 慮 した 現 代 日 本 語 書 き 言 葉 均 衡 コーパス の 公 開 用 XML フォーマット 現 代 日 本 語 書 き 言 葉 均 衡 コーパス 完 成 記 念 講 演 会 予 稿 集,pp.35-42,JC-G 山 口 昌 也 高 田 智 和 北 村 雅 則 間 淵 洋 子 大 島 一 小 林 正 行 西 部 みちる(2011) 特 定 領 域 研 究 日 本 語 コーパス 平 成 22 年 度 研 究 成 果 報 告 現 代 日 本 語 書 き 言 葉 均 衡 コーパス における 電 子 化 フォーマット ver.2.2,jc-d 浅 原 正 幸 (2013) 係 り 受 けアノテーション 基 準 の 比 較 本 予 稿 集 6 会 話 前 後 型 で 375 例 あった.これが 全 体 に 占 める 割 合 は 36.9%である. 142

154 書 きことばにおける 語 りかけ は 何 のために 用 いられるのか 保 田 祥 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 柏 野 和 佳 子 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) 立 花 幸 子 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 丸 山 岳 彦 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) Why Addressing Expressions are Used in Written Text? Sachi Yasuda (Center for Corpus Development, NINJAL) Wakako Kashino (Dept. Corpus Studies, NINJAL) Sachiko Tachibana (Center for Corpus Development, NINJAL) Takehiko Maruyama (Dept. Corpus Studies, NINJAL) 1.はじめに 書 籍 テキストの 中 には, 著 者 が 読 み 手 に 対 して 直 接 語 りかけていると 解 釈 できる 文 体 が ある( 柏 野,2010 など).たとえば, 直 感 的 には あなた みなさん などのような 呼 びか け 表 現 や ではないでしょうか だよね といった, 問 いかけもしくは 相 づちを 求 める 文 末 表 現 などを 含 むテキストがそれにあたる.これらはいわゆるハウツー 系 の 書 籍 に 見 られ やすい 傾 向 があるが,この 場 合 特 定 の 表 現 の 出 現 頻 度 がとりたてて 高 いとも 限 らない( 保 田 ほか,2012b など). 本 稿 は,これらのテキストを 語 りかけ 性 があると 呼 ぶ. 現 代 日 本 語 書 き 言 葉 均 衡 コーパス (BCCWJ)に 収 録 されている 図 書 館 サブコーパスの 書 籍 サンプル( 全 10,551 サンプル 28,892,944 語 )に, 文 書 分 類 の 観 点 から 人 手 で 情 報 を 付 与 する 作 業 を 実 施 した( 柏 野 奥 村,2012). 付 与 した 観 点 の 一 つにこの 語 りかけ 性 (と てもある どちらかといえば 特 にない:3 段 階 )がある.この 作 業 結 果 から, 語 りかけ 性 は, 話 しことば 的 なテキストから 受 け 取 られるというのでもないことが 明 らかになっ た( 保 田 ほか,2012a). 書 きことばであっても 話 しことば 的 であると 判 断 されるテキストに は,リアルタイム 性 と 関 わるフィラーや 言 いよどみ, 音 声 的 変 化 に 関 わる 融 合 などが 現 れ ているが, 語 りかけ 性 があるとされるテキストにはその 種 の 特 徴 は 現 れにくいのである. 安 藤 (2012)は, 小 説 における 再 現 的 提 示 の 手 法 とは, 二 人 称 的 世 界 が 顕 在 しないことで あるとし, 読 み 手 に 語 りかける 言 文 一 致 の 形 がありえたならば, 言 に 近 い 文 体 が 創 出 さ れたかもしれないと 述 べる.すなわち 語 りかけ 性 は, 既 存 の 言 文 一 致 の 範 疇 には ない 表 現 ということになるのだろう. 語 りかけ 性 のあるテキストとは, 書 きことばの 形 式 を 保 持 しながら, 疑 似 的 に 対 話 を 導 入 しているテキストであると 考 えられる. 以 下 の 例 は, 語 りかけ 性 が とてもある と 判 断 されたテキストである. 特 徴 的 と 考 えられる 表 現 ( 保 田 ほか,2012b)に 下 線 を 施 した. 1)ここに 六 〇 メートル 六 〇 メートル 六 〇 メートルというまったくの 箱 型 の 巨 船 の 姿 が 浮 かんでくるではありませんか ギルガメシュ 叙 事 詩 は 今 から 四 〇 〇 〇 年 以 上 前 の ものと 考 えられますから まさに 私 たちは 単 位 という 糸 を 伝 わって 一 気 に 人 類 の 文 化 の 源 までさかのぼる 感 じです つまり 人 類 の 文 明 の 発 祥 とともに 単 位 は 存 在 していたわ けで 文 明 にとっては 単 位 は 切 っても 切 り 離 せないものだったということがわかります ということは 単 位 を 考 えることで 文 明 そのものを 考 えていく 糸 口 もつかめるかもしれな い という 期 待 を 抱 かせます ま この 点 は あまり 気 負 わずに ボチボチと 本 書 の 中 で も 試 みてみることにしましょう ( 高 木 仁 三 郎 単 位 の 小 事 典 ) yasuda_s@ninjal.ac.jp 143

155 書 きことばでありながら, 疑 似 的 な 対 話 形 式 が 用 いられているということは, 著 者 が 語 り 手 としてテキストから 現 れているスタイルだとも 言 えよう. 著 者 が 前 面 に 出 現 している とすれば, 語 りかけ 性 のあるテキストが, 同 時 に 著 者 の 主 観 が 語 られるテキストと 認 識 される 可 能 性 が 期 待 される. 語 りかけ 性 のあるテキストが 主 観 的 であると 判 断 されるのならば, 語 りかけ 性 は 著 者 の 主 観 を 語 るために 用 いられているということ になる.そこで, 本 稿 は 小 説 以 外 の 文 章 の 内 容 (とても 客 観 的 どちらかといえば 客 観 的 どちらかといえば 主 観 的 とても 主 観 的 :4 段 階 )の 観 点 についての 情 報 付 与 作 業 結 果 を 用 いることで, 主 観 的 であることと 語 りかけ 性 との 相 関 があるのかを 調 べる. 語 りかけ 性 が 主 観 的 と 判 断 されることと 関 わりがないならば,いったい 語 りかけ 性 が 何 のために 用 いられているのかを 考 察 したい. 2.データ 本 稿 は, 文 書 分 類 結 果 を 用 い, 語 りかけ 性 があると 判 断 されたテキストと, 主 観 的 であると 判 断 されたテキストが,どのように 関 わっているのかを 確 かめた. BCCWJの 図 書 館 サブコーパスに 含 まれる 書 籍 の 10,551 サンプルをランダムに 並 べ 替 え,6 人 の 作 業 者 が 文 書 分 類 を 行 った 結 果 を 用 いた. 調 査 にあたっては, 作 業 結 果 から 約 半 数 を ランダムに 選 び(5,652 サンプル 1 ), 小 説 には 会 話 文 を 含 む 場 合 が 多 いため, 小 説 を 全 て 除 いたサンプル(3,750 サンプル 11,630,970 語 )を 調 査 対 象 データとした. 作 業 者 は 判 断 に 際 し,その 根 拠 等 に 関 するコメントを 適 宜 記 述 しており, 個 人 によって 量 は 異 なるが,それぞれの 作 業 サンプル 数 の 2%~5%のコメントが 得 られている. 語 りかけ 性 についてのアノテーションは, 作 業 者 が とても( 語 りかけ 性 が)ある どちらかといえば( 語 りかけ 性 が)ある とくに( 語 りかけ 性 は)ない の 3 種 類 の 選 択 肢 から 該 当 すると 判 断 した 一 つを 選 択 する. 作 業 の 結 果, とてもある は 486 サンプル (1,387,665 語 本 稿 で 扱 うサンプルの 13.0%), どちらかといえばある が 805 サンプル (2,347,671 語 同 21.5%), とくにない が 2,459 サンプル(7,895,634 語 同 65.5%) 得 られた. 同 様 に, 小 説 以 外 の 文 章 の 内 容 についてのアノテーションは, とても 客 観 的 どちらかといえば 客 観 的 どちらかといえば 主 観 的 とても 主 観 的 の 4 種 類 の 選 択 肢 から 一 つを 選 択 する. 結 果, とても 客 観 的 は 704 サンプル(2,313,220 語 本 稿 で 扱 うサンプルの 18.8%), どちらかといえば 客 観 的 が 1,485 サンプル(4,741,194 語 同 39.6%), どちらかといえば 主 観 的 が 1,014 サンプル(3,160,066 語 同 27.0%), とて も 主 観 的 が 547 サンプル(1,416,490 語 同 14.6%) 得 られた. サンプルの 形 態 素 解 析 には,MeCab UniDic2.1.0 を 用 いた. 分 析 結 果 に 示 す 品 詞 情 報 や 語 彙 素 等 の 要 素 は, 解 析 結 果 に 基 づく. 3. 結 果 : 語 りかけ 性 と 主 観 的 客 観 的 の 判 断 情 報 付 与 作 業 結 果 を 分 析 したところ, 語 りかけ 性 のあるテキストが, 主 観 的 であると は 受 け 取 られるのでもないことが 明 らかになった. 80% 60% 40% 20% 0% 主 観 的 客 観 的 主 観 的 客 観 的 主 観 的 客 観 的 とてもある どちらかといえばある とくにない 図 1 語 りかけ 性 の 有 無 と 主 観 的 客 観 的 分 類 1 対 談, 座 談 会 をはじめ,Q&A 形 式, 図 解, 用 語 解 説 など 形 式 的 に 特 徴 のあるサンプルは, 分 類 対 象 外 ( 非 対 象 )とされ, 本 サンプル 数 には 含 まない.アノテーション 作 業 者 は, 分 類 対 象 としたサンプルのみ 観 点 付 与 を 行 っている. 144

156 図 1の 通 り, 語 りかけ 性 の 有 無 と 小 説 以 外 の 文 章 の 内 容 ( 主 観 的 ~ 客 観 的 ) の 判 断 に 関 係 があるとは 言 えない. 次 に, 語 りかけ 性 と 小 説 以 外 の 文 章 の 内 容 ( 主 観 的 ~ 客 観 的 ) それぞれの 分 類 群 の NDC 分 布 ( 図 2) C-code 分 布 ( 図 3)をあわせて 見 ておく.いずれかの 群 で, 類 似 した 分 布 が 見 られているということはない. 語 りかけ 性 は,NDC3 4 番 台 ( 社 会 科 学 自 然 科 学 )や C-code の 専 門 実 用 の 分 野 で 多 く 用 いられている 傾 向 があり,この 傾 向 は 同 様 に 客 観 的 なテキストに 見 ら れている.また, 客 観 的 ~ 主 観 的 の 判 断 においては,NDC の 7 番 台 ( 芸 術 美 術 ) と 9 番 台 ( 文 学 )が 主 観 的 と 判 断 されるに 従 って 増 加 することや,C-code で 主 観 的 と 判 断 されるのがほぼ 一 般 向 けであることなどが 顕 著 な 特 徴 と 言 える.なお, NDC9 番 台 については, 語 りかけ 性 が ない と 判 断 されるに 従 って 増 加 する 傾 向 が 見 られ, 主 観 的 で ある ことと 同 傾 向 でもある. 100% 80% 60% 40% 20% 0% 語 りかけ 性 の 有 無 小 説 以 外 の 文 章 の 内 容 とてもある どちらかと いえばある 100% 80% 60% 40% 20% 0% とくにない とても 客 どちらかと いえば 客 図 2 分 類 群 別 NDC 分 布 どちらかと いえば 主 とても 主 分 類 なし 9 番 台 文 学 8 番 台 言 語 7 番 台 芸 術, 美 術 6 番 台 産 業 5 番 台 技 術, 工 学 4 番 台 自 然 科 学 3 番 台 社 会 科 学 2 番 台 歴 史 1 番 台 哲 学 0 番 台 総 記 100% 90% 80% 70% 60% 50% 語 りかけ 性 の 有 無 小 説 以 外 の 文 章 の 内 容 とてもある どちらかと とくにない いうとある 100% 90% 80% 70% 60% 50% 40% 30% とても 客 どちらかと どちらかと いえば 客 いえば 主 図 3 分 類 群 別 C-code 分 布 とても 主 分 類 なし 9 雑 誌 扱 い 8 児 童 6 学 参 I( 小 中 ) 5 婦 人 3 専 門 2 実 用 1 教 養 0 一 般 アノテーターコメントの 分 析 により, 内 容 が 哲 学 体 験 談 手 記 自 伝 であるため 主 観 的 と 判 断 した 記 述 ( 内 容 に 重 きを 置 く 作 業 者 )や, 内 容 は 主 観 的 であるが 表 現 は 客 観 的 であるとして 客 観 的 と 判 断 した 記 述 ( 表 現 を 重 視 する 作 業 者 ), 主 観 的 な 意 見 も あるが, 客 観 的 な 説 明 の 量 が 多 い として 客 観 的 と 判 断 した 記 述 ( 分 量 を 考 える 作 業 者 )などのように, 個 々 人 で 判 断 基 準 に 差 異 のあることが 推 測 された.そのため, 作 業 者 によって 判 断 に 差 が 生 じる 場 合 がある.そして,とくに 語 りかけ 性 があるとの 判 断 が 作 業 者 間 で 一 致 した 場 合, 主 観 的 客 観 的 の 判 断 に 差 が 生 じやすい 傾 向 が 見 られる. 同 サンプル 群 における 主 観 的 客 観 的 の 判 断 における 3 人 のアノテーターの 判 断 が 完 全 に 異 なる 割 合 は,11% 2 であったが, 語 りかけ 性 があると 判 断 された 場 合 のサンプルで 2 図 書 館 サブコーパスからランダムに 選 んだ 485 サンプル(3 人 のアノテーターが 同 サンプ ル 群 に 観 点 付 与 を 行 った)について, 小 説 以 外 の 内 容 として 観 点 付 与 が 行 われた 253 サ 145

157 は, 主 観 的 客 観 的 判 断 の 不 一 致 率 が 28%に 及 んだのである. アノテーターコメントで 主 観 的 客 観 的 の 判 断 に 迷 った 旨 が 記 載 されている 際, 解 説 書 アドバイス 勧 誘 であるとの 記 述 が 目 立 っている.これらの 書 籍 タイトルを 見 る と, 読 本 ~の 本 ~ 法 ~バイブル ~ 入 門 ~ 知 識 ~ 講 座 などが 大 半 であ ることがわかった. 語 りかけ 性 は,この 種 の 実 用 書 (いわゆるハウツー 本 ( 啓 蒙 書 指 導 書 )の 類 )に 見 られる 傾 向 が 確 かめられている( 保 田 ほか, 2012, 2013).すなわち, 語 りかけ 性 があると 感 じられるテキストは, 主 観 的 客 観 的 の 判 断 に 迷 い, 作 業 者 間 でも 判 断 の 不 一 致 が 生 じる 可 能 性 がある. それでは,なぜ 語 りかけ 性 があると 感 じられるテキストで, 主 観 的 客 観 的 の 判 断 に 迷 いが 生 じるのか. 次 節 からは, 主 観 的 客 観 的 と 分 類 されたサンプル 群 に 特 徴 的 な 表 現 を 調 査 し, 語 りかけ 性 との 関 係 を 明 らかにしたい. 読 み 手 が 著 者 の 主 観 性 を 感 じる 表 現 と 語 りかけ 性 があると 感 じる 表 現 の 異 同 から,テキストにおいて 何 のために 語 りかけるという 表 現 手 法 が 用 いられているのかを 考 察 する. 4. 考 察 4.1 語 りかけ 性 の 有 無 群 に 出 現 頻 度 の 高 い 表 現 と 主 観 的 客 観 的 群 語 などの 要 素 の 出 現 頻 度 を 見 ると, 語 りかけ 性 があるとされるテキストと, 主 観 的 とされるテキストに 類 似 性 がある 表 現 がある. 語 りかけ 性 があるとされるテキストに 頻 度 の 高 い 要 素 3には, 助 動 詞 の です ます があり, 語 りかけ 性 がないとされるテキ ストに 頻 度 の 高 い 要 素 には 助 動 詞 の た がある( 保 田 ほか, 2012a).しかし, 主 観 的 客 観 的 群 で 大 きな 差 異 は 見 られない. 4% 3% 2% 1% とても 客 どちらかといえば 客 どちらかといえば 主 0% 助 動 詞 た 助 動 詞 です 助 動 詞 ます とても 主 図 4 主 観 的 客 観 的 群 における 語 りかけ 性 の 有 無 群 に 出 現 頻 度 の 高 い 表 現 ンプルを 対 象 に 分 析 を 行 った. 3 語 りかけ 性 有 無 群 において, 出 現 頻 度 で 有 意 差 の 見 られる 要 素 はほとんど 得 られなか った.アノテーターが 語 りかけ 性 があると 判 断 するのに 用 いたと 認 識 する 要 素 は, 語 りかけ 性 を 形 成 する 表 現 と 言 えるが, 個 別 の 出 現 頻 度 では 影 響 が 捉 え 難 い.そもそも 出 現 頻 度 を 確 認 することも 難 しい.まとまった 量 のテキストにおいて, 種 々の 表 現 の 総 体 的 な 出 現 量 と, 文 脈 が 要 されることがわかっている( 保 田 ほか,2013). 以 下 に 示 す 例 は, 語 りかけ 性 があるとされるが, 直 感 的 に 特 徴 的 と 考 えられる 表 現 や, 出 現 頻 度 の 高 い 表 現 が 見 つからないテキストであるといえる.アノテーターのコメントか ら 得 られた 語 りかけ 性 に 関 わると 考 えられる 表 現 類 に 下 線 を 引 いた. 例 )カップリングコンデンサが 大 きい 場 合 オレンジ 色 の 側 の 配 線 が 同 じようにIC ソケットの 足 にハンダ 付 けできればどのように 付 けても 構 わない 完 成 図 を 見 てもら えれば 分 かると 思 うが コンデンサの 左 の 部 分 は 大 きくスペースが 残 してあるので アキシャルリードのものも 基 板 上 に 取 り 付 け 可 能 だ また 大 きすぎて 基 板 からはみ 出 したとしても 特 に 問 題 はない なお 後 で 説 明 するが このコンデンサは 無 しに も 出 来 る ( 酒 井 智 巳 はじめてつくるプリアンプ ) 146

158 また, 語 りかけ 性 のあるテキストでは, 相 手 に 対 する 希 望 を 表 す ほしい たい ( ~ してほしい ~されたい など)や, 相 手 に 対 する 婉 曲 化 の 表 現 として 思 う 感 じる ( ~するべきだと 思 う など)を 用 いる 傾 向 がある( 保 田 ほか,2012b). この 種 類 の 表 現 は, 主 観 的 と 分 類 されたテキストにも 出 現 頻 度 が 高 いため, 類 似 の 表 現 群 が 現 れる 語 りかけ 性 があるテキストは, 主 観 的 と 分 類 されやすくなる 可 能 性 が 考 えられる. 図 5に 主 観 的 客 観 的 の 判 断 において, 出 現 頻 度 に 特 徴 的 である 表 現 群 4 を 示 した. 但 し, 頻 度 が 同 程 度 であっても, 主 観 的 と 分 類 されるテキストで 用 いられて いる 場 合 には, 文 脈 的 に 用 法 が 異 なっている 可 能 性 がある. とても 主 観 的 と 分 類 された テキストの 思 う は, 典 型 的 には それは 今 につながっているんだけど,やっぱり 非 常 によかったと 思 う.( 坂 本 龍 一 Seldom-illegal ) のように 用 いられる. 語 りかけ 性 がある 群 のような 婉 曲 化 目 的 というより, 個 人 的 な 感 情 や 考 えを 述 べていると 読 める. 0.25% 0.20% 0.15% 0.10% とても 客 どちらかといえば 客 どちらかといえば 主 とても 主 0.05% 0.00% 助 動 詞 たい 形 容 詞 欲 しい 名 詞 積 り 動 詞 感 ずる 動 詞 思 う 動 詞 信 ずる 名 詞 想 像 名 詞 予 想 名 詞 印 象 図 5 主 観 的 客 観 的 群 に 特 徴 的 である 表 現 群 4.2 主 観 的 群 に 特 徴 的 な 表 現 : 求 められる 客 観 性 平 叙 文 の 使 用 の 背 後 には, 常 に 何 らかの 問 いが 存 在 している( 中 村,2002)とすれば, 読 み 手 に 向 けて 発 せられているテキストは, 何 らかの 解 答 であるという 期 待 を 持 って 受 け 取 られるのだと 考 えられる.そのため, 読 み 手 の 同 意 もしくは 共 感 を 得 ることが,テキスト に 求 められるはずである. 実 際 に,アノテーターの 主 観 的 であるとの 判 断 コメントは, 根 拠 のない 主 張 である 事 象 を 理 由 なしに 断 定 する 推 測 が 多 い のように, 批 判 的 なものが 得 られている. 客 観 的 であるとのコメントには 裏 付 けがある 納 得 できる などの 肯 定 的 なものが 並 び, 主 観 的 でないことへの 批 判 はないのである. 読 み 手 がテキストに 対 して 何 らかの 解 答 を 期 待 しているためであろう. 但 し, 書 籍 タイトルに 体 験 記 日 記 などが 含 まれるな ど, 明 らかにエッセイ 類 と 予 測 されるテキストについては,コメントには 主 観 的 と 判 断 した 際 の 根 拠 が 記 述 されるに 留 まり, 否 定 的 な 記 述 は 見 つかりにくい.エッセイなどは, 主 観 的 であることが 前 提 とされ, 読 み 手 に 求 められる 解 答 が 共 感 である 可 能 性 が 考 え られる. 読 み 手 の 要 求 するものについては,テキストのジャンル 性 にも 関 わる. なお, 分 類 されたテキスト 群 毎 の 出 現 頻 度 を 見 ると, 断 定 や 推 量 に 関 係 すると 考 えられ る 表 現 は, 図 6の 割 合 で 出 現 している. 主 観 的 と 判 断 されるテキスト 群 において, 意 志 推 量 形 ( ~だろう など)や らしい そうだ のような 表 現 はもちろん, 断 定 の 助 動 詞 だ も 多 く 用 いられているのである. 主 観 的 なテキスト 群 は, 断 定 や 推 量 が 多 いと いうアノテーターのコメントと 一 致 していると 言 える. 4 図 書 館 サブコーパスからランダムに 選 び 出 した 約 500 のサンプルのうち 主 観 的 客 観 的 分 類 について 3 人 の 作 業 者 の 判 断 が 一 致 したサンプル(51 サンプル 174,961 語 )の 分 析 を 行 った 結 果 から, 品 詞 活 用 形 語 彙 素 において,すべての 要 素 の 出 現 頻 度 につい て 検 定 を 行 い, 有 意 差 の 見 られた 表 現 を 確 認 した( 調 査 手 順 は( 保 田 ほか,2012a)と 同 様 ) 結 果 の 一 部 である.その 他 の 表 現 は 注 5 も 参 照. 147

159 4.0% 3.0% 2.0% 1.0% 0.4% 0.3% 0.2% 0.1% とても 客 どちらかといえば 客 どちらかといえば 主 とても 主 0.0% 助 動 詞 だ 0.0% 意 志 推 量 形 助 動 詞 らしい 図 6 主 観 的 群 に 特 徴 的 と 考 えられる 表 現 形 状 詞 そう + 助 動 詞 だ 4.3 客 観 的 なテキストであるために それでは, 客 観 的 であると 判 断 されるテキスト 群 は,どのような 表 現 が 用 いられてい るのか. 本 稿 は, 語 種 と 受 動 文, という の 伝 聞 表 現 に 着 目 し, 主 観 的 客 観 的 群 別 の 出 現 率 などから,どのように 客 観 化 が 行 われているかを 確 かめる 客 観 化 (1): 数 値 ( 年 号 具 体 的 型 番 )や 具 体 的 名 称 の 割 合 が 多 い? 4.2で 見 たように, 読 み 手 はテキストに 対 して 根 拠 や 理 由 を 求 めていることが 考 えられ る.そのため, 書 き 手 はデータを 示 すことで 客 観 化 を 行 うはずである. 図 7に, 主 観 的 客 観 的 分 類 群 別 の, 普 通 名 詞 数 詞 固 有 語 の 出 現 率 を 示 す. 特 に 数 詞 で 客 観 的 群 での 出 現 率 が 顕 著 となっていることがわかる. 16% 12% 8% 4% 0% 普 通 名 詞 固 有 語 数 詞 とても 客 どちらかといえば 客 どちらかといえば 主 とても 主 図 7 主 観 的 客 観 的 群 別 の 具 体 的 データ 関 連 要 素 出 現 率 客 観 化 (2): 降 格 受 動 文 による 客 観 化 を 行 う? 益 岡 (1991)は, 受 動 文 を 属 性 叙 述 ( 例 : 花 子 の 家 はビルに 囲 まれている)と 事 象 叙 述 に 分 類 し, 事 象 叙 述 について, 受 影 受 動 文 ( 例 : 私 は 親 に 叱 られた)が 主 体 の 経 験 5 を 表 現 する 主 観 的 な 表 現 で, 降 格 受 動 文 ( 例 : 始 業 のベルが 鳴 らされた)が 客 観 的 表 現 であると 述 べている.アノテーターのコメントにも, 報 告 されている 評 価 される のようなサ 変 動 詞 による 受 動 文 が, 客 観 的 と 判 断 した 根 拠 とされていた 旨 が 散 見 された. そこで, 客 観 的 群 と 主 観 的 群 における 受 動 表 現 の 出 現 率 をサ 変 動 詞 6 の 受 動 表 現 ( される )について 調 査 した. される の 出 現 率 は, 客 観 的 群 で 0.34%(23,677 例 ) 主 観 的 群 で 0.19%(8,599 例 )であり, 客 観 的 群 で 高 くアノテーター 判 断 と 一 致 し ていると 言 える. 図 8-1 に, とても 客 観 的 とても 主 観 的 二 つの 分 類 群 からランダムに 取 得 した 900 例 の される 用 例 を, 属 性 叙 述 と 事 象 叙 述 の 降 格 受 動 受 影 受 動 に 分 類 し た 割 合 を 示 す. 降 格 受 動 と 受 影 受 動 の 割 合 は, 客 観 的 と 主 観 的 の 分 類 群 で 明 らかに 異 なっ 5 動 詞 の 遣 る 呉 れる 仕 舞 う 貰 う でも, 主 観 的 客 観 的 群 に 差 が 見 られるこ とがわかっている. 本 文 末 参 考 図 参 照. 6 本 稿 で 扱 ったサンプル 全 体 における 受 動 表 現 は,93,873 件 あり,うち される は 32,275 件 と 34%にあたる. 148

160 ており, 益 岡 (1991)の 指 摘 に 沿 う 結 果 となっている. また, 降 格 受 動 については, 背 景 化 されている 動 作 主 を, 私 ( 例 : 原 因 が 推 定 される 場 面 が 想 定 されるなど), 他 の 誰 か ( 例 : 問 題 が 指 摘 される 明 らかにされるなど), 特 定 の 誰 か ( 例 : 商 品 が 値 下 げされる 遺 跡 が 発 掘 されるなど), 一 般 的 ( 不 特 定 の 人 々) ( 例 : 人 命 救 助 が 優 先 される 性 能 が 要 求 されるなど), 誰 かによる 何 か ( 例 : 金 額 が 記 載 によって 計 上 される 権 利 が 法 に 規 定 されるなど)と 分 類 した. 図 8-2 にその 割 合 を 示 す. 動 作 主 が 背 景 化 されている 中 でも, 主 観 的 群 で 動 作 主 が 特 定 されやすく, 客 観 的 群 で は 動 作 主 が 一 般 的 な 例 が 多 いと 言 える. 100% 80% 100% 80% 誰 かによる 何 か 60% 40% 20% 0% とても 客 観 的 とても 主 観 的 属 性 叙 述 降 格 受 動 受 影 受 動 60% 40% 20% 0% とても 客 観 的 とても 主 観 的 一 般 的 ( 不 特 定 の 人 々) 特 定 の 誰 か 他 の 誰 か 私 図 8-1 主 観 的 客 観 的 群 別 受 動 文 種 図 8-2 背 景 化 された 動 作 主 客 観 化 (3): 伝 聞 ( という )による 客 観 化 を 行 う? 主 張 の 裏 付 けとして,データの 他 に 引 用 などを 用 いることが 考 えられる.そこで,ここ では 伝 聞 の という を 用 いた 表 現 に 着 目 した. という の 頻 度 7 のみでは, とても 客 観 的 群 で 9,355 件 (0.8%), とても 主 観 的 群 で 8,919 件 (1.3%)であり, とても 主 観 的 に 多 いということになる. しかし, 語 りかけ 性 との 関 連 では, とても( 語 りかけ 性 が)ある 群 のうち とて も 客 観 的 とても 主 観 的 群 に 出 現 した という 2,000 件 について 調 査 したところ,こ のうち 文 脈 上, 伝 聞 ( 人 が~ という という 人 がいる という 話 であるなど 8 ) として 用 いられていたのは, とても 客 観 的 群 で 6.0%, とても 主 観 的 群 で 1.7%であり, 伝 聞 の 用 例 頻 度 は, とても 客 観 的 群 に 多 いと 考 えられる. 語 りかけ 性 がある 群 では, という を 伝 聞 として 用 いることで, 客 観 化 を 行 う 例 が 増 加 する. 4.4 客 観 性 と 語 りかけ 性 : 語 りかけ は 何 のために 用 いられるのか 語 りかけ 性 は, 主 観 的 客 観 的 どちらと 判 断 されるテキストからも 受 け 取 られ る 性 質 であり, 主 観 的 であることと 語 りかけることは 相 関 があるとも 言 い 難 い. 但 し, 主 観 的 と 判 断 されるテキストと 類 似 した 要 素 を 含 むことから, 読 み 手 によっては, 語 りかける 著 者 が 感 じられることが, 主 観 的 と 受 け 取 ることもあると 考 えられる. 読 み 手 に 語 りかけるという 語 りかけ 性 は, 書 きことばにおいては, 本 来 表 に 現 れる 7 という を 多 用 するサンプルも 見 られる. 例 )( 略 )ただそういう 不 運 が 生 じたということなのだ,ということでしたが,もっと 深 いなに かがあるのかもしれない,という 気 もしました.( 略 )あなたは,なんの 理 由 もなくなにかが 起 こるという 考 え,この 宇 宙 はでたらめなのだという 考 えを, 受 け 入 れることができるでしょう か?(H S クシュナー( 著 )/ 齋 藤 武 ( 訳 ) なぜ 私 だけが 苦 しむのか ) 8 1)ギリシャの 歴 史 家 ヘロドトスの 記 述 によると,( 略 ) 人 々が 集 まったということです.(ユー リィ ドミトリエフ( 著 )/ 佐 藤 靖 彦 ( 訳 ) 人 間 と 動 物 の 関 係 ) 2)オルテリウスが, 手 本 にしたという 日 本 地 図 ( 清 水 靖 夫 地 図 で 見 る 世 界 の 形 の 移 りかわり ) 3) 説 文 通 訓 定 声 をみると,( 略 ) 差 が 出 るためだという.( 鳥 越 憲 三 郎 弥 生 の 王 国 ) 4)シーザーは( 略 ) 失 望 を 隠 せない 表 情 をしたという.( 谷 沢 永 一 人 間 通 と 世 間 通 ) 149

161 ことのない 著 者 が 現 れているのであり, 著 者 の 主 張 が 露 わであるともいえる. 以 下 に, 語 りかけ 性 があり, 主 観 的 でもあるとされる 例 を 示 す. 語 りかけ 性 主 観 的 に 関 わ ると 考 えられる 表 現 部 分 に 下 線 を 引 いた. 2) 私 は 政 治 家 小 泉 純 一 郎 には ほとんど 興 味 がありませんが 人 間 小 泉 純 一 郎 には 深 甚 たる 興 味 があります それは 小 泉 氏 が 今 日 の 日 本 人 の 一 つの 典 型 つまり 徹 底 して 自 己 愛 にとりつかれた 人 間 であり しかもそれを 貫 徹 することに 成 功 している 今 のとこ ろそのように 見 えるということでしょう 自 己 愛 が 強 いというのは 我 が 身 が 可 愛 いと いうことではありません 小 泉 総 理 は いつでも 自 分 の 生 命 を 投 げ 出 す 覚 悟 がある と 私 は 確 信 しています ( 福 田 和 也 総 理 の 資 格 ) しかし, 多 くのテキストは 読 み 手 に 何 らかの 根 拠 ある 解 答 ( 少 なくとも 同 意 や 共 感 )を 求 められており, 客 観 的 であることが 期 待 されている 可 能 性 がある. 客 観 的 である ためには, 根 拠 となるデータを 示 し,あるいは 主 体 の 経 験 を 表 す 受 影 受 動 文 の 使 用 を 避 け ることなどの 客 観 化 を 行 うことになる.また, 伝 聞 など, 客 観 化 を 行 う 表 現 手 法 のうち, 特 に 語 りかけ 性 があるテキストに 用 いられているものも 見 られるのである. 書 きこと ばに 対 話 形 式 を 持 ち 込 むゆえに, 客 観 的 であることを 明 らかにするため, 客 観 化 に 関 わ る 表 現 が 用 いられやすい 可 能 性 があるのだろう. 以 下 に, 語 りかけ 性 があり, 客 観 的 であるとされる 例 を 示 す. 客 観 化 に 関 わると 考 えられる 表 現 に 下 線 を 引 いた. 3) このようにして はじめて 異 なる 生 物 の 遺 伝 子 をもち 合 わせた 新 種 のDNAがつくら れたのです ヒトの 三 十 億 のDNA 塩 基 対 の 中 には 五 十 万 の 遺 伝 子 が 存 在 するとい われています この 中 から 目 的 とする 遺 伝 子 を 取 り 出 す 方 法 をクローニングと 呼 びます クローニングはどのように 行 なうかを 見 てみましょう ( 略 )つまり ファージとヒトの DNAのキメラを 大 腸 菌 に 感 染 させると 大 腸 菌 の 中 で 増 殖 して 百 倍 以 上 にもなって 大 腸 菌 を 溶 かして 外 に 出 てくるのです ( 石 浦 章 一 生 命 のしくみ ) また, 語 りかけ 性 は, 客 観 的 なテキストに 多 い NDC3 4 番 台 ( 社 会 科 学 自 然 科 学 )や C-code の 専 門 実 用 の 分 野 で 多 く 用 いられているという 特 性 が 見 られる( 上 の 例 文 3 は,NDC4 番 台 に 分 類 されるサンプルである).これは,NDC3 4 番 台 や C-code の 専 門 実 用 分 野 に 多 く 含 まれるハウツー 系 書 籍 に 語 りかけ 性 が 用 いられやすい ( 保 田 ほか,2012b)ためでもあろう.いわゆるハウツーものとは, 趣 味 や 実 用 的 な 事 柄 の 簡 便 な 習 得 法 を 説 いた 書 物 (スーパー 大 辞 林 3.0) である.すなわち, 読 み 手 が 予 め 目 的 意 識 を 持 ってテキストを 読 むことが 明 らかである.よって, 客 観 的 に 解 答 の 要 求 に 応 え ることを, 予 め 明 らかにしているのがハウツー 系 書 籍 であるといえる. 以 下 の 例 文 4 に,C-code の 実 用 に 分 類 されるサンプル, 例 文 5 に C-code の 専 門 に 分 類 され,かつタイトルからハウツー 系 書 籍 であることが 推 測 されるサンプルを 示 す. 例 文 4 5 ともに, 語 りかけ 性 があるサンプルという 判 断 がなされている. 語 りかけ 性 に 関 わると 考 えられる 表 現 に 下 線 を 引 いた. 4) ここでダブルウィッシュボーン 式 のホイールアライメトについて 考 えてみましょう P.189の 図 を 参 照 しながら 読 み 進 めて 下 さい まず4 本 の 棒 が 平 行 四 辺 形 に 結 ばれ ているとします その 平 行 四 辺 形 の 短 辺 の 一 方 を 垂 直 に 固 定 して 他 方 を 上 下 に 動 かすと 平 行 四 辺 形 は 上 下 に 変 形 します ( 略 )そして 残 るのは 上 下 アームと 考 えることができま す ( 橋 口 盛 典 クルマの 基 本 メカニズム ) 5) したがって,エンジン 回 転 数 が 上 昇 した 場 合,フィールド 電 流 ( 励 磁 電 流 )を 減 少 させて 発 生 電 圧 を 一 定 に 保 つためのボルテージ レギュレータ(voltage re 150

162 gulator 電 圧 調 整 器 )を 設 けねばならない オルタネータ 用 のレギュレータは, 一 般 にボルテージ レギュレータのみで,カット アウト リレーはもちろん,カレン ト リミッタも 特 殊 な 用 途 の 場 合 を 除 いて 必 要 ではない カット アウト リレーが 不 要 なのは,オルタネータに 取 付 けたダイオードに,バッテリからの 逆 流 を 阻 止 する 働 き があるからである ( 竹 尾 敬 三 小 型 水 力 発 電 機 製 作 ガイドブック ) 語 りかけるという 表 現 手 法 は, 書 き 手 が 読 み 手 の 求 める 解 答 を 提 示 することを 謳 い, 教 示 的 態 度 を 強 調 する 際 に 用 いられやすいものと 考 えられる.その 場 合, 解 答 として 客 観 的 であることが 要 求 され, 著 者 が 現 れているという 印 象 があっても, 主 観 的 であると 受 け 取 られないような 客 観 化 のための 表 現 が 用 いられることになる. 5.まとめ 読 み 手 に 語 りかけ るテキストが,いったい 何 のために 用 いられているのかを 考 察 し た. 語 りかけ 性 があるテキストは, 著 者 が 前 面 に 現 れているということであり, 主 観 的 であると 判 断 されるのではないかという 仮 説 から, 主 観 的 あるいは 客 観 的 と 判 断 されたテキスト 群 に 特 徴 的 な 表 現 やアノテーターコメントの 分 析 を 行 い, 語 りかけ 性 との 関 係 性 を 探 った. 結 果 として, 語 りかけるという 表 現 手 法 が, 読 み 手 から 要 求 される 客 観 的 な 解 答 を 提 示 することを 示 すために 用 いられやすいということが 考 えられる. 読 み 手 の 求 める 解 答 を 付 与 すると 明 示 するために, 疑 似 的 な 対 話 を 設 定 し, 読 み 手 に 相 対 する 書 き 手 が 現 れることで, 教 示 的 態 度 を 強 調 する. 語 りかけ 性 があると 判 断 される テキストでハウツー 本 が 多 くを 占 めるのは,そのためであろう. また, 求 められる 解 答 はテキストのジャンルによって 異 なるが, 客 観 的 であることが 望 ましい 場 合 が 多 く, 数 値 データや, 受 動 文 伝 聞 などの 客 観 化 の 効 果 がある 表 現 の 用 い られる 傾 向 が 見 られる.よって, 著 者 が 現 れていることが, 必 ずしも 主 観 的 なテキス トであると 認 識 される 要 因 であるとは 言 えない. 0.15% 0.10% とても 客 0.05% どちらかというと 客 どちらかというと 主 0.00% 動 詞 遣 る 動 詞 呉 れる 動 詞 仕 舞 う 動 詞 貰 う とても 主 参 考 図 特 徴 的 動 詞 の 出 現 率 文 献 安 藤 宏 (2012) 近 代 小 説 の 表 現 機 構 岩 波 書 店. 柏 野 和 佳 子 (2010) 直 接 的 な 語 り という 表 現 スタイルをもつ 書 籍 テキストの 人 手 抽 出 の 試 み ことば 工 学 研 究 会 35, pp 柏 野 和 佳 子, 奥 村 学 (2012) 書 籍 テキストへの 分 類 指 標 人 手 付 与 の 試 み 現 代 日 本 語 書 き 言 葉 均 衡 コーパス の 収 録 書 籍 を 対 象 に 言 語 処 理 学 会 第 18 回 年 次 大 会. 中 村 洋 (2002) X は Y だ と X が Y だ の 意 味 の 違 いについて 人 工 知 能 基 礎 論 研 究 会 47, pp 益 岡 隆 志 (1991) 受 動 表 現 と 主 観 性 仁 田 義 雄 ( 編 ) 日 本 語 のヴォイスと 他 動 性 pp , くろしお 出 版. 松 村 真 宏, 河 原 大 輔, 岡 本 雅 史, 黒 橋 禎 夫, 西 田 豊 明 (2007) メッセージの 背 後 に 潜 む 問 151

163 い の 抽 出 人 工 知 能 学 会 論 文 誌 22,pp 保 田 祥, 柏 野 和 佳 子, 立 花 幸 子, 丸 山 岳 彦 (2012a) 語 り 性 を 有 する 書 きことばの 典 型 例 の 分 析 第 1 回 コーパス 日 本 語 学 ワークショップ 予 稿 集, pp 保 田 祥, 柏 野 和 佳 子, 立 花 幸 子, 丸 山 岳 彦 (2012b) 語 りかけ 性 を 有 すると 判 断 される 書 きことばの 表 現 第 2 回 コーパス 日 本 語 学 ワークショップ 予 稿 集, pp 保 田 祥, 柏 野 和 佳 子, 立 花 幸 子 (2012) 総 体 として 印 象 を 与 える 表 現 : 語 りかけ 性 を 有 すると 判 断 する 根 拠 ことば 工 学 研 究 会 41,pp 保 田 祥, 柏 野 和 佳 子, 立 花 幸 子, 丸 山 岳 彦 (2013) アノテーターコメントを 用 いた 語 り かけ 性 分 析 の 試 み 頻 度 情 報 から 捉 え 難 いテキスト 性 質 の 解 明 に 向 けて 言 語 処 理 学 会 第 19 回 年 次 大 会. 関 連 URL 国 立 国 語 研 究 所 の 言 語 コーパス 整 備 計 画 KOTONOHA 特 定 領 域 研 究 日 本 語 コーパス 152

164 An Analysis of Japanese Language Learners Hesitations Which Appeared in the Responses to Interview Questions Naoko Tsuchiya (Aoyamagakuin University) (1995) (2010) (2010) n-gram OPI(Oral Proficiency Interview) OPI

165 1 OPI : n-gram n-gram n-gram n-gram awk (1) (2) (3) (4) n-gram n-gram n-gram 4 n-gram morogram Windows 6 5 n-gram (1993) (2000) (2000) 6 Perl 154

166 : 9 () 24 () 34 () 774(9 ) 1778(22 ) 1863(32 ) 462(9 ) 545(23 ) 1028(31 ) 202(8 ) 539(24 ) 807(17 ) 118(8 ) 389(24 ) 777(34 ) 111(9 ) 323(24 ) 672(29 ) 68(9 ) 307(20 ) 528(33 ) 52 () 68 () 84 () 1866(45 ) 2805(59 ) 5066(84 ) 1679(51 ) 2514(67 ) 3267(84 ) 1327(47 ) 1966(68 ) 1237(54 ) 1211(52 ) 1514(54 ) 1169(68 ) 918(35 ) 1383(39 ) 953(37 ) 729(33 ) 548(38 ) 202(42 ) 36 () 21 () 10 () 2602(36 ) 2251(21 ) 481(10 ) 1213(36 ) 855(21 ) 367(10 ) 509(31 ) 196(16 ) 38(4 ) 247(19 ) 165 (6 ) 19(5 ) 150(15 ) 19(7 ) 7(3 ) 93(14 ) 6(5 ) 3(1 ) 9 n-gram morogram

167 100 3 MeCab UniDic n-gram : OPI OPI 156

168 n-gram 4:

169 5: DATABASE Vol OPI 158

170 n-gram 159

171 OPI KY OPI - (2010)19 pp (2000)n 29 pp (2000) pp (2001)N-gram 2 pp (2010) 14 3 pp (1995) pp (2000) 30 pp (2012) n-gram pp (1993) n. 93(61)pp.1-8 (2001)ACTFL-OPI (2004) N 7 pp (2009) 10 corp.html 160

172 1 2 3 A Comparison of Predicate Argument Structure Analysis on Multi-domain Corpora Using the Balanced Corpus of Contemporary Written Japanese Akifumi Yoshimoto Mamoru Komachi Yuji Matsumoto (Nara Institute of Science and Technology) (Nara Institute of Science and Technology) (Nara Institute of Science and Technology) 1 BCCWJ BCCWJ Yahoo! Yahoo! 4 1 akifumi-y@is.naist.jp 2 komachi@is.naist.jp 3 matsu@is.naist.jp

173 2 Yahoo! Version 4.0 [Kaw02] ,000 KNB (Kyoto-University and NTT Blog Corpus) [ 11] ,186 Version 4.0 KNB 4,000 5,000 NAIST 1.4 [ 10] NAIST NAIST 1 (BCCWJ) BCCWJ [ 09] (PB) (PN) (OW)Yahoo! (OC) [ 11] NAIST 162

174 3 KNP 1 [ 04, Ima09, Tai08, Yos11, 11] [ 04] BCCWJ 3 BCCWJ (PN)Yahoo! (OC) Yahoo! BCCWJ v ,998 Yahoo! 6,

175 1 - - ORGANIZATION 1..., -2, -1, 1, 2, BCCWJ CaboCha UniDic LIBLINEAR [ 04] 1 EDR Salience Reference List 4.4 (P) (R)F P = tp tp + fn, F = 2 P R P + R tp tp + fp, R = cjlin/liblinear/ 164

176 2 OC PN F PN PN OC PN OC OC PN 1 F PN OC PN OC PN OC PN PN OC PN OC PN OC PN PN OC OC PN OC F PN OC PN OC 165

177 3 Yahoo! (OC) (PN) P R F P R F OC PN OC+PN Yahoo! (OC) (PN) P R F P R F OC PN OC+PN PN PN OC PN OC 166

178 PN Yahoo! Yahoo!

179 [Ima09] Imamura, K., K. Saito, and T. Izumi: Discriminative Approach to Predicate-Argument Structure Analaysis with Zero-Anaphora Resolution, in Proceedings of the ACL- IJCNLP 2009 Conference Short Papers, pp , [Kaw02] Kawahara, D., S. Kurohashi, and K. Hasida: Construction of a Japanese Relevancetagged Corpus, in Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC-2002), pp , [Tai08] Taira, H., S. Fujita, and M. Nagata: A Japanese Predicate Argument Structure Analysis using Decision Lists, in Proceedings of EMNLP-2008, pp , [Yos11] Yoshikawa, K., M. Asahara, and Y. Matsumoto: Jointly Extracting Japanese Predicate- Argument Relation with Markov Logic, in Proceedings of the 5th International Joint Conference on Natural Language Processing, pp , [ 11],,,,,, Vol. 18, No. 2, pp , [ 11],,, Vol. 52, No. 12, pp , [ 11], BCCWJ, 22, pp , [ 09],,,,,,,,,,, 20, pp , [ 04],,,, Vol. 45, No. 3, pp , [ 10],,,, : NAIST,, Vol. 17, No. 2, pp ,

180 了 解 の 意 味 の 変 遷 19 世 紀 末 から 現 代 にかけて 中 山 健 一 ( 筑 波 大 学 / 東 京 外 国 語 大 学 ) The Change in the Meaning of Ryookai : From the End of the 19th Century to Current Japanese Kenichi Nakayama (Univ. of Tsukuba / Tokyo Univ. of Foreign Studies) 1. はじめに 現 代 日 本 語 ( 東 京 方 言 )における 了 解 は 次 の 例 のように 他 者 の 行 為 あるいは 要 求 申 し 出 などを 理 解 し 承 認 承 諾 するという 意 味 で 使 われることが 多 い (1) その 日 から 私 は 内 藤 と 朴 との 王 座 決 定 戦 を 実 現 するために 動 きはじめた 私 がまず 第 一 にしなくてはならなかったのは 内 藤 をはじめとする 全 員 に 了 解 をとることだった こ れには 問 題 がなかった 私 の 説 明 に 対 して 朴 が 若 く 未 知 のボクサーであることへの 不 安 は 表 明 されたが 決 定 戦 そのものへの 反 対 意 見 は 出 されなかった ( 沢 木 耕 太 郎 一 瞬 の 夏 ) しかしながら 明 治 大 正 期 の 書 き 言 葉 では 現 代 語 では 理 解 を 使 うような 文 で 了 解 が 使 われていることが 多 い 例 (2)は 物 事 の 理 解 を 表 しており 承 認 承 諾 の 意 味 は 含 まれない 例 である (2) 幸 にして 先 生 の 予 言 は 実 現 されずに 済 んだ 経 験 のない 当 時 の 私 は この 予 言 の 中 に 含 まれている 明 白 な 意 義 さえ 了 解 し 得 なかった ( 任 意 採 集 夏 目 漱 石 こころ) このように 明 治 大 正 期 の 了 解 の 意 味 と 現 代 語 での 了 解 の 意 味 には 違 いが みられるようである 本 発 表 は 了 解 の 2 つの 意 味 便 宜 的 に 他 の 語 へ 言 い 換 えるので あれば 理 解 + 承 認 の 意 味 と 理 解 のみ の 意 味 の 2 つの 意 味 の どちらの 意 味 で 使 わ れるのかについて コーパスを 用 いて 通 時 的 な 調 査 を 行 なうことを 目 的 とする 2. 先 行 研 究 辞 典 類 の 記 述 管 見 のかぎり 了 解 の 語 義 およびその 変 遷 に 関 する 論 考 は 見 当 たらなかった 本 発 表 では 先 行 研 究 における 了 解 の 語 義 の 捉 え 方 として 国 語 辞 典 の 記 述 を 挙 げる 同 時 に 複 数 の 漢 字 表 記 の 扱 いについてもまとめる 中 型 国 語 辞 典 として ここでは 学 研 国 語 大 辞 典 と 大 辞 林 の 語 釈 を 挙 げる 学 研 国 語 大 辞 典 りょうかい 了 解 諒 解 領 解 領 会 名 他 サ 物 事 の 筋 道 理 由 意 味 などを よくのみこむこと さとること また 理 解 して 承 認 すること -に 苦 しむ 伸 子 がそ の 作 を 書 いた 衷 心 の 事 情 が 分 れば ある-が 得 られるだろうと< 宮 本 伸 子 > 議 決 権 な きものと-します< 城 山 総 会 屋 錦 城 > ( 類 ) 了 承 169

181 大 辞 林 りょうかい 了 解 諒 解 ( 名 )スル 1 1 事 情 を 思 いやって 納 得 すること 理 解 すること のみこむこと 了 承 領 解 領 会 事 情 を-する -できない 2 無 線 などの 通 信 で 通 信 内 容 を 受 け 取 ったことを 表 す 語 ただちに 行 動 を 開 始 せよ - 3[ 哲 学 の 専 門 用 語 略 ] 加 えて 空 見 出 し 了 解 1 に 同 じ として りょうかい 領 解 と りょうかい 領 会 を 立 てている 以 下 これら 2 つの 辞 典 の 記 述 をもとに 語 義 漢 字 表 記 品 詞 についてまとめる まず 語 義 について 学 研 では 理 解 としての 意 味 を 挙 げたのち また とし て 理 解 + 承 認 の 意 味 を 挙 げている 大 辞 林 では 1 の 意 味 では 理 解 としての 意 味 の 説 明 のみだが 別 語 への 言 い 換 えの 1 つとして 了 承 を 挙 げている このように 国 語 辞 典 の 記 述 では 本 発 表 で 問 題 とする 了 解 の 2 つの 意 味 を 別 義 と は 捉 えていないものの 両 方 に 対 して 言 及 がある 次 に 漢 字 表 記 について 了 解 諒 解 領 解 領 会 の 4 つの 表 記 が 挙 がっている これら 4 つの 表 記 での 意 味 の 違 いには 言 及 はない 最 後 に 品 詞 について 語 釈 の 前 の 品 詞 情 報 にあるように 名 詞 および 了 解 する という 形 での 動 詞 として 使 われるのが 主 である それ 以 外 に 大 辞 林 の 2 の 語 義 の ように 感 動 詞 的 に 使 われることがある 3. 調 査 の 観 点 方 法 2 節 を 踏 まえて 本 発 表 の 調 査 の 観 点 と 方 法 を 述 べる 3.1 意 味 の 捉 え 方 一 般 に ある 1 つの 語 が 性 質 の 異 なる 物 事 を 指 し 示 しうる その 場 合 意 味 が 違 う つまり 別 義 といえる 場 合 も 同 じ 意 味 として 括 れるが 用 法 ニュアンスが 違 うといえ る 場 合 もある しかしながら 両 者 の 線 引 きは 容 易 ではなく 線 引 きの 方 法 について 明 確 な 答 えを 発 表 者 は 持 っていない 本 発 表 では 先 の 例 (1)のような 使 われ 方 と 例 (2)のような 使 われ 方 のどちらで 使 われてい るか 通 時 的 調 査 を 行 なうという 目 的 にかんがみ 了 解 の 理 解 としての 使 われ 方 と 理 解 + 承 認 としての 使 われ 方 を 意 味 の 違 いとして 論 を 進 めることとする 3.2 表 記 の 違 い 2 節 でも 述 べたように 表 記 としては 了 解 諒 解 領 解 領 会 の 4 つが 考 えられ るが それぞれを 別 語 ではなく 同 一 語 の 異 表 記 として 扱 う ただし 表 記 の 違 いが 本 発 表 で 問 題 としている 意 味 の 違 いと 相 関 があることも 考 えられるので 実 例 分 析 は 表 記 を 区 別 したうえで 行 ない 意 味 との 相 関 の 有 無 を 調 査 する 以 下 では 了 解 とカッコ 書 きにした 場 合 には 語 を 表 わすものとし 上 記 4 つの 表 記 の 代 表 形 として 扱 う それに 対 し 了 解 諒 解 など 墨 カッコを 使 う 場 合 には 表 1 品 詞 情 報 の ( 名 )スル は 名 詞 のうちサ 変 動 詞 としても 使 われるものを 表 わす 170

182 記 を 表 わすものとし それぞれの 異 なる 表 記 を 指 すものとする 3.3 品 詞 の 違 い 品 詞 の 違 い( 名 詞 か 動 詞 か)は 意 味 の 違 いと 相 関 がある 可 能 性 がある そのため 実 例 分 析 は 品 詞 を 区 別 して 行 なう 名 詞 動 詞 以 外 に 2 節 で 挙 げた 大 辞 林 の 2 の 語 義 のように 感 動 詞 的 に 使 われることがある これは 無 線 通 信 の 場 合 に 限 らず 日 常 的 な 話 し 言 葉 でもよく 使 われる 本 発 表 では この 種 のものを 大 辞 林 のようにまったく の 別 義 として 捉 えることはしないが 他 の 例 とは 区 別 して 扱 う 3.4 対 象 とする 年 代 と 媒 体 調 査 対 象 は 明 治 後 期 以 降 とする それ 以 前 の 言 語 資 料 は 調 査 対 象 とすることができな った また 媒 体 は 書 かれた 言 語 資 料 とする 書 き 言 葉 に 限 定 する 理 由 として 言 語 資 料 (コーパス)の 入 手 のしやすさという 調 査 環 境 の 要 因 もあるが 了 解 自 体 が 文 章 語 であ り 書 かれた 言 語 資 料 に 多 用 されると 考 えられるからである 使 用 したコーパスについて は 次 節 で 述 べる 4. コーパス 調 査 対 象 とした 言 語 資 料 は 以 下 の 2 つである (ただし 任 意 採 集 の 例 (2)を 除 く ) 国 立 国 語 研 究 所 編 (2005) 太 陽 コーパス 雑 誌 太 陽 日 本 語 データベース 国 立 国 語 研 究 所 資 料 集 15 博 文 館 新 社 ( 以 下 太 陽 コーパス と 呼 ぶ) 新 潮 社 編 (1995) 新 潮 文 庫 100 冊 CD-ROM 新 潮 社 ボイジャー NEC インターチャネ ル ( 以 下 新 潮 文 庫 の 100 冊 と 呼 ぶ) 明 治 後 期 ~ 大 正 の 言 語 資 料 として 太 陽 コーパス を 使 用 した 太 陽 コーパス に 収 められている 資 料 の 発 行 年 は 1895( 明 治 28) 年 1901( 明 治 34) 年 1909( 明 治 42) 年 1917( 大 正 6) 年 1925( 大 正 14) 年 の 5 つの 期 間 である 市 販 版 のものを 使 用 し 付 属 の 検 索 ツール ひまわり で 前 述 の 4 つの 表 記 を 検 索 し 実 例 の 抽 出 を 行 なった 和 語 動 詞 わかる への 当 て 字 など 今 回 の 調 査 対 象 外 のものは 手 作 業 で 削 除 した 次 に 明 治 大 正 期 との 比 較 対 照 のための 現 代 語 の 言 語 資 料 について 述 べる 本 来 であ れば 太 陽 と 同 様 の 総 合 雑 誌 の 記 事 からとるべきであるが 資 料 の 性 質 ( 雑 誌 記 事 か 書 籍 か)の 違 いは さほど 大 きく 影 響 しないと 判 断 し 新 潮 文 庫 の 100 冊 から 太 陽 コーパス 以 降 である 昭 和 (1926 年 ~)の 資 料 を 1945 年 より 前 と 1945 年 以 後 に 分 けて 調 査 した 明 治 大 正 期 のもの および 翻 訳 は 除 外 した 新 潮 文 庫 100 冊 からの 実 例 の 抽 出 は 市 販 版 を 小 木 曽 智 信 先 生 ( 国 立 国 語 研 究 所 准 教 授 )が 公 開 している 新 潮 文 庫 CD-ROM コンバー タしおまめ を 使 い 変 換 し ひまわり で 検 索 した 具 体 的 な 方 法 は 太 陽 コーパス と 同 様 である 実 例 数 を 以 下 の 表 1 にまとめる それぞれのコーパスおよび 年 代 区 分 で 実 例 の 数 はま ちまちである 新 潮 文 庫 の 100 冊 の 昭 和 戦 前 は 合 計 4 例 と 極 めて 少 なく 扱 いに 注 意 が 必 要 であろう 171

183 太 陽 コーパス 表 1 実 例 数 ( 全 体 ) 新 潮 文 庫 の 100 冊 年 代 合 計 合 計 昭 和 戦 前 昭 和 戦 後 実 例 数 調 査 結 果 以 下 まず 5.1 節 で 実 例 数 など 調 査 結 果 の 概 要 と 本 発 表 での 結 論 の 大 枠 を 示 す つづく 5.2 節 で 個 々の 実 例 を 詳 しく 検 討 する 5.1 概 要 まず 意 味 の 問 題 に 入 る 前 に 表 記 および 品 詞 ごとに 分 けて 示 す その 後 本 題 で ある 意 味 の 違 いごとに 実 例 数 を 挙 げ 表 記 および 品 詞 との 相 関 の 有 無 を 調 べる 表 記 について 表 2 にまとめる ( )の 数 字 は それぞれの 年 代 ごとでの 各 表 記 の 占 める 割 合 である 表 記 について やはり 圧 倒 的 に 了 解 が 多 く 次 に 諒 解 が 多 かった 領 解 と 領 会 は 太 陽 コーパス にみられるが 数 は 少 なく 新 潮 文 庫 の 100 冊 には みられない 表 2 実 例 数 ( 表 記 別 ) コーパス 太 陽 コーパス 新 潮 文 庫 の 100 冊 年 代 昭 和 戦 前 昭 和 戦 後 了 解 (95) (83) (71) (77) (51) (75) (79) 諒 解 (0) (2) (14) (18) (49) (25) (21) 領 解 (0) (15) (12) (3) (0) (0) (0) 領 会 ( 會 ) (5) (0) (3) (2) (0) (0) (0) 合 計 (100) (100) (100) (100) (100) (100) (100) 次 に 品 詞 ごとの 数 を 示 す ( )の 数 字 は それぞれの 年 代 ごとでの 各 品 詞 の 占 める 割 合 である 表 3 実 例 数 ( 品 詞 別 ) コーパス 太 陽 コーパス 新 潮 文 庫 の 100 冊 年 代 昭 和 戦 前 昭 和 戦 後 名 詞 (0) (10) (11) (25) (53) (75) (58) 動 詞 (100) (90) (89) (75) (47) (25) (40) 感 動 詞 的 (0) (0) (0) (0) (0) (0) (2) 合 計 (100) (100) (100) (100) (100) (100) (100) 品 詞 としては 名 詞 ( 了 解 が 了 解 を など)と 動 詞 ( 了 解 する )の 場 合 が 主 であった 172

184 加 えて とくに 現 代 語 の 話 し 言 葉 において 相 手 の 指 示 や 要 求 への 肯 定 の 返 答 として 感 動 詞 的 に 使 われる 場 合 もある 次 に 例 を 1 つ 挙 げる (3) ブンが フン 先 生 の 家 にあらわれたのだ さ はやく 行 け! わかってます で フン 先 生 というひとの 家 の 所 番 地 は? 市 川 市 のはずれに 下 総 の 国 分 寺 という 有 名 なお 寺 がある そのお 寺 の 裏 側 の 畑 の 中 の 一 軒 家 だ 了 解 いってきまーす! ( 井 上 ひさし ブ ンとフン) 感 動 詞 的 なものは 主 に 話 し 言 葉 で 使 われるものであり 新 潮 文 庫 の 100 冊 では 小 説 の 会 話 文 にごく 少 数 見 られた 太 陽 コーパス には 1 例 も 見 られなかった 今 感 動 詞 的 なものは 措 くとして 名 詞 と 動 詞 を 比 較 した 場 合 大 まかに 言 って 19 世 紀 末 から 20 世 紀 はじめころまでは 動 詞 として 使 われる 場 合 が 大 多 数 を 占 めていたが 現 代 ( 昭 和 戦 後 )では 名 詞 が 過 半 数 を 占 めていることがわかる 各 年 代 をみても 実 例 数 が 極 めて 少 なく 確 かなことが 言 えない 新 潮 文 庫 の 100 冊 の 昭 和 戦 前 を 除 いて 年 代 が 下 るにつ れて 動 詞 が 少 なく 名 詞 が 多 くなるという 推 移 を 見 せている 以 下 本 発 表 で 問 題 となる 了 解 の 意 味 ごとの 実 例 数 を 挙 げる これ 以 降 理 解 としての 意 味 を 意 味 A 理 解 + 承 認 としての 意 味 を 意 味 B とする 意 味 A か 意 味 B かの 判 断 基 準 は 最 終 的 にはテクストの 読 み 手 である 発 表 者 の 判 断 とい うことになる しかし 意 味 A 意 味 B それぞれの 意 味 が 実 現 される 言 語 的 (さらに 狭 く 言 えば 構 文 的 )な 条 件 つまり 構 文 的 な 構 造 ( 中 山 2009)を 取 り 出 すことが 可 能 である むろん すべての 実 例 で 明 確 なわけではないが 可 能 なかぎりそれを 記 述 し 5.2 節 で 挙 げ ることとする ここでは それぞれの 代 表 的 な 例 をいくつか 挙 げる 太 陽 コーパス 意 味 A (4) 市 長 が 自 分 の 俸 給 三 千 圓 を 減 じた 眞 意 は どう 考 へて 見 てもその 當 時 僕 は 甚 だ 了 解 に 苦 んだ ( 東 京 市 長 としての 奥 田 男 : ) 2 (5) 併 し 博 士 は 生 物 界 に 於 ける 共 同 生 存 の 意 義 を 充 分 に 了 解 されて 居 ない 樣 に 見 える ( 自 然 界 の 三 大 矛 盾 に 就 て:1909-2) 太 陽 コーパス 意 味 B (6) 中 央 亞 米 利 加 に 移 民 を 計 畫 し 明 治 廿 七 年 グアテマラを 探 險 して 大 統 領 内 閣 員 を 訪 問 その 了 解 を 得 て 廿 七 年 七 月 の 末 に 日 本 へ 歸 つて 來 た ( 実 業 界 の 生 活 を 顧 みて: ) 新 潮 文 庫 の 100 冊 意 味 A (7) ホテルからしばらく 歩 くと 舗 道 に 三 四 十 人 くらい 男 たちが 坐 り 込 んでいるところに 出 くわした 意 外 な 光 景 だったが 彼 らが 坐 り 込 んでいる 建 物 がデイリー ニューズの 社 屋 だということで 了 解 できた ニューヨークは 新 聞 ストの 真 っ 最 中 だった ( 開 高 健 流 亡 記 ) 2 記 事 タイトルの 後 の 数 字 は それぞれ 雑 誌 の 発 行 年 と 号 数 を 示 す 173

185 新 潮 文 庫 の 100 冊 意 味 B (8) その 日 から 私 は 内 藤 と 朴 との 王 座 決 定 戦 を 実 現 するために 動 きはじめた 私 がまず 第 一 にしなくてはならなかったのは 内 藤 をはじめとする 全 員 に 了 解 をとることだった こ れには 問 題 がなかった 私 の 説 明 に 対 して 朴 が 若 く 未 知 のボクサーであることへの 不 安 は 表 明 されたが 決 定 戦 そのものへの 反 対 意 見 は 出 されなかった ( 沢 木 耕 太 郎 一 瞬 の 夏 ) 例 (1) 再 掲 (9) 星 はとるものもとりあえず 内 務 省 衛 生 局 へかけつけ 依 頼 した あの 原 料 阿 片 の 積 出 しはさしつかえないと 早 く 小 樽 に 電 報 を 打 って 下 さるよう お 願 いします それに よって 小 樽 水 上 警 察 署 も 了 解 してくれるはずになっております ( 星 新 一 人 民 は 弱 し 官 吏 は 強 し) 意 味 ごとの 実 例 数 を 表 4 にまとめる 表 4 実 例 数 ( 意 味 別 ) コーパス 太 陽 コーパス 新 潮 文 庫 の 100 冊 年 代 昭 和 戦 前 昭 和 戦 後 意 味 A (100) (100) (98) (88) (75) (25) (24) 意 味 B (0) (0) (2) (12) (25) (75) (76) 意 味 A+ 意 味 B 20 (100) 41 (100) 100 (100) 101 (100) 67 (100) 4 (100) 91 (100) 判 断 が 難 し いもの 合 計 やはり 新 潮 文 庫 の 100 冊 では 意 味 B が 大 多 数 を 占 めるのに 対 し 太 陽 コーパス では 意 味 A が 大 多 数 を 占 めるという 結 果 となった 太 陽 コーパス を 年 代 ごとにみると 1895 年 1901 年 では 意 味 A がすべてであったのが 1909 年 になって 意 味 B がごく 少 数 み られ 1917 年 1925 年 と 年 代 が 下 るにしたがって 意 味 B の 占 める 割 合 が 増 えている 意 味 A か 意 味 B かの 判 断 が 難 しいもの は これ 以 降 の 分 析 から 除 外 する 判 断 が 難 しいもの のうち 際 立 ったものとして 次 のような 人 (および 組 織 )どうしの 関 係 が 問 題 となる 例 である 意 味 A に 近 いと 言 えば 近 いが 面 識 交 流 をもつというような 意 味 であ ろうか 現 代 語 の 感 覚 では なじまないような 文 脈 に 現 れている (10) 交 渉 團 體 を 爲 さぬ 無 所 屬 議 員 にして 發 言 したる 者 は 前 に 長 島 隆 二 君 今 囘 は 押 川 方 義 林 毅 陸 の 二 君 あるも この 人 々は 多 少 とも 政 黨 に 關 係 を 有 し 了 解 を 有 して 居 つ たから 其 の 便 宜 を 得 たのであつて [ 後 略 ] ( 徹 頭 徹 尾 党 争 の 府 :1917-9) (11) 大 軌 社 長 大 阪 奈 良 間 電 車 の 大 槻 龍 治 君 は 元 の 税 關 長 時 代 から 大 阪 三 長 老 の 一 人 で 鳴 した 片 岡 直 輝 君 と 諒 解 があつた ( 大 阪 唯 一 の 社 交 団 たる 大 阪 倶 楽 部 に 集 る 人 々:1925-4) 174

186 (12) 申 合 としては 綱 領 調 査 委 員 會 を 設 けるに 就 て 綱 領 規 約 調 査 委 員 會 はその 性 質 上 表 面 の 形 式 は 事 務 機 關 であるが 各 團 體 間 諒 解 の 絶 好 の 機 會 であるから 之 を 利 用 して 諒 解 に 力 めること といふことになつた ( 無 産 政 党 組 織 準 備 委 員 会 の 主 要 団 体 及 中 心 人 物 委 員 会 組 織 の 過 程 及 将 来 : ) 以 下 意 味 と 表 記 との 相 関 および 意 味 と 品 詞 との 相 関 についてみていく まず 意 味 と 表 記 との 相 関 について 表 5 にまとめる 表 5 は 先 の 表 4 での 判 断 が 難 しいもの を 除 外 し それぞれの 表 記 年 代 ごとに 意 味 A と 意 味 B の 数 を 並 べて 示 し たものである 各 セルで 上 段 の 数 字 の 左 側 が 意 味 A の 実 例 数 右 側 が 意 味 B の 実 例 数 で ある 下 段 の( )のなかの 数 字 は 意 味 A と 意 味 B の 実 例 数 の 割 合 である 表 5 実 例 数 ( 表 記 と 意 味 の 相 関 ) コーパス 太 陽 コーパス 新 潮 文 庫 の 100 冊 年 代 昭 和 戦 前 昭 和 戦 後 了 解 19/0 34/0 70/2 74/3 31/6 1/2 19/52 (100/0) 0 (97/3) (96/4) (84/16) (33/67) (27/73) 諒 解 0/0 1/0 13/0 10/9 19/11 0/1 3/17 0 (100/0) (53/47) (53/47) (0/100) (15/85) 領 解 0/0 6/0 12/0 3/0 0 (100/0) (100/0) 0/0 0/0 0/0 領 会 ( 會 ) 1/0 0/0 3/0 2/0 (100/0) 0 (100/0) (100/0) 0/0 0/0 0/0 合 計 20/0 41/0 98/2 89/12 50/17 1/3 22/69 (100/0) (100/0) (98/2) (88/12) (75/25) (25/75) (24/76) 領 解 領 会 ( 會 ) は 意 味 A でのみ 使 われている しかし 年 代 との 関 わりをみると 新 潮 文 庫 の 100 冊 には 例 がなく 太 陽 コーパス でも 1925 年 にはない つまり 意 味 B が 多 く 使 われ 始 める 年 代 にはそれらの 表 記 の 例 自 体 がない そのため これら 2 つの 表 記 が 意 味 A に 限 られるというより 意 味 に 関 わらずその 表 記 自 体 が 使 われなくなった 可 能 性 が 高 い 了 解 と 諒 解 について 新 潮 文 庫 の 100 冊 の 昭 和 戦 後 では 両 者 とも 意 味 A が 圧 倒 的 多 数 となっている よって 現 代 語 において 2 つの 表 記 と 意 味 の 違 いの 相 関 は 認 められない 太 陽 コーパス では 了 解 と 諒 解 とを 比 較 すると 特 に 1917 年 と 1925 年 で 諒 解 のほうが 意 味 B で 使 われる 割 合 が 高 い しかし 諒 解 の 実 例 数 自 体 が 少 な いこともあり 諒 解 のほうが 意 味 B で 使 われやすかったとまでは 言 えない 結 論 として 表 記 の 違 いと 意 味 の 違 いの 相 関 については 本 調 査 では 明 確 なことは 言 え ない どの 漢 字 表 記 を 使 うかは 様 々な 要 因 があると 考 えられる 言 語 の 側 の 要 因 のみな らず 例 えば 諒 は 常 用 漢 字 ではないなど 言 語 政 策 との 関 わりもあるだろう 次 に 意 味 と 品 詞 との 相 関 について 表 6 にまとめる それぞれのセルの 数 字 の 示 し 方 は 先 の 表 5 と 同 じで 上 段 の 数 字 の 左 側 が 意 味 A の 実 例 数 右 側 が 意 味 B の 実 例 数 下 段 の( )のなかの 数 字 は 意 味 A と 意 味 B の 実 例 数 の 割 合 である 175

187 表 6 実 例 数 ( 品 詞 と 意 味 の 相 関 ) コーパス 太 陽 コーパス 新 潮 文 庫 の 100 冊 年 代 昭 和 戦 前 昭 和 戦 後 名 詞 0/0 4/0 9/2 12/12 17/16 0/3 4/49 (100/0) (82/18) (50/50) (52/48) (0/100) (8/92) 動 詞 20/0 37/0 89/0 77/0 33/1 1/0 18/18 (100/0) (100/0) (100/0) (100/0) (97/3) (100/0) (50/50) 感 動 詞 的 0/0 0/0 0/0 0/0 0/0 0/0 0/2 (0/100) 合 計 20/0 41/0 98/2 89/12 50/17 1/3 22/69 (100/0) (100/0) (98/2) (88/12) (75/25) (25/75) (24/76) 前 述 ( 表 3)のとおり 意 味 に 関 わらず 動 詞 がほとんどすべてであったのが 名 詞 が 徐 々 に 多 くなるという 推 移 をみせている 加 えて 表 6 の 通 り 品 詞 と 意 味 との 相 関 において も 名 詞 と 動 詞 との 間 に 際 立 った 差 が 見 られる 太 陽 コーパス では 動 詞 においては 年 代 を 問 わず 意 味 A がほとんどすべてであるのに 対 し 名 詞 においては 特 に 1917 年 以 降 意 味 B も 比 較 的 多 くみられる 一 方 新 潮 文 庫 の 100 冊 の 昭 和 戦 後 では 名 詞 の 場 合 ほと んどすべての 例 が 意 味 B であるのに 対 し 動 詞 の 場 合 は 意 味 A と 意 味 B がほぼ 半 々で 動 詞 では 意 味 B への 移 行 が 名 詞 よりも 遅 れていることが 分 かる 5.2 意 味 A 意 味 B それぞれの 構 文 的 な 構 造 以 下 では 紙 幅 の 都 合 上 ごく 簡 単 にではあるが 意 味 A 意 味 B それぞれの 実 現 をさ さえる 構 文 的 な 構 造 を 太 陽 コーパス の 個 々の 実 例 を 挙 げながら 述 べる 意 味 A をささえる 構 文 的 な 構 造 動 詞 の 場 合 名 詞 ( 抽 象 的 な 事 柄 )ヲ 了 解 スル (13) 併 し 博 士 は 生 物 界 に 於 ける 共 同 生 存 の 意 義 を 充 分 に 了 解 されて 居 ない 樣 に 見 える ( 自 然 界 の 三 大 矛 盾 に 就 て:1909-2) 例 (5) 再 掲 (14) 斯 くては 到 底 虚 心 平 氣 に 韓 人 の 眞 相 を 領 解 すべき 餘 地 あるべからず 治 下 人 民 の 性 情 を 領 解 する 能 はずして 一 に 獨 自 己 の 見 解 によりて 萬 般 の 施 設 を 運 らす 運 らす 所 巧 妙 なら ざるにあらざるも 殆 んど 手 答 へなく 概 ね 失 敗 に 了 るは 見 易 き 道 理 なり ( 政 治 外 交 統 監 政 治 の 失 敗 :1909-6) (15) 其 人 もし 佛 語 を 知 るか 試 に 佛 語 を 以 て 法 學 上 の 事 を 質 問 すれば 氏 は 聲 に 應 じて 佛 語 を 了 解 す 必 要 あらば 流 暢 なる 佛 語 を 以 て 答 へらる (フルベツキ 博 士 とヘボン 先 生 : ) 抽 象 的 な 事 柄 を 表 わす 名 詞 について 具 体 的 には 社 会 的 な 事 柄 ( 英 国 人 の 生 活 状 態 時 代 の 眞 相 その 国 民 の 思 想 ) 科 学 学 術 ( 精 子 の 作 用 沈 殿 岩 の 特 性 日 本 画 の 歴 史 ) 人 の 内 面 ( 僧 の 苦 心 政 府 の 意 ) 言 語 ( 佛 語 外 國 語 )など 様 々なもの が 来 る 太 陽 コーパス ではこの 種 の 例 が 圧 倒 的 に 多 く 太 陽 コーパス 全 体 のほぼ 半 数 の 約 150 例 を 占 める 176

188 以 下 それ 以 外 の 構 文 的 な 構 造 についてまとめる 節 ( 疑 問 詞 疑 問 文 +カ(ヲ) 抽 象 的 な 事 柄 や 一 般 的 事 実 ) 了 解 スル (16) 人 民 は 無 識 にして 未 だ 憲 政 の 何 たるかを 了 解 せざるものが 多 い ( 欧 州 大 戦 と 露 国 の 革 命 :1917-5) (17) 日 本 は 過 去 の 二 大 戰 役 に 於 て 戰 爭 の 物 質 的 精 神 的 代 價 の 如 何 なるものかを 了 解 したり 戰 爭 は 日 本 の 發 展 を 妨 げしを 悟 りたり ( 外 人 の 日 本 観 :1909-5) 節 ( 一 般 的 事 実 )コトヲ 了 解 スル (18) 古 來 最 も 有 力 に 統 一 を 妨 げたるものは 交 通 の 不 便 なるに 在 りしことを 適 切 に 了 解 する ものは 同 時 に 世 界 統 一 の 大 業 を 促 進 するの 大 勢 力 は 實 に 交 通 機 關 の 發 達 なることを 自 ら 了 解 するならん ( 平 和 と 世 界 の 統 一 ( 強 国 論 ):1917-4) (19) 若 夫 普 通 片 々たる 記 者 であるならば 忽 ち 倨 傲 尊 大 の 風 をなし 自 己 廣 告 を 盛 に する 場 合 であるのに 何 等 如 此 の 態 度 なかりしは 决 して 三 文 評 論 家 でない 事 を 諒 解 せ しむるに 足 る ( 故 春 汀 鳥 谷 部 銑 太 郎 君 :1909-2) 名 詞 の 場 合 名 詞 ( 事 柄 )ハ/ 節 ( 一 般 的 事 実 )ハ/ 節 ( 疑 問 詞 疑 問 文 )+カ 了 解 ニ 苦 シム (20) 市 長 が 自 分 の 俸 給 三 千 圓 を 減 じた 眞 意 は どう 考 へて 見 てもその 當 時 僕 は 甚 だ 了 解 に 苦 んだ ( 東 京 市 長 としての 奥 田 男 : ) 例 (4) 再 掲 (21) 是 は 獨 逸 の 爲 めには 非 常 に 不 利 益 な 譯 で 今 後 獨 逸 は 果 して 何 國 をたよりとする 積 で あるか 吾 輩 などは 如 何 も 了 解 に 苦 しむ [ 後 略 ] ( 米 独 国 交 断 絶 の 側 面 観 :1917-3) 名 詞 ( 事 柄 )ハ/ 節 ( 一 般 的 事 実 )コトハ 了 解 ガ デキル 形 の 上 から 名 詞 としたが 動 詞 としての 了 解 する の 可 能 形 了 解 できる に 近 い (22) 女 性 が 生 む 力 に 惠 まれてゐる 所 以 は 此 感 情 の 優 越 性 なるを 以 てしても 了 解 が 出 來 る であらう それ 故 女 性 は 先 天 的 に 男 性 よりは 美 の 本 質 に 秀 れ 女 性 でさへあれば 如 何 なる 女 性 でも 男 性 が 如 何 なる 男 性 でも 美 くしいとは 云 ひ 得 ざるに 反 し 美 くしい 點 を 發 見 し 得 るものだと 考 へてゐるのである ( 現 代 の 女 性 美 :1925-1) 意 味 B をささえる 構 文 的 な 構 造 5.1 節 で 述 べたように 実 例 の 数 は 少 ないが 意 味 B について 同 様 にみていく 名 詞 ( 人 など)ノ 了 解 ヲ 得 ル (23) 中 央 亞 米 利 加 に 移 民 を 計 畫 し 明 治 廿 七 年 グアテマラを 探 險 して 大 統 領 内 閣 員 を 訪 問 その 了 解 を 得 て 廿 七 年 七 月 の 末 に 日 本 へ 歸 つて 來 た ( 実 業 界 の 生 活 を 顧 みて: ) 例 (6) 再 掲 177

189 (24) 加 藤 が 憲 政 擁 護 運 動 に 參 加 したのは 平 田 ( 内 大 臣 )の 諒 解 を 得 た 後 に 決 心 したのだ 平 田 は 寧 ろ 憲 政 擁 護 を 煽 動 したと 言 つても 可 からう ( 政 界 煙 話 議 会 解 散 か 内 閣 瓦 解 か :1925-2) 名 詞 ( 人 など)ノ 了 解 ヲ 求 メル 乞 フ (25) 然 らば 何 うすればよいのか と 岩 倉 公 が 云 つた 諸 公 の 腹 一 つ 勿 論 獨 立 國 の 威 嚴 を 保 たなくてはならぬが その 方 策 は 何 うするか その 御 覺 悟 な ら 彼 等 の 干 渉 を 斥 けなさるがよい 不 肖 大 隈 其 の 任 に 當 つて 長 崎 以 來 の 經 過 を のべ 彼 等 の 諒 解 を 求 めることに 致 しても 差 支 へない ( 明 治 初 年 外 交 物 語 (その 五 ) 邪 教 退 治 の 腹 芸 :1925-2) (26) 然 るに 學 校 の 出 身 者 や 關 係 者 は 何 故 校 葬 にしないのか と 云 つて 自 分 を 責 め その 辯 解 に 困 らされた 位 であつた 當 日 の 夕 方 穗 積 陳 重 さんは 態 態 私 の 家 に 來 て 是 非 校 葬 にして 貰 ひたい とのことであつたが これにも 事 情 初 め 自 分 の 專 斷 で 校 葬 にするつ もりでゐた を 話 して 其 諒 解 を 乞 ふたやうな 始 末 であつた ( 中 央 大 学 経 営 者 としての 奥 田 男 : ) 6. まとめと 課 題 本 発 表 の 結 論 をまとめる 太 陽 コーパス では 了 解 がサ 変 動 詞 として 使 われた 場 合 年 代 を 問 わずほとんど 全 て 意 味 A で 使 われている その 場 合 動 作 の 対 象 は 抽 象 的 な 事 柄 や 一 般 的 事 実 が 大 多 数 である 一 方 名 詞 の 場 合 は 特 に 1917 年 以 降 意 味 B が 現 れ ている 新 潮 文 庫 の 100 冊 のうち 昭 和 戦 後 では 名 詞 の 場 合 は 意 味 B がほとんどなのに 対 し サ 変 動 詞 の 場 合 は 意 味 A と 意 味 B とが 半 々と 意 味 A もある 程 度 みられる このこ とから 意 味 の 変 遷 を 推 察 すると 了 解 は 1910 年 代 頃 までは 名 詞 であれサ 変 動 詞 であ れ 意 味 A で 使 われていたが 1920 年 前 後 から 名 詞 の 場 合 で 意 味 B が 生 じ その 後 特 に 名 詞 の 場 合 を 中 心 に 意 味 B が 広 がり 優 勢 となったと 考 えられる 本 発 表 で 明 らかとなった 別 の 事 実 ( 意 味 と 関 わらず) 動 詞 としての 使 用 が 優 勢 だったのが 名 詞 としての 使 用 が 優 勢 になりつつあることと 上 記 の 意 味 変 化 との 理 論 的 な 関 係 につい ては 今 発 表 だけでは 明 確 なことは 言 えない 最 後 に 本 調 査 の 問 題 点 として 太 陽 コーパス の 調 査 に 重 きをおいたため それ 以 降 の 年 代 の 調 査 がやや 不 十 分 であった 特 に もっとも 現 代 に 近 い 年 代 区 分 が 1945 年 以 降 であり すでに 60 年 以 上 の 期 間 がある 太 陽 コーパス 以 後 についても 十 分 な 実 例 を 収 集 し 年 代 区 分 を 細 かく 行 ない 調 査 を 行 なう 必 要 がある 文 献 金 田 一 春 彦 池 田 弥 三 郎 編 (1988[1978]) 学 研 国 語 大 辞 典 第 二 版 学 習 研 究 社 松 村 明 三 省 堂 編 修 所 編 (2006[1988]) 大 辞 林 第 三 版 三 省 堂 中 山 健 一 (2009) 動 詞 くる と いく の 多 義 構 造 の 違 いについて コーパスに 基 づく 言 語 学 教 育 研 究 報 告 1 pp 東 京 外 国 語 大 学 大 学 院 グローバル COE プログラ ム コーパスに 基 づく 言 語 学 教 育 研 究 拠 点 178

190 CRF を 用 いたアニメ 関 連 用 語 の 固 有 表 現 抽 出 高 瀬 真 記 ( 東 京 農 工 大 学 工 学 部 情 報 工 学 科 ) 古 宮 嘉 那 子 ( 東 京 農 工 大 学 工 学 研 究 院 ) 小 谷 善 行 ( 東 京 農 工 大 学 工 学 研 究 院 ) Named Entity Recognition for Animation-Related Words Using CRF Masaki Takase(Department of Computer and Information Sciences Faculty of Engineering) Kanako Komiya(Institute of Engineering, Tokyo University of Agriculture and Technology) Yoshiyuki Kotani(Institute of Engineering, Tokyo University of Agriculture and Technology) 1.はじめに 近 年, 日 本 のコンテンツ 産 業 は クールジャパン という 名 称 のもと 注 目 を 集 めており, その 中 でも 漫 画,アニメーションなどのいわゆるサブカルチャーは, 商 業 的 な 観 点 から 見 ても 重 要 なコンテンツとなりえている.また,アニメーションなどの 作 品 には 多 くの 固 有 表 現 が 含 まれている.それはキャラクターの 名 前 であったり, 作 中 に 登 場 するロボットの 名 前 であったり, 作 品 タイトルそのものであったりである.そして,それら 固 有 表 現 は 商 品 検 索 や 商 品 同 定, 推 薦 などに 利 用 できると 考 えられる.しかし, 従 来 の 研 究 ではアニメ ーション 関 連 用 語 の 固 有 表 現 抽 出 システムは 基 本 的 に 存 在 しない.そこで, 本 研 究 ではア ニメ 関 連 用 語 に 特 化 した 固 有 表 現 抽 出 システムを 考 える. 固 有 表 現 抽 出 手 法 としては CRF を 利 用 する. 2. 関 連 研 究 固 有 表 現 抽 出 は, 今 まで 様 々な 方 法 で 行 われている.その 中 でも 大 きく 分 けるとパター ン 照 合 による 固 有 表 現 抽 出 と, 機 械 学 習 による 固 有 表 現 抽 出 にわけられる. パターン 照 合 による 固 有 表 現 抽 出 とは,あらかじめ 人 手 で 固 有 表 現 のパターンを 作 成 し, 合 致 する 部 分 をコーパスから 発 見 することによって 行 われる 固 有 表 現 抽 出 のことである ( 竹 本, 福 島, 山 田 (2001)).パターンとは さん や 大 学 などの 固 有 表 現 に 付 属 しや すい 文 字 列 を 指 す.しかし,ルール 作 成 のコストが 高 く,そこに 合 致 しない 固 有 表 現 は 抽 出 できないので, 助 詞 を 含 むタイトルなどが 多 数 存 在 するアニメ 関 連 用 語 に 用 いるのは 難 しい. 人 手 でパターンを 作 成 するコストや, 更 新 するコストを 解 決 するために, 機 械 学 習 によ る 固 有 表 現 抽 出 の 研 究 も 行 われている. 機 会 学 習 による 固 有 表 現 抽 出 は, 学 習 用 のコーパ スを 用 意 することで, 自 動 で 抽 出 パターンを 学 習 することができる. 機 械 による 手 法 は SVM(Support Vector Machine)( 山 田, 工 藤, 松 本 (2002))を 利 用 した 抽 出 や 文 節 情 報 を 利 用 した 抽 出 ( 中 野, 平 井 (2004))などが 存 在 し 成 果 を 上 げている.その 他 にも HMM(Hidden Markov Model)や 分 類 機 の 逐 次 適 応,CRF(Conditional Random Fields)を 利 用 した 固 有 表 現 抽 出 なども 一 般 的 である. 機 械 学 習 の 問 題 点 としては 人 手 によるコーパス 作 成 ( 橋 本, 乾, 村 上 (2008))のコストが 高 いことなどがある. こうした 研 究 を 踏 まえ, 本 稿 ではアニメなどサブカルチャーの 特 殊 な 固 有 表 現 に 特 化 し た 固 有 表 現 抽 出 について 行 った. 3.アニメ 関 連 用 語 アニメ 関 連 用 語 の 固 有 表 現 を 抽 出 する 前 に, 固 有 表 現 抽 出 の 対 象 となるアニメ 関 連 用 語 を 定 義 する 必 要 がある. 本 研 究 ではそれらを 内 部 の 固 有 表 現 と 外 部 の 固 有 表 現 に 179

191 分 けて 定 義 した. 具 体 的 には,それぞれアニメ 作 品 内 に 登 場 する 固 有 表 現 とアニメを 制 作 する 製 作 者 などを 指 す 固 有 表 現 である. 定 義 した 固 有 表 現 をそれぞれ 表 1 と 表 2 に 示 す. 表 1 : 内 部 の 固 有 表 現 表 2 : 外 部 の 固 有 表 現 内 部 の 固 有 表 現 は 作 中 に 出 てくる 用 語, 外 部 の 固 有 表 現 は 作 品 の 製 作 者 や 関 連 商 品 販 売 社 などを 対 象 としている. また,アニメ 関 連 用 語 として, 地 名 は 現 実 世 界 に 存 在 する 実 在 の 地 名 とかぶることもあ り,アニメを 対 象 とした 固 有 表 現 としにくいため, 対 象 から 除 外 した. 180

192 4.アニメ 関 連 用 語 の 固 有 表 現 抽 出 手 法 アニメ 関 連 用 語 の 固 有 表 現 抽 出 は,CRF による 系 列 ラベリングで 行 う. 学 習 用 のコーパ スをアニメに 関 連 したコーパスにすることでアニメ 関 連 用 語 に 特 化 した 固 有 表 現 をおこな う. 固 有 表 現 のタグには BIOES 形 式 を 使 用 した.タグの 意 味 は 表 3 に 示 す. 表 3 : タグの 意 味 利 用 した 素 性 は 表 層 品 詞 品 詞 細 分 類 文 字 種 文 字 数 の 五 つである. 入 力 された 文 章 を 形 態 素 解 析 し 表 層 品 詞 品 詞 細 分 類 を 取 り 出 し, 表 層 から 文 字 種 と 文 字 数 を 作 成 する. 5.アニメ 関 連 用 語 の 固 有 表 現 抽 出 実 験 提 案 する 手 法 を 用 いて,アニメ 関 連 用 語 の 固 有 表 現 抽 出 実 験 を 行 った.その 際 に, 形 態 素 解 析 器 として MeCab( 系 列 ラベリングに CRF++ ( 用 いた. 5.1 実 験 データ CRF++に 学 習 させる 際 の 学 習 用 アニメコーパスは 自 身 で 作 成 した. 対 象 とした 文 章 は Wikipedia に 記 事 のあるアニメ 作 品 50 タイトルのあらすじである.その 中 に 含 まれる 固 有 表 現 を 先 に 述 べた 定 義 で 抜 き 出 し,タグ 付 けをした. 文 字 数 は 文 字 で, 表 層 数 は 26948, 固 有 表 現 数 は 1570 である.その 内,S タグで 表 される 固 有 表 現 が 742 個 で BIE タグで 表 さ れる 固 有 表 現 が 828 個 である. 5.2 アニメ 関 連 用 語 の 固 有 表 現 抽 出 実 験 内 容 学 習 用 アニメコーパスを 五 分 割 交 差 検 定 することで 評 価 した. 正 解 のタグとシステムが 出 力 したタグを 比 較 し,S タグの 場 合 は 両 者 が 揃 った 場 合,BIE タグの 場 合 は, 最 初 から 最 後 までタグが 揃 った 場 合 を 正 解 とした. 5.3 アニメ 関 連 用 語 の 固 有 表 現 抽 出 実 験 結 果 表 層, 品 詞, 品 詞 細 分 類 の 三 つの 素 性 を 使 った 状 態 の 結 果 をベースラインとし, 文 字 種, 文 字 数, 文 字 種 + 文 字 数 の 組 成 を 使 った 状 態 の 結 果 と 合 わせて, 全 部 で 四 種 類 の 素 性 の 組 み 合 わせで 出 た 結 果 は 表 4 のようになった. 表 4 : 組 成 ごとの 結 果 全 ての 値 は, 文 字 種 + 文 字 数 を 使 った 場 合 に 最 大 となり,その 際,S タグで 表 される 固 有 表 現 の 精 度 に 関 しては,ベースラインから 見 て 5% 有 意 水 準 で 有 意 という 結 果 が 出 た. 6. 考 察 実 験 結 果 から,アニメ 関 連 用 語 は 文 字 種 と 文 字 数 の 素 性 を 使 うとより 抽 出 できているこ とが 分 かる.これは,アニメ 関 連 用 語 には 片 仮 名 の 単 語 や, 漢 字 の 組 み 合 わせのような 単 181

193 語 が 多 いことが 要 因 としてあげられる. スターライトブレイカー のような 形 で 表 される 単 語 は, 片 仮 名 であり,さらに 表 層 が 区 切 られにくいため, 文 字 数 も 多 くなりがちである. そういったヒントから, 文 字 種 と 文 字 数 はアニメ 関 連 用 語 の 固 有 表 現 抽 出 において 有 用 な ヒントとなりうると 考 えられる.しかし, あの 日 見 た 花 の 名 前 を 僕 達 はまだ 知 らない や ジャングルはいつもハレのちグゥ など,むやみに 長 いタイトルはうまく 抽 出 できて いなかった.この 実 験 では 前 後 二 行 の 素 性 しか 見 ていないために, 普 通 の 文 章 と 区 別 がつ けられなかったと 考 えられる.しかし, 前 後 の 数 を 増 やすと 結 果 が 悪 くなる 傾 向 があった ので, 上 手 く 識 別 するための 素 性 の 改 良 は 今 後 の 課 題 である. 全 体 的 な 結 果 を 見 ると, 文 章 が 柔 らかく, 良 い 結 果 が 出 にくい Web 文 章 を 用 いたコーパ スでの 再 現 率 0.687, 精 度 0.848,F 値 という 値 はよい 結 果 であり,この 手 法 はアニメ 関 連 用 語 の 固 有 表 現 抽 出 に 有 効 である. 7.まとめと 今 後 の 展 望 本 研 究 では,アニメ 関 連 用 語 の 固 有 表 現 抽 出 を CRF にておこなった. アニメ 関 連 用 語 を 定 義 したのちに, 自 身 で 学 習 用 アニメコーパスを 作 成.その 学 習 用 ア ニメコーパスを 表 層 品 詞 品 詞 細 分 類 文 字 種 文 字 数 の 素 性 を 持 つ 形 にして, BIOES タグを 付 け,CRF++に 学 習 させた.アニメ 関 連 用 語 の 固 有 表 現 抽 出 実 験 を 行 った 結 果,BIOES タグによる 固 有 表 現 の 正 解 率 の F 値 という 値 を 出 した.その 結 果 からアニ メ 関 連 用 語 の 固 有 表 現 抽 出 にこの 手 法 は 有 効 である. 今 後, 固 有 表 現 タグのついた BCCWJ コーパスを 利 用 して,システムの 性 能 をより 高 めていく 予 定 である. 謝 辞 本 研 究 では, 固 有 表 現 タグのついた BCCWJ コーパスを 参 考 に 素 性 の 設 計 などを 行 いまし た. 快 くデータをくださった 橋 本 泰 一 先 生 に 感 謝 します. 文 献 竹 本 義 美, 福 島 俊 一, 山 田 洋 志 (2001) 辞 書 およびパターンマッチルールの 増 強 と 品 質 強 化 に 基 づく 日 本 語 固 有 表 現 抽 出 情 報 処 理 学 会 論 文 誌,Vol42,No.6,pp 山 田 寛 康, 工 藤 拓, 松 本 裕 治 (2002) Support Vector Machine を 用 いた 日 本 語 固 有 表 現 抽 出 情 報 処 理 学 会 論 文 誌,Vol.43,No.1,pp 中 野 桂 吾, 平 井 有 三 (2004) 日 本 語 固 有 表 現 抽 出 における 文 節 情 報 の 利 用 情 報 処 理 学 会 論 文 誌,Vol.45,No.3,pp 橋 本 泰 一, 乾 孝 司, 村 上 浩 司 (2008) 拡 張 固 有 表 現 タグ 付 きコーパスの 構 築 情 報 処 理 学 会 研 究 報 告 2008,pp 関 連 URL MeCab: Yet Another Part-of-Speech and Morphological Analyzer CRF++: Yet Another CRF toolkit 182

194 外 来 語 使 用 における 言 語 外 的 要 因 の 分 析 書 き 言 葉 コーパスの 利 用 可 能 性 久 屋 愛 実 (オックスフォード 大 学 院 言 語 学 博 士 課 程 ) Analysis of Language External Effects on the Use of Loanwords: The Potential of Written Corpus-based Studies Aimi Kuya (Faculty of Linguistics, Philology and Phonetics, University of Oxford) 0.はじめに 現 代 日 本 語 において 和 語 や 漢 語 からなる 類 義 の 既 存 語 ( 以 下 単 に 既 存 語 )があ るのにもかかわらず 頻 繁 に 利 用 され 定 着 している 外 来 語 は 数 多 くある 本 稿 では 外 来 語 を 既 存 語 の 社 会 言 語 学 的 語 彙 変 異 形 とみなし ケース を 事 例 として 現 代 日 本 語 書 き 言 葉 均 衡 コーパス (2011)( 以 下 BCCWJ)においてその 使 用 に 影 響 すると 思 われる 言 語 外 的 要 因 を 調 査 し 記 述 することを 試 みる 以 下 では まず 本 研 究 の 目 的 を 簡 単 に 述 べ ( 第 1 節 ) 外 来 語 を 語 彙 のバリエーションとして 研 究 するための 手 法 を 概 観 したうえで ( 第 2 節 ) BCCWJ における ケース の 使 用 について 書 き 手 の 生 年 代 性 別 媒 体 スタイルの 4 要 因 をとりあげ その 影 響 を 検 証 する( 第 3 節 ) 1. 本 研 究 の 目 的 外 来 語 の 研 究 においては 語 彙 調 査 などの 定 量 的 調 査 がすすむにつれて 日 本 語 におけ る 外 来 語 使 用 が 全 体 としてどう 変 化 してきたかという 量 的 概 観 が 可 能 になった こうした 研 究 は 日 本 語 における 語 種 としての 外 来 語 の 全 体 像 を いわばマクロにとらえる 試 みで あった しかし 茂 木 (2012)が 指 摘 するように 現 代 日 本 語 で 定 着 を 見 せている 基 本 的 外 来 語 の 意 味 文 法 的 研 究 いわばミクロなレベルでの 研 究 は まだ 不 十 分 なようである こ うした 流 れを 汲 み 金 (2011)は 20 世 紀 後 半 の 新 聞 コーパスで 増 加 している 外 来 語 は 類 義 の 既 存 語 をもつ 抽 象 名 詞 1 に 多 いことを 指 摘 した 金 はさらにその 中 で 基 本 語 化 2 したいく つかの 外 来 語 の 例 を 挙 げ それらの 語 が 既 存 語 の 存 在 にも 関 わらずなぜ 基 本 語 化 するに 至 ったのかを 意 味 用 法 の 側 面 から 通 時 的 に 分 析 している 3 金 (2011)の 研 究 は 外 来 語 の 基 本 語 化 を 類 義 語 と 対 照 しながら 言 語 内 的 に 説 明 することが 目 的 であったのだが 本 稿 では 金 では 言 及 されなかった 外 来 語 使 用 の 言 語 外 的 要 因 につい て 記 述 する そのために ひとつのアプローチとして 外 来 語 を 既 存 語 の 社 会 言 語 学 的 語 aimi.kuya@ling-phil.ox.ac.uk 1 この 中 で 金 は 日 本 語 で 増 加 している 外 来 語 名 詞 には 具 体 名 詞 と 抽 象 名 詞 の 2 つのタイプがあ り 前 者 が 近 代 化 などの 理 由 で 外 国 語 から 借 用 され 日 本 語 における 使 用 が 増 えた 語 群 ( テレビ ホテ ル など)であるのに 対 し 後 者 は 和 語 や 漢 語 の 類 義 語 があるにもかかわらず 生 じた 語 群 ( タイプ ト ラブル ケース など)であることを 指 摘 している これは Myers-Scotton(2006)がいうところの Cultural borrowing と Core borrowing という 借 用 語 の 概 念 区 分 とほぼ 一 致 するように 思 われる 前 者 は 受 け 入 れ 言 語 側 の 既 存 語 彙 では 言 い 表 すことができないような 事 物 や 概 念 を 表 現 するために 借 用 され 科 学 や 技 術 の 分 野 でその 多 くの 例 を 見 ることができる それに 対 して 後 者 は 受 け 入 れ 言 語 側 の 語 彙 に 類 似 の 表 現 が 存 在 するにもかかわらず 借 用 されるものである 本 稿 でも 日 本 語 におけるこうした 外 来 語 のタイプの 違 いを 認 識 したうえで 後 者 つまり 既 存 語 をもつ 外 来 語 に 焦 点 を 当 てて 調 査 することを 前 提 としている 2 金 によれば 基 本 語 化 とは 当 該 語 彙 の 周 辺 部 から 中 心 部 へと 移 行 して 基 本 語 彙 ( 一 定 の 言 語 使 用 域 において 広 範 囲 高 頻 度 に 用 いられる 語 彙 )へと 仲 間 入 りすることである 3 金 は 既 存 語 をもつ 2 つの 外 来 語 トラブル と ケース を 挙 げ 類 義 語 の 意 味 用 法 とも 比 較 しなが ら 両 者 が 新 聞 における 基 本 語 としての 地 位 をどのように 確 立 していったのかを 詳 細 に 記 述 している 183

195 彙 変 異 形 (lexical variant)として 扱 い 外 来 語 の 生 起 率 と 社 会 的 属 性 媒 体 スタイルとの 関 係 を ケース を 事 例 として 見 ていく 語 彙 のバリエーションとしての 外 来 語 と 社 会 属 性 との 関 係 に 注 目 した 研 究 としては 外 来 語 に 対 する 意 識 調 査 研 究 がある( 田 中 (2007)) そこでは キャンセル/ 解 約 / 取 り 消 し と ハッピー/ 幸 福 / 幸 せ を 事 例 として こ の 中 でどの 表 現 を 使 いたいかが 聞 かれており 外 来 語 を 使 いたいという 意 識 は 年 齢 層 によ り 段 階 的 な 差 があることが 例 証 された 本 稿 ではコーパスを 用 いて 実 際 の 言 語 使 用 にお いてこうした 属 性 差 を 観 察 することができるかどうか さらに 調 査 を 行 う これにより 先 行 研 究 とあわせてより 幅 広 い 視 野 で 外 来 語 を 捉 えることが 可 能 になると 思 われる 2. 方 法 論 2.1. 語 彙 のバリエーションとその 一 変 異 形 としての 外 来 語 本 稿 では 外 来 語 を 和 語 や 漢 語 からなる 既 存 語 の 社 会 言 語 学 的 語 彙 変 異 形 とみなすのだ が 語 彙 を 社 会 言 語 学 的 バリエーションとして 扱 うことの 難 しさは 意 味 というものが 介 在 してくるところにある そもそも あるものをバリエーションとして 扱 うことができる のは 変 異 形 の 間 で 交 替 が 起 こっても 意 味 の 変 化 が 生 じないという 条 件 を 満 たす 場 合 であ り そのもっとも 良 い 例 は 音 韻 交 替 4である(Labov(1972)) 一 方 語 彙 交 替 の 場 合 は 意 味 の 変 化 が 生 じないような 環 境 を 特 定 することは 容 易 ではない なぜなら それぞれの 語 が 異 なる 用 法 や 文 脈 においてもつ 意 味 合 い ニュアンス 語 感 などが 微 妙 に 異 なることは 往 々にしてあるからである この 問 題 の 解 決 策 として Lavandera(1978)は 意 味 的 な 等 価 性 (semantic equivalence) を 厳 密 な 意 味 で 適 用 する 代 わりに 機 能 的 等 価 性 (functional equivalence) を 条 件 として 変 異 形 の 交 替 環 境 を 定 めることを 提 案 している この 概 念 に 基 づけば 辞 書 的 な 類 義 性 をベースとして それぞれの 類 義 語 が 文 で 同 じような 機 能 を 果 た す 場 合 に それらを 変 異 形 と 認 めてよいことになる 語 彙 のバリエーション 研 究 は 以 上 のような 理 由 からバリエーション 研 究 の 枠 組 みの 中 ではあまり 手 がつけられていないが Ito and Tagliamonte (2003)による 英 語 における 程 度 副 詞 (intensifier)のバリエーション 研 究 など 少 しずつ 研 究 実 績 が 増 えてきている 本 稿 でも 機 能 的 等 価 性 を 手 掛 かりとして 外 来 語 を 語 彙 変 異 形 として 扱 うことを 試 みる なお ケ ース とその 既 存 語 がもつ 機 能 的 等 価 性 をどう 特 定 するかは 2.4 で 詳 しく 述 べる 2.2.BCCWJ 本 稿 ではコーパスとして BCCWJ を 用 いる BCCWJ は 異 なる 観 点 から 設 計 された 3 つ のサブコーパスから 構 成 され データ 量 が 全 体 で1 億 語 に 上 る 大 規 模 コーパスである( 山 崎 他 (2012)) 出 版 サブコーパスには 書 籍 雑 誌 新 聞 が 図 書 館 サブコーパスには 書 籍 が そして 特 定 目 的 サブコーパスには 白 書 国 会 議 事 録 教 科 書 Yahoo! 知 恵 袋 や Yahoo! ブログ などのインターネット 上 に 投 稿 された 書 き 言 葉 が 含 まれ 様 々な 媒 体 から 抽 出 さ れた 現 代 日 本 語 書 き 言 葉 データにより 構 成 されている 今 回 は 分 析 対 象 としてこの 中 の 出 版 サブコーパスを 利 用 する 出 版 サブコーパスは 2001 年 から 2005 年 までのあいだに 国 内 で 出 版 された 書 籍 雑 誌 新 聞 を 母 集 団 とし そこから ランダムにサンプリングされたデータおよそ 3,600 万 語 ( 短 単 位 )からなるコーパスである このうち 書 籍 は 2,954 万 語 雑 誌 は 569 万 語 新 聞 は 88 万 語 のデータからなる( 山 崎 他 (2012)) のちのち 媒 体 差 を 分 析 することを 考 え 書 籍 と 雑 誌 に 比 べて 極 端 に 規 模 の 小 さ い 新 聞 データは 分 析 の 対 象 外 とした また データには 固 定 長 と 可 変 長 があるが 今 回 は なるべくたくさんのデータから 調 べるために 分 量 の 多 い 可 変 長 データを 利 用 した 書 籍 と 雑 誌 の 可 変 長 データの 合 計 は およそ 3,500 万 語 相 当 となる( 山 崎 他 (2012)) 本 稿 で BCCWJ 出 版 サブコーパスを 採 用 した 理 由 は 1) 他 の 語 種 より 基 本 的 に 出 現 頻 度 が 低 い 外 来 語 でも 定 量 的 調 査 に 耐 えうるサンプル 量 を 抽 出 できる 規 模 を 有 すること 2) 4 例 えば fourth floor は [r] 音 が 発 音 されてもされなくても 意 味 の 変 化 が 起 こることはない 184

196 社 会 言 語 学 的 調 査 に 必 要 となる 書 き 手 の 社 会 的 属 性 情 報 が 一 定 量 のサンプルから 取 り 出 し 可 能 であること 3) 多 様 な 媒 体 からの 書 き 言 葉 データを 含 み 媒 体 間 の 比 較 が 可 能 であ ることの 3 点 に 集 約 できる 2.3. 分 析 対 象 語 本 稿 では 金 (2011)の 研 究 と 関 連 付 けるために やはり 事 例 として ケース を 選 択 した これに 加 え ケース を 選 択 したのは 外 来 語 の 中 では 定 量 的 調 査 に 耐 えうるような 高 頻 度 語 であるという 点 また 性 別 や 媒 体 の 影 響 を 見 るという 目 的 に 照 らして 特 定 の 性 別 や 分 野 に 偏 った 使 用 が 見 られないような 一 般 的 な 語 であるという 点 で この 語 が 本 研 究 の 目 的 に 合 致 すると 考 えられるからである ケース に 関 しては 金 (2011)の 事 例 研 究 においてその 類 義 語 の 詳 細 な 選 定 が 行 われ ており 今 回 はそこで 選 ばれた 場 合 例 事 例 の 3 語 を 類 義 語 として 採 用 した つまり ケース とこれらの 既 存 語 は 特 定 の 環 境 において 交 替 しうる 語 彙 変 異 形 であ る とみなす この 特 定 の 環 境 については 次 で 詳 しく 述 べる 2.4. 分 析 対 象 となる 環 境 2.1 で 述 べたとおり ケース/ 場 合 / 例 / 事 例 の 4 語 を 社 会 言 語 学 的 変 異 形 として 扱 うためにはこれらが 機 能 的 等 価 性 を 保 つような 環 境 を 特 定 することが 不 可 欠 である 以 下 ケース と 既 存 語 との 交 替 を 可 能 にする 環 境 はどのような 環 境 であるかを 定 義 する 金 (2011)は ケース がいわゆる コト に 代 表 される 形 式 名 詞 的 な 用 法 をもつことを 指 摘 し その 中 でも 叙 述 文 が 表 現 する 内 容 を 客 観 的 な 事 柄 として 名 詞 化 する 客 観 的 同 格 連 体 名 詞 としての 用 法 を 手 がかりに これら 4 語 の 類 義 関 係 を 認 めている そこで 本 稿 ではまず 4 語 が 機 能 的 等 価 性 をもつのは 文 中 で 形 式 名 詞 として ある 内 容 を 客 観 的 事 柄 として 名 詞 化 する とき と 定 義 する これにより 金 のいう 場 合 の 仮 定 条 件 的 用 法 (1)や 提 題 的 用 法 (2) 例 の 単 なる 例 示 的 用 法 (3) 各 語 に 特 有 な 慣 用 的 用 法 (4)は 排 除 される( 下 記 の 例 はいずれも 金 (2011)から 引 用 ) (1) 賃 上 げが 難 しい 場 合 は 雇 用 延 長 など 別 のテーマで 交 渉 する 選 択 の 時 代 になったと 問 題 提 起 している (2)アサガオの 場 合 (3) 例 として / を 例 に 挙 げ (4) 場 合 によっては/そんなこと 言 ってる 場 合 かっ/ 例 の 悪 名 高 い 作 家 / 例 によって 無 言 で 打 つ 形 式 名 詞 はふつう 修 飾 語 をとるが 金 によれば これら 4 語 は コト よりもやや 具 体 性 のある 名 詞 であるため とくに 修 飾 語 をとらなくてもよいという これら 4 語 がとりう る 形 式 は 4 つあり 修 飾 部 をとらず 単 独 で(5) 合 成 語 の 構 成 要 素 として(6) 名 詞 句 における 被 修 飾 語 として(7) 連 体 修 飾 節 構 造 における 被 修 飾 語 として(8) 文 中 に 現 れ る( 下 記 の 例 は 金 (2011)から ケース の 用 例 を 代 表 として 引 用 ) (5)しかし 女 性 の 平 均 賃 金 は 男 性 より 低 いため 男 女 の 賠 償 額 にケースによっては 1000 万 円 近 い 差 が 生 じている (6)ケース1 テストケース レアケース 重 症 ケース 脳 死 虐 待 ケース (7)いじめなどのケース マドンナさんのケース 京 都 市 のケース 今 回 のようなケース 4 件 のケース 悪 質 なケース 初 めてのケース 似 たケース いろんなケース (8)a. ネット 先 進 国 の 米 国 でも ネット 関 連 企 業 は 苦 戦 するケースが 少 なくない b. ( 略 )まず 母 親 に 癒 (いや)し が 必 要 なケースも 多 い と 話 す c. ( 略 )しつけの 域 を 超 えて 繰 り 返 される 暴 力 ネグレクトが 原 因 のケースに 絞 っ 185

197 て 調 べた 以 上 の 例 文 を 見 ると 金 の 指 摘 する 通 り ケース/ 場 合 / 例 / 事 例 は 連 体 修 飾 語 や 連 体 修 飾 部 を 伴 わない 単 独 用 法 や ケース 1 のように 合 成 語 における 接 頭 辞 としても 文 中 に 現 れている ただし 金 によれば 4 つの 形 式 のうち 20 世 紀 後 半 の 新 聞 コーパス において ケース が 最 も 多 く 出 現 するのは 連 体 修 飾 節 構 造 (233/327 例 )においてであ り 名 詞 句 構 造 (74/327 例 )がそれに 続 くという 以 上 のことを 踏 まえて 本 稿 では ケ ース およびその 既 存 語 が 形 式 名 詞 として ある 内 容 を 客 観 的 事 柄 として 名 詞 化 し さらに 名 詞 句 または 連 体 修 飾 節 構 造 において 出 現 しているものを 分 析 対 象 とした ただし この 定 義 でも 何 格 が 接 続 するか 述 語 は 何 をとるかなど 語 彙 によって 表 現 上 のばらつきがある 可 能 性 がある そこで コロケーションという 観 点 からも 4 語 の 等 価 性 を 高 めるために 後 続 する 格 と 述 語 の 種 類 をさらに 絞 った 金 は 連 体 修 飾 節 構 造 にお いて ケース が 多 少 有 無 生 起 増 減 想 定 報 告 限 定 異 同 規 定 関 与 比 較 の 意 味 をもつ 述 語 表 現 と 結 びつくことを 指 摘 した 金 の 用 例 整 理 を 参 考 にすると これら のほとんどはガ 格 と 結 びつく 述 語 であるため 分 析 対 象 に 含 める 述 語 はガ 格 をともなう 多 少 有 無 生 起 増 減 想 定 報 告 の 意 味 をもつもの 5 に 限 定 した つまり(8c)のように ニ 格 などを 伴 う 例 は 分 析 対 象 とならない ただし ガ 格 は(8b)のようにハ 格 やモ 格 で も 現 れうるため それら 2 つの 格 が 後 続 する 場 合 も 含 めた これで (9)のように 機 能 構 造 ( 形 式 ) コロケーションの 3 つの 側 面 からコントロールされた 語 彙 交 替 環 境 が 特 定 できた (9) 分 析 対 象 となる 語 彙 交 替 環 境 のモデル a. 機 能 : 形 式 名 詞 として ある 内 容 を 客 観 的 事 柄 として 名 詞 化 する とき b. 構 造 ( 形 式 ): 名 詞 句 または 連 体 修 飾 節 c. コロケーション:{ケース/ 場 合 / 例 / 事 例 }+{ガ/ハ/モ 格 } +{ 多 少 / 有 無 / 生 起 / 増 減 / 想 定 / 報 告 の 意 味 をもつ 述 語 } 2.5.サンプルの 抽 出 ここまでできたところで 分 析 対 象 となるサンプルを 抽 出 していく 手 順 としては ま ず BCCWJ 出 版 サブコーパスの 書 籍 雑 誌 から ケース 場 合 例 事 例 の 4 語 を 含 むサンプルをすべて 抽 出 した そこから (9)で 特 定 した 環 境 で 出 現 している もの 以 外 を 排 除 した その 結 果 条 件 にあてはまるサンプルは ケース 544 件 既 存 語 2036 件 ( 場 合 1447 件 例 461 件 事 例 128 件 )の 合 計 2580 件 であった 表 1: 形 式 の 違 いと ケース/ 既 存 語 の 生 起 率 ケース 既 存 語 合 計 名 詞 句 度 数 % 16.0% 84.0% 100.0% 連 体 修 飾 節 度 数 % 21.7% 78.3% 100.0% 合 計 度 数 % 21.1% 78.9% 100.0% 5 具 体 例 の 一 部 を 以 下 に 挙 げる( 金 (2011)より 引 用 ) 多 少 ( 多 い 少 ない ほとんどだ 珍 しい) 増 減 ( 増 える 減 る) 有 無 (ある ない 見 られる 認 められない) 生 起 ( 起 きる) 想 定 ( 想 定 される 考 えられる 予 想 される) 報 告 ( 挙 げられる 紹 介 される 報 じられる)など 186

198 表 1 では 抽 出 した 計 2580 件 のサンプルを 形 式 ごとに 区 分 している ケース の 出 現 度 数 は 名 詞 句 (46 件 )よりも 連 体 修 飾 節 (498 件 )において 圧 倒 的 に 多 く 生 起 率 (%)で 見 ても 名 詞 句 (16.0%)よりも 連 体 修 飾 節 (21.7%)において 高 くなっている これにより 既 存 語 全 体 と 比 べると ケース が 名 詞 句 よりも 連 体 修 飾 節 構 造 で 多 く 使 用 されているこ とがわかる 図 1 は 表 1 における 既 存 語 3 語 を 区 別 し それぞれの 生 起 率 を ケース の 生 起 率 と 合 わせてグラフ 化 したものである ここで 注 意 したいのは 既 存 語 それぞれの 出 現 傾 向 が 形 式 によって 異 なるということである 図 1 から 場 合 が 名 詞 句 構 造 よりも 連 体 修 飾 節 構 造 において 生 起 率 が 高 いのと 対 照 的 に 例 と 事 例 は 連 体 修 飾 節 構 造 よりも 名 詞 句 構 造 において 生 起 率 が 高 いことが 読 み 取 れる このように 形 式 によるそれぞれの 語 彙 の 生 起 率 の 違 いがみられる 以 上 両 形 式 を 混 ぜて 分 析 することはよくないと 判 断 し 今 回 は 全 体 のサンプル 数 が 圧 倒 的 に 多 く(2292/2580 件 ) かつ ケース の 出 現 率 がより 高 い 連 体 修 飾 節 構 造 に 限 定 してさらに 詳 細 な 分 析 を 進 めていく 図 1: 形 式 の 違 いと ケース/ 場 合 / 例 / 事 例 の 生 起 率 3. 要 因 ごとの 分 析 結 果 本 節 では 外 来 語 ケース の 出 現 に 影 響 を 与 えうる 言 語 外 的 要 因 を 選 び 要 因 ごとに クロス 表 を 用 いた 分 析 を 行 う なお 本 稿 の 目 的 は 外 来 語 が 出 現 する 要 因 を 検 証 すること なので 以 下 分 析 をしやすくするために 場 合 例 事 例 3 語 をまとめて 既 存 語 と し ケース 対 既 存 語 という 単 純 な 2 項 対 立 で 見 ていく 3.1. 書 き 手 の 生 年 と 言 語 変 化 図 2: 新 聞 における ケース/ 場 合 / 例 の 出 現 率 (100 万 字 あたり 連 体 修 飾 節 構 造 のみ) (データ 元 : 金 (2011)) 6 6 グラフは 筆 者 によるもの 金 (2011) 第 6 章 の [ 表 8] 連 体 修 飾 節 構 造 の 出 現 率 (p.112)のデータをもとにグ ラフにした 金 は 事 例 の 用 例 数 が 少 ないという 理 由 から 年 ごとの 出 現 率 を 出 していないため 事 例 はこのグラフでも 省 かれている 187

199 金 (2011)は 20 世 紀 後 半 の 新 聞 における ケース の 出 現 率 (100 万 字 あたり)が 特 に 連 体 修 飾 節 用 法 において 大 きく 増 加 していることを 通 事 的 に 示 した( 図 2) この 増 加 が 起 こった 理 由 のひとつとして 既 存 語 から ケース への 言 葉 の 使 用 の 変 化 ( 言 語 変 化 )が 起 こっている 可 能 性 が 挙 げられる だとすれば ケース の 生 起 率 に 生 年 による 差 が 存 在 するのではないか という 予 測 がたつ 以 上 をふまえて BCCWJ 出 版 コーパスの 書 籍 と 雑 誌 ( 年 出 版 )を 使 い 外 来 語 ケース の 生 起 率 を 書 き 手 の 生 年 という 観 点 から 整 理 し 見 かけ 上 の 変 化 (change in apparent time)が 認 められるかを 検 証 する BCCWJ における 生 年 情 報 は 1930 年 代 1940 年 代 など 10 年 刻 みで 公 表 されており それを 利 用 して 生 年 代 が 最 も 早 いグループ(~1939) 中 間 のグループ( ) そして 最 も 遅 いグループ( )の3つに 区 分 した 表 2: 生 年 代 の 違 いと ケース/ 既 存 語 の 生 起 率 ケース 既 存 語 合 計 ~1939 度 数 % 18.7% 81.3% 100.0% 度 数 % 21.5% 78.5% 100.0% 度 数 % 25.6% 74.4% 100.0% 合 計 度 数 % 21.7% 78.3% 100.0% X 2 =7.729, d.f.=2, p<0.05 図 3: 生 年 代 の 違 いと ケース の 生 起 率 表 2 は ケース と 既 存 語 の 度 数 と 生 起 率 を 3 つの 生 年 代 区 分 ごとに 表 している 図 3 は ケース の 生 起 率 のみをグラフ 化 したものである 図 3 を 見 ると 書 き 手 の 生 年 代 が 上 がるにつれて ケース の 生 起 率 が 次 第 に 上 昇 している つまり 生 年 が 上 がる( 世 代 が 若 くなる)につれて 既 存 語 群 に 替 わって 外 来 語 がより 用 いられていることがわかる これにより ケース の 見 かけ 上 の 言 語 変 化 が 認 められ 図 2 で 見 た 金 (2011)における ケース の 出 現 率 の 増 加 が 言 語 変 化 とかかわっていることが 予 測 できる ちなみに 表 2 でカイ 2 乗 検 定 をかけると 有 為 差 が 認 められた 7 このことは 若 い 人 ほ ど ケース をより 使 う ということを 直 接 示 すものではない しかし 少 なくとも ケ ース と 既 存 語 の 生 起 率 には 生 年 代 間 により 差 があることが 統 計 的 に 認 められ 図 3 も 参 照 して 総 合 的 に 判 断 すると 特 に 若 い 年 代 が 生 起 率 を 上 げていることが ケース の 出 現 率 の 上 昇 に 影 響 を 与 えていると 思 われる 7 検 定 には SPSS ver. 20 を 使 用 した 188

200 3.2. 書 き 手 の 性 別 バリエーション 研 究 において 女 性 のほうが 変 化 をリードする ということがよく 言 わ れる これを 今 回 の 調 査 語 である ケース にあてはめると 女 性 のほうが 外 来 語 をより 使 うことが 予 測 される 8 そこでまず 書 き 手 の 性 別 という 観 点 から ケース の 生 起 率 を 見 ていく 表 3 から ケース の 生 起 率 が 男 性 (21.6%)よりも 女 性 グループ(23.0%)に おいて 若 干 高 いことが 読 み 取 れるものの これは 統 計 的 に 有 意 な 差 ではなかった これで 外 来 語 ケース の 生 起 率 において 性 差 は 認 められないことがわかった 表 3: 性 別 の 違 いと ケース/ 既 存 語 の 生 起 率 ケース 既 存 語 合 計 男 度 数 % 21.6% 78.4% 100.0% 女 度 数 % 23.0% 77.0% 100.0% 合 計 度 数 % 21.7% 78.3% 100.0% X 2 =0.242, d.f.= 媒 体 差 次 に 媒 体 間 で ケース の 生 起 率 に 差 があるかについて 検 討 する 表 4 図 4 から ケ ース の 生 起 率 は 書 籍 (20.6%)よりも 雑 誌 (38.3%)において 上 昇 していることがわかり これはカイ 2 乗 検 定 により 有 意 であった 表 4: 媒 体 の 違 いと ケース/ 既 存 語 の 生 起 率 ケース 既 存 語 合 計 書 籍 度 数 % 20.6% 79.4% 100.0% 雑 誌 度 数 % 38.3% 61.7% 100.0% 合 計 度 数 % 21.7% 78.3% 100.0% X 2 =24.256, d.f.=1, p<0.001 図 4: 媒 体 の 違 いと ケース の 生 起 率 では なぜ 媒 体 間 で 差 が 出 たのだろうか そもそも 新 聞 雑 誌 の 媒 体 としての 違 いはど こにあるのだろうか 考 えられる 可 能 性 は 以 下 の 2 つである 第 1 に 各 媒 体 の 特 徴 とし 8 外 来 語 のなかには ファッションや 美 容 スポーツ 関 連 語 など 特 定 の 性 別 のみが 使 うことの 多 い 特 徴 的 な 語 彙 もある しかし 本 研 究 では こうした 影 響 を 避 けるため ニュートラルな 語 を 選 んだ 189

201 て スタイル( 改 まり 度 )の 違 いが 影 響 している 可 能 性 がある しかしながら 両 媒 体 と も 広 いジャンルを 網 羅 する 媒 体 であるため 媒 体 とスタイルを 直 結 させるのは 難 しい よ って たとえば 書 籍 なら 専 門 書 か 一 般 書 か 雑 誌 なら 専 門 誌 か 一 般 誌 かなど スタイルの 異 なる 種 類 のものがどのような 割 合 で 含 まれているのか 詳 細 に 調 査 して 媒 体 種 と 改 まり 度 との 関 連 を 考 察 する 必 要 がある 第 2 に 媒 体 そのものの 特 徴 が 影 響 している 可 能 性 も 考 えられる 書 籍 と 違 い 雑 誌 は 短 期 間 で 売 り 上 げを 伸 ばすために すぐに 読 者 の 目 をひくような 個 性 的 魅 力 的 な 存 在 で ある 必 要 がある また 常 に 新 しい 情 報 を 提 供 していくという 特 徴 があるため 目 新 しさ という 側 面 も 持 ち 合 わせていなければならない こういった 特 徴 のために 雑 誌 という 媒 体 は スタイリッシュな おしゃれな かっこいい 斬 新 な 目 新 しい というようなイ メージと 結 びつきやすいと 思 われる 一 方 梁 (2012)によれば 日 本 語 における 外 来 語 とい う 語 種 のもつプラスイメージとして 一 番 多 かったものは かっこいい すなわち 洗 練 さ れている という 評 価 だったという ここで 今 一 度 雑 誌 において 外 来 語 の 生 起 率 が 高 い 理 由 を 考 えるならば 雑 誌 という 媒 体 のもつ スタイリッシュさ というプラスイメージ が 同 じく かっこよさ というプラスイメージをもつ 外 来 語 によって 体 現 しやすいため と 考 えることができないだろうか 最 後 に 媒 体 間 でのサンプルサイズに 大 きな 違 いがあることも 考 慮 する 必 要 がある 書 籍 コーパスからのサンプルが 2151 件 であるのに 対 し 雑 誌 コーパスからのサンプル 数 は 141 件 しかない そのため 雑 誌 においては 少 しの 度 数 の 差 でも 全 体 の 割 合 の 差 として 出 やす いという 側 面 もあるのかもしれない 3.4.スタイルによる 差 最 後 に BCCWJ の 特 定 目 的 サブコーパスに 含 まれる Yahoo! 知 恵 袋 9 コーパスを 選 び 2.5 と 同 じ 手 順 でデータ(ただし 連 体 修 飾 節 構 造 に 限 る)を 抽 出 し 外 来 語 ケース の 出 現 率 に スタイルによる 差 が 出 るかどうかを 調 べてみた Yahoo! 知 恵 袋 は インタ ーネット 上 に 投 稿 された 質 問 に 対 して 不 特 定 多 数 の 人 が 回 答 を 書 き 込 むという 形 でやり とりされる インターネットにおける 書 き 言 葉 は 出 版 されないという 点 で 出 版 を 前 提 としている 書 籍 雑 誌 よりも 改 まり 度 が 低 いことが 予 想 され 両 者 にはスタイルの 違 いが あると 考 えられる よって 両 者 を 比 較 することで スタイルが ケース の 生 起 率 に 影 響 を 与 えているかどうかを 検 証 することができる ちなみに Yahoo! 知 恵 袋 コーパスのデー タは 2004 年 から 2005 年 にインターネット 上 に 投 稿 されたもので 出 版 コーパスを 構 成 す る 出 版 物 の 出 版 年 ( )と 同 時 期 であり 両 者 はよい 比 較 対 象 になると 思 われる 表 5:スタイルの 違 いと ケース/ 既 存 語 の 生 起 率 ケース 既 存 語 合 計 出 版 度 数 % 21.7% 78.3% 100.0% 非 出 版 度 数 % 12.1% 87.9% 100.0% 合 計 度 数 % 17.7% 82.3% 100.0% X 2 =60.633, d.f.=1, p< Yahoo! 知 恵 袋 コーパスは ヤフー 株 式 会 社 から 提 供 された 2004 年 10 月 から 2005 年 1 月 にかけて 投 稿 された 3,120,839 の 質 問 とそれに 対 する 回 答 からなるデータがもとになっている コーパス 自 体 はこの うち 抽 出 された 91,450 サンプルから 構 成 されており 規 模 は 約 1,000 万 語 にのぼる なお 1 サンプルは 1 つの 質 問 とそれに 対 するベストアンサーからなる( 山 崎 他 (2012)) 190

202 図 5:スタイルの 違 いと ケース の 生 起 率 表 5 図 5 から ケース の 生 起 率 は 非 出 版 物 (Yahoo! 知 恵 袋 )(12.1%)よりも 出 版 物 ( 書 籍 雑 誌 )(21.7%)において 高 いことが 見 てとれ この 差 は カイ 2 乗 検 定 において 有 為 であった ここで 外 来 語 ケース の 生 起 率 にスタイル 差 が 出 たという 事 実 から 外 来 語 ケー ス がもつ 類 義 語 の 中 での 相 対 的 なイメージについて 考 察 してみたい 改 まり 度 が 高 く なるほど 生 起 率 が 上 昇 するということは ケース という 語 が 既 存 語 に 対 してよりフォ ーマルな 変 異 形 として 機 能 しているということを 意 味 している ここで こうした 傾 向 は 既 存 語 をもつ 外 来 語 群 に 一 般 的 に 当 てはまるものなのか と いう 疑 問 がわく 筆 者 の 直 観 としては 外 来 語 が 既 存 語 よりもフォーマルであるかどうか は 語 彙 によって 異 なる 可 能 性 がある なぜなら たとえば 動 詞 系 外 来 語 チャレンジする や 形 容 動 詞 系 外 来 語 クールな などは 既 存 語 に 比 べて 若 干 インフォーマルな 印 象 がある からである ただ チャレンジする や クールな は ケース に 比 べ 定 着 度 が 低 いこ とから 語 のフォーマルさというものが 定 着 度 に 関 係 する 可 能 性 もあり 定 着 度 に 応 じて スタイルとの 関 係 を 整 理 する 必 要 もありそうだ 4. 考 察 まとめ 本 稿 では ケース を 事 例 として 外 来 語 と 既 存 語 の 語 彙 交 替 に 影 響 を 与 えうる 言 語 外 的 要 因 のうち BCCWJ において 取 得 可 能 な 要 因 ( 生 年 代 性 別 媒 体 差 スタイル 差 )そ れぞれに 関 して 検 証 を 行 った これまでの 外 来 語 研 究 においては 外 来 語 の 生 起 率 につい て 社 会 言 語 学 的 観 点 から 調 査 したものはほとんどなく あっても 意 識 調 査 にとどまるこ とが 多 かった それは 第 1 に 語 彙 を 社 会 言 語 学 的 変 異 形 として 扱 うことが 難 しいという 問 題 と 第 2 に 外 来 語 という 語 種 の 出 現 頻 度 が 低 いために 定 量 的 調 査 に 耐 えうるだけの データを 収 集 するのが 難 しいという 問 題 があったからである 第 1 の 問 題 は 機 能 的 等 価 性 を 手 がかりに 分 析 対 象 を 細 かく 限 定 することで 解 決 を 試 みた また 第 2 の 問 題 につい ても BCCWJ が 完 成 したことで 外 来 語 のような 低 頻 度 語 でも 一 定 量 のサンプルを 得 られる ようになった さらに BCCWJ の 一 部 のサンプルには 書 き 手 の 属 性 情 報 ( 生 年 代 性 別 など) もタグ 付 けされている これにより 実 際 の 言 語 資 料 をもとに 社 会 的 属 性 を 説 明 変 数 と した 外 来 語 使 用 についての 調 査 ができるようになった 本 研 究 はその 試 験 的 試 みである 本 研 究 での 調 査 の 結 果 ケース の 生 起 率 に 生 年 代 の 違 いと 媒 体 差 ( 書 籍 と 雑 誌 ) スタイル 差 ( 出 版 物 と 非 出 版 物 )が 影 響 することがわかった 生 年 代 については 若 い 世 代 ほど ケース の 生 起 率 に 上 昇 が 見 られたことで 金 (2011)が 示 した 20 世 紀 後 半 の 新 聞 における ケース の 出 現 率 の 急 増 が 言 語 変 化 と 関 連 していることがわかった また 本 稿 冒 頭 で 紹 介 した 田 中 (2007)の 意 識 調 査 の 結 果 ( 外 来 語 使 用 に 対 する 意 識 は 年 齢 層 によ り 段 階 的 な 差 がある)は 実 際 の 言 語 使 用 にも 現 れていることがわかった 性 差 については 女 性 の ケース 生 起 率 が 男 性 よりも 若 干 高 かったものの この 差 は 統 計 的 に 有 為 でないことがわかった ただし ケース は 日 本 語 においてかなり 定 着 度 の 高 い 語 彙 である まだ 完 全 に 定 着 していないような 外 来 語 を 選 択 して 今 後 調 査 をすれば もしかして 性 差 が 認 められるものもあるかもしれない 媒 体 の 違 いによる 生 起 率 の 差 については その 差 の 意 味 を 解 釈 するために 書 籍 と 雑 誌 191

203 の 媒 体 差 の 本 質 が 何 であるかをより 詳 しく 特 徴 づけることが 今 後 の 課 題 となった そのた めには 媒 体 種 とスタイル( 改 まり 度 )との 関 わり そして ケース という 語 のもつイ メージを 把 握 することがひとつの 糸 口 となる 可 能 性 がある スタイルの 違 いによる 生 起 率 の 差 については 既 存 語 に 対 する 外 来 語 の 相 対 的 なイメー ジ(または 地 位 )を 考 察 するにあたって 重 要 なポイントとなると 思 われる 今 回 は ケー ス が 既 存 語 と 比 べてよりフォーマルな 語 彙 であることがうかがえたが これは 必 ずし も 一 般 化 できることではないだろうということが 筆 者 の 今 の 見 解 である それぞれの 語 のイメージや 地 位 はその 語 の 定 着 度 とも 関 わりがありそうで 語 の 定 着 度 も 参 照 しながら スタイルとの 関 係 を 考 えていく 必 要 がありそうだ その 他 今 後 の 課 題 としては 外 来 語 使 用 に 影 響 を 与 えうる 生 年 や 性 別 以 外 の 言 語 外 的 要 因 に 関 しても 可 能 な 限 り 検 証 していく 必 要 があるだろう また 言 語 外 的 要 因 と 言 語 内 的 要 因 を 合 わせて それぞれの 要 因 の 影 響 度 の 違 いを 明 らかにすることも 重 要 である ケース とその 既 存 語 については 言 語 内 的 要 因 として それを 修 飾 する 節 の 内 容 (デ キゴト)の よしあし や 既 然 未 然 性 ( 金 (2011))といった 意 味 的 分 類 や 共 起 する 述 語 の 種 類 ( 有 無 多 少 など)が 一 つの 指 標 になると 思 われる いずれにせよ 本 研 究 で 得 られた 傾 向 が 外 来 語 一 般 に 拡 張 できるのかどうか ケース 以 外 の 外 来 語 も 調 べて 事 例 研 究 を 積 み 重 ねる 必 要 がある それにより 日 本 語 における 外 来 語 の 社 会 言 語 学 的 役 割 の 全 体 像 が 見 えてくるだろう 謝 辞 本 研 究 で 分 析 したデータは 筆 者 が 2012 年 11 月 から 2013 年 2 月 まで 外 来 研 究 員 として 国 立 国 語 研 究 所 に 滞 在 していた 期 間 中 に BCCWJ から 収 集 したものである 滞 在 を 受 け 入 れて 頂 いた 同 研 究 所 所 長 の 影 山 太 郎 先 生 言 語 資 源 研 究 系 系 長 の 前 川 喜 久 雄 先 生 に 感 謝 申 し 上 げるとともに 受 け 入 れ 教 官 として 滞 在 中 様 々な 面 でご 指 導 ご 鞭 撻 いただいた 田 中 牧 郎 先 生 には 特 に 感 謝 の 意 を 表 したい なお データ 抽 出 の 際 には 同 研 究 所 コーパス 開 発 センターの 中 村 荘 範 さん(マンパワージャパン 株 式 会 社 )に 協 力 して 頂 いた また 本 稿 の 準 備 段 階 で 貴 重 なコメントをして 頂 いた 同 研 究 所 研 究 員 の 金 愛 蘭 さんと 南 部 智 史 さんに もこの 場 を 借 りてお 礼 申 し 上 げる 参 考 文 献 金 愛 蘭 (2011) 20 世 紀 後 半 の 新 聞 語 彙 における 外 来 語 の 基 本 語 化 阪 大 日 本 語 研 究 別 冊 3. 田 中 牧 郎 (2007) 漢 語 和 語 と 比 較 した 外 来 語 に 対 する 意 識 公 共 媒 体 の 外 来 語 外 来 語 言 い 換 え 提 案 を 支 える 調 査 研 究 国 立 国 語 研 究 所 報 告 126 pp 茂 木 俊 伸 (2012) コーパスを 用 いた 外 来 語 サ 変 動 詞 の 分 析 カットする を 例 として 特 定 領 域 日 本 語 コーパス 平 成 22 年 度 公 開 ワークショップ( 研 究 成 果 報 告 会 ) 予 稿 集 pp 山 崎 誠 小 椋 秀 樹 小 沼 悦 他 (2012) 研 究 活 動 成 果 の 総 括 :データ 班 代 表 性 を 有 する 現 代 日 本 語 書 籍 コーパスの 構 築 特 定 領 域 日 本 語 コーパス 平 成 22 年 度 公 開 ワーク ショップ( 研 究 成 果 報 告 会 ) 予 稿 集 pp 梁 敏 鎬 (2012) 日 本 語 と 韓 国 語 の 外 来 語 の 受 容 意 識 イメージ 調 査 の 分 析 陣 内 正 敬 田 中 牧 郎 相 澤 正 夫 編 (2012) 外 来 語 研 究 の 新 展 開 pp おうふう. Ito, Rika and Sali Tagliamonte (2003) Well weird, right dodgy, very strange, really cool: Layering and recycling in English intensifiers. Language in Society, 32, pp Labov, William (1972) Sociolinguistic patterns. University of Pennsylvania Press. Lavandera, Beatriz R. (1978) Where does the sociolinguistic variable stop? Language in Society, 7, pp Meyers-Scotton, Carol. (2006) Multiple voices: An introduction to bilingualism. Wiley Blackwell. 192

204 国 会 会 議 録 に 見 る 複 合 辞 の 特 異 な 形 丁 寧 形 / 普 通 形 の 不 対 応 服 部 匡 ( 同 志 社 女 子 大 学 表 象 文 化 学 部 ) Marked Forms of Compound Particles in the Minutes of the National Diet of Japan Tadasu Hattori (Doshisha Women's College of Liberal Arts) 1. 概 要 いわゆる 複 合 助 詞 や 関 連 形 式 の 文 法 的 性 質 に 関 しては 多 くの 記 述 的 研 究 が 行 われてい るが レジスターに 強 く 依 存 して 用 いられる 形 式 についてはあまり 注 目 されていない 本 研 究 では 国 会 の 会 議 に 見 られるような 形 式 ばったスタイルで 特 徴 的 に 用 いられる 形 の 存 在 を 指 摘 し 分 布 からみた 使 用 特 徴 や 通 時 的 推 移 について 述 べる 動 詞 由 来 の 複 合 辞 形 式 のうちニを 伴 い 出 現 頻 度 の 高 い について において によって に 関 して に 対 して の 5 つと 対 応 の 連 体 形 式 それぞれの 丁 寧 な 形 式 の 出 現 傾 向 を 次 の 3 種 類 のコーパスで 調 査 した 括 弧 内 は 対 象 とする 発 話 の 産 出 年 代 である 国 会 会 議 録 ( ) 1 日 本 語 話 し 言 葉 コーパス( ?) BCCWJ( 書 籍 雑 誌 ) その 結 果 の 概 要 を 示 すと 次 の(1)のようになる はコーパスを 問 わずほぼ 出 現 しない 形 であ り は 主 に 国 会 会 議 録 に 出 現 するが 従 来 注 目 されていない 形 である 2 (1) 複 合 助 詞 対 応 形 式 の 主 な 形 とその 出 現 状 況 において におき 3 におく におきまして におきます(る) における におけます(る) について につき につく につきまして につきます(る) によって により による によりまして によります(る) に 関 して に 関 し に 関 する に 関 しまして に 関 します(る) に 対 して に 対 し に 対 する に 対 しまして に 対 します(る) を 付 した 丁 寧 形 のうち におきます(る) につきます(る) は 普 通 形 との 形 式 的 対 応 を 欠 いている もっとも おきます は 意 味 機 能 的 には 普 通 形 おける にほぼ 対 応 する 4 こ れらの 形 は おそらく おきまして>おきます つきまして>つきます のような 一 種 の 逆 成 (back-formation)によって 生 まれたものと 思 われる 実 例 をあげておく( 前 後 略 ) (2) まあ 終 戰 の 時 におきまする 問 題 として 地 上 に 出 しておつたものが(1952 参 / 建 設 委 5 八 1 国 会 会 議 録 のデータの 一 部 は BCCWJ に 収 録 されているが ここで 用 いるのはフルセットのデータで ある 通 時 的 観 点 からの 日 本 語 研 究 に 用 いうるコーパスの 種 類 や 各 コーパスの 話 者 生 年 代 産 出 年 代 の 分 布 については 服 部 ( 近 刊 )で 述 べている 2 国 会 会 議 録 で おけます は おきます の 約 100 分 の 1 の 用 例 数 しかなくおよそ 1990 年 以 降 に 集 中 する におきます は BCCWJ にも 2 回 出 現 し いずれも 浅 井 基 文 (1940 生, 元 外 交 官, 政 治 学 者 ) 著 平 和 大 国 か 軍 事 大 国 か の 一 部 であり 講 演 の 記 録 のように 思 われる また 話 し 言 葉 コーパスにも 6 回 出 現 し いずれも 学 会 講 演 である どちらのコーパスでも 総 字 数 あたりの 出 現 頻 度 は 国 会 会 議 録 よりはるか に 低 い なお におきました(る) のような 過 去 の 連 体 形 式 も 国 会 会 議 録 に 見 られる 3 におき は 国 会 会 議 録 に 少 数 の 用 例 がある 誤 記 を 疑 われるものが 多 いが それ 以 外 に ~にお き また ~におきましても のような 等 位 接 続 になっているものなどが 僅 かな 数 ある 4 おきます には ~におきますと などのような 言 い 方 も 見 られ すべてが おける に 対 応 した 連 体 用 法 というわけではない 他 にも 対 応 関 係 について 検 討 すべきことがあるが 省 略 する 193

205 嶋 三 郎 ) (3) 私 どもは 有 事 におきます 自 衛 隊 の 行 動 につきましては (1988/85 衆 / 予 算 委 2/ 伊 藤 圭 一 ) (4) 災 害 時 におきます 被 災 者 に 対 する 心 のケアは (1992/154 参 / 災 害 対 策 特 別 委 4/ 高 原 亮 治 ) (5) 住 民 税 につきまする 基 本 的 な 市 町 村 への 通 達 の 中 で (1958/28 衆 / 地 方 行 政 委 16/ 奧 野 誠 亮 ) (6) 私 実 はこの 法 案 につきまする 質 疑 をいたすに 際 しまして (1985/103 衆 / 公 職 選 挙 法 特 別 委 2/ 上 村 千 一 郎 ) (7) こうした 症 状 につきます 検 査 投 薬 注 射 などの 診 療 行 為 につきましては (1992/154 参 / 環 境 委 2/ 中 村 秀 一 ) 以 下 では 調 査 対 象 を 国 会 会 議 録 に 絞 り テ 形 式 と 連 体 形 式 とのそれぞれ 丁 寧 形 と 普 通 形 との 分 布 特 徴 を 観 察 する 2. 各 形 式 の 分 布 特 徴 国 会 会 議 録 でのテ/テノ 形 式 および 連 体 形 式 の 総 用 例 数 を 示 すと 次 のようになる これは 全 期 間 (60 年 間 )の 合 計 であり 括 弧 内 は 1 億 字 あたりの 出 現 頻 度 である 5 におきます は 低 頻 度 な 形 ではないことがわかる に 関 する の 頻 度 が 高 いが これは ~に 関 す る{ 法 律 / 請 願 / 件 } のような 審 議 案 件 の 標 題 (の 一 部 )を 多 く 含 んでいる 表 1 各 形 式 の 用 例 数 (1 億 字 あたりの 頻 度 ) : 普 通 形 ~テ ~テノ 連 体 につき 1,045,788( ) 18,104(521.5) ** に 関 し 54,058 (1557.1) 6,706(193.2) 1,084,222( ) に 対 し 517,965( ) 2,7051(779.2) 805,410( ) により 605,814( ) 2,531 (72.9) 381,935( ) におき 1,045,078( ) 18,100(521.3) 635,903( ) 表 2 各 形 式 の 用 例 数 (1 億 字 あたりの 頻 度 ) : 丁 寧 形 ~まして ~ましての ~ます につき 473,969( ) 32,359 (932.1) 1,188 (34.2) に 関 し 30,008 (864.3) 1,333 (38.4) 15,524 (447.1) に 対 し 140,348 (4042.5) 3,194 (92.0) 28,153 (810.9) により 253,348 (7297.3) 517 (14.9) 31,118 (896.3) におき 479,244( ) 7,034 (202.6) 85,197(2454.0) テ 形 式 と 連 体 形 式 のそれぞれでの 丁 寧 形 と 普 通 形 の 比 率 を 図 示 すると 次 のようになる 対 応 する 普 通 形 を 欠 く につき を 除 くと 連 体 形 式 の 方 がテ 形 式 より 普 通 形 の 用 例 比 率 が 高 い テ 形 式 の 場 合 に 比 べ 連 体 形 式 での 丁 寧 形 の 使 用 はより 丁 寧 度 の 高 いスタイル を 要 求 するという 三 尾 (1942)の 指 摘 以 来 知 られる 事 実 の 反 映 と 思 われる 5 用 例 数 は 当 該 複 合 辞 形 式 の 直 前 直 後 の 字 が 漢 字 か 読 点 の 例 の 数 である( については 等 は 含 まな い)が 少 数 のゴミを 含 む 可 能 性 があり 初 期 に 見 られる 特 殊 な 表 記 の 一 部 を 見 落 としている 可 能 性 がある 194

206 100% 100% 90% 90% 80% 80% 70% 70% 60% 50% 40% 連 体 ます 連 体 普 通 60% 50% 40% ~まして ~て 30% 30% 20% 20% 10% 10% 0% につき に 関 し に 対 し により におき 0% につき に 関 し に 対 し により におき 図 1 連 体 形 式 での 丁 寧 / 普 通 形 の 比 率 ( ) 図 2 テ 形 式 での 丁 寧 / 普 通 形 の 比 率 ( ) 2.1. 会 議 種 別 発 言 者 別 の 使 用 傾 向 参 議 院 議 員 の 参 議 院 での 発 言 に 限 定 して 会 議 の 議 長 委 員 長 等 の 発 言 と 一 般 議 員 の 発 言 を 分 け さらに 一 般 議 員 につては 会 議 の 種 類 ( 本 会 議 / 委 員 会 等 )によって 分 けて 各 形 式 の 用 例 頻 度 の 推 移 を 観 察 する 6 6 期 にわけ 1 億 字 あたり 出 現 頻 度 の 推 移 を 図 示 する 1 期 年 2 期 年 3 期 年 4 期 年 5 期 年 6 期 年 において におきまして 議 本 1000 議 本 100 委 100 委 について 議 本 委 につきまして 議 本 委 図 3- 図 6 頻 度 の 推 移 ( 議 長 等 / 本 会 議 / 委 員 会 ) 6 用 例 数 は 当 該 形 式 の 前 の 文 字 が 漢 字 の 例 の 数 である( 後 続 文 字 の 字 種 は 問 わない) については に ついてのみ なども 数 のうちに 含 む 195

207 によって によりまして 議 本 委 議 本 委 に 関 して に 関 しまして 1000 議 1000 議 本 委 本 委 に 対 して に 対 しまして 議 本 委 議 本 委 における におきます 議 本 委 議 本 委 図 7- 図 14 頻 度 の 推 移 ( 議 長 等 / 本 会 議 / 委 員 会 ) 196

208 1000 につきます 議 本 委 による によります 議 本 委 議 本 委 に 関 する に 関 します 議 本 委 議 本 委 に 対 する に 対 します 議 本 委 議 本 委 図 15- 図 21 頻 度 の 推 移 ( 議 長 等 / 本 会 議 / 委 員 会 ) よりまして 関 して 対 して などで 議 長 の 発 言 での 頻 度 が 高 い 傾 向 が 見 られる 標 題 や 議 事 進 行 上 の 定 型 的 発 言 の 影 響 かと 思 われる また における に 関 する に 対 する などは 委 員 会 より 本 会 議 での 頻 度 が 高 いが によって などはその 逆 の 傾 向 を 示 している 197

209 2.2. 先 行 / 後 続 する 複 合 辞 的 要 素 国 会 会 議 録 では 複 合 辞 的 形 式 が 複 数 連 続 することがよく 見 られる ~におきます を 例 にとると それに 先 行 するものに 次 のようなものがある (8) ~(の) 上 に やってまいります 上 におきます 措 置 といたしましては 干 拓 ができました 上 におきます 養 殖 業 の 問 題 でございます 同 じような 仕 事 の 上 におきまする 指 揮 命 令 の 関 係 において (9) ~(の) 際 に 一 定 のいろいろな 措 置 をいたしまする 際 におきまする 認 定 は 医 学 上 審 査 の 内 示 を 与 えた 際 におきます 地 目 は 畑 が 農 薬 の 登 録 の 際 におきます 水 道 水 中 の 農 薬 の 除 去 技 術 の 検 討 に 関 しましては (10) ~(の) 場 合 に みそを 作 る 場 合 におきます 醗 酵 過 程 において 物 価 が 値 上 りした 場 合 におきまする 実 態 生 計 費 をどうして 会 計 士 補 の 懲 戒 の 場 合 におきまする 権 利 を 保 護 しようと また 後 続 するものとしては 連 体 要 素 の 後 に 挿 入 されて 明 確 な 意 味 を 持 たない ところ の が 代 表 的 である これは 一 般 的 な 連 体 修 飾 節 の 後 にもよく 出 現 する (11) ニジェール 国 におきますところの 探 鉱 開 発 を 進 めるというふうに 一 番 最 近 におきますところの 暴 挙 というか 許 しがたい 行 為 で におきます の 前 後 両 方 に 複 合 辞 的 形 式 を 伴 う 例 も 少 数 ではあるが 見 られる (12) 今 後 の 御 審 議 の 上 におきまするところの 御 参 考 に 申 上 げます 経 済 の 上 におきまするところの 規 律 を 確 立 するにいたしましても 地 方 自 治 法 の 上 におきますところの 一 般 的 な 国 府 県 市 町 村 3. おわりに 国 会 会 議 録 に 特 徴 に 見 られる 特 異 な 複 合 辞 形 式 を 指 摘 し それらを 含 めた 複 合 辞 の 丁 寧 / 普 通 形 での 分 布 特 徴 を 観 察 した さらに 文 末 形 式 の 丁 寧 度 との 関 係 や 複 合 辞 の 前 後 に 現 れる 特 徴 語 表 現 なども 分 析 したい 文 献 杉 本 武 (2009) 複 合 格 助 詞 の 連 体 用 法 について 文 部 科 学 省 科 学 研 究 費 補 助 金 特 定 領 域 研 究 日 本 語 コーパス 平 成 20 年 度 研 究 成 果 報 告 書 コーパスを 用 いた 日 本 語 研 究 の 精 密 化 と 新 しい 研 究 領 域 手 法 の 開 発 III ( 研 究 代 表 者 : 田 野 村 忠 温 ) pp 服 部 匡 (2011a) 言 語 資 料 としての 国 会 会 議 録 の 特 徴 (1) 本 会 議 と 委 員 会 等 との 比 較 同 志 社 女 子 大 学 日 本 語 日 本 文 学 23:pp 服 部 匡 ( 近 刊 ) 現 代 日 本 語 の 通 時 変 化 講 座 日 本 語 コーパス 第 6 巻 コーパ スと 日 本 語 学 朝 倉 書 店 三 尾 砂 (1942) 話 言 葉 の 文 法 ( 言 葉 遣 編 ) 帝 国 教 育 会 出 版 部 198

210

211 筑 波 ウェブコーパス 検 索 ツール NLT の 開 発 今 井 新 悟 ( 筑 波 大 学 ) 赤 瀬 川 史 朗 (Lago 言 語 研 究 所 ) プラシャント パルデシ( 国 立 国 語 研 究 所 ) Development of NLT: the Search Tool for Tsukuba Web Corpus Shingo Imai (Tsukuba University) Shiro Akasegawa (Lago Institute of Language) Prashant Pardeshi (National Institute for Japanese Language and Linguistics) 1.はじめに 本 稿 では 2013 年 に 一 般 公 開 を 予 定 している NLT(NINJAL-LWP for Tsukuba Web Corpus) の 開 発 とそのシステムの 特 長 について 述 べる NLT は 2012 年 6 月 に 公 開 した NLB (NINJAL-LWP for BCCWJ)と 同 一 のシステム NINJAL-LWP で 動 作 するレキシカルプロフ ァイリング 型 のコーパス 検 索 ツールである 検 索 対 象 となる 筑 波 ウェブコーパス(TWC) は ウェブ 上 から 収 集 した 約 11 億 語 の 日 本 語 のテキストデータである 以 下 では TWC の 構 築 と 検 索 システムへの 実 装 について 述 べた 上 で 公 開 前 のシステムから 得 られた 動 詞 頻 度 と 動 詞 ( 走 る と 駆 ける )と 名 詞 のコロケーションの 結 果 を NLB と 比 較 し そ の 有 用 性 と 可 能 性 について 探 りたい 2. 筑 波 ウェブコーパスの 構 築 の 目 的 と 規 模 2.1 構 築 の 目 的 一 般 に コーパス 基 盤 の 言 語 研 究 においては 研 究 対 象 となる 言 語 現 象 を 複 数 のコーパ スで 比 較 して 観 察 することで 研 究 の 信 頼 性 や 客 観 性 を 高 めることができる 2011 年 に 完 全 公 開 された 日 本 語 書 き 言 葉 均 衡 コーパス ( 以 下 BCCWJ)は 日 本 語 初 の 均 衡 コーパス で その 規 模 は 約 1 億 語 である 2012 年 6 月 にはこの BCCWJ 向 けのレキシカルプロファ イリング 型 のコーパス 検 索 ツール NLB(NINJAL-LWP for BCCWJ)が 一 般 公 開 された 1 筑 波 ウェブコーパス( 以 下 TWC)の 開 発 の 最 大 の 目 的 は NLB と 同 じ 検 索 システムを 利 用 し て BCCWJ と 比 較 できるウェブコーパスを 構 築 することにある 同 一 のインターフェースを 利 用 することで BCCWJ と TWC の 比 較 が 容 易 になるため 均 衡 コーパスの 質 とウェブ コーパスの 量 の 双 方 のメリットを 言 語 研 究 や 日 本 語 教 育 に 生 かすことが 期 待 できる 2.2 コーパスの 規 模 均 衡 コーパスは 厳 密 な 統 計 的 手 法 に 基 づいてデータが 採 取 されることから コーパス の 規 模 に 関 しては 常 に 時 間 的 資 金 的 制 約 がつきまとう それに 対 して ウェブ 上 のテキ ストを 収 集 して 構 築 するウェブコーパス 2 には 事 実 上 そのような 制 限 はない つまり コー パスの 規 模 は 限 りなく 大 きくできる 1 億 語 のウェブコーパスと 10 億 語 のウェブコーパス を 比 べれば 10 億 語 のコーパスのほうがより 多 くの 有 用 な 言 語 情 報 を 含 むと 考 えてよい イギリスのコーパス 統 合 ツールサイト Sketch Engine では 10 億 語 規 模 から TenTen と 呼 ば れる 100 億 語 規 模 の 各 国 語 のウェブコーパスが 検 索 できる 国 立 国 語 研 究 所 でも 100 億 語 を 超 える 超 大 規 模 コーパスを 開 発 中 である 日 本 語 においても ウェブコーパスがふつう に 活 用 される 時 代 がすぐそこまで 到 来 している TWC については 2012 年 夏 に 5 億 8 千 万 語 のパイロット 版 を 制 作 し 2013 年 に 公 開 する 1 URL は 文 末 参 考 URL を 参 照 本 稿 では 現 行 の BCCWJ よりもデータサイズがやや 小 さ い BCCWJ の 領 域 公 開 データ(2009 年 版 )の 6 千 2 百 万 語 を 採 録 した NLBVer1.10 を 用 いる 2 英 語 では Web As Corpus(WaC)という 言 い 方 がよくされる 199

212 一 般 公 開 版 では 11 億 語 まで 拡 張 する 予 定 である 10 億 語 規 模 にした 理 由 としては BCCWJ の 10 倍 強 の 規 模 で 比 較 しやすい 大 きさであること 英 語 コーパスを 利 用 した 辞 書 制 作 のこ れまでの 経 験 から 見 て 10 億 語 が 中 型 辞 書 の 見 出 し 語 の 用 例 を 十 分 に 採 取 できる 一 つの 目 安 となること 3 比 較 的 短 期 間 で 構 築 できることなどが 挙 げられる 3. 筑 波 ウェブコーパスの 構 築 の 過 程 3.1 収 集 方 法 ウェブ 上 からのテキストの 収 集 については 検 索 エンジンの API を 利 用 して ウェブペ ージの URL を 収 集 した 後 その URL のデータを 収 集 する 一 般 的 な 手 法 に 従 った 具 体 的 な 手 順 については ウェブコーパス 構 築 ツール BootCaT を 参 考 にしてプログラムを 作 成 し た シードおよびタプルの 生 成 検 索 エンジンのクエリパラメータに 与 えるタプルを 構 成 す るシードには NLB の 開 発 過 程 で 作 成 した BCCWJ(2009 年 の 領 域 公 開 データの 一 部 約 6 千 2 百 万 語 )の 頻 度 リストを 利 用 した 品 詞 ごとに 分 かれた 頻 度 リストのうち 内 容 語 で ある 名 詞 動 詞 形 容 詞 副 詞 のリストをマージして 上 位 500 語 をシードとして 選 んだ ただし 名 詞 のうち 数 詞 固 有 名 詞 は 排 除 し また 動 詞 形 容 詞 については 活 用 形 も 含 めた この 500 語 のシードから 無 作 為 に 3 語 を 選 び 出 し 計 50 万 組 のタプルを 作 成 した 以 下 にタプルの 例 を 示 す 駄 目 皆 構 造 条 件 とても 様 々 法 律 ( 答 える OR 答 え OR 答 えよ OR 答 えれ OR 答 えろ OR 答 えりゃ OR 答 えん) 人 々 検 索 エンジン API による URL の 収 集 URL の 収 集 には Yahoo!ウェブ 検 索 API を 利 用 し た 1 タプル 当 たりで 収 集 する URL 数 は 10 ページとし 2012 年 1 月 初 旬 から 下 旬 にかけ て 計 500 万 URL を 収 集 した 重 複 した URL を 削 除 した URL 総 数 は 約 3 割 減 の 約 350 万 件 になった HTML ページの 収 集 URL データを 5 万 件 ごとに 分 割 した 上 で 3 台 の 端 末 を 利 用 して 2 週 間 をかけて HTML ページを 収 集 した 3.2 コーパスデータの 抽 出 テキストの 抽 出 次 に 収 集 した HTML ファイルからテキストを 抽 出 する 作 業 を 行 った 具 体 的 には HTML タグの 削 除 文 字 コードの 統 一 (utf8) 日 本 語 以 外 の 言 語 で 書 かれた テキストの 削 除 4 を 行 った 不 適 正 なページの 排 除 ウェブ 上 のテキストの 収 集 の 目 的 は 日 本 語 の 用 例 を 採 取 するこ とにあるので 単 に 項 目 やリンクを 列 挙 しただけのページ 広 告 と 思 われる 内 容 の 多 いペ ージ センテンス 境 界 の 判 定 が 難 しいページは あらかじめコーパスデータの 対 象 から 外 した センテンスの 抽 出 レキシカルプロファイリングツール NINJAL-LWP では センテンス 単 位 にした 用 例 の 中 にどのようなコロケーションが 含 まれるかを 文 法 パターン 別 に 抽 出 す る そのため コーパスデータはあらかじめセンテンス 単 位 に 分 割 しておく 必 要 がある 一 つ 前 の 作 業 でセンテンス 境 界 の 判 定 が 難 しいページを 排 除 したのもこの 理 由 による 用 例 データの 抽 出 センテンス 単 位 のデータのなかには 見 出 しに 相 当 するものや メ ニュー 項 目 に 相 当 するものが 含 まれる センテンス 中 にどの 程 度 名 詞 が 含 まれるか セン 3 英 語 と 日 本 語 を 比 べた 場 合 同 じ 語 数 では 英 語 のほうが 情 報 量 が 多 い そのため 10 億 語 の 英 語 と 日 本 語 では 英 語 のほうが 情 報 量 が 多 くなる その 意 味 では 10 億 語 という 数 字 はあくまでも 目 安 に 過 ぎない 4 Perl モジュール Encode::Guess を 利 用 した 200

213 テンス 中 に 動 詞 は 現 れるか クリック や ログイン などのウェブページで 多 用 される 表 現 が 用 いられているかなどの 複 数 の 観 点 から 用 例 としての 適 正 度 を 数 値 化 し 用 例 と してふさわしいデータを 抽 出 した 図 1 は 適 正 率 を 示 したウェブページのテキストの 例 である 網 がけになったセンテンスは 適 正 率 が 高 く 用 例 データとしてふさわしいと 判 断 されたものである さらに 同 一 ページで 同 じセンテンスが 現 れた 場 合 も 最 初 の 1 件 の みを 用 例 として 採 取 し 重 複 を 避 ける 工 夫 をした 重 複 する 用 例 データの 削 除 一 つ 前 の 作 業 で 同 一 ページでは 同 じ 用 例 が 複 数 回 採 取 さ れないようにしたが 6 億 語 弱 のパイロット 版 NLT を 開 発 して 実 際 に 運 用 してみたところ 同 一 サイトで 同 一 の 用 例 が 頻 出 することが 確 認 された そのため URL の 情 報 をもとに 同 一 サイト 5 での 同 じ 用 例 は 一 度 だけ 採 取 するように 改 良 し 最 終 的 に 語 数 にして 11 億 3781 万 語 用 例 数 にして 4672 万 7 千 例 の 筑 波 ウェブコーパスが 完 成 した 4.NINJAL-LWP への 実 装 図 1 用 例 としての 適 正 率 図 2 NLT の 見 出 し 語 ウィンドウ 5 正 確 には 同 一 の FQDN( 完 全 修 飾 ドメイン 名 ) 201

214 NINJAL-LWP は 日 本 語 コーパスの 汎 用 的 な 検 索 システムである 2012 年 の BCCWJ への 実 装 (NLB)に 続 き 今 回 の TWC は 2 例 目 になる 図 2 は 動 詞 走 る の 見 出 し 語 画 面 で ある NLB と 同 一 のインターフェースなので 画 面 を 左 右 に 並 べれば BCCWJ との 比 較 が 簡 単 にできる 5. 動 詞 出 現 頻 度 の 比 較 NLB と TLB で 抽 出 された 動 詞 を 頻 度 順 にならべ それぞれ 上 位 1 万 語 を 抽 出 し どちら か 一 方 に 現 れない 語 を 削 除 して 9001 語 を 得 た 両 者 の 頻 度 を 対 数 変 換 してピアソンの 相 関 係 数 を 求 めると であり NLB での 動 詞 の 分 布 と NLT での 動 詞 の 分 布 は 極 めて 相 似 している TWC のデータ 収 集 はウェブのクローリングにより 収 集 されるデータの 偏 りを 克 服 するため 前 述 の 通 り BCCWJ の 語 分 布 を 模 するという 方 略 (および 上 記 の 各 種 方 法 ) を 使 った 両 者 の 動 詞 の 相 関 を 見 ると ウェブコーパスの 弱 点 である 偏 りを 克 服 するとい う 課 題 は 相 当 程 度 達 成 されたと 言 える スピアマンの 順 位 相 関 は である 順 位 で 見 てもマクロ 的 には 両 者 は 似 ているといえ るが ミクロで 見 ると 違 いが 現 れる 順 位 の 差 が 大 きいものは 表 1の 通 りである 表 1 TWC と BCCWJ の 動 詞 頻 度 順 位 の 比 較 動 詞 TWC BCCWJ TWC BCCWJ 順 位 差 順 位 順 位 頻 度 頻 度 答 えする 開 講 する 退 会 する 許 諾 する 被 曝 する 来 場 する 選 考 する 研 修 する 支 払 いする 祭 りする フォーカスする リニューアルする マッチングする 試 行 錯 誤 する 拝 読 する 目 指 せる 出 展 する 付 帯 する カスタマイズする 正 解 する ( 中 略 ) 哀 願 する 飛 び 退 く 血 走 る

215 調 味 する 舌 打 ちする 上 気 する すすり 泣 く 言 いかける 後 ずさる しゃくる まさぐる にこりする 微 笑 する くぐもる 座 り 直 す 愛 撫 する TWC の 方 が BCCWJ より 相 対 的 に 順 位 が 高 いもののうち 答 えする 支 払 いする など はそれぞれ お 答 えする お 支 払 いする の 形 で 使 われているものである この 表 では 割 愛 したが 同 様 に TWC の 方 が BCCWJ より 相 対 的 に 順 位 が 高 いものの 中 には (お) 届 け する (お) 預 かりする のように 相 手 を 想 定 した 敬 体 での 使 用 が 多 い ウェブ 上 では 顧 客 相 手 の 情 報 が 多 いことの 反 映 であろう また フォーカスする リニューアルする マ ッチングする カスタマイズする 等 のカタカナ 語 も 目 立 つ また 被 曝 する のよう に 時 事 的 な 話 題 を 反 映 したと 思 われるものが 入 っている 一 方 で BCCWJ の 方 が TWC よ りも 相 対 的 に 順 位 が 高 いものには 小 説 など 文 学 作 品 においての 人 物 の 動 作 描 写 に 使 われ そうな 語 が 並 んでいる 6.コロケーション 6.1 ~が 走 る 走 る のガ 格 に 共 起 する 名 詞 について BCCWJ(NLB)から 頻 度 2 以 上 の 共 起 語 を 取 り 出 し 120 語 を 得 た それら 120 語 の TWC(NLT)における 同 様 の 共 起 頻 度 を 求 め 両 者 の 順 位 相 関 は となった このことから 両 者 の 相 関 はある 程 度 あるものの 収 集 さ れているコロケーションにはある 程 度 違 いがあることが 予 想 される なお NLT の 5 億 8 千 万 語 のパイロット 版 と 今 回 の NLT の 11 億 語 版 での 順 位 相 関 は であったことから ~が 走 る のコロケーションについては 約 5 億 語 で 相 当 程 度 安 定 して 収 集 できることが 示 唆 される ただし ~が 走 る では 頻 度 が 高 いことから 比 較 的 安 定 して 収 集 できたも のであり 頻 度 の 低 いコロケーションでは 11 億 語 版 であっても 安 定 しないということも ありうる TWC の 走 る のガ 格 に 共 起 する 名 詞 で 頻 度 20 以 上 のものは 103 語 であった そこから 代 名 詞 もの こと など 実 質 語 的 意 味 が 希 薄 な 語 を 除 き 意 味 でカテゴリ 化 した 例 えば 車 電 車 自 転 車 などを 乗 り 物 というカテゴリにした 表 2 にカテゴリ 内 の 頻 度 計 が 70 頻 度 以 上 となったものを 示 す なお 右 に 添 えられている 数 字 はそれぞれの 出 現 頻 度 である 203

216 表 2 TWC における ~が 走 る の 共 起 語 順 位 カテゴリ 共 起 語 例 (1) 乗 り 物 3284 車 889 電 車 513 バス 413 列 車 343 自 転 車 181 など (2) 人 動 物 1896 人 251 馬 197 私 137 自 分 121 ~たち 112 など (3) 痛 み 1078 痛 み 565 激 痛 513 (4) 経 路 616 道 路 178 鉄 道 128 道 109 ~ 号 線 66 線 路 48 など (5) 動 揺 衝 撃 473 衝 撃 275 激 震 81 戦 慄 49 動 揺 48 電 撃 20 (6) 感 覚 261 ~ 感 81 悪 寒 59 痺 れ 38 寒 気 36 感 覚 25 震 え 20 (7) 緊 張 248 緊 張 248 (8) 線 292 線 236( 路 線 名 も 含 む) ライン 28 筋 28 (9) 光 212 光 77 閃 光 68 稲 妻 67 (10) 電 気 205 電 気 134 電 流 71 (11) 溝 亀 裂 180 亀 裂 102 断 層 51 溝 27 (12) 地 形 102 ~ 系 45 山 脈 32 ~ 帯 25 (13) 虫 唾 86 (14) 線 状 器 官 77 神 経 44 血 管 33 コロケーションの 頻 度 情 報 とそのカテゴリ 化 はコーパス 準 拠 (corpus-based)の 辞 書 編 纂 に 有 用 である 表 2 の 順 番 に 辞 書 の 語 義 を 並 べることに 特 に 違 和 感 はなく ほぼ 直 観 に 合 っ ていると 言 えよう 語 義 とその 配 列 順 序 を 決 めてから 例 文 を 探 すあるいは 作 例 するという 従 来 の 方 法 とは 逆 に コーパスのコロケーションから 意 味 のカテゴリ 化 を 行 い 語 義 を 決 めるという 方 法 の 可 能 性 を 示 唆 している ただし 走 る の 中 心 義 は 人 動 物 が 足 を 速 く 動 かして 移 動 する であり 乗 り 物 が 速 く 移 動 する は 意 味 拡 張 であろうから 後 者 の 方 が 圧 倒 的 に 頻 度 が 高 いものの 辞 書 編 纂 においてはコーパス 駆 動 (corpus-driven)ではな く コーパス 準 拠 (corpus-based)が 望 ましい さて コーパスのコロケーション 頻 度 の 有 用 性 を 確 認 したが この 頻 度 がある 程 度 高 く ないと コロケーションの 情 報 が 不 安 定 になり 有 用 性 が 損 なわれる 可 能 性 があるので 注 意 が 必 要 である TWC では 共 起 語 の 出 現 頻 度 上 位 51 語 ( 頻 度 48 以 上 の 語 )に 限 ってみて も 各 カテゴリの 順 位 は5 番 目 までは 表 2 と 変 わらない (1) 乗 り 物 2992 (2) 人 動 物 1307 (3) 痛 み 1078 (4) 経 路 529 (5) 動 揺 衝 撃 453 (6) 緊 張 248 (7) 線 236 (8) 光 212 (9) 電 気 205 (10) 感 覚 140 (11) 溝 亀 裂 102 (12) 地 形 51 一 方 BCCWJ では 頻 度 上 位 50 語 ( 頻 度 5 以 上 の 語 )で 見 ると カテゴリの 頻 度 順 は 相 当 変 化 し 表 2 と 等 しいのは 順 位 1 位 の 乗 り 物 だけになり コロケーションの 情 報 が やや 不 安 定 になっている コーパス 駆 動 ではなく コーパス 準 拠 (Corpus-based)だとして も コロケーション 情 報 は 安 定 して 得 られる 方 がよい (1) 乗 り 物 151 (2) 痛 み 112 (3) 人 動 物 96 (4) 光 73 (5) 感 覚 66 (6) 動 揺 衝 撃 60 (7) 経 路 35 (8) 緊 張 32 (9) 溝 亀 裂 26 (10) 線 25 (11) 電 気 15 (12) 地 形 10 (13) 予 感 8 BCCWJ でも 頻 度 2 以 上 を 採 用 すると 共 起 語 として 出 現 する 語 数 は 120 語 となり 以 下 のよ うな 順 番 頻 度 となる これにより TWC のカテゴリ 頻 度 順 に 近 づく それでも 上 位 3 位 ま では 同 じになるが それ 以 下 の 順 位 は 異 なる 204

217 (1) 乗 り 物 174 (2) 人 動 物 148 (3) 痛 み 112 (4) 光 77 (5) 感 覚 74 (6) 動 揺 衝 撃 68 (7) 溝 亀 裂 44 (8) 経 路 39 (9) 緊 張 32 (10) 線 29 (11) 電 気 21 (12) 地 形 16 以 上 ~が 走 る のコロケーションの 場 合 は TWC ではコロケーション 情 報 を 安 定 して 取 り 出 せるが BCCWJ の 場 合 はコロケーションの 頻 度 についてはやや 不 安 定 になる 嫌 いがあ る BCCWJ においても 出 現 頻 度 が 2 までと 低 いものまで 観 察 の 範 囲 を 広 げることによっ て 安 定 性 をある 程 度 向 上 させられることを 見 たが 一 方 出 現 頻 度 が 2 というのは 少 な すぎて ノイズ( 誤 り 個 人 的 な 癖 など)の 影 響 が 高 まる 懸 念 も 生 じる 6.2 ~を 駆 ける 前 節 では ~が 走 る という 比 較 的 頻 度 が 高 い 例 を 見 たが 本 節 では 比 較 的 頻 度 が 低 い ~を 駆 ける を 見 てみる BCCWJ では 共 起 語 のうち 頻 度 3 以 上 のもので ( なか ウ マ 間 上 のように 共 起 語 の 分 析 に 適 さないものを 除 くと 道 10 廊 下 4 階 段 3 戦 場 3 山 3 夜 道 3 前 3 の7 語 のみである 頻 度 2 のものはノイズ( 誤 り 個 人 的 な 癖 など)が 影 響 する 可 能 性 が 高 いので 対 象 外 とするが 例 えこれらを 含 めてもあと 13 語 増 えるのみであり コロケーションを 意 味 でカテゴリ 化 して 示 すことは 難 しい 一 方 TWC では 頻 度 3 以 上 の 語 は 50 ほどあり 以 下 のようなカテゴリ 化 が 可 能 である ただし 頻 度 が ~が 走 る に 比 べる 大 分 少 ないので カテゴリの 頻 度 で 順 序 を 見 るには 適 さないだろ う 表 3 TWC における ~を 駆 ける の 共 起 語 カテゴリ 共 起 語 空 95 空 61 大 空 11 宇 宙 8 天 空 7 夜 空 5 銀 河 3 野 山 59 草 原 16 野 12 野 山 11 山 7 森 6 原 野 4 荒 野 3 経 路 47 道 15 廊 下 13 路 11 階 段 8 戦 場 31 戦 場 31 世 界 27 世 界 27 地 22 地 11 大 地 8 大 陸 3 区 域 21 街 8 庭 4 コート 3 町 3 街 なか 3 前 後 21 先 頭 6 先 5 前 5 後 ろ 5 時 16 時 代 10 時 6 海 11 海 8 海 原 3 7.まとめ 本 稿 では 筑 波 ウェブコーパス 構 築 に 当 たり BCCWJ の 均 衡 性 に 近 づけ ウェブコー パスの 弱 点 であるデータの 偏 りを 回 避 する 方 略 を 提 案 した また NLB(NINJAL-LWP for BCCWJ)と 同 じレキシカルプロファイリング 型 のコーパス 検 索 ツール NLT(NINJAL-LWP for Tsukuba Web Corpus)を 使 ってデータの 抽 出 を 行 い 双 方 を 比 較 した 動 詞 の 頻 度 の 比 較 では 非 常 に 高 い 相 関 が 得 られ 個 々の 動 詞 には 両 者 の 特 徴 が 現 れて 違 いが 見 られるとこ ろがあるものの 概 ね 両 者 の 動 詞 の 分 布 が 近 似 していることが 実 証 できた また コロケ ーションについては データサイズの 大 きい 筑 波 ウェブコーパスの 方 が 安 定 的 にコロケー ション 情 報 を 抽 出 できることを 示 した ただし 共 起 語 出 現 語 頻 度 が 本 稿 で 扱 ったものよ り 高 いコロケーションの 場 合 には BCCWJ のサイズでも 十 分 な 情 報 が 得 られるであろうし 一 方 共 起 語 出 現 語 頻 度 が 本 稿 で 扱 ったものより 低 いものの 場 合 には 筑 波 ウェブコーパ スのサイズでもなお 不 十 分 ということも 当 然 予 想 される このような より 稀 なコロケー ション 及 びその 他 の 稀 なデータについてはさらに 大 きなサイズのコーパスが 要 求 される より 大 きなサイズのコーパスの 構 築 においては 現 実 的 に 考 えてウェブコーパスとならざ るを 得 ないだろうから 今 後 の 大 規 模 コーパスの 構 築 には 本 稿 での 知 見 が 貢 献 できるとこ 205

218 ろも 多 いと 思 われる 謝 辞 筑 波 ウェブコーパスの 構 築 および NLT(NINJAL-LWP for Tsukuba Web Corpus)の 開 発 に は 教 育 関 係 共 同 利 用 拠 点 筑 波 大 学 留 学 生 センター 日 本 語 日 本 事 情 遠 隔 教 育 拠 点 の 予 算 の 一 部 が 充 てられています NLT は 同 上 拠 点 事 業 としてウエブ 上 で 公 開 予 定 です NLT の 基 盤 となった NLB(NINJAL-LWP for BCCWJ)は 協 同 研 究 として 筑 波 大 学 留 学 生 センターが 国 立 国 語 研 究 所 および Lago 言 語 研 究 所 から 使 用 許 可 を 得 て 使 用 しています 文 献 Baroni, M. and Bernardini, S. (2004) BootCaT: Bootstrapping corpora and terms from the web. Proceedings of LREC 2004, Lisbon: ELDA. pp ( よりダウンロード 可 能 ) Fletcher,W.H.(2007) Toward cleaner Web corpora: recognizing and repairing problems with hybrid online documents. Corpus Linguistics 2007, Birmingham pp ( よりダウンロード 可 能 ) Hundt, Marianne, Nadja Nesselhauf and Carolin Biewer (Eds.) (2007) Corpus Linguistics and the Web. Amsterdam: Rodopi. 今 井 新 悟 赤 瀬 川 史 朗 (2012) 日 本 語 ウェブコーパスと BCCWJ コーパスの 比 較 と 日 本 語 教 育 への 応 用 2012 年 日 本 語 教 育 国 際 研 究 大 会 パネルセッション 日 本 語 につながるコ ーパス 研 究 現 状 と 今 後 の 展 望 日 本 語 教 育 国 際 研 究 大 会 名 古 屋 2012 予 稿 集 第 2 分 冊 p.65. プラシャント パルデシ 赤 瀬 川 史 朗 (2012) レキシカルプロファイリング 手 法 を 用 いた BCCWJ 検 索 ツール NINJAL-LWP とその 研 究 事 例 日 本 言 語 学 会 第 144 回 大 会 ワークシ ョップ コーパス 基 盤 の 日 本 語 研 究 の 新 地 平 日 本 言 語 学 会 第 144 回 予 稿 集 pp Sharoff S Creating general-purpose corpora using automated search engine queries. In Marco Baroni and Silvia Bernardini (Eds), WaCky! Working papers on the Web as Corpus, Gedit, Bologna. 関 連 URL NLB(NINJAL-LWP for BCCWJ) Sketch Engine BootCaT 国 研 コーパス 開 発 センター 超 大 規 模 コーパス 206

219 Web () (/) A Design of Web-scale Japanese Corpora Masayuki Asahara (Center for Corpus Development, NINJAL) Kikuo Maekawa (Dept. Corpus Studies/Center for Corpus Development, NINJAL) (BCCWJ)( (2007); (2008)) 2011 BCCWJ Web Web n-gram Web N 1 ( (2007)) 2550 /200 n-gram (2010a) Baidu n-gram (2010b) Web Baidu n-gram 2010 ( (2010))Yahoo! ( (2007); (2011)) (NICT) Web masayu-a@ninjal.ac.jp 207

220 1 Web Web N /200 n-gram Baidu n-gram Baidu n-gram ( ) (1660 ) (465 ) (32 ) (44 ) Yahoo! QA NICT Version ( 430 ) 4.8 NDL (Ver 1.0) Web ipadic Yahoo! Web API Web HTML (1, 3.25TB), ( 395GB), N-gram (, ) TSUBAKI (Shinzato et al. (2008)) 345GB() ( (2011)) Web 16 ( (2006); (2008)) (NDL) (; (2010)) 2006 (2010) IPADIC Yahoo! Web API 396GB () 1 Web Web

221 2 Heritrix 3.1 nwc-toolkit MeCab/UniDic (, UniDic ) CRF++ (, UniDic ) JUMAN () () CaboCha/ CaboCha/BCCWJ BCCWJ () () (ChaKi ) n-gram (, ) n-gram (, ) (, ) UniDic WARC (ISO-28500) Open Source Wayback () NutchWAX () Web Curator Tool Web Web Web 1 URL URL Web Web /n-gram 100 Web Web (Remote harvesting) (Database archiving)/ Web API(Transactional archiving) Heritrix (1) Heritrix wayback machine Web Internet Archive 209

222 Web Web WARC.html.txt.xml 1 URL URL 4 Web - Web (splog) URL URL 1000 URL 3 1 URL URL URL URL 3.2 Web HTML Web HTML HTML Web Web 2 Web N 1 (2) (nwc-toolkit) (3) Web URL Web URL Web Web UniDic 210

223 UniDic Web MeCab (4) /UniDic (5) CRF++ (6) JUMAN (7) (2009) ( (2013)) (8) CaboCha (9) BCCWJ ( (2013)) CaboCha UniDic Web Web URL (splog) () BCCWJ () SVM (10) (11) ( (2005)) 3.3 n-gram 211

224 (12) ChaKi (13) Dependency Search 100 n-gram 3 (1-gram ; ; ) n-gram n-gram (n 1; ; ) n-gram n-gram FREQT (14) HTML - Web UniDic n-gram 3.4 IIPC(International Internet Preservation Consortium) (15) Heritrix Web WARC (16) WARC Internet Archive Wayback Machine (17) Open Source Wayback (18) NutchWAX (Nutch Web Archive extension) (19) Web Web WCT (Web Curator Tool) (20) 212

225 4. Web Shinzato, K., T. Shibata, D. Kawahara, C. Hashimoto, and S. Kurohashi (2008). Tsubaki: An open search engine infrastructure for developing new information access. IJCNLP (2013) 3 (2013) 19 (NLP2013) (2006) Web , pp (2008) (Ver 1.0), http: // (2007)Web N, gsk.or.jp/catalog/gsk2007-c/catalog.html, ndl.go.jp/search/ 213

226 (2011) Version 1.1, nict.go.jp/resources/nictmastar/resource-info/abstract.html#a-8 (2010), 104:5, pp. 288 (2010a)Baidu, jp/corpus/ (2010b)Baidu, baidu.jp/corpus/ (2007), 22, pp (2008), 932(74 1 ), pp (2005), J88-D-II:4, pp (2009) :2009-NL-190 (2010) 2010 (NWC 2010), (2007)Yahoo! ( 1 ) (2011)Yahoo! ( 2 ), cscenter/idr/yahoo/chiebkr2/y_chiebukuro.html (2010), html URL (1) Heritrix-3.1.1http://webarchive.jira.com/wiki/display/Heritrix/ Heritrix (2) Google Web N 1 READMEhttp:// GSK2007-C/GSK2007C_README.utf8.txt (3) (4) MeCab-0.995http://mecab.googlecode.com/svn/trunk/mecab/ doc/index.html (5) UniDic-2.1.1http://sourceforge.jp/projects/unidic/ (6) CRF http://crfpp.googlecode.com/svn/trunk/doc/ index.html (7) JUMAN juman/juman-7.0.tar.bz (8) 4.0http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/ corpus/kyotocorpus4.0.tar.gz 214

227 (9) CaboCha-0.66http://code.google.com/p/cabocha/ (10) SVMLinhttp://vikas.sindhwani.org/svmlin.html (11) BACThttp://chasen.org/ taku/software/bact/ (12) 1.0.5http://chunagon.ninjal.ac.jp (13) ChaKiversion 2.3http://sourceforge.jp/ projects/chaki/releases/ (14) FREQT taku/ software/freqt/ (15) IIPC(International Internet Preservation Consortium) (16) ISO 28500:2009, Information and documentation WARC file formathttp://www. iso.org/iso/catalogue_detail.htm?csnumber=44717 (17) Wayback Machine Internet Archivehttp://archive.org/web/web.php (18) Open Source Wayback-1.6.0http://archive-access.sourceforge.net/ projects/wayback/ (19) Nutch Web Archive extension-0.13http://archive-access.sourceforge.net/ projects/nutch/ (20) Web Curator Tool-1.6http://webcurator.sourceforge.net/ 215

228 Q 1Q 2Q 3Q 4Q 1Q 2Q 3Q 4Q 1Q 2Q 3Q 4Q 1Q 2Q 3Q 4Q 1Q () (2 ) (3 ) (4 ) () () (2 ) (3 ) () () () () BCCWJ splog () (n-gram ) n-gram () () (2 ) (3 ) Open Source Wayback NutchWAX 216

229 BTSJ による 日 本 語 話 し 言 葉 コーパス(トランスクリプト 音 声 ) 2011 年 版 の 設 計 と 特 性 について 宇 佐 美 まゆみ( 東 京 外 国 語 大 学 大 学 院 総 合 国 際 学 研 究 院 ) 中 俣 尚 己 ( 京 都 教 育 大 学 教 育 学 部 ) Design and Characteristics of the Corpus of Spoken Japanese by BTSJ (Transcription and Audio Recordings) ver.2011 Mayumi Usami (Graduate School of Tokyo University of Foreign Studies, Institute of Global Studies) Naoki Nakamata (Kyoto University of Education) 1.はじめに 近 年 コーパス 日 本 語 学 が 盛 んになりつつあるが その 多 くは 書 き 言 葉 のコーパスに 関 するものであり 話 し 言 葉 コーパス に 基 づくものは 多 いとは 言 えない 分 析 の 観 点 も 書 き 言 葉 の 特 性 を 考 えると 当 然 かもしれないが 形 態 素 解 析 や 語 彙 や 構 文 の 分 析 コロケ ーション 研 究 などが 中 心 で 語 用 論 的 分 析 は 未 だ 手 つかずの 状 態 である 一 方 話 し 言 葉 のコーパス も 増 えつつはあるが 人 間 の 相 互 作 用 としての 自 然 会 話 ( 事 前 の 計 画 が ないやりとり) を 編 んだコーパスは ほとんどないといっても 過 言 ではない 日 本 語 学 習 者 の 口 頭 能 力 試 験 を 集 めた 学 習 者 コーパスなどはいくつかあるが これらは 口 頭 能 力 試 験 という 特 殊 な 状 況 における 相 互 作 用 であり 分 析 の 観 点 も 未 だ 文 法 項 目 の 習 得 などに 焦 点 を 当 てたものが 多 い 会 話 分 析 としては エスノメソドロジーに 端 を 発 する CA (Conversation Analysis)が 盛 んであるが 基 本 的 に CA は 対 人 コミュニケーションの 理 論 化 や 一 般 化 を 目 的 とはしていないこともあり その 文 字 化 システム は 定 性 的 分 析 には 適 しているかもしれないが 定 量 的 分 析 には 適 しているとは 言 えない 昨 今 公 開 されている 話 し 言 葉 のコーパス も 語 用 論 的 分 析 に 適 した 文 字 化 システム に 基 づくものはほとんどない 話 し 言 葉 コーパスに 基 づく 分 析 は 講 演 などのストレート トークやナラティブ データに 基 づいた 音 声 学 的 な 分 析 などが 緒 についたところであると 言 ってもよいだろう すなわち 人 間 の 相 互 作 用 の 分 析 を 企 図 し 会 話 の 定 性 的 分 析 に 加 えて 定 量 的 な 分 析 も 可 能 にする 形 で 文 字 化 し 蓄 積 された 話 し 言 葉 のコーパス は 未 だほとんどないのが 現 状 である その 理 由 の 一 つに 話 し 言 葉 をデータとして 用 いる 研 究 では 会 話 の 収 集 文 字 化 といった 基 礎 的 作 業 をはじめ その 後 の 分 析 対 象 のコーディン グなどにも 膨 大 な 時 間 と 労 力 を 要 するということがある そのため 会 話 や 話 し 言 葉 の 対 人 コミュニケーション 論 的 語 用 論 的 分 析 を より 効 率 的 に 進 めていくためには 研 究 者 間 で 自 然 会 話 データを 共 有 していくことが 不 可 欠 である また そのためには 発 話 の 重 なりや 沈 黙 などの 語 用 論 的 分 析 に 必 須 の 情 報 を 記 述 し 且 つ 定 量 的 分 析 にも 適 する 文 字 化 システムによって 蓄 積 された 話 し 言 葉 コーパス が 必 須 である このような 認 識 に 基 づいて 筆 者 とその 研 究 協 力 者 らは ここ 15 年 来 あくまで 人 間 の 相 互 作 用 としての 言 語 の 運 用 に 焦 点 を 当 て 対 人 コミュニケーション 論 語 用 論 の 観 点 から 会 話 の 分 析 を 行 い 定 量 的 分 析 ができる 形 で 文 字 化 したデータを 蓄 積 し 一 般 公 開 も 行 ってきた そ れらを 改 訂 し 改 めてまとめ 直 したのが BTSJ による 日 本 語 話 し 言 葉 コーパス(トラン スクリプト 音 声 )2011 年 版 ( 以 降 BTSJ 話 し 言 葉 コーパス と 略 記 )である 本 稿 で は その 開 発 設 計 の 趣 旨 及 び その 特 性 と 活 用 方 法 を 簡 単 にまとめる usamima@tufs.ac.jp nakamata@kyokyo-u.ac.jp 217

230 2. BTSJ による 日 本 語 話 し 言 葉 コーパス(トランスクリプト 音 声 )2011 年 版 の 設 計 の 趣 旨 と 特 性 本 節 では BTSJ 話 し 言 葉 コーパスの 設 計 の 趣 旨 と 特 性 を 簡 単 にまとめる 2.1 BTSJ 話 し 言 葉 コーパス 設 計 の 趣 旨 1.はじめに でも 述 べたように 本 コーパス 設 計 の 趣 旨 は 相 互 行 為 としての 会 話 の 対 人 コミュニケーション 論 語 用 論 的 分 析 に 適 したコーパスを 構 築 することである そ のために 重 視 した 点 は 以 下 の3 点 である 1 言 語 社 会 心 理 学 的 アプローチ ( 宇 佐 美 1999) 総 合 的 会 話 分 析 ( 宇 佐 美 2008)の 方 法 論 に 基 づき 会 話 参 加 者 の 年 齢 性 別 話 題 など を 統 制 したデータ 群 を 収 録 する 2 発 話 の 重 なりや 沈 黙 など 語 用 論 的 分 析 に 不 可 欠 な 情 報 を 記 して 細 やかな 定 性 的 分 析 を 可 能 にするとともに 分 析 項 目 のコーディングや 集 計 な どの 定 量 的 分 析 も 行 いやすい 基 本 的 な 文 字 化 の 原 則 である BTSJ(Basic Transcription System for Japanese)によって 文 字 化 したトランスクリプトの 形 で 提 供 する 3 人 間 の 相 互 作 用 としての 会 話 分 析 は 会 話 自 体 の 分 析 のみならず 録 音 された 会 話 以 外 の 社 会 的 要 因 の 分 析 も 重 視 する そのため 各 会 話 グループのデータ 収 集 条 件 や 話 題 話 者 の 年 齢 性 別 職 業 その 他 の 属 性 をまとめたエクセルファイルも 収 録 する 2.2 BTSJ 話 し 言 葉 コーパスの 概 要 と 特 徴 BTSJ による 日 本 語 話 し 言 葉 コーパス は 294 の 相 互 作 用 的 会 話 からなる 1 会 話 の 総 時 間 は 67 時 間 21 分 39 秒 総 語 数 は 789,190 語 2 である すべての 会 話 は 発 話 の 重 なりや 沈 黙 割 り 込 みなどの 語 用 論 的 分 析 に 必 須 の 情 報 を 記 述 するための 原 則 である 基 本 的 な 文 字 化 の 原 則 (Basic Transcription System for Japanese:BTSJ)2011 年 版 に 基 づくトランス クリプトの 形 になっており 約 30%(20 時 間 分 )の 会 話 には プライバシー 保 護 処 理 をし た 音 声 資 料 がトランスクリプトとともに 提 供 されている BTSJ トランスクリプトは 多 くの 人 が 活 用 しやすいことを 考 え エクセル 形 式 で 保 存 されている 利 用 する 研 究 者 各 自 が 発 話 内 容 の 右 側 に コーディング の 列 を 追 加 して 分 析 したい 項 目 をコーディ ングすれば エクセルの 機 能 で 話 者 ごとにソートして 話 者 の 特 徴 を 概 観 したり コーディ ング 項 目 の 頻 度 の 集 計 などを 行 うことができるが 2007 年 に エクセルに 専 用 のマクロ 機 能 を 搭 載 して BTSJ 入 力 支 援 自 動 集 計 システムセット を 開 発 し 対 となる 記 号 の 自 動 入 力 やエラーチェック 機 能 等 の 入 力 支 援 機 能 を 付 与 し コーディング 項 目 の 基 本 的 記 述 統 計 を 自 動 集 計 して 表 の 形 で 自 動 表 示 できるようにした さらに 2011 年 には 同 じル ールでコーディングした 複 数 の 会 話 ファイルの 分 析 項 目 の 頻 度 や 割 合 の 合 計 平 均 標 準 偏 差 などの 自 動 集 計 も 可 能 にした このシステムセットは 現 在 のところ BTSJ 活 用 方 法 講 習 会 3 ( 宇 佐 美 2012)の 受 講 者 に 無 償 で 配 布 している また テキストファイルに 変 換 して 利 用 することもできる 本 コーパスは 事 前 の 計 画 や 準 備 のない 自 然 会 話 を 中 心 とするコーパスであるが 一 部 電 話 会 話 やロールプレイ 等 も 収 録 されており 日 本 語 母 語 話 者 の 会 話 のみならず 接 触 場 面 ( 日 本 語 母 語 話 者 と 日 本 語 非 母 語 話 者 )の 会 話 も 豊 富 である 初 対 面 友 人 同 士 話 者 の 年 齢 に 上 下 のある 会 話 同 年 齢 同 士 の 会 話 同 性 同 士 の 会 話 異 性 との 会 話 教 師 と 学 生 の 面 談 会 話 等 々 様 々な 種 類 の 会 話 が 話 者 の 社 会 的 属 性 や 場 面 等 の 諸 条 件 を 統 制 して 収 集 され 収 録 されている そのため 話 者 の 社 会 的 属 性 や 話 者 同 士 の 関 係 場 面 に 応 じた 話 し 方 の 特 徴 や 違 いを 様 々な 角 度 から 比 較 検 討 す ることが 可 能 である この 点 が BTSJ 話 し 言 葉 コーパスの 最 大 の 長 所 であり 特 徴 である 1 予 稿 集 では 改 訂 中 の 1 会 話 を 除 いた 数 値 を 提 示 したが 本 稿 では コーパスに 収 録 されている 294 会 話 すべてを 含 めて 算 出 した 数 値 を 提 示 する これ 以 降 の 表 1などの 数 値 についても 同 様 である 2 Mecab+UniDic による 句 読 点 等 を 除 く 実 質 的 発 話 部 である 3 これまでのところ 不 定 期 に 東 京 広 島 京 都 九 州 ベルリン ロンドンで 開 催 している 問 い 合 わ せ: 言 語 社 会 心 理 学 研 究 会 事 務 局 :btsjworkshop@gmail.com 218

231 2.3 BTSJ(Basic Transcription System for Japanese)の 基 本 原 則 と 形 式 すべてのトランスクリプトは BTSJ によって 記 述 されており xlsx 形 式 のエクセルファ イルで 提 供 される BTSJ によるトランスクリプトの 一 例 を 以 下 の 図 1に 示 す 上 部 には 会 話 グループ 名 会 話 記 号 (ファイル 名 に 対 応 ) 話 者 記 号 の 凡 例 会 話 番 号 時 間 1 会 話 における 話 者 数 の6つの 情 報 が 記 載 されている その 下 に 発 話 内 容 (トランスクリプト)が 記 される 左 には ライン 番 号 発 話 文 番 号 発 話 文 終 了 話 者 を 記 す BTSJ では 発 話 文 の 定 義 は 会 話 という 相 互 作 用 の 中 における 文 とし 以 下 のよ うに 認 定 する 基 本 的 に ひとりの 話 者 による 文 を 成 していると 捉 えられる 発 話 を 1 発 話 文 とする しかし 自 然 会 話 では いわゆる 1 語 文 や 述 部 が 省 略 されているも の あるいは 最 後 まで 言 い 切 られない 中 途 終 了 型 発 話 など 構 造 的 に 文 が 完 結 していない 発 話 もある そのような 場 合 は 話 者 交 替 や 間 などを 考 慮 した 上 で 1 発 話 文 であるか 否 かを 判 断 する つまり 発 話 文 の 認 定 には 話 者 交 替 間 という 2 つ の 要 素 が 重 要 になる そのため 途 中 で 相 手 の 発 話 が 入 って 話 者 が 一 旦 交 替 したため 改 行 され 複 数 のラインに 渡 っている 発 話 も 同 一 話 者 によって 発 せられた 1 文 を 成 して いると 捉 えられるものは 複 数 のラインにまたがる 発 話 をまとめて 1 発 話 文 とする そして 図 1の 発 話 文 番 号 の 列 における のように 異 なるラインにまた がっていても 同 じ 発 話 文 であることがわかるように 同 じ 番 号 をつけ その 後 に - をつけ て 発 話 された 順 を 記 す また 完 結 していないほうの 発 話 には 発 話 文 終 了 の 欄 に / を 記 す 1 会 話 の 発 話 文 数 は 発 話 文 番 号 が 示 すとともに 左 から3 行 目 の 発 話 文 終 了 の 列 が 発 話 文 が 完 結 していることを 表 す * となっているものを 数 えてもわか るようになっている また 発 話 内 容 の 列 における も BTSJ のルールでは 発 話 文 の 完 結 を 意 味 するため 質 問 発 話 で 文 末 に? があっても 文 が 完 結 している 場 合 は? と 必 ず 最 後 に をつける そのため * と の 数 が 同 じになることを 利 用 し て 通 常 のエクセルでも * と を 数 えることによって 発 話 文 数 の 検 算 もできる 図 1 BTSJ によるトランスクリプトの 例 発 話 内 容 には 種 々の 記 号 を 用 いて 相 互 作 用 に 関 する 情 報 が 付 与 されている 図 1には 沈 黙 笑 い 発 話 の 重 なり さえぎり 等 の 情 報 が 記 載 されている その 他 にも 引 用 部 イントネーション ラッチング 言 い 淀 み 文 脈 情 報 などの 情 報 が 付 与 され ている( 記 号 の 意 味 など BTSJ に 関 する 詳 細 は 宇 佐 美 (2011)を 参 照 ) ただし 各 研 究 者 が 自 身 のデータを BTSJ で 文 字 化 する 場 合 は 研 究 目 的 に 応 じて BTSJ で 定 められた 記 号 を 変 更 しない 限 りにおいて 独 自 の 記 号 を 追 加 して 特 定 の 現 象 の 記 述 をより 詳 細 にした り 逆 に 小 声 のあいづちは 文 字 化 しない 等 の 原 則 を 設 けて 簡 略 化 することも 可 能 である 219

232 2.4 BTSJ 文 字 化 入 力 支 援 自 動 集 計 複 数 ファイル 自 動 集 計 システムセット(2012 年 改 訂 版 ) について BTSJ は あくまで 文 字 化 のルール である そして BTSJ 文 字 化 入 力 支 援 自 動 集 計 複 数 ファイル 自 動 集 計 システムセット(2012 年 改 訂 版 ) は BTSJ による 文 字 化 にかかる 時 間 と 労 力 を 軽 減 するための 文 字 化 入 力 支 援 機 能 と BTSJ で 記 されたトラン スクリプトにコーディングを 行 った 項 目 の 基 本 的 な 記 述 統 計 に 必 要 な 情 報 を 算 出 する 自 動 集 計 機 能 を 搭 載 したシステムセットである 利 用 者 の 利 便 性 や 汎 用 性 を 考 えて Microsoft Excel のマクロ 機 能 を 利 用 して 作 成 されており BTSJ 入 力 支 援 自 動 集 計 システム(.xlt) BTSJ 複 数 ファイル 自 動 集 計 システム(.xls) の 2 つのファイルから 成 っている 現 在 は 日 本 語 版 Windows の Excel に 対 応 している (ただし 英 語 版 Windows でも Excel 上 で 日 本 語 を 表 示 できる 環 境 であれば 問 題 なく 使 える また Mac の 場 合 は windows をインストールするか シトリックス などの 仮 想 デスクトップを 導 入 する 必 要 がある ) 3. BTSJ による 日 本 語 話 し 言 葉 コーパス(トランスクリプト 音 声 )2011 年 版 の 定 量 的 な 基 本 情 報 本 節 では BTSJ による 日 本 語 話 し 言 葉 コーパス(トランスクリプト 音 声 )2011 年 版 の 定 量 的 な 基 本 情 報 を 現 代 日 本 語 書 き 言 葉 均 衡 コーパス ( 以 下 BCCWJ と 略 記 )と 比 較 する 形 で 示 す 3.1 基 本 情 報 本 節 では BTSJ 話 し 言 葉 コーパス に 形 態 素 解 析 を 施 した 結 果 を 示 す 4 まず 表 1に 総 語 数 異 なり 語 数 などの 本 コーパスの 基 本 情 報 を 示 す 表 1 BTSJ による 日 本 語 話 し 言 葉 コーパス(トランスクリプト 音 声 )2011 年 版 の 基 本 情 報 会 話 数 294 会 話 総 語 数 789,190 語 異 なり 語 数 12,079 語 TTR( 異 なり 語 数 / 総 語 数 ) 1.530% Guiraud 値 ( 異 なり 語 数 / 総 語 数 ) 発 話 文 数 91,256 文 1 文 あたりの 語 数 ( 総 語 数 / 発 話 文 数 ) 語 総 時 間 242,499 秒 (67 時 間 21 分 39 秒 ) 1 文 あたりの 時 間 数 ( 総 時 間 / 発 話 文 数 ) 秒 注 )なお 上 記 の 語 数 には 句 読 点 など UniDic において 補 助 記 号 に 分 類 されるものは 含 まない ま た 記 号 は 人 名 などが 記 号 で 表 されることもあるため( 例 :F さん) 数 値 に 含 めている 3.2 動 詞 の 高 頻 度 語 基 本 語 彙 の 選 定 は 外 国 語 学 習 の 分 野 において 極 めて 重 要 である 本 節 では まず BTSJ 話 し 言 葉 コーパスにどのような 動 詞 が 多 く 見 られたかを 算 出 し BCCWJ と 比 較 する 次 頁 の 表 2に BTSJ 話 し 言 葉 コーパスにおける 高 頻 度 の 動 詞 上 位 20 と BCCWJ に おける 高 頻 度 の 動 詞 上 位 20 を それぞれ1 万 語 あたりに 換 算 し 頻 度 とともに 示 す 太 字 ゴシックの 語 は 当 該 コーパスでのみ 上 位 20 以 内 に 入 った 語 である 表 2を 見 ると 上 位 20 語 のうち 太 字 ゴシックの 語 を 除 く 16 語 までが 両 コーパスに 共 通 していることがわかる 4 エクセルファイルのコーパスを csv 形 式 に 変 換 後 発 話 内 容 の 部 分 だけを 取 り 出 し BTSJ 特 有 の 記 号 を 除 去 した 後 茶 まめ(UniDic+mecab)を 用 いる 形 で 形 態 素 解 析 を 行 った 220

233 基 本 語 彙 の 選 定 は これまでも 種 々の 立 場 から 行 われているが 中 でも 最 も 数 が 絞 られ ているのは 国 立 国 語 研 究 所 の 電 子 計 算 機 による 新 聞 の 語 彙 調 査 をもとに 林 (1975) が 文 句 なしの 基 本 語 彙 とした 545 語 であろう その 中 に 動 詞 は 73 語 ある BTSJ 話 し 言 葉 コーパスの 高 頻 度 語 20 の 中 では 違 う と 書 く を 除 く 18 語 がこの 73 語 に 含 ま れている また BTSJ 話 し 言 葉 コーパスのみで 上 位 20 に 入 った 違 う 聞 く 書 く 取 る の 4 語 は BCCWJ でも 40 位 以 内 に 入 っている このことを 考 えると これら 4 語 は 書 き 言 葉 においても 基 本 語 に 相 当 すると 言 ってもよいだろう つまり 動 詞 の 高 頻 度 語 は コーパスの 規 模 の 大 小 話 し 言 葉 書 き 言 葉 の 違 いにかかわらず ほとんど 共 通 している ということと 基 本 語 彙 ( 林 1975)との 共 通 性 が 高 いということが 明 らかになった 一 方 BCCWJ では 12 位 に 入 っている おる は BTSJ 話 し 言 葉 コーパスでは 20 位 までには 入 らず 61 例 (1 万 語 あたり 0.77)しかなかったが 実 は BCCWJ の 中 でも 国 会 会 議 録 に 集 中 的 に 出 現 する 語 であることがわかった このように 語 用 論 の 観 点 からは 大 規 模 コーパス 全 体 における 単 なる 頻 度 の 比 較 ではなく ジャンルごとに 分 けて みた 頻 度 やコロケーションの 分 析 考 察 が 重 要 である 表 2 動 詞 の 高 頻 度 語 の 比 較 順 位 BTSJ 話 し 言 葉 コーパス 1 万 語 あたりの 頻 度 BCCWJ 1 万 語 あたりの 頻 度 1 言 う いる する する ある なる 行 く ある 思 う 言 う やる 来 る いる 思 う なる できる 来 る 見 る 分 かる 行 く 見 る しまう 違 う おる できる 考 える 入 る 持 つ 出 る 分 かる 聞 く 9.73 出 る 書 く 9.41 やる 知 る 8.77 行 う 考 える 7.39 知 る 取 る 7.31 入 る 5.69 注 1)BCCWJ における てる は UniDic では 助 動 詞 となっているため 除 外 した 注 2)BCCWJ のデータは Ninjal-LWP for BCCWJ Ver.1.10 を 使 用 したため BCCWJ のうち 約 6 千 万 語 分 のデータにおける 順 位 である 3.3 副 詞 の 高 頻 度 語 次 に 動 詞 と 同 様 BTSJ 話 し 言 葉 コーパスにおける 副 詞 の 高 頻 度 語 を BCCWJ と 比 較 する 形 で 示 す 次 頁 の 表 3に BTSJ 話 し 言 葉 コーパスにおける 高 頻 度 の 副 詞 上 位 20 と BCCWJ における 高 頻 度 の 動 詞 上 位 20 を それぞれ1 万 語 あたりの 頻 度 とともに 示 す 221

234 太 字 ゴシックの 語 は 当 該 コーパスでのみ 上 位 20 に 入 った 語 である 動 詞 の 結 果 とは 対 照 的 に BTSJ 話 し 言 葉 コーパスの 上 位 6 語 こそ BCCWJ においても 上 位 語 になっているが 7 位 以 下 の 14 語 のうち 12 語 までが BTSJ 話 し 言 葉 コーパスでのみ 上 位 に 入 った 語 とな っている 同 様 に BCCWJ でも 上 位 20 語 のうち 12 語 は BTSJ 話 し 言 葉 コーパスでは 上 位 20 に 入 っていない また 先 述 した 林 (1975)の 基 本 語 彙 の 中 には 副 詞 が 55 語 含 まれ ているが BTSJ 話 し 言 葉 コーパスにおける 高 頻 度 副 詞 20 のうち この 副 詞 55 語 に 含 ま れているのは もう やはり あまり まだ もし もっと いっぱい 例 えば の 8 語 のみであった 林 (1975)は 新 聞 の 語 彙 調 査 を 元 にしていることから 副 詞 の 基 本 語 彙 は 話 し 言 葉 と 書 き 言 葉 で かなり 異 なっていることがわかる これらの 結 果 から 副 詞 の 用 法 は 話 し 言 葉 と 書 き 言 葉 の 違 いを 特 徴 づける 語 群 の 一 つ であると 言 えるだろう 表 3 副 詞 の 高 頻 度 語 の 比 較 順 位 BTSJ 話 し 言 葉 コ ーパス 1 万 語 あたりの 頻 度 BCCWJ 1 万 語 あたりの 頻 度 1 そう そう もう どう ちょっと もう こう さらに やはり やはり どう まだ まあ よく 結 構 少 し あまり すぐ 多 分 まず 全 然 特 に まだ 8.52 まったく よく 6.69 ちょっと ずっと 5.12 すでに 色 々 5.08 こう なるほど 4.94 実 際 うんうん 4.80 ほとんど 例 えば 4.75 最 も 一 番 4.22 初 めて ちゃんと 3.78 もちろん 1.68 表 3から そう が 双 方 のコーパスで 1 位 であり やはり が BTSJ 話 し 言 葉 コーパ スで 6 位 BCCWJ で 5 位 であることなどから 一 見 両 コーパスで 同 様 の 傾 向 を 示 してい るように 見 える しかし 順 位 が 同 じでも 1 万 語 あたりの 頻 度 を 見 ると 話 し 言 葉 のほうが かなり 多 い また 用 例 に 目 を 通 すと そう は BTSJ 話 し 言 葉 コーパスでは ほとんど が あ そうなんだ そうそう そうですか のように 応 答 に 使 われているのに 対 して BCCWJ では 母 はそう 言 った のように 具 体 的 な 指 示 内 容 を 持 つ 用 法 が 多 いことがわかっ た また やはり の 音 形 に 着 目 すると BTSJ 話 し 言 葉 コーパスでは やはり (4%) やっぱり (61%) やっぱ (35%)であるのに 対 して BCCWJ では やはり (68%) やっぱり (28%) やっぱ (3%)となり 話 し 言 葉 と 書 き 言 葉 の 違 いが 顕 著 に 見 えて くる このように 話 し 言 葉 と 書 き 言 葉 の 特 徴 を 比 較 するためには 単 なる 順 位 や 頻 度 の 比 較 だけではなく 用 例 や 音 形 コロケーションなども 考 慮 に 入 れた 分 析 が 必 須 である 222

235 4. BTSJ による 日 本 語 話 し 言 葉 コーパス(トランスクリプト 音 声 )2011 年 版 を 用 い た 語 用 論 的 分 析 ここまでは BTSJ 話 し 言 葉 コーパスの 語 彙 的 特 性 の 概 観 を 定 量 的 観 点 から 示 した しか し 本 コーパスは 話 者 の 社 会 的 属 性 や 場 面 などが 統 制 されて 収 集 されていることが 最 大 の 特 徴 であり 特 定 の 場 面 やある 属 性 をもつ 話 者 のみを 取 り 出 して その 特 徴 や 言 語 使 用 の 分 析 を 行 うことのほうを 重 視 している この 点 は 様 々のジャンル 媒 体 文 体 等 のデ ータを 収 録 した 大 規 模 コーパスに 基 づいて データのジャンルや 属 性 の 違 いをあまり 考 慮 せずに 分 析 している 研 究 が 多 い 従 来 の コーパス 言 語 学 においては あまり 重 視 されて いない 点 である 本 節 では 語 用 論 的 分 析 の 一 つとして 話 者 の 属 性 ( 母 語 話 者 / 非 母 語 話 者 ) 話 者 同 士 の 関 係 ( 初 対 面 / 友 人 ) 場 面 ( 母 語 場 面 / 接 触 場 面 )を 統 制 した 形 で それぞれの 条 件 における 異 なり 語 数 と 発 話 文 末 の 丁 寧 体 率 ( 丁 寧 体 / 総 発 話 文 数 ) を 算 出 することによって それぞれの 状 況 や 話 者 の 属 性 による 語 彙 数 やスピーチレベルの 違 いを 明 らかにする 4.1 話 者 同 士 の 関 係 場 面 の 違 う 会 話 における 母 語 話 者 と 非 母 語 話 者 の 異 なり 語 数 の 比 較 ここでは 上 下 関 係 のない2 人 の 話 者 の 会 話 において 丁 寧 体 ( です ます )の 使 用 率 が 話 者 の 属 性 ( 母 語 話 者 / 非 母 語 話 者 ) 話 者 同 士 の 関 係 ( 初 対 面 / 友 人 ) 場 面 ( 母 語 場 面 / 接 触 場 面 )によって どのように 異 なるかを 分 析 する そのため BTSJ 話 し 言 葉 コーパス の 中 から これらの 条 件 に 相 当 する 会 話 を 選 び 出 し 母 語 場 面 初 対 面 母 語 場 面 友 人 接 触 場 面 初 対 面 接 触 場 面 友 人 の4つのグループに 分 け それぞ れの 会 話 の 発 話 内 容 のみを 取 り 出 し 茶 まめ(mecab+UniDic)で 形 態 素 解 析 を 行 った 母 語 話 者 同 士 の 会 話 である 母 語 場 面 初 対 面 と 母 語 場 面 友 人 は ファイル 内 のす べての 発 話 内 容 を 分 析 対 象 とし 母 語 話 者 と 非 母 語 話 者 の 会 話 である 接 触 場 面 初 対 面 と 接 触 場 面 友 人 では 非 母 語 話 者 の 発 話 だけを 抽 出 することによって 母 語 話 者 と 非 母 語 話 者 という 話 者 の 属 性 による 違 いを 分 析 した 以 下 の 表 4に 各 会 話 グループの 条 件 属 性 ごとの 話 者 数 を 示 す 表 4 各 会 話 グループの 条 件 属 性 ごとの 話 者 数 グループ 名 母 語 話 者 初 対 面 母 語 話 者 友 人 非 母 語 話 者 *1 初 対 面 非 母 語 話 者 *1 友 人 母 語 場 面 / 母 語 場 面 母 語 場 面 接 触 場 面 接 触 場 面 接 触 場 面 話 者 の 関 係 初 対 面 友 人 初 対 面 友 人 性 別 組 み 合 わせ 女 性 同 士 24 女 性 同 士 18 女 性 同 士 24 女 性 同 士 10 男 性 同 士 7 男 性 同 士 3 男 性 同 士 4 男 性 同 士 0 男 女 3 男 女 3 男 女 0 男 女 0 話 者 総 数 年 齢 20 代 54 *2 20 代 代 代 代 代 0 30 代 0 30 代 0 非 母 語 話 者 の 台 湾 24 台 湾 10 出 身 中 国 大 陸 4 中 国 大 陸 0 非 母 語 話 者 の 超 級 3 超 級 0 日 本 語 レベル 上 級 22 *3 上 級 10 中 級 3 中 級 0 *1 接 触 場 面 の 会 話 における 非 母 語 話 者 を 対 象 としている *2 10 代 後 半 の 数 名 を 含 む *3 うち4 名 は 中 国 大 陸 出 身 である 223

236 次 に 各 グループの 語 数 などの 基 本 情 報 を 表 5に 示 す グループ 名 母 語 話 者 初 対 面 表 5 各 会 話 グループの 語 数 母 語 話 者 友 人 非 母 語 話 者 * 初 対 面 非 母 語 話 者 * 友 人 延 べ 語 数 117, ,534 39,386 15,801 異 なり 語 数 4,002 4,391 2,113 1,572 Guiraud 値 * 接 触 場 面 における 非 母 語 話 者 の 発 話 のみを 分 析 対 象 としている 表 5において 語 彙 の 豊 富 さの 指 標 となる Guiraud 値 を 見 ると 全 体 的 には 母 語 話 者 のほうがやや 高 いが 母 語 話 者 の 初 対 面 会 話 よりも 非 母 語 話 者 の 友 人 場 面 のほうが Guiraud 値 が 高 くなっている また 母 語 話 者 非 母 語 話 者 ともに 初 対 面 会 話 より 友 人 との 会 話 のほうが 語 彙 使 用 の 幅 が 広 いということがわかる これらの 結 果 から 異 なり 語 数 については 母 語 話 者 非 母 語 話 者 の 違 いよりも 初 対 面 会 話 か 友 人 との 会 話 かと いう 場 面 による 違 いのほうが 大 きいということが 明 らかになった これは 初 対 面 会 話 で は 互 いの 自 己 紹 介 のように 話 題 が 画 一 的 なものになる 傾 向 があり( 宇 佐 美 嶺 田 1995) 用 いられる 語 彙 も 限 られたものになりがちであるということを 示 していると 言 えるだろう 4.2 話 者 同 士 の 関 係 場 面 の 違 う 会 話 における 母 語 話 者 と 非 母 語 話 者 の 丁 寧 体 率 の 比 較 日 本 語 における 対 人 コミュニケーションにおいては 相 手 や 場 面 に 応 じて 丁 寧 体 と 普 通 体 がどのように 使 い 分 けられるかということは 対 人 関 係 調 整 上 重 要 な 意 味 を 持 つ しかし 非 母 語 話 者 にとっては その 使 い 分 けこそが 困 難 であることが 指 摘 されている( 宇 佐 美 ) そこで ここでは 総 発 話 文 数 に 占 める 文 末 の 丁 寧 体 ( です ます ) の 割 合 を 丁 寧 体 率 と 呼 び 話 者 同 士 の 関 係 場 面 の 違 う 会 話 における 母 語 話 者 と 非 母 語 話 者 の 丁 寧 体 率 を 比 較 する まず です ます それぞれの 頻 度 と 総 発 話 文 数 に 占 め る 割 合 を 以 下 の 表 6に 示 す また です ます を 合 わせた 丁 寧 体 の 頻 度 とそれが 総 発 話 文 数 に 占 める 割 合 である 丁 寧 体 率 を 次 頁 の 表 7に 示 す また 丁 寧 体 率 は 次 頁 の 図 2にも 示 した 表 6 話 者 同 士 の 関 係 場 面 の 違 う 会 話 における 母 語 話 者 と 非 母 語 話 者 の です ます の 頻 度 と 割 合 の 比 較 グループ 名 母 語 話 者 初 対 面 母 語 話 者 友 人 非 母 語 話 者 *1 初 対 面 非 母 語 話 者 *1 友 人 丁 寧 体 の 頻 度 です 4,497 (31.6%) です 518 (4.1%) です 917 (16.6%) です 61 (3.1%) ( 割 合 ) ます 958 (6.7%) ます 136 (1.1%) ます 511 (9.2%) ます 21 (1.1%) その 他 8,366 (61.6%) その 他 12,121 (94.9%) その 他 4,108 (74.2%) その 他 1,894 (95.9%) 総 発 話 文 数 14,221(100%) 12,775(100%) 5,536(100%) 1,976(100%) * 1 接 触 場 面 における 非 母 語 話 者 の 発 話 のみを 対 象 としている * 2 丁 寧 体 数 の 欄 の 括 弧 内 は 発 話 文 数 に 対 する 割 合 である 表 6を 見 ると 友 人 との 会 話 における です ます の 総 発 話 文 数 に 占 める 割 合 は 母 語 話 者 と 非 母 語 話 者 でほとんど 差 がなく ともに5% 以 下 と 低 いことがわかる (χ 2 検 定 224

237 の 結 果 5% 水 準 で 有 意 差 なし) 一 方 初 対 面 会 話 を 見 ると 母 語 話 者 の です が 総 発 話 文 数 に 占 める 割 合 は 31.6%と 高 く 非 母 語 話 者 の 約 2 倍 にのぼる (χ 2 検 定 の 結 果 母 語 話 者 と 非 母 語 話 者 の 間 に 1% 水 準 で 有 意 差 が 見 られた ) 逆 に 非 母 語 話 者 は ます の 使 用 率 が 9.2%と 母 語 話 者 よりも 高 くなっている (χ 2 検 定 の 結 果 1% 水 準 で 有 意 差 が 見 られ た )すなわち 非 母 語 話 者 の 方 が ます を 相 対 的 に 多 く 用 いていることが 明 らかになっ た このことは 母 語 話 者 が 行 くんですか? というところを 非 母 語 話 者 は 行 き ますか? と 言 いがちであるというような 報 告 等 を 支 持 しているように 思 われる 次 に です ます の 頻 度 を 合 わせた 丁 寧 体 率 について 述 べる 表 7 を 見 るとわ かるように 母 語 話 者 も 非 母 語 話 者 も 友 人 との 会 話 より 初 対 面 会 話 で 丁 寧 体 を 多 く 使 っていることがわかる 友 人 同 士 の 会 話 の 丁 寧 体 率 は 母 語 話 者 非 母 語 話 者 ともに 約 5% と 低 いことでほぼ 同 様 の 傾 向 を 見 せる 友 人 同 士 の 会 話 においては χ 2 検 定 を 行 った 結 果 母 語 話 者 と 非 母 語 話 者 の 間 に 5% 水 準 で 有 意 差 は 見 られなかった しかし 初 対 面 会 話 を 比 較 してみると 母 語 話 者 が 約 40%の 丁 寧 体 率 であるのに 対 して 非 母 語 話 者 の 丁 寧 体 率 は 約 25%と 低 く χ 2 検 定 を 行 った 結 果 1% 水 準 で 有 意 差 が 見 られた つまり 友 人 同 士 の 会 話 においては 母 語 話 者 と 非 母 語 話 者 の 丁 寧 体 の 使 用 に 差 はない が 初 対 面 の 会 話 においては 丁 寧 体 の 使 用 の 違 いが 顕 著 であるということである 日 本 語 において 初 対 面 会 話 における 丁 寧 体 の 適 切 な 使 用 は 失 礼 のない 円 滑 なコミュニ ケーションのために 重 要 な 要 素 の 一 つである 非 母 語 話 者 の 丁 寧 体 率 が 母 語 話 者 より 有 意 に 低 いということは 語 用 論 的 に 適 切 でない 発 話 もありうる 恐 れもある その 点 につい ては 別 途 定 性 的 分 析 と 合 わせて 考 察 する 必 要 がある 表 7 話 者 同 士 の 関 係 場 面 の 違 う 会 話 における 母 語 話 者 と 非 母 語 話 者 の 丁 寧 体 率 の 比 較 グループ 名 母 語 話 者 初 対 面 母 語 話 者 友 人 非 母 語 話 者 * 初 対 面 非 母 語 話 者 * 友 人 丁 寧 体 数 5, , 発 話 文 数 14,221 12,775 5,536 1,976 丁 寧 体 率 38.4% 5.1% 25.8% 4.1% * 接 触 場 面 における 非 母 語 話 者 の 発 話 のみを 対 象 としている 図 2 各 会 話 グループの 丁 寧 体 率 5.まとめ 本 稿 では BTSJ による 日 本 語 話 し 言 葉 コーパス(トランスクリプト 音 声 )2011 年 版 の 設 計 の 趣 旨 と 特 性 を 紹 介 するとともに 本 コーパスにおける 動 詞 と 副 詞 の 高 頻 度 語 を 225

238 BCCWJ と 比 較 した また 話 者 同 士 の 関 係 場 面 の 違 う 会 話 における 母 語 話 者 と 非 母 語 話 者 の 発 話 の 異 なり 語 数 と 丁 寧 体 率 の 違 いを 明 らかにした BTSJ 話 し 言 葉 コーパス の 会 話 は 諸 条 件 を 統 制 して 収 集 し 相 互 作 用 研 究 に 必 須 である 発 話 の 重 なりや 沈 黙 など が BTSJ のルールによってきめ 細 かく 記 述 され さらに 各 会 話 参 加 者 の 社 会 的 属 性 の 情 報 がコーパス 利 用 者 の 利 便 を 考 慮 し エクセルファイルにまとめられていることが 特 徴 であ る 総 合 的 会 話 分 析 ( 宇 佐 美 2008)という 方 法 論 では BTSJ 話 し 言 葉 コーパス のこ れらの 特 徴 を 活 かして 本 来 は ここに 示 した 定 量 的 分 析 の 中 身 を 定 性 的 分 析 に よってより 詳 細 に 分 析 例 示 しながら 考 察 することをもって 一 研 究 と 捉 えることを 主 旨 としている 定 量 的 定 性 的 双 方 の 分 析 を 行 って 初 めて 総 合 的 会 話 分 析 と 言 え その 目 的 である 人 間 の 相 互 作 用 のメカニズムの 解 明 に 貢 献 することができると 考 えるから である ただ 今 回 は BTSJ 話 し 言 葉 コーパス の 設 計 と 特 性 について 概 要 を 紹 介 するの が 主 旨 であった 本 コーパスを 用 いた 本 格 的 な 語 用 論 的 対 人 コミュニケーション 的 分 析 については 今 後 稿 を 改 めて 発 表 していく 謝 辞 本 研 究 は 科 学 研 究 費 補 助 金 基 盤 研 究 (A) 自 然 会 話 リソースバンク 構 築 による 世 界 的 教 材 共 有 ネットワーク 実 現 のための 総 合 的 研 究 ( 平 成 23 年 度 ~ 平 成 26 年 度 研 究 代 表 者 : 宇 佐 美 まゆみ)による 補 助 を 得 ている 記 して 感 謝 したい 文 献 宇 佐 美 まゆみ(1995) 談 話 レベルから 見 た 敬 語 使 用 : スピーチレベルシフト 生 起 の 条 件 と 機 能 学 苑 662 pp 昭 和 女 子 大 学 近 代 文 化 研 究 所 宇 佐 美 まゆみ 嶺 田 明 美 (1995) 対 話 相 手 に 応 じた 話 題 導 入 の 仕 方 とその 展 開 パターン: 初 対 面 二 者 間 の 会 話 分 析 より 名 古 屋 学 院 大 学 日 本 語 学 日 本 語 教 育 論 集 2 pp 名 古 屋 学 院 大 学 留 学 生 別 科 ( 日 本 研 究 プログラム). 宇 佐 美 まゆみ(1999) 談 話 の 定 量 的 分 析 - 言 語 社 会 心 理 学 的 アプローチ- 日 本 語 学 18:11 pp 明 治 書 院. 宇 佐 美 まゆみ(2001) ディスコース ポライトネス という 観 点 から 見 た 敬 語 使 用 の 機 能 - 敬 語 使 用 の 新 しい 捉 え 方 がポライトネスの 談 話 理 論 に 示 唆 すること- 語 学 研 究 所 論 集 6 pp.1-29 東 京 外 国 語 大 学 語 学 研 究 所 宇 佐 美 まゆみ(2008) 相 互 作 用 と 学 習 ディスコース ポライトネス 理 論 の 観 点 から 講 座 社 会 言 語 科 学 第 4 巻 教 育 学 習 pp ひつじ 書 房. 宇 佐 美 まゆみ(2011) 基 本 的 な 文 字 化 の 原 則 (Basic Transcription System for Japanese: BTSJ)2011 年 版 林 四 郎 (1975) 第 二 章 基 本 語 彙 はきめられるか 新 日 本 語 講 座 1 現 代 日 本 語 の 単 語 と 文 字 pp 汐 文 社. 関 連 URL 宇 佐 美 まゆみ 研 究 室 宇 佐 美 まゆみ 監 修 (2011) BTSJ による 日 本 語 話 し 言 葉 コーパス(トランスクリプト 音 声 ) 2011 年 版 について 宇 佐 美 まゆみ(2012) BTSJ 活 用 方 法 講 習 会 の 趣 旨 226

239 付 表 BTSJ による 日 本 語 話 し 言 葉 コーパス(トランスクリプト 音 声 )2011 年 版 に 収 録 されている 会 話 グループとその 概 要 会 話 グループ 番 号 と 会 話 の 音 声 データの 特 徴 データ 数 総 分 数 会 話 グループ 名 通 し 番 号 付 き 1 親 しい 同 性 友 人 同 士 ( 男 女 )の 雑 談 1-19 同 性 の 友 人 同 士 の 会 話 19 会 話 444 分 24 秒 2 初 対 面 と 友 人 同 士 の 女 性 の 雑 談 女 性 の 親 しい 友 人 同 士 と 初 対 面 の 会 話 23 会 話 482 分 5 秒 3 論 文 指 導 教 師 と 学 生 の 面 談 の 会 話 10 会 話 311 分 女 性 同 士 の 断 りの 電 話 会 話 同 性 同 士 男 女 の 依 頼 を 含 む 電 話 会 話 友 人 同 士 の 女 性 の 雑 談 OPI インタビュー 韓 国 人 学 習 者 ( 中 級 ) と 日 本 人 の 初 対 面 雑 談 台 湾 人 学 習 者 ( 上 級 ) と 日 本 人 の 初 対 面 雑 談 台 湾 人 学 習 者 ( 上 級 ) と 日 本 人 の 友 人 の 雑 談 初 対 面 女 性 ベース 雑 談 ( 接 触 母 語 )その 1 初 対 面 女 性 ベース 雑 談 ( 接 触 母 語 )その 2 初 対 面 男 性 ベース 雑 談 ( 性 差 年 齢 差 ) 初 対 面 同 性 同 士 雑 談 ( 男 女 ) ある 学 生 ( 女 性 )をベースに 電 話 で 先 輩 同 輩 後 輩 に 依 頼 の 電 話 をかけた 会 話 39 会 話 同 性 の 友 人 同 士 の 会 話 20 会 話 女 性 の 友 人 同 士 の 会 話 5 会 話 友 人 同 士 女 性 雑 談 OPI インタビュー 形 式 に 基 づ く フランス 語 母 語 話 者 の 縦 断 データ 韓 国 人 日 本 語 学 習 者 の 接 触 場 面 データ 台 湾 人 日 本 語 学 習 者 の 接 触 場 面 データ 台 湾 人 日 本 語 学 習 者 の 接 触 場 面 データ 20 代 前 半 の 日 本 人 女 性 ( 学 生 )が 対 同 世 代 の 日 本 人 女 性 対 日 本 語 中 級 話 者 対 日 本 語 超 級 話 者 と 3 通 りの 会 話 を 行 っている 20 代 前 半 の 日 本 人 女 性 ( 学 生 )が 対 同 世 代 の 日 本 人 女 性 対 日 本 語 初 級 話 者 対 日 本 語 上 級 話 者 と 3 通 りの 会 話 を 行 っている 35 歳 男 性 が 年 上 (45 歳 ) 同 等 (35 歳 ) 年 下 (25 歳 )の 話 者 ( 男 / 女 )と 6 通 りの 会 話 を 行 っ ている 20 代 前 半 大 学 生 大 学 院 生 初 対 面 の 雑 談 20 代 女 性 学 生 親 しい 友 人 同 士 の 雑 談 78 分 35 秒 53 分 02 秒 91 分 55 秒 4 会 話 40 分 9 会 話 249 分 12 会 話 10 会 話 9 会 話 12 会 話 18 会 話 16 会 話 3 会 話 234 分 20 秒 173 分 51 秒 159 分 32 秒 120 分 11 秒 295 分 39 秒 272 分 18 秒 63 分 37 秒 227

240 16 友 人 同 士 男 女 ( 雑 談 討 論 ) 代 後 半 ~20 代 大 学 生 友 人 同 士 の 会 話 ベース 話 者 ( 男 女 同 数 )が 同 性 / 異 性 の 友 人 との 雑 談 / 討 論 という 4 通 り の 会 話 を 行 っている 20 代 -30 代 学 生 友 人 同 士 の 討 論 20 代 女 性 大 学 生 大 学 院 生 初 対 面 の 討 論 20 代 大 学 生 友 人 同 士 話 者 の 一 方 が 協 力 者 である 協 力 者 が 気 軽 に 行 うこと を 誘 うよ うに 依 頼 した 日 本 語 母 語 話 者 同 士 の 会 話 と 日 本 語 母 語 話 者 と 日 本 語 学 習 者 の 会 話 2 人 の 話 者 が 負 担 度 の 軽 い 場 合 と 重 い 場 合 の 2 つの 謝 罪 場 面 についてロールプレイを 行 っている 24 会 話 401 分 16 秒 17 友 人 同 士 男 女 間 討 論 会 話 88 分 16 秒 44 分 33 秒 18 初 対 面 女 性 討 論 会 話 19 友 人 同 士 女 性 誘 い 会 話 172 分 53 秒 20 初 対 面 女 性 雑 談 ( 母 語 接 触 ) 会 話 186 分 20 秒 21 謝 罪 の 会 話 会 話 78 分 52 秒 計 294 会 話 4041 分 39 秒 ( 約 67 時 間 ) データ 提 供 者 は 下 記 の 通 り (50 音 順 ) 李 恩 美 伊 集 院 郁 子 宇 佐 美 まゆみ カチマレク ミロスワバ 北 見 奈 津 子 木 林 理 恵 金 銀 美 木 山 幸 子 黄 瓊 芸 施 信 余 鄭 賢 児 関 崎 博 紀 蘇 玉 萍 高 森 絵 美 張 鈞 竹 鄭 榮 美 藤 田 朋 世 松 本 剛 次 松 本 紫 帆 宮 武 かおり 林 君 玲 228

241 百 億 語 のコーパスを 用 いた 日 本 語 の 語 彙 文 法 情 報 のプロファイリング スルダノヴィッチ イレーナ( 国 立 国 語 研 究 所 リュブリャーナ 大 学 ) スホメル ヴィット(マサリック 大 学 言 語 処 理 センター) 小 木 曽 智 信 ( 国 立 国 語 研 究 所 ) キルガリフ アダム(レクシカルコンピューティング リーズ 大 学 ) Japanese Language Lexical and Grammatical Profiling Using the Web Corpus JpTenTen Irena Srdanović (National Institute for Japanese Language and Linguistics/University of Ljubljana), Vit Suchomel (Natural Language Processing Centre, Masaryk University) Toshinobu Ogiso (National Institute for Japanese Language and Linguistics) Adam Kilgarriff (Lexical Computing Ltd./Leeds University) 1.はじめに 近 年 一 億 語 を 超 えた 大 規 模 な 現 代 日 本 語 書 き 言 葉 均 衡 コーパスが 完 成 し その 大 きな プロジェクトの 成 果 として 新 しいアノテーションツール 電 子 化 辞 書 コーパス 検 索 ツー ルなどの 日 本 学 以 外 の 様 々な 分 野 に 応 用 できるリソースが 作 成 されてきた 次 の 段 階 とし て コーパス 量 を 増 やす 必 要 性 が 明 らかになり 今 までのデータでは 十 分 把 握 できず 抽 出 できなかった 言 語 的 情 報 を 得 るために 超 大 規 模 なウェブコーパス 構 築 が 始 まった こう した 中 様 々な 言 語 でウェブコーパス 作 成 の 重 要 性 が 認 識 されてきて 多 言 語 のための TenTen と 呼 ばれるウェブコーパス 群 の 構 築 が 行 われている 本 論 文 において まず 新 たに 作 成 された JpTenTen という 日 本 語 の 100 億 語 の 超 大 規 模 なウェブコーパスを 紹 介 する こ のコーパスは SpiderLing(Pomikalek and Suchomel 2012)などのツールでデータをクロール し クリーニングを 行 った 上 で MeCab と UniDic2 ( 小 木 曽 ら 2011)で 形 態 素 解 析 し 短 単 位 と 長 単 位 アノテーションを 付 与 した コーパスは Sketch Engine というレクシカルプロフ ァイリングツール(Kilgarriff ら 2004)に 搭 載 した このツールは 既 に 4 億 語 の 日 本 語 コー パス JpWaC を 基 にした 語 彙 文 法 プロファイリングを 可 能 にしているが(Srdanović ら 2008) 本 研 究 によって 新 たに 可 能 になった 成 果 は 以 下 の 通 りである 超 大 規 模 なコーパスを 構 築 し スケッチエンジンツールに 載 せた その 結 果 今 までできなかった 言 葉 の 組 み 合 わせなどの 言 語 情 報 を 取 り 出 せるようになった 長 単 位 と 短 単 位 のアノテーションを 利 用 したことで 以 前 より 統 一 された 短 単 位 のデータと 以 前 には 存 在 しなかった 長 単 位 のデータが 利 用 可 能 になった 品 詞 タグだけでなく UniDic の 活 用 形 および 活 用 型 等 の 英 訳 アノテーションを 利 用 し 以 前 にはなかった 活 用 形 に 関 する 詳 細 な 情 報 を 取 り 出 せるようになった 文 法 関 係 ファイル のデータを 更 に 整 備 し 今 まで 取 り 出 せなかった 語 と 語 の 組 み 合 わせおよびその 振 る 舞 いの 情 報 が 抽 出 できるようになった 以 上 の 外 に 2 語 以 上 の 共 起 抽 出 などの 新 しく 開 発 した 機 能 により 以 前 にはできなか った 情 報 習 得 および 表 示 ができるようになってきた 本 論 文 では 第 2 章 においてコーパスの 構 築 を 紹 介 した 上 で 第 3 章 においてコーパス のアノテーションおよび 短 単 位 と 長 単 位 の 語 彙 プロファイリングのメリットについて 述 べ る 第 4 章 は 新 しい 文 法 関 係 ファイル によって 抽 出 できるようになった 語 彙 文 法 情 報 を 紹 介 し 第 5 章 では 具 体 的 な 例 を 取 り 出 し 百 億 語 の 日 本 語 のコーパスからどの ような 言 語 的 情 報 が 得 られるかについて 述 べる irena.srdanovic@ff.uni-lj.si 229

242 2.TenTen コーパス 群 と JpTenTen コーパス 構 築 近 年 ウェブデータを 用 いたコーパス 構 築 のメリットが 認 識 され それに 関 する 研 究 が 増 加 してきた 最 初 の 日 本 語 大 規 模 ウェブコーパス JpWaC は Baroni and Kilgarriff (2006) Sharoff(2006)が 提 案 した 方 法 を 利 用 し WaC 群 の 一 つとして 開 発 されたものである (Srdanović ら 2008) 近 年 Corpus Factory (コーパスファクトリ)(Kilgarriff 2010)とい うプロジェクトの 枠 組 みで ( 百 億 語 )の TenTen という 新 しいウェブコーパス 群 の 開 発 が 始 まり さまざまな 言 語 のコーパスが 構 築 された TenTen 群 の 一 つとして 日 本 語 超 大 規 模 コーパス JpTenTen が 2011 年 に 作 成 された(Pomikalek and Suchomel 2012) 正 式 な 名 前 は JpTenTen11 1 である JpTenTen は 以 下 の 手 順 で 構 築 された (1) 日 本 語 の 言 語 モデル 作 成 日 本 語 のウィキペディアからデータを 利 用 し モデ ル 学 習 を 行 った 約 1000 ページの 日 本 語 ウェブページをさまざまなエンコーデ ィングで 取 得 した (Kilgarriff 2010) (2) 言 語 コーパス 作 成 用 の SpiderLing クローラー(Pomikalek and Suchomel 2012)に よって 前 述 したモデルを 利 用 し 日 本 語 のウェブページをクロールした (3) JusText を 利 用 し(Pomikalek 2011) 文 にあるテクストだけ ( text in sentences only)を 収 集 し それ 以 外 のテクストではないデータおよび ボイラープレート (boilerplate)を 削 除 した (4) オニオン というツールで 段 落 レベルの 情 報 で 重 複 したデータを 削 除 した (de-duplicate)( Pomikalek 2011) (5) 形 態 素 解 析 ツール MeCab 0.98 および 電 子 化 辞 書 UniDic を 利 用 し 全 体 の コーパスを 処 理 し アノテーションを 付 加 した( 小 木 曽 ら 2011) その 際 UniDic の 品 詞 活 用 形 活 用 型 のマッピングを 行 い 英 訳 のタグセットを 作 成 した (6) Comainu 0.60 を 利 用 し UniDic の 長 単 位 の 処 理 およびアノテーションを 行 った このステップは 時 間 を 要 するため 現 時 点 では 作 業 中 であり サンプルコーパス が 完 成 しているところである (7) 以 前 作 成 した 日 本 語 の 文 法 関 係 ファイル を 基 にして(Srdanović ら 2008 ス ルダノヴィッチ 仁 科 2008) UniDic の 英 訳 タグセットと 正 規 表 現 を 利 用 し 新 しい 日 本 語 の 文 法 関 係 ファイル を 作 成 した (8) データの 記 号 化 (encoding)とワードスケッチのコンパイルは Sketch Engine (Kilgarriff 2004)が 利 用 している Manatee というシステムで 行 った UniDic の 短 単 位 でタグされた JpTenTen は 10,321,875,665 語 のデータである 15,553,207 のウェブページ 734,758 のドメインからのものである 高 頻 度 のドメインは 28,474 のウェ ブページからなっており 一 つのウェブページからなるドメイン 数 は 224,293 である 表 1 は コーパスにあるトップ 頻 度 の5つのドメインを 示 す 表 1 コーパスにあるトップ 頻 度 の5ドメインおよび ドメインごとのウェブページ 割 合 ドメイン Com jp net info Other ページ 割 合 50% 32% 9% 5% 4% 1 Jp は 日 本 語 を 指 す 2 文 字 のコードである(ISO pcode) 数 年 後 更 新 するモニターコーパス として 計 画 されているため 11 は 2011 年 にウェブから 得 られたデータのことを 示 す 230

243 3.UniDic 短 単 位 と 長 単 位 アノテーションを 付 加 した JpTenTen 日 本 語 は 単 語 の 分 かち 書 きがなされず 多 様 な 表 記 法 を 持 つため 日 本 語 のコーパスにと って 単 語 情 報 ( 形 態 論 情 報 )のアノテーションは 重 要 である 特 に 単 語 の 区 切 り 方 をど うするのか 多 様 な 表 記 をどのようにまとめ 上 げるのか という 点 は 大 きな 問 題 となる JpWaC コーパスでは 従 来 ChaSen 標 準 の 辞 書 である IPADIC を 利 用 してきたが この 辞 書 では 単 語 の 区 切 り 方 の 揺 れや 表 記 のまとめ 上 げなどは 言 語 の 研 究 にとって 十 分 であ るとは 言 えない 点 があった たとえば 区 切 り 方 の 面 では 株 式 会 社 が 1 語 である 一 方 で 有 限 / 会 社 合 資 / 会 社 は 2 語 に 分 割 されるような 揺 れがあった また 表 記 の 面 で は ネギ ねぎ 葱 を 見 出 し 語 として 一 つにまとめ 上 げることができなかった( 読 み としてはまとめられるが そうすると 禰 宜 と 区 別 されない) 今 回 JpTenTen では UniDic を 利 用 することによってこうした 問 題 に 対 処 した UniDic は BCCWJ の 開 発 にあたって 整 備 された 形 態 素 解 析 辞 書 で このような 問 題 を 解 決 するこ とができる UniDic は 短 単 位 と 呼 ばれる 厳 密 な 規 定 によって 単 語 の 区 切 り 方 が 定 められ ており 揺 れが 少 ない 斉 一 な 単 位 による 解 析 が 可 能 になっている( 小 椋 ら 2011) また 語 彙 素 語 形 書 字 形 発 音 形 という 見 出 し 語 の 階 層 構 造 を 持 っており 利 用 者 が 必 要 に 応 じて 見 出 し 語 のレベルを 選 択 して 利 用 することができる( 伝 ら 2007) たとえば 表 記 そ のものに 関 心 があるのであれば 書 字 形 を 語 形 の 差 異 に 関 心 があるのであれば 語 形 を 辞 書 見 出 し(lemma)のレベルでまとめ 上 げたいのであれば 語 彙 素 を 利 用 すればよ い UniDic では 前 述 の 株 式 会 社 は 規 程 に 従 って 他 と 同 様 に 株 式 / 会 社 と 2 語 に 分 割 され ネギ ねぎ 葱 には 共 通 して 語 彙 素 葱 語 彙 素 読 み ネギ の 情 報 が 付 与 される さらに 新 しい JpTenTen では BCCWJ と 同 様 に 長 単 位 による 解 析 も 行 い 短 単 位 と 長 単 位 の 両 方 で 利 用 することを 可 能 にした 長 単 位 とは 文 節 を 基 準 とした 語 の 単 位 で まず 文 節 を 区 切 りとし さらに 文 節 のうちの 付 属 語 を 切 り 出 したサイズになる ま た 短 単 位 で 分 割 される 漢 語 サ 変 動 詞 や 一 部 の 複 合 辞 は 1 長 単 位 となる 次 の 例 は 同 じ 文 を 短 単 位 と 長 単 位 で 分 割 した 例 である 短 単 位 : 私 /は/ 国 立 / 国 語 / 研 究 / 所 /で/ 日 本 / 語 /を/ 研 究 /し/て/いる/ 長 単 位 : 私 /は/ 国 立 国 語 研 究 所 /で/ 日 本 語 /を/ 研 究 し/ている/ 短 単 位 が 辞 書 の 見 出 しとしてあらかじめリストアップされたかなり 短 い 単 位 であるのに 対 し 長 単 位 は 実 際 にコーパスに 出 現 する 形 に 基 づいて 作 られる 比 較 的 長 い 単 位 である ただし 多 くの 事 例 では 短 単 位 と 長 単 位 は 一 致 する 長 単 位 は 長 単 位 解 析 器 Comainu に より UniDic を 使 って 行 われた 形 態 素 解 析 結 果 である 短 単 位 を 組 み 上 げる 形 で 作 成 される ( 小 澤 ら 2011) JpTenTen に 利 用 した UniDic の 品 詞 活 用 形 活 用 型 は 英 訳 した 上 でコーパスに 載 せた 品 詞 マッピングの 例 を 表 2に 示 す 表 2 UniDic の 品 詞 マッピング 品 詞 品 詞 ( 英 訳 ) 記 述 代 名 詞 Pron pronoun 副 詞 Adv adverb 助 動 詞 Aux auxiliary_verb 助 詞 - 係 助 詞 P.bind particle(binding) 助 詞 - 副 助 詞 P.adv particle(adverbial) 231

244 4.スケッチエンジンに 載 せた JpTenTen 4.1 コンコーダンス JpTenTen コーパスをスケッチエンジンに 搭 載 することにより ツールのウェブページか らアクセスができ 標 準 的 なコンコーダンスとしての 機 能 が 利 用 できる コンコーダンス は 語 彙 素 語 句 単 語 文 字 および CQL 機 能 (Corpus Query Language コーパス 検 索 言 語 )で 正 規 表 現 とデフォルト 属 性 を 基 にした 共 起 文 法 的 パターンなどの 項 目 の 検 索 方 法 が 指 定 できる ここは UniDic の 短 単 位 と 長 単 位 で 分 析 されている 語 彙 素 で 検 索 ができる 図 1は コンコーダンスにあるデフォルト 属 性 の 選 択 肢 を 示 している 以 前 は 単 語 (word) 語 彙 素 (lemma) タグ(tag)での 検 索 だけが 可 能 だったが 現 在 は 活 用 形 (infl_form) 活 用 型 (infl_type)また 語 彙 素 読 み(lemma_kana)で 言 語 的 情 報 の 検 索 ができるようになった 図 1 コンコーダンスにあるデフォルト 属 性 の 選 択 肢 図 2は コンコーダンスで 可 能 な 表 示 の 例 を 示 している キーワードだけのアノテー ションを 表 示 するか 周 りの 単 位 のアノテーションも 表 示 するか またどのアノテーション タイプを 表 示 するかを 選 択 できる 図 の 例 は 上 から 順 に (1)キーワードの 語 彙 素 (2)キー ワードの 語 彙 素 と 品 詞 (3)キーワードの 単 語 語 彙 素 読 み 方 品 詞 活 用 型 活 用 形 (4)キーワードとコンテクストの 語 彙 素 と 品 詞 を 表 示 したものである 図 2 コンコーダンスにある 可 能 な 表 示 4.2 文 法 関 係 ファイルとワードスケッチ 日 本 語 の 文 法 関 係 ファイル において 語 彙 文 法 的 関 係 を 決 定 した 結 果 コンコーダ ンスだけでなく キーワードの 語 彙 文 法 的 プロファイリング キーワードのシソーラス 類 似 した 語 の 差 異 と 共 通 点 などをウェブ 上 で1ページにまとめた 言 語 的 情 報 が 見 られる 日 本 語 のための 文 法 関 係 ファイル は 2007 年 に 初 めて 作 成 された(Srdanović ら 2008) ファイルの 作 成 においては Gahl(1998)によって 提 案 された corpus query syntax (コーパ ス 検 索 シンタクス) を 実 装 し 主 に 品 詞 と 正 規 表 現 を 利 用 した 日 本 語 の 語 彙 文 法 的 規 則 を 作 成 するにあたって 日 本 語 の 動 詞 名 詞 形 容 詞 副 詞 接 尾 辞 接 頭 辞 助 動 詞 232

245 などの 単 位 をカバーし それぞれの 品 詞 がどのような 語 と 語 で 組 み 合 わされ どのような パターンで 現 れるかをさまざまな 言 語 的 データから 簡 単 に 抽 出 観 察 できるようになった 本 研 究 では 既 存 の 文 法 関 係 ファイル を 様 々な 面 で 整 備 更 新 した 内 容 を 以 下 に まとめる 2 (1) 第 3 章 に 説 明 した MeCab-UniDic の 短 単 位 と 長 単 位 のアノテーションを 採 用 するた め 文 法 関 係 ファイル に 以 前 利 用 した ChaSen IPADIC のタグから MeCab-UniDic へのタグマッピングを 行 った (2) 品 詞 だけでなく 新 たに 活 用 型 活 用 形 に 基 づいて 正 規 表 現 で 語 彙 文 法 パターン を 作 成 した (3) 以 前 はカバーされなかった 文 法 関 係 を 新 しく 作 成 した それぞれの 改 善 点 は 以 下 の 文 法 関 係 ファイル のパターンの 例 または 図 1と 図 2 のワードスケッチの 例 に 見 られる *DUAL 3 =modifier_ai_cont/modifies_n+する 2:[tag="Ai.*" & word!="なく 無 く" & infl_form="cont.*"] [tag="pref"]? 1:[tag="N.c.vs"] 語 彙 文 法 関 係 は 主 に 2 項 (dual) 関 係 タイプとして 設 定 する たとえば 以 上 の 例 は 名 詞 普 通 名 詞 サ 変 可 能 (tag="n.c.vs")を 検 索 すると それを 修 飾 する 連 用 形 の 活 用 形 (infl_form="cont.*")にある 形 容 詞 が 現 れる(tag="Ai.*") また 形 容 詞 をキーワードにして 検 索 すると それに 呼 応 する 名 詞 普 通 名 詞 サ 変 可 能 の 例 が 現 れる このパターン(い わゆる 文 法 関 係 )に modifier_ai_cont/modifies_n+する という 名 前 を 付 けた 以 上 に 利 用 した 省 略 の 説 明 は 以 下 のとおりである tag="n.c.vs"- noun.common.verb_suru の 品 詞 省 略 infl_form="cont.*"continuous_ren yo の 活 用 形 省 略 tag="ai.*" adjective i の 品 詞 省 略 このパターンの 内 容 には 前 述 した(1)のタグマッピングの 結 果 の 例 (2)の 活 用 形 の 利 用 (3) 新 しく 作 成 した 文 法 関 係 の 例 を 含 んでいる 図 3は 以 上 のパターンを 利 用 したワードスケッチの 例 を 示 す たとえば 結 婚 という サ 変 名 詞 がどのような 連 用 形 の 形 容 詞 と 結 びつくかを 検 索 した 結 果 である( 例 えば めで たく 結 婚 する 早 く 結 婚 する 仕 方 無 く 結 婚 するなど)( 図 3の1 欄 目 ) また 素 晴 らし い という 形 容 詞 が 連 用 形 の 活 用 形 の 場 合 どのサ 変 名 詞 と 結 びつくかを 示 した 結 果 であ る( 例 えば 素 晴 らしく 洗 練 する 素 晴 らしく 感 動 する 素 晴 らしく 調 和 する 素 晴 らし く 充 実 するなど)( 図 3の2 欄 目 ) 検 索 した 結 果 は 短 単 位 であり する は 別 の 単 位 と 扱 われているため 結 果 にはサ 変 名 詞 だけが 表 示 される 一 方 図 3の3 欄 目 は UniDic の 長 単 位 で 検 索 し 結 婚 する を 一 つの 単 位 として 扱 った 例 である JpTenTen サンプルコーパスから 取 り 出 した 結 果 なので 高 頻 度 の 組 み 合 わせの めでたく 結 婚 する 早 く 結 婚 する だけが 表 示 されているが 長 単 位 のキーワードで 検 索 できるメリットがある 全 体 のコーパスが 利 用 可 能 になると 抽 出 できる 結 果 が 増 加 する 図 3のそれぞれのの 欄 に 表 示 されている 数 字 は 1 列 目 がコーパスの 中 の 共 起 頻 度 を 示 し 2 列 目 がその 共 起 の 統 計 的 な 重 要 度 (salience)を 示 している 4 2 以 前 のデータの 評 価 および 問 題 点 について Srdanović ら(2011) Kilgarriff ら( 2010)を 参 考 されたい 3 語 彙 文 法 関 係 の 2 項 (dual)などの 設 定 について 詳 細 は Srdanović(2008)らを 参 考 されたい 4 1 列 目 の 数 字 をクリックすると コーパス 中 にあるキーワードとそれぞれの 共 起 語 が 含 まれる 例 文 がコン 233

246 図 3 結 婚 + 形 容 詞 連 用 形 および 素 晴 らしい+ 名 詞 普 通 名 詞 サ 変 可 能 の ワードスケッチの 例 (JpTenTen,UniDic2 短 単 位 ) また 結 婚 する+ 形 容 詞 連 用 形 のワー ドスケッチの 例 (JpTenTen のサンプル,UniDic2 長 単 位 ) 以 上 の 例 は 前 述 した 長 単 位 による 情 報 抽 出 のメリットを 示 すもので 以 前 には 抽 出 で きなかった サ 変 名 詞 +する の 組 み 合 わせパターン および 活 用 形 のタグを 用 いた 抽 出 の 例 である 5.JpTenTen を 用 いた 語 彙 文 法 情 報 のプロファイリング 本 章 では 百 億 語 の JpTenTen コーパスから 取 り 出 せる 語 彙 文 法 情 報 プロファイリング のいくつかの 例 を 紹 介 する 5.1 まとめた 形 のキーワードのプロファイリング 図 4は ワードスケッチの 女 性 というキーワードの 様 々なパターンの 例 で 新 し く 抽 出 できるようになった 文 法 関 係 のバラエティーを 示 す パターンは 女 性 + 助 詞 女 性 + 名 詞 女 性 +の+ 名 詞 名 詞 +の+ 女 性 女 性 +に+ 動 詞 女 性 +が+ 動 詞 な どである キーワードがどのようなシンタクスの 中 でよく 利 用 されているか どの 助 詞 と 結 びつくか どの 形 容 詞 形 状 詞 に 修 飾 されるかなどの 細 かい 語 彙 の 振 る 舞 いが 観 察 でき る スペースの 制 限 のため それぞれのパターンの 結 果 を 省 略 し 一 番 重 要 度 が 高 い 3 4 語 を 示 した コーダンスの 中 で 表 示 される 文 法 関 係 用 語 のリンク(modifies_N など)をクリックすると その 文 法 関 係 が 正 規 表 現 と 品 詞 を 利 用 して どのように 決 定 されているかを 確 かめることができる 234

247 スルダノヴィッチ 仁 科 (2008)に 示 したように このような 情 報 により キーワード の 意 味 を 把 握 できるため キーワードの 意 味 記 述 などのために 辞 書 学 によく 応 用 される それ 以 外 にも 言 語 学 言 語 教 育 などの 分 野 に 幅 広 く 利 用 できる 図 4JpTenTen から 取 り 出 せる 女 性 という 名 詞 のさまざまなパターン (パターン 結 果 は 省 略 した) 5.2 短 単 位 および 長 単 位 で 見 る 語 彙 プロファイリングのメリット 3 章 に 既 に 紹 介 したように UniDic にはさまざまなメリットがある 本 章 では 短 単 位 およ び 長 単 位 で 取 り 出 せる 言 語 的 情 報 の 例 を 上 げるが 特 に 強 調 するポイントは 以 下 のとお りである 短 単 位 により 言 語 単 位 がどのような 部 分 から 構 成 されているのか 調 べられる こと 特 に 派 生 語 と 関 連 して 接 尾 辞 接 頭 辞 非 自 立 可 能 な 品 詞 のそれぞれの 特 徴 振 る 舞 い 傾 向 を 細 かく 調 べることができる 例 えば どの 形 容 詞 が ~ら しい ~こい ~ 臭 い などの 接 尾 辞 とよく 結 びつく 傾 向 があるか また 研 究 という 名 詞 の 後 ろにどの 接 尾 辞 がよく 付 くかといった 情 報 が 大 規 模 なデータによ り 把 握 できる 235

248 長 単 位 で 複 数 の 単 位 からできている 言 語 単 位 の 振 る 舞 いを 検 討 することができ る 以 前 は 抽 出 できなかったサ 変 動 詞 複 合 名 詞 複 合 動 詞 のような 複 合 語 が 語 彙 素 になり これらの 語 彙 を 単 位 とする 組 み 合 わせとして 抽 出 できるようにな った これにより 長 単 位 をキーワードとして 調 べることができるだけでなく 他 の 語 をキーワードとして 調 べたときに 長 単 位 にもとづく 情 報 が 得 られるという 二 つ 面 でメリットがある 図 5は 長 単 位 でタグづけされたサンプルコーパスから 取 り 出 した 研 究 者 という 名 詞 および 興 味 深 い という 形 容 詞 の 例 を 示 す 図 5JpTenTen( 長 単 位 サンプル)から 取 り 出 した 研 究 者 および 興 味 深 い の プロファイリング これらのキーワードは 短 単 位 では 取 り 出 せなかった 語 であり このような 複 合 語 のプロ ファイリングができるのは 非 常 に 重 要 である 取 り 出 した 結 果 にも 複 合 語 のデータが 多 い 例 えば 第 一 線 の 研 究 者 国 内 外 研 究 者 世 界 中 の 研 究 者 研 究 者 を 招 聘 する また 興 味 深 いお 話 興 味 深 く 拝 見 致 す 興 味 深 く 拝 読 する などである 5.3 複 数 単 位 の 抽 出 新 しく 追 加 された 機 能 で それぞれのパターンにある 単 位 からマルチワードスケッチペ ージ(Multiword sketches)に 飛 ぶことができるようになった 図 6はこのようなページ 結 果 の 例 を 示 す 例 えば 最 近 の 研 究 から 最 近 の 研 究 成 果 新 たな 研 究 から 新 たな 研 究 領 域 とても 興 味 深 い から とても 興 味 深 く 読 む などの 複 合 語 が 並 んだ 例 が 見 られる 図 6マルチワードスケッチの 例 ( 最 近 の 研 究 ~ 新 たな 研 究 ~ とても 興 味 深 い~) 236

249 5.4 語 彙 品 詞 活 用 形 活 用 型 パターンの 頻 度 リスト スケッチエンジンツールでは さまざまな 語 彙 品 詞 活 用 形 活 用 型 の 頻 度 リストが 取 り 出 せる 図 7にその 例 を 示 す 1 欄 目 は UniDic 短 単 位 で 解 析 された 100 億 語 のコーパ スに 現 れる 品 詞 の 高 頻 度 順 リストである( 名 詞 - 普 通 名 詞 - 一 般 助 詞 格 助 詞 助 動 詞 名 詞 - 普 通 名 詞 -サ 変 可 能 など) 2 欄 目 は もっとも 高 頻 度 の 活 用 形 ( 連 用 形 - 一 般 終 止 形 - 一 般 連 体 形 - 一 般 連 用 形 - 促 音 便 など) 3 欄 目 は もっとも 高 頻 度 の 活 用 型 のリストである ( 助 動 詞 -ダ 五 段 -ラ 行 助 動 詞 -タ サ 行 変 格 など) 図 7の 4 欄 目 は コーパスに 現 れる 助 詞 接 続 助 詞 の て + 動 詞 非 自 立 可 能 と いうパターンの 頻 度 リストである 5 頻 度 の 高 いほうから ている て 来 る てしまう て 行 く て 見 る てくれる の 順 番 で 日 本 語 の(テ 形 に 接 続 する) 補 助 動 詞 が 現 れる Martin ( ページ)は 1964 年 の 国 立 国 語 研 究 所 の 現 代 雑 誌 九 十 種 の 用 語 用 字 のデ ータを 基 にして 日 本 語 の 主 な 補 助 動 詞 を 相 対 頻 度 で 並 べて 表 に 示 している 現 れている 高 頻 度 の 補 助 動 詞 は ほとんど 図 7の 4 欄 目 と 統 一 している 並 んだ 順 番 もほとんど 類 似 しているが 微 妙 な 違 いが 見 られる 例 えば てしまう は Martin(2004)の 表 では 行 く くれる くださる よりやや 低 い 頻 度 で JpTenTen のデータでは しまう のほうが やや 頻 度 が 高 くなっている 特 定 の 単 語 単 語 のグループ 一 つの 品 詞 の 語 彙 一 つパターンなどを 対 象 にして 超 大 規 模 コーパスから 活 用 形 頻 度 などのデータを 取 り 出 すことで 今 後 の 教 育 シラバス 作 成 などに 応 用 できる 豊 富 な 情 報 が 得 られるといえる 図 7JpTenTen における 品 詞 活 用 形 活 用 型 パターンの 頻 度 リスト(UniDic 短 単 位 ) 6.まとめ 本 論 文 では 新 規 の 超 大 規 模 な 日 本 語 のウェブコーパス JpTenTen の 構 築 とそのアノテー ションを 紹 介 した 上 で 百 億 語 のコーパスを 用 いた 日 本 語 の 語 彙 文 法 情 報 のプロファイ リングの 実 例 を 紹 介 した 日 本 語 の 様 々な 語 彙 文 法 情 報 を UniDic の 短 単 位 と 長 単 位 の 品 詞 活 用 形 活 用 型 に 適 用 することで 以 前 できなかった 語 と 語 の 振 る 舞 いの 情 報 を 抽 出 できるようになってきた この 成 果 は 日 本 語 学 対 照 言 語 学 日 本 語 辞 書 学 日 本 人 学 習 者 用 英 語 辞 書 学 日 本 語 教 育 日 本 語 言 語 処 理 心 理 学 などの 研 究 分 野 に 活 用 できると 期 待 される 5 利 用 した 検 索 パターンは[tag="P.conj"& word="て"] [tag="v.bnd"] 237

250 謝 辞 本 研 究 は 博 報 財 団 第 7 回 日 本 語 海 外 研 究 者 招 聘 事 業 による 研 究 日 本 語 教 育 にお ける 語 の 共 起 関 係 ( 平 成 24~25 年 度 受 入 機 関 : 国 立 国 語 研 究 所 招 聘 研 究 員 :スルダ ノヴィッチ イレーナ)およびチェコ 教 育 科 学 所 によるプロジェクト LINDAT-Clarin LM ( 研 究 員 :スコメル ヴィット)の 補 助 を 得 ています 文 献 スルダノヴィッチ イレーナ, 仁 科 喜 久 子 (2008) コーパス 検 索 ツール Sketch Engine の 日 本 語 版 とその 利 用 方 法 日 本 語 科 学 23 号, 国 書 刊 行 会, pp 伝 康 晴 小 木 曽 智 信 小 椋 秀 樹 山 田 篤 峯 松 信 明 内 元 清 貴 小 磯 花 絵 (2007) コーパ ス 日 本 語 学 のための 言 語 資 源 : 形 態 素 解 析 用 電 子 化 辞 書 の 開 発 とその 応 用 日 本 語 科 学 22, pp 小 椋 秀 樹 小 磯 花 絵 冨 士 池 優 美 宮 内 左 夜 香 小 西 光 原 裕 (2011) 国 立 国 語 研 究 所 内 部 報 告 書 現 代 日 本 語 書 き 言 葉 均 衡 コーパス 形 態 論 情 報 規 程 集 第 4 版 ( 上 下 ) 小 澤 俊 介, 内 元 清 貴, 伝 康 晴 (2011) BCCWJ に 基 づく 中 長 単 位 解 析 ツール, 特 定 領 域 日 本 語 コーパス 平 成 22 年 度 公 開 ワークショップ 予 稿 集, pp 小 木 曽 智 信 伝 康 晴 (2011) UniDic2.0: 言 語 資 源 としての 電 子 化 辞 書 特 定 領 域 研 究 日 本 語 コーパス 平 成 22 年 度 全 体 会 議 予 稿 集, pp Baroni, Marko and Kilgarriff, Adam (2006) Large linguistically-processed Web corpora for multiple languages, In Proceedings EACL Trento, Italy Gahl, Susanne (1998) Automatic extraction of subcorpora based on subcategorization frames from a part-of-speech tagged corpus, ms., ICSI-Berkeley Kilgarriff, Adam, Rychly, Pavel, Smrž, Pavel and Tugwell, David (2004) The Sketch Engine. Proceedings of EURALEX. France: Université de Bretagne. pp Kilgarriff, Adam, Kovář, Vojtěch., Krek, Simon, Srdanović, Irena, Tiberius, Carole (2010) A Quantitative Evaluation of Word Sketches. Proceedings of the XIV Euralex International Congress. Leeuwarden:Fryske Academy. pp. 7 Kilgarriff, Adam, Reddy, Siva, Pomikálek, Jan and Pvs, Avinesh (2010) A corpus factory for many languages. In proceedings of LREC, Malta Martin, Samuel E. (2004) A reference grammar of Japanese. University of Hawai i Press, Honolulu Pomikálek, Jan (2011) Removing Boilerplate and Duplicate Content from Web Corpora. PhD thesis, Masaryk University, Brno Pomikálek, Jan, Suchomel, Vít (2012) Efficient Web Crawling for Large Text Corpora. ACL SIGWAC Web as Corpus (at conference WWW) Sharoff, Serge (2006) Open-source corpora: using the net to fish for linguistic data, International Journal of Corpus Linguistics, 11 (4), pp Srdanović, Irena, Erjavec Tomaž and Kilgarriff, Adam (2008) A web corpus and word-sketches for Japanese. Shizen gengo shori (Journal of Natural Language Processing) 15/2. pp Srdanović, Irena, Ida, Naomi, Shigemori Bučar, Chikako, Kilgarriff, Adam, Kovář, Vojtěch (2011) Japanese Word Sketches: Advantages and Problems. Acta Linguistica Asiatica, 1 (2), pp 関 連 URL 国 立 国 語 研 究 所 の 言 語 コーパス 整 備 計 画 KOTONOHA スケッチエンジンツール Sketch Engine クローラ SpiderLing Comainu に 関 する 参 考 文 献 形 態 素 解 析 辞 書 UniDic MeCab: Yet Another Part-of-Speech and Morphological Analyzer 238

251

252 Styles and Genres in Early Middle Japanese Yuichiro Kobayashi (Japan Society for the Promotion of Science) Toshinobu Ogiso (National Institute for Japanese Language and Linguistics) ( 2012) , 2012 (1982) 15 (1958) (1997) (2012) (1999) Ⅲ (1) 1 (2) 2 3 (3) 1 (4) 3 (2011) (1990) MVR kobayashi0721@gmail.com 239

253 ( 1991, 1994) UniDic ( 2010) 3.2 ( 1971) UniDic 240

254 Pearson , 1970a, 1970b, 1958 (Wong et al. 2002, Pagès 2004) 6 3 partial points

255

256

257

258 8 7 (Gorden 1999) (Anderberg 1984) 1 (Chaussabel 2004) 7 (1990) (log-likelihood ratio, LLR) (Dunning 1993) ( 2011) 1 (Romesburg 1973) ( 2008, 2009) 245

259 LLR LLR LLR LLR LLR LLR

260 ( 1966) 1 ( 2012) (1997). 117(3), pp (2008). R. (1990). 20, pp (1991). 21, pp (1994). 22, pp (1966). 11, pp (2012). NINJAL Oxford VSARPJ, pp (2010) CH-85(4), pp (2009).. (1971)

261 , pp (2012). 3(2), pp (2011). 2, pp (2011)., pp (2012) CH-94(5), pp (1996).. (1970a)., pp (1970b)., pp (1990). 3, pp (2011). 28(3), pp (1999). 40(3), pp (1958). 2, pp (1982). () 8 Ⅱ, pp Anderberg, M. R. (1973). Cluster analysis for applications. New York: Academic Press. Chaussabel, D. (2004). Biomedical literature mining: Challenges and solutions in the omics era. American Journal of Pharmacogenomics, 4(6), pp Dunning, T. (1993). Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19(1), pp Gordon, A. D. (1999). Classification. 2nd ed. Boca Raton: Chapman and Hall. Pagès, J. (2004). Multiple factor analysis: Main features and application to sensory data. Revista Colombiana de Estadística, 27(1), pp Romesburg, H. C. (1984). Cluster analysis for researchers. Belmont: Lifetime Learning Publications. Wong, S., Gauvrit, H., Cheaib, N., Carré, F., & Carrault, G. (2002). Multiple factor analysis as a tool for studying the effect of physical training on the autonomic nervous system. Computers in Cardiology, 29, pp URL UniDic 248

262 洒 落 本 コーパスの 構 造 化 仕 様 と 事 例 の 検 討 市 村 太 郎 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 河 瀬 彰 宏 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 小 木 曽 智 信 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) Structuring the Corpus of Share-bon Taro Ichimura (National Institute for Japanese Language and Linguistics) Akihiro Kawase (National Institute for Japanese Language and Linguistics) Toshinobu Ogiso (National Institute for Japanese Language and Linguistics) 1.はじめに 国 立 国 語 研 究 所 通 時 コーパス プロジェクトの 一 環 として 検 討 されている 洒 落 本 大 成 の XML 形 式 での 電 子 化 について 資 料 の 電 子 化 に 際 し いかなる 要 素 を 認 定 し ど のように 構 造 化 するのが 適 切 かについて 検 討 し モデルを 示 す 市 村 河 瀬 小 木 曽 (2012)では 洒 落 本 に 狂 言 を 加 え 近 世 口 語 テキスト 全 体 での 基 礎 的 な 構 造 化 仕 様 を 検 討 した 本 発 表 では さらに 実 際 の 作 業 を 経 たうえでの 再 検 討 を 加 え 洒 落 本 の 文 書 構 造 や 語 文 字 についてどのように 処 理 し その 結 果 いかなるデータができ るかを いくつかの 作 品 を 例 にとり 提 示 する 2. 洒 落 本 のコーパス 化 の 意 義 洒 落 本 は 登 場 人 物 の 会 話 部 分 に 当 時 の 話 し 言 葉 が 反 映 されているとされ 日 本 語 史 研 究 上 近 世 後 期 の 口 語 の 実 態 を 探 る 上 での 重 要 資 料 である 大 きく 分 けて 江 戸 版 と 上 方 版 があり その 口 語 体 の 会 話 部 分 はそれぞれの 地 域 の 言 葉 を 反 映 する 場 合 も 多 い また 年 代 も 18C 後 半 から 19C 前 半 までと 幅 広 く 近 現 代 語 への 過 渡 的 状 況 を 伺 うのに 適 している 方 言 や 中 央 語 の 形 成 を 知 る 上 でも 不 可 欠 な 資 料 である 洒 落 本 の 電 子 化 資 料 としては 先 駆 的 なものとして 国 文 学 研 究 資 料 館 の 大 系 本 文 デー タベース がある 上 方 の 洒 落 本 については 忍 頂 寺 文 庫 洒 落 本 データベース に 大 阪 大 学 忍 頂 寺 文 庫 所 蔵 の 洒 落 本 類 のデータがあり これも 貴 重 な 資 料 である いずれも 主 に 紙 面 にもとづく 外 形 的 な 面 でマークアップがなされており また 忍 頂 寺 文 庫 洒 落 本 デー タベース では 漢 字 を 仮 名 に 開 いた 解 釈 データ もあり 有 用 である しかしながら 現 在 のところ 品 詞 分 解 された 索 引 や 形 態 論 情 報 付 きの 大 規 模 なコー パスはなく また 江 戸 上 方 宝 暦 期 から 文 化 文 政 期 まで 広 く 見 渡 せるものはない 洒 落 本 大 成 には 幅 広 い 作 品 が 収 められているが 利 用 に 際 しては 他 の 電 子 化 データと 重 複 する 一 部 の 作 品 を 除 き 個 々の 作 品 をその 都 度 目 視 して 用 例 を 拾 い 集 める 他 ない もし 一 定 の 数 量 を 持 ち アノテーションされた 形 態 論 情 報 付 きコーパスが 完 成 すれば 近 世 近 代 語 史 研 究 に 画 期 的 な 成 果 をもたらすことが 期 待 できる 3. 本 コーパスの 設 計 方 針 底 本 には 洒 落 本 大 成 を 用 いる 洒 落 本 を 対 象 とした 大 規 模 な 叢 書 であり 多 くの 作 品 が 収 録 されている コーパスの 主 な 利 用 者 としては 言 語 研 究 者 を 想 定 する 現 在 上 記 のように 大 系 本 文 データベース のような 紙 面 にもとづいて 外 形 的 なマークアップがなされたテキスト データが 存 在 するが 言 語 研 究 の 観 点 からは さらに 言 語 構 造 面 に 重 きを 置 いた 構 造 化 が 求 められる たとえば 単 純 なテキストデータで 検 索 する 場 合 近 世 のような 仮 名 遣 いや tichimura@ninjal.ac.jp 249

263 漢 字 表 記 が 多 岐 にわたる 資 料 では 文 字 列 検 索 でいちいちすべての 表 記 を 想 定 したうえで 検 索 しなければならず 大 きな 足 枷 となる その 点 忍 頂 寺 文 庫 洒 落 本 データベース は 読 みのデータを 付 記 することで 特 に 漢 字 表 記 の 面 での 解 決 がはかられており また 簡 易 なマークアップがされているため ある 程 度 の 要 素 の 抽 出 が 可 能 である これらをふまえさらに たとえば ここからここまでがタイトルである ここからここ までが の 発 話 である などといった 文 書 構 造 情 報 を 認 定 し 一 定 の 構 造 で 発 話 等 が マークアップされることによって 得 られた 用 例 について どのような 要 素 の 用 例 なのか を 判 断 することができるのならば さらに 言 語 データとして 有 用 なものになるだろう 用 例 が 文 書 構 造 中 のどの 箇 所 で 得 られたものなのか(たとえば 発 話 なのか 地 の 文 なのか)と いうのは 近 世 語 研 究 にかぎらず 極 めて 重 要 である さらにそこに 形 態 論 情 報 が 付 記 さ れ どのような 語 のどの 活 用 形 か などがあらかじめ 特 定 されていれば 極 めて 質 の 高 い データが 電 子 データ 検 索 によって 瞬 時 に 得 られる 本 研 究 では このような いかなる 要 素 の いかなる 性 質 を 持 つ 語 の 表 記 体 であるとい う 情 報 が 付 された 用 例 を 一 覧 表 として 短 時 間 で 取 り 出 すことが 可 能 なコーパスを 目 指 す そのため 記 述 には XML を 用 い 国 語 研 が 作 成 した 太 陽 コーパス の 仕 様 や BCCWJ の 仕 様 明 六 雑 誌 コーパス の 仕 様 を 継 承 しながら TEI P5を 参 考 に 必 要 なタグを 選 択 追 加 し 構 造 化 する 構 造 化 されたデータには さらに 形 態 素 レベルでのタグを 付 し 品 詞 情 報 や 活 用 形 など 形 態 論 情 報 を 付 与 する 4. 洒 落 本 テキストの 構 造 とタグセット 洒 落 本 テキストは, 会 話 部 分 を 主 とし,その 他 序 文 前 置 き 的 な 地 の 文 後 書 きで 構 成 さ れることが 多 い( 図 1) 1 序 文 内 題 署 名 等 (+ 目 録 人 物 解 説 等 ) 構 成 要 素 :タイトル 本 文 日 付 署 名 ( 時 折 和 歌 漢 文 等 ) 2 状 況 描 写 など 前 置 き 的 な 地 の 文 構 成 要 素 : 本 文 記 号 としての 話 者 表 示 のない 発 話 引 用 3 会 話 部 分 ( 中 心 部 ) 構 成 要 素 : 四 角 囲 みなどの 話 者 発 話 地 の 文 割 書 ( 時 折 小 見 出 しを 伴 う 複 数 セクション) 4 後 書 き 尾 題 出 版 情 報 等 構 成 要 素 :タイトル 本 文 日 付 署 名 和 歌 等 図 1 洒 落 本 テキストの 構 造 概 略 作 品 によってばらつきはあるが 全 体 としては 分 量 上 また 構 成 上 会 話 部 分 が 中 心 と なり またその 会 話 部 分 も 話 者 表 示 と 発 話 が 中 心 で その 間 に 地 の 文 や 割 書 が 配 置 される 洒 落 本 のコーパス 化 にあたっては このような 文 書 構 造 の 各 要 素 について できるだけ 均 質 に 過 不 足 なくマークアップする 枠 組 みを 設 定 することが 求 められる 250

264 4.1 文 書 の 階 層 構 造 に 関 する 要 素 表 1 文 書 の 構 造 に 関 するタグ( 太 線 は 階 層 上 の 大 きな 切 れ 目 ) タグ( 要 素 ) 説 明 属 性 <text> 作 品 ( 演 目 ) 全 体 作 品 のシリーズ タイトル 等 を 開 始 タグ 内 に 記 必 須 シリーズ 名 ( 必 須 作 品 タイトル( 必 須 作 品 名 の 読 み( 任 意 西 暦 成 立 年 ( 必 須 和 暦 成 立 年 ( 必 須 ) <front> <body> <back> 前 付 け 主 本 文 後 付 <article> 記 任 意 ) <titleblock> <article>レベルでのタイトル 等 の 記 述 <p> <block> <s> タイトルや 注 釈 等 を 除 く 本 文 の 塊 <p>で 記 述 された 本 文 とは 区 別 される タイトル 注 釈 等 のブロック 要 素 必 須 ) <SUW> 短 単 位 ( 語 ) ( 多 岐 にわたるため 省 略 ) 洒 落 本 の 図 11~4のような テキスト 構 造 を 表 す 大 きな 構 成 単 位 は 1つのテキスト 全 体 を 表 す<text>と それを 構 成 する<front>1 <body>23 <back>4の 3 要 素 から 成 る 作 品 に 関 する 情 報 は 属 性 値 として<text> 内 に 記 述 する さらに これらの 内 部 は 基 本 的 には<article>に 分 割 され さらにその 内 部 は<p>か<block> に そしてその 内 部 は<s>に 分 割 される さらにその 文 が 形 態 論 情 報 を 記 述 した 短 単 位 <SUW>に 分 割 される 本 コーパスでは <p>は 非 常 に 大 きな 本 文 の 塊 に 付 されるだけである ので テキストを 分 割 する 単 位 としては<s>と<SUW>が 軸 となる article 要 素 前 付 後 付 を 除 いた 中 心 的 本 文 は 小 見 出 し 等 を 伴 う 複 数 の 要 素 から 成 るこ とがある また 前 付 や 後 付 内 には 自 序 とともに 他 人 が 記 した 文 章 や 出 版 情 報 などが 併 存 することがある このような 階 層 の 要 素 を 表 すものとして <article>を 用 属 性 で 序 跋 刊 記 の 別 等 を 記 述 する p 要 素 <article> 内 の 本 文 の 塊 全 体 で1つ 付 与 する 視 覚 上 また 内 容 上 いわゆる 段 落 を 認 定 するのは 困 難 である 本 研 究 では 主 たる 本 文 かそれ 以 外 か に 重 点 をおいている block 要 素 視 覚 上 または 構 成 上 明 らかに 主 本 文 の 塊 と 区 別 される 要 素 を 表 属 性 で タイトル 内 題 尾 題 小 見 出 し 著 者 日 付 表 注 釈 等 の 別 を 記 述 する titleblock 要 素 テキストのタイトル( 外 題 )のほか 序 文 等 の 後 に 再 度 作 品 のタイトル( 内 題 ) 等 や 尾 題 等 が 示 される 場 合 がある これらを 厳 密 な 階 層 構 造 の 中 に 組 み 込 むことは 難 しい そのため <article>と 同 階 層 でマークアップし 並 列 的 に 扱 う s 要 素 すべてのテキストは 文 に 分 割 される ただしいわゆる 文 とは 完 全 に 同 一 ではな く 発 話 や 割 書 の 区 切 りでも 切 る なお <s>が<s>を 含 むような 階 層 性 は 認 めない 251

265 SUW 要 素 短 単 位 (おおよそ 語 に 相 当 )を 表 す すべての 文 は 短 単 位 に 分 割 される 本 研 究 での 基 本 的 な 単 位 である 語 彙 素 語 形 書 字 形 活 用 型 活 用 形 発 音 形 等 語 に 関 する 多 くの 情 報 が 属 性 で 記 述 される 開 発 中 の 近 世 口 語 UniDic による 解 析 結 果 を 人 手 で 修 正 して 付 与 する キー 語 彙 素 発 音 形 出 現 形 品 詞 活 用 型 活 用 形 名 詞 - 固 有 名 詞 - 人 名 おゆき オユキ オユキ - 一 般 さん さん サン 接 尾 辞 - 名 詞 的 - 一 般 はやふ 早 い ハヨー 形 容 詞 - 一 般 形 容 詞 連 用 形 -ウ 音 便 お 御 オ 接 頭 辞 いで 出 でる イデ 動 詞 - 一 般 下 一 段 -ダ 行 連 用 形 - 一 般 わたし 私 ワタシ 代 名 詞 も も モ 助 詞 - 係 助 詞 これ 此 れ コレ 代 名 詞 から から カラ 助 詞 - 格 助 詞 かみゆひ 髪 結 い カミユイ 名 詞 - 普 通 名 詞 - 一 般 さん さん サン 接 尾 辞 - 名 詞 的 - 一 般 に に ニ 助 詞 - 格 助 詞 かみ 髪 カミ 名 詞 - 普 通 名 詞 - 一 般 を を オ 助 詞 - 格 助 詞 ゆふ 結 う ユー 動 詞 - 一 般 五 段 -ワア 行 連 用 形 -ウ 音 便 て て テ 助 詞 - 接 続 助 詞 もろ 貰 う モロ 動 詞 - 非 自 立 可 能 五 段 -ワア 行 連 用 形 -ウ 音 便 て て テ 助 詞 - 接 続 助 詞 名 詞 - 普 通 名 詞 - 副 詞 こんや 今 夜 コンヤ 可 能 から から カラ 助 詞 - 格 助 詞 おしろい 白 粉 オシロイ 名 詞 - 普 通 名 詞 - 一 般 も も モ 助 詞 - 係 助 詞 し 為 る シ 動 詞 - 非 自 立 可 能 サ 行 変 格 連 用 形 - 一 般 て て テ 助 詞 - 接 続 助 詞 べに 紅 ベニ 名 詞 - 普 通 名 詞 - 一 般 も も モ 助 詞 - 係 助 詞 つけ 付 ける ツケ 動 詞 - 非 自 立 可 能 下 一 段 -カ 行 連 用 形 - 一 般 て て テ 助 詞 - 接 続 助 詞 おき 置 く オキ 動 詞 - 非 自 立 可 能 五 段 -カ 行 連 用 形 - 一 般 ましよ ます マショ 助 動 詞 助 動 詞 -マス 意 志 推 量 形 補 助 記 号 - 句 点 ありや 彼 れ アリャ 代 名 詞 いろ 色 イロ 名 詞 - 普 通 名 詞 - 一 般 め 奴 メ 接 尾 辞 - 名 詞 的 - 一 般 が が ガ 助 詞 - 格 助 詞 いに 往 ぬ イニ 動 詞 - 一 般 五 段 -ナ 行 連 用 形 - 一 般 おつ 居 る オッ 動 詞 - 非 自 立 可 能 五 段 -ラ 行 連 用 形 - 促 音 便 た た タ 助 動 詞 助 動 詞 -タ 終 止 形 - 一 般 これ 此 れ コレ 代 名 詞 のふ ノウ ノー 感 動 詞 - 一 般 ををい おい オーイ 感 動 詞 - 一 般 〳〵 〳〵 補 助 記 号 - 一 般 図 2 短 単 位 解 析 済 みデータの 例 ( 一 部 項 目 省 略 8 巻 風 流 裸 人 形 p.277 上 段 2 行 ~) 252

266 図 3 作 品 冒 頭 ~ 本 文 のマークアップ(4 巻 郭 中 奇 譚 pp ) 4.2 文 語 の 機 能 に 関 する 要 素 表 2 文 語 の 機 能 に 関 するタグ タグ( 要 素 ) 説 明 属 性 <speech> 会 任 意 任 意 ) <quotation> 単 純 な 発 話 以 外 の 引 用 要 任 意 任 意 ) <warigaki> 割 書 き <speaker> 話 者 <delivery> 発 話 等 のスタイルの 表 示 <verse> 韻 文 文 以 上 文 未 満 speech 要 素 1 回 的 な 会 話 文 の 連 続 を 表 す <speaker>を 内 部 に 認 定 し 一 体 として 扱 う 会 話 文 内 に 話 者 が 示 されていない 場 合 には@source 属 性 で 話 者 を 可 能 な 限 り 記 述 する な お 割 書 内 にもごく 簡 単 な 会 話 文 が 出 現 することもあるが 割 書 中 では 認 定 しない 253

267 quotation 要 素 和 歌 手 紙 等 単 純 な 会 話 文 以 外 の 引 用 要 素 を 表 でどのような 種 の 引 用 出 典 を 記 述 する warigaki 要 素 多 くは 細 字 二 行 で 会 話 部 分 における 地 の 文 または 注 釈 として 発 話 間 に 現 れる ただし 笑 い 声 や 間 投 詞 の 類 が 小 書 きで 2 行 に 渡 るものは 割 書 とは 認 めない speaker 要 素 会 話 文 に 付 属 する 話 者 の 表 示 である 主 に 囲 みや 小 書 きで 表 される delivery 要 素 会 話 文 の 冒 頭 には 話 者 だけでなく 歌 などと スタイルを 小 書 き 等 で 記 してある 場 合 がある その 場 合 に 本 要 素 を 付 与 する verse 要 素 和 歌 俳 句 歌 等 明 らかな 韻 文 ついて 文 未 満 の 単 位 で( 主 に 文 毎 に) 付 す 4.3 主 に 語 文 字 単 位 で 外 形 機 能 等 を 表 す 要 素 表 3 語 文 字 単 位 で 外 形 等 を 表 す 要 素 タグ( 要 素 ) 説 明 属 性 <hi> 文 字 列 ( 語 )に 対 する 装 必 須 ) <lruby> 左 必 須 任 意 ) <ruby > 必 須 任 意 ) <odoriji> 踊 り 字 を 開 いた 文 必 須 ) <gap/> 抹 消 破 損 等 で 判 読 できない 文 字 の 存 在 ( 空 要 素 ) <corr> <corr/> 本 文 修 必 須 任 意 ) <unclear> 推 読 された 文 任 意 任 意 ) <vmark> 濁 点 半 濁 点 付 仮 名 に 変 換 した 箇 所 <g> 外 字 (JISX0213 外 ) 絵 文 字 必 須 任 意 ) <kana> 片 仮 名 を 平 仮 名 に 変 換 した 箇 所 <kanbun> <kanbun/> 漢 文 ( 返 読 任 意 ) 返 読 前 返 読 後 ( 任 意 任 意 ) 短 単 位 以 上 短 単 位 未 満 hi 要 素 や で 囲 まれるなど 外 形 的 特 徴 を 持 った 語 以 上 の 文 字 列 を 表 す 囲 みの 人 物 表 示 は 必 ずしも 話 者 になるわけではなく 機 能 は 一 定 ではない このようなものを 外 形 的 属 性 で 様 態 を 記 述 する マアマア 等 間 投 詞 的 なものは 除 く ruby 要 素 文 字 列 の 右 側 に 付 され 文 字 文 字 列 の 読 みを 表 す 振 り 仮 名 等 を 指 属 性 内 にルビ 文 字 列 を 記 述 し 複 数 短 単 位 に 対 して 付 されている 場 合 は 先 頭 の 短 単 位 のみに 認 定 に 実 際 の 対 象 文 字 列 を 付 す いわゆる 宛 漢 字 等 も 含 む 254

268 lruby 要 素 文 字 列 の 左 側 に 付 される 小 書 き 例 えば 本 文 の 方 言 形 に 対 応 する 語 を 左 側 に 記 すなど 概 して 注 釈 的 性 質 がある 右 側 ルビと 共 存 する 場 合 は 右 側 ルビよりも 比 較 的 対 象 範 囲 が 大 きい 語 単 位 で 付 されることが 多 い vmark 要 素 電 子 化 に 際 して 新 たに 濁 点 を 付 与 した 箇 所 に 付 す( 踊 り 字 の 箇 所 は 除 く) 4.4 位 置 情 報 と 本 文 外 情 報 表 4 底 本 テキストの 位 置 情 報 や 本 文 外 の 情 報 を 表 すタグ タグ( 要 素 ) 説 明 属 性 <pb/> ページ 開 始 ( 空 要 素 必 須 ) <cb/> 段 開 始 ( 空 要 素 必 須 ) <lb/> 行 開 始 ( 空 要 素 ) <info/> 本 文 外 情 報 ( 空 要 素 任 意 )@ text( 任 意 ) <text textid=" 洒 落 本 大 成 _024_ 京 都 _ 興 斗 月 " series=" 洒 落 本 大 成 #24" title=" 興 斗 月 " yomi="きょとつき" year="1836" year_w=" 天 保 7"><front><article type=" 序 "><p><s><pb n="131"/><cb n="1"/><lb/> 年 <vmark>ご</vmark>ろ 我 勝 れて 河 東 を 好 め<vMark>ど</vMark>も 価 高 きゆへうとまれて 行 こ<lb/>と 稀 也 </s><s> 只 老 留 誌 の 類 を 見 て 鬱 を 散 る 而 已 なりし <vmark>が</vmark> 或 夜 東 方 <lb/>に 見 馴 ぬ 光 あり</s><s>これなむ 興 斗 つきといふ<info originalpage=" 一 オ"/></s><s> 啌 の 川 に 輝 <lb/> 舟 あり</s><s> 是 に 乗 て 蚓 ののたくり 一 冊 としはりに 至 ま<vMark>で</vMark> 自 作 せ<lb/>りと 慢 して 馬 鹿 の 底 をた<odoriji originaltext="ゝ">た</odoriji>く</s><s> 是 を 名 号 て 興 斗 つゐて 何 処 ま<lb/><vMark>で</vMark> 乗 て 行 <info originalpage=" 一 ウ"/>と 云 <lb/></s></p><block type="date"><s> 天 保 七 年 <lb/> 申 <kana>の</kana> 孟 夏 <lb/></s></block><block type="author"><s> 前 代 未 聞 <lb/> 武 木 右 衛 門 <lb/> 自 序 <lb/><info originalpage=" 二 オ "/></s></block></article><titleblock><block type=" 内 題 "><s><pb n="132"/><cb n="1"/><lb/> 興 斗 月 <lb/></s></block> <block type="author"><s> 武 木 右 衛 門 戯 作 </s></block></titleblock></front>( 以 下 略 ) 図 4 興 斗 月 冒 頭 の 形 式 化 例 ( 大 成 29 巻 pp ) <body><article><p><s><ruby rubytext="おゝ"> 大 </ruby><ruby rubytext="き"> 木 </ruby><ruby rubytext="ど"> 戸 </ruby>の <ruby rubytext="ちり"> 塵 </ruby>は<ruby rubytext="みづ"> 水 </ruby><ruby rubytext="うり"> 売 </ruby>の<ruby rubytext=" しづく"> 雫 </ruby>にしめり<ruby rubytext="てん"> 天 </ruby><ruby rubytext="りう"> 竜 </ruby><ruby rubytext="じ"> 寺 </ruby>の<ruby rubytext="かね"> 鐘 </ruby>は<ruby rubytext="ひぐらし"> 蜩 </ruby>の<ruby rubytext="こへ"> 声 </ruby>に ひ<odoriji originaltext="ゞ">び</odoriji><lb/>く</s><s><kana><hi rend=" 囲 み">くつわのをと</hi></kana></s><s>ちやんら ん〳〵</s><speech><s><speaker><hi rend=" 囲 み"> 馬 士 二 人 歌 </hi></speaker></s><s><verse>お<odoriji originaltext="ゝ"> お</odoriji>れへと<info text=" 上 "/>な<kana>あ</kana> 引 い<lb/>かぬ<kana>あ</kana>う</verse></s><s><verse><kana>そ </kana><kana>れ</kana>そうだにな<kana>あ</kana> 引 </verse></s></speech><speech><s><speaker><hi rend=" 囲 み "><kana>あ</kana><kana>と</kana><kana>の</kana> 馬 士 </hi></speaker></s><s>かみ<ruby rubytext="むら"> 村 </ruby>の 255

269 <kana>う</kana><ruby rubytext="ゑ"> 江 </ruby><ruby rubytext="ご"> 五 </ruby> 右 <lb/><ruby rubytext="ゑ"> 衛 </ruby><ruby rubytext="む"> 門 </ruby>が<kana>あ</kana>よめ<ruby rubytext="じよう"> 女 </ruby><kana>なあ </kana><ruby rubytext="うみ"> 産 </ruby><ruby rubytext="づき"> 月 </ruby>だ<kana>あ</kana>といつけがどふだ<kana>あ </kana></s><s>まだひり<lb/><ruby rubytext="だ"> 出 </ruby>さねへかな<kana>あ</kana></s></speech>( 中 略 ) <speech><s><speaker><hi rend=" 囲 み"> 金 </hi></speaker></s><s><kana>あ</kana><kana>い</kana>さあ おさらば〳〵</s> </speech><s> <ruby rubytext="なつ"> 夏 </ruby>の<ruby rubytext="よ"> 夜 </ruby><lb/>は まだ<ruby rubytext="よひ"> 宵 </ruby>ながら <ruby rubytext="あけ"> 明 </ruby>ぬるを <ruby rubytext="し"> 知 </ruby>らせよふとて <ruby rubytext=" からす"> 烏 </ruby>がか<lb/>あ〳〵 <ruby rubytext="かね"> 鐘 </ruby>がごん〳〵 <ruby rubytext="つき"> 舂 </ruby><ruby rubytext="ごめ"> 米 </ruby> 屋 ががつたり〳〵<info originalpage=" 丁 付 なしオ"/></s></p></article></body> <back><article type=" 跋 "><block type="section"><s><lb/> 跋 </s></block><p><s><lb/><cb n="1"/><pb n="311"/><ruby rubytext="すい"> 粋 </ruby>とは<ruby rubytext="うめ"> 梅 </ruby><ruby rubytext="ぼし"> 干 </ruby><ruby rubytext="や"> 野 </ruby><ruby rubytext="ぼ"> 父 </ruby>とは<ruby rubytext="にはとり"> 鶏 </ruby>の 名 かときくやうな<ruby rubytext="し ん"> 新 </ruby><ruby rubytext="じゆく"> 宿 </ruby> 田 舎 にあや<lb/>め 咲 とはしほらしとぞめきの<ruby rubytext="こえ"> 声 </ruby><ruby rubytext="う"> 有 </ruby><ruby rubytext="てう"> 頂 </ruby><ruby rubytext="てん"> 天 </ruby>にひ<odoriji originaltext="ゞ">び</odoriji>き( 中 略 ) <s> 嗚 <lb/><ruby rubytext="あゝ"> 呼 </ruby><ruby rubytext="わが"> 吾 </ruby><ruby rubytext="とう"> 党 </ruby>いきちよ んの 君 子 をしてこれにあそはしめば<ruby rubytext="すなはち"> 則 </ruby> 其 <lb/><ruby rubytext="しり"> 尻 </ruby>つま らざるにちか<odoriji originaltext="ゝ">か</odoriji>らん<ruby rubytext="ずい"> 随 </ruby><ruby rubytext="いき"> 行 </ruby><ruby rubytext="さん"> 散 </ruby><ruby rubytext="じん"> 人 </ruby><ruby rubytext="ずい"> 随 </ruby><ruby rubytext="がへり"> 帰 </ruby>の<ruby rubytext="まくら"> 枕 </ruby><ruby rubytext="もと"> 上 </ruby>に<ruby rubytext="ば つ"> 跋 </ruby>す<lb/></s></p><block type="date"><s> 安 永 乙 未 秋 <lb/></s></block><block type="publisher"><s> 新 甲 館 蔵 書 <lb/><info originalpage=" 丁 付 なしオ"/></s></block></article></back> 図 5 甲 駅 新 話 本 文 後 付 の 例 ( 大 成 6 巻 pp ) 図 6 近 世 口 語 コーパス の 文 書 型 定 義 図 (SUW 要 素 まで) 256

270 5. 本 研 究 における 課 題 5.1 割 書 きの 扱 いをめぐって 割 書 や 引 用 の 前 後 で 文 を 区 切 ると という など 半 端 な 文 が 生 じるという 問 題 がある 一 方 で テキストの 構 造 からみれば 会 話 割 書 会 話 割 書 という 直 感 的 に 定 式 化 した 流 れがある このような 複 数 の 構 造 を 厳 密 にカバーするのは 困 難 である しかし 言 語 学 的 な 利 用 を 考 慮 すると 割 書 引 用 で 文 を 区 切 る ことは 多 くの 場 合 発 話 と 地 の 文 を 区 別 する ことと 合 致 する また 割 書 を 解 体 するにしても 分 類 や 単 位 の 切 れ 目 の 認 定 は 困 難 であり 洒 落 本 においては 最 大 公 約 数 的 に 主 本 文 に 対 する 付 属 的 な 何 か を 表 す 割 書 であるほうが 利 用 の 便 を 考 慮 しても 現 実 的 ではないかと 考 える 5.2 文 認 定 と 解 釈 の 問 題 根 本 的 な 問 題 であるが 洒 落 本 大 成 は 注 釈 や 句 読 点 等 が 付 された 校 訂 本 文 ではなく 形 態 論 情 報 はもちろん 文 区 切 りを 与 える 際 には 高 度 な 文 解 釈 が 求 められる 活 用 語 の 終 止 形 と 連 体 形 が 統 一 される 時 期 でもあり 文 末 の 認 定 にはしばしば 困 難 が 伴 う 話 者 が 長 々と 話 すもの 道 行 などのように 語 調 がかかわるものは 特 に 難 解 である 文 脈 活 用 形 ソ 系 指 示 詞 などが 手 がかりだが それでも 不 明 確 な 箇 所 については 強 いて 文 区 切 りを 付 す ことはしない 方 針 である 例 を 挙 げる 下 のように 名 詞 が 連 続 する 場 合 並 列 的 に 述 べられているのか 文 が 切 れるのか 厳 密 に 判 断 するのは 難 しい ( 例 ) 店 もなく 揚 屋 もなく 商 ひ 場 といふてはうゑもなき 雲 天 のざしきいつこさためぬ 枕 の 数 ( 大 成 7 巻 無 論 里 問 答 p.50 下 段 ) また 引 用 周 りの 扱 いも 問 題 となる 発 話 の 連 続 を 引 用 の と 等 で 受 ける 場 合 と がどこまでをマークするのか 不 明 確 なことが 多 く また 一 口 に 文 と 言 っても 場 合 によっ ては 幾 重 にも 階 層 ができ 巨 大 な 文 が 出 来 上 がってしまい 著 しく 均 質 性 を 損 なうことが ある そのため 原 則 直 接 的 な 引 用 や 割 書 き 話 者 表 示 の 前 後 では 文 を 区 切 る 発 話 内 の 引 用 については 間 接 引 用 なのか 直 接 引 用 なのかが 不 明 確 な 場 合 が 多 い ただ し 手 紙 を 読 み 上 げる 箇 所 等 があり このような 明 確 に 直 接 引 用 とわかるものについては 文 区 切 りを 付 す 方 針 である このように 可 能 な 限 り 客 観 的 な 根 拠 を 探 るのが 原 則 だが 細 部 に 決 定 的 な 規 則 を 設 ける のは 困 難 である 個 別 に 判 断 し 場 合 によっては 保 留 せざるを 得 ないのが 現 状 である 5.3 修 辞 言 葉 遊 びへの 対 応 掛 詞 や 洒 落 のような 言 葉 遊 びや 文 や 語 と 区 切 りとは 関 係 ない 七 五 調 などが 見 られる これらは 近 世 期 に 限 らず 歴 史 的 作 品 では 重 要 な 修 辞 技 法 の 一 種 であるが 階 層 構 造 から 逸 脱 したパラレルなものである これに 対 しては 索 引 等 では 二 重 に 採 取 する 方 針 がとられ ているものもあるが コーパスの 開 発 に 利 用 している 現 状 のシステムでは 形 態 論 情 報 の 二 重 付 与 に 対 応 していない 今 後 システム 拡 張 を 含 め 対 応 を 検 討 していく 必 要 がある (A) 我 搗 栗 といわゐそめ 老 もわかいもよろ 昆 布 ( 大 成 7 巻 三 幅 対 p.352 下 段 16 行 ) (B)< 知 暁 >ごさまのかぎ 迄 預 けしは< 青 蜉 >づけしは 物 を 思 はざりけり< 几 石 >ざり けりのちじよくをすゝぐ( 大 成 2 巻 穿 当 珍 話 p.207 上 段 3~5 行 ) 257

271 6.おわりに 文 や 引 用 の 認 定 解 釈 は 歴 史 的 な 資 料 をコーパス 化 する 際 の 大 きな 課 題 である また 5.3のような 修 辞 言 葉 遊 びの 類 は 今 後 和 歌 集 や 歌 舞 伎 浄 瑠 璃 を 積 極 的 に 扱 うこと を 考 慮 すると 大 きな 課 題 である 歴 史 的 資 料 を 対 象 にコーパスを 構 築 するにあたっては 外 形 と 機 能 言 語 の 線 条 性 と 版 面 がもつ 構 造 のバランスをとり 適 切 にラベルを 与 えていくことが 重 要 である その 上 で 何 を 拾 いたいか どこまで 期 待 されているか という 利 用 者 のニーズに 沿 う 必 要 がある 1 作 品 中 に 会 話 地 の 文 割 書 き 序 後 書 き 手 紙 など 比 較 的 多 様 な 要 素 を 持 つ 洒 落 本 を 対 象 に1つの 記 述 モデルを 確 立 しておくことは 日 本 語 歴 史 コーパス 全 体 に 汎 用 性 をもつ 仕 様 を 作 る 上 での 一 つの 足 掛 かりになると 考 える 文 献 市 村 太 郎 河 瀬 彰 宏 小 木 曽 智 信 (2012) 近 世 口 語 テキストの 構 造 化 とその 課 題 情 報 処 理 学 会 研 究 報 告 人 文 科 学 とコンピュータ 研 究 会 報 告 (CH96) pp.1-8 近 藤 明 日 子 田 中 牧 郎 明 六 雑 誌 コーパス の 仕 様 国 立 国 語 研 究 所 共 同 研 究 報 告 近 代 語 コーパス 設 計 のための 文 献 言 語 研 究 成 果 報 告 書 pp 国 立 国 語 研 究 所 近 藤 泰 弘 (2012) 日 本 語 通 時 コーパスの 設 計 について 国 語 研 プロジェクトレビュー 3 pp 国 立 国 語 研 究 所 田 中 牧 郎 (2005) 言 語 資 料 としての 雑 誌 太 陽 の 考 察 と 太 陽 コーパス の 設 計 国 立 国 語 研 究 所 報 122 雑 誌 太 陽 による 確 立 期 現 代 語 の 研 究 太 陽 コーパス 研 究 論 文 集 pp.1-48 博 文 館 新 社 田 中 牧 郎 小 木 曽 智 信 (2000) 総 合 雑 誌 太 陽 の 本 文 の 様 態 と 電 子 化 テキスト 日 本 語 科 学 8 pp 国 立 国 語 研 究 所 安 永 尚 志 (1998) 国 文 学 研 究 とコンピュータ 勉 誠 社 山 口 昌 也 高 田 智 和 北 村 雅 則 間 淵 洋 子 大 島 一 小 林 正 行 西 部 みちる(2011) 特 定 領 域 研 究 日 本 語 コーパス 平 成 22 年 度 研 究 成 果 報 告 現 代 日 本 語 書 き 言 葉 均 衡 コーパス における 電 子 化 フォーマット ver.2.2 文 部 科 学 省 科 学 研 究 費 特 定 領 域 研 究 日 本 語 コーパス データ 班 洒 落 本 大 成 編 集 委 員 会 ( ) 洒 落 本 大 成 中 央 公 論 社 関 連 URL 大 系 本 文 ( 日 本 古 典 文 学 噺 本 )データベース 忍 頂 寺 文 庫 洒 落 本 データベース Text Encoding Initiative (ガイドライン P5 日 本 語 版 ) 258

272 説 話 のパラレルコーパスの 設 計 平 安 鎌 倉 時 代 の 文 体 変 異 の 研 究 に 向 けて 田 中 牧 郎 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) Design of a Parallel Corpus of Setsuwa Literature: Toward Studies of Stylistic Variation of Heian and Kamakura Japanese TANAKA Makiro (National Institute for Japanese Language and Linguistics) 1. 日 本 語 史 における 文 体 的 変 異 言 語 史 をとらえるためのコーパスの 設 計 においては 言 語 の 時 間 的 変 異 に 加 えて 社 会 的 変 異 をどのように 反 映 させるかを 研 究 することも 求 められる 日 本 語 史 上 重 要 な 社 会 的 変 異 には 地 域 階 層 などによる 変 異 も 考 えられるが 文 献 資 料 によって 最 も 明 確 に 跡 づけ ることができるのは 文 体 による 変 異 である 特 に 現 代 日 本 語 の 書 き 言 葉 の 源 流 となった 和 漢 混 淆 文 が 確 立 する 鎌 倉 時 代 までのそれを 正 しく 把 握 することは 極 めて 重 要 なことで ある 図 1は 鎌 倉 時 代 までの 文 体 的 変 異 の 概 略 を 示 したものである 図 1 日 本 語 ( 鎌 倉 時 代 まで)の 文 体 的 変 異 古 い 時 代 の 話 し 言 葉 そのものは 資 料 がない 書 き 言 葉 のうち 和 文 和 漢 混 淆 文 和 化 漢 文 純 粋 漢 文 を それぞれバランスを 考 慮 しながらコーパス 化 していくことが 求 められ よう 一 方 で 言 語 史 研 究 は 書 き 言 葉 そのものよりも 話 し 言 葉 の 歴 史 に 関 心 を 寄 せるこ との 方 が 多 いために まずは 話 し 言 葉 に 近 い 書 き 言 葉 である 和 文 の 系 統 を 優 先 させる ことは 現 実 的 な 方 策 であろう また 漢 文 の 系 統 の 書 き 言 葉 には 古 典 中 国 語 の 要 素 も 濃 いため 日 本 語 史 資 料 としては 扱 いにくい 面 も 強 くある このような 背 景 から 国 立 国 語 研 究 所 の 通 時 コーパス ( 歴 史 コーパス)の 開 発 においても まずは 和 文 の 系 統 のテキ mtanaka@ninjal.ac.jp 259

273 ストからコーパス 化 に 着 手 し 順 次 漢 文 の 系 統 のテキストに 手 を 広 げていくことを 考 え ている ところで 上 記 のような 文 体 的 変 異 をとらえることのできるコーパスを 設 計 するには それぞれの 文 体 のテキストを 個 別 に 選 定 してコーパス 化 するだけでなく 文 体 的 変 異 が 分 析 しやすいように テキスト 相 互 を 関 連 付 ける 工 夫 をすることも 望 まれよう そのような 工 夫 の 一 つとして 本 稿 では 同 一 内 容 が 異 なる 文 体 で 書 かれたテキストに 着 目 し その パラレルコーパスを 設 計 することについて 検 討 を 加 えたい 2. 同 文 説 話 日 本 語 史 の 資 料 となるテキストにおいて 同 一 内 容 が 異 なる 文 体 で 書 かれたものは 多 く 存 在 するが 特 に 古 典 文 学 のジャンルの 一 つである 説 話 は そのようなケースが 多 い 一 群 として 注 目 される 説 話 は 伝 承 を 書 き 記 した 文 学 であるが 説 話 集 に 収 録 されるこ とで 後 世 に 伝 わる その 説 話 集 には 様 々な 文 体 で 書 かれたものがあり その 結 果 同 一 の 説 話 ( 同 話 )が 異 なる 文 体 で 記 録 されることも 多 い 特 に 平 安 時 代 から 鎌 倉 時 代 の 説 話 集 に 収 録 された 説 話 は 文 体 的 変 異 をとらえるのに 好 適 なものが 種 々 現 存 している 日 本 の 伝 承 は 仮 名 成 立 以 前 は 純 粋 漢 文 や 和 化 漢 文 で 書 かれ 仮 名 が 成 立 した 後 は 和 文 で 書 かれものも 現 れるが その 書 かれた 説 話 は 説 話 集 の 文 体 に 応 じて 種 々の 文 体 として 実 現 する 一 方 中 国 から 漢 文 で 書 かれた 説 話 が 書 物 を 通 して 日 本 に 伝 えられ 純 粋 漢 文 と して 受 容 されることがあるが それが 日 本 で 訓 読 されたり 訓 読 の 域 を 脱 して 和 化 漢 文 や 和 漢 混 淆 文 に 翻 訳 されたりして 説 話 集 に 収 録 される 場 合 もある このような 異 なる 説 話 集 に 収 録 される 同 内 容 の 説 話 は 共 通 説 話 と 呼 ばれる 共 通 説 話 のなかには 内 容 は 同 じでも その 表 現 が 大 きく 異 なり 文 どうしの 対 応 がとれないものも 多 い 一 方 共 通 説 話 の 中 には 表 現 の 共 通 性 が 高 く 文 レベル 語 レベルで 対 応 を 取 ることが 可 能 な 同 文 説 話 も 多 い この 同 文 説 話 をパラレルコーパスにすれば 文 体 的 変 異 をとらえるのに 好 適 なデータベースとなるだろう 文 体 的 変 異 の 大 きい 同 文 説 話 を 数 多 く 収 録 しているのが 和 漢 混 淆 文 である 今 昔 物 語 集 ( 平 安 時 代 末 期 12 世 紀 前 半 成 立 )とその 周 辺 の 説 話 集 である 今 昔 物 語 集 との 同 文 説 話 を 多 くおさめる 説 話 集 には 様 々なものがあるが 小 峯 (1997)などを 参 考 に 今 昔 物 語 集 との 同 文 説 話 の 話 数 を 集 計 して 掲 げると 次 の 通 りである 漢 文 系 統 の 説 話 集 純 粋 漢 文 : 三 宝 感 応 要 略 録 (63 話 ) 冥 報 記 (49 話 ) 法 苑 珠 林 (14 話 )など 和 化 漢 文 : 法 華 験 記 (96 話 ) 日 本 霊 異 記 (74 話 ) 日 本 往 生 極 楽 記 (32 話 )など 和 文 系 統 の 説 話 集 宇 治 拾 遺 物 語 (61 話 ) 古 本 説 話 集 (28 話 ) 俊 頼 髄 脳 (8 話 )など 同 文 とする 認 定 にはゆれも 多 いので 上 記 の 話 数 は 目 安 にとどまるが 漢 文 系 統 ( 純 粋 漢 文 和 化 漢 文 )の 説 話 集 にも 和 文 系 統 の 説 話 集 にも 今 昔 物 語 集 との 同 文 説 話 が 多 いことが 見 てとれる 今 昔 物 語 集 と 上 記 の 説 話 集 との 同 文 説 話 を 使 って 平 安 時 代 末 期 の 文 体 的 変 異 を 明 らかにしようという 研 究 は 佐 藤 (1984) 山 口 (1984) 藤 井 (2003) 今 野 (2009) 舩 城 (2011)など 日 本 語 学 の 分 野 に 多 くの 蓄 積 がある しかし 例 えば 和 漢 混 淆 文 である 今 昔 物 語 集 が 和 文 と 和 化 漢 文 のどちらにより 近 いのかということにつ いての 研 究 者 の 見 解 は 一 致 していないなど この 時 期 の 文 体 的 変 異 の 全 体 像 は 実 はよく 分 かっていない 今 昔 物 語 集 とその 周 辺 の 説 話 集 の 同 文 説 話 のパラレルコーパスを 作 るこ 260

274 とは このような 議 論 を 実 り 多 いものにすることができると 思 われる それは 同 時 に 和 漢 の 両 系 統 を 統 合 するような 通 時 コーパスの 作 成 のための 重 要 な 一 段 階 にもなるだろう 3. 和 文 説 話 集 と 今 昔 物 語 集 の 同 文 説 話 のパラレルコーパス 3.1 和 文 説 話 集 と 今 昔 物 語 集 のテキスト 和 文 説 話 集 のうち 古 本 説 話 集 ( 平 安 時 代 末 期 12 世 紀 前 半 ) 及 び 宇 治 拾 遺 物 語 ( 鎌 倉 時 代 前 期 13 世 紀 前 半 )と 今 昔 物 語 集 の 同 文 説 話 は 直 接 的 な 継 承 関 係 によっ て 生 じたものではなく 散 逸 した 宇 治 大 納 言 物 語 ( 平 安 時 代 後 期 11 世 紀 中 ごろ)に 収 録 する 説 話 を それぞれが 採 ったことによって 生 じたものである 先 行 研 究 によれば 宇 治 大 納 言 物 語 の 説 話 を 採 録 する 際 に 古 本 説 話 集 宇 治 拾 遺 物 語 はその 表 現 にあま り 手 を 加 えず 今 昔 物 語 集 は 手 を 加 えることも 多 かったとされている 同 文 説 話 の 一 例 として 宇 治 拾 遺 物 語 第 121 話 と 今 昔 物 語 集 巻 4-9 の 冒 頭 部 分 を 示 してみよう 1 宇 治 拾 遺 物 語 121 昔 天 竺 に 一 寺 あり 住 僧 もつとも 多 し 達 磨 和 尚 この 寺 に 入 りて 僧 どもの 行 ひを 窺 ひ 見 給 ふに ある 坊 には 念 仏 し 経 を 読 み さまざまに 行 ふ ある 坊 を 見 給 に 八 九 十 ばかりなる 老 僧 の ただ 二 人 ゐて 圍 碁 を 打 つ 今 昔 物 語 集 巻 4-9 今 昔 天 竺 に 陀 楼 摩 和 尚 と 申 す 聖 人 在 ます 此 の 人 五 天 竺 に 不 行 至 ぬ 所 無 く 行 て 諸 の 比 丘 の 所 行 を 善 く 見 て 世 に 傳 へ 給 ふ 人 也 一 の 寺 有 り 其 の 寺 に 入 て 比 丘 の 有 樣 共 を 伺 ひ 見 る 寺 に 比 久 共 多 く 住 む 或 る 房 には 佛 に 花 香 を 奉 り 或 る 房 には 経 典 を 讀 誦 する 比 丘 有 り 樣 々に 貴 く 行 ふ 事 無 限 し 但 し 其 の 中 に 一 の 房 有 り 人 住 たる 氣 色 無 し 草 深 塵 積 れり 深 く 入 て 見 れば 八 十 許 なる 老 比 久 二 人 居 て 碁 を 打 つ 3.2 文 と 語 の 対 照 上 記 の 二 つのテキストをそれぞれ 文 に 区 切 り 文 単 位 で 対 照 すると 表 1のようになる 宇 治 拾 遺 物 語 の4 文 が 今 昔 物 語 集 の7 文 に 対 応 しており 1 対 1 で 対 応 している 文 はなく 複 数 の 文 が 入 り 組 んで 対 応 している 様 子 が 見 えている 二 つのテキストの 対 照 は 語 レベルにまで 降 りていって 対 応 付 けることも 可 能 であり 表 2と 表 3は 宇 治 拾 遺 物 語 の 第 一 文 と 今 昔 物 語 集 の 第 一 文 について それぞれ 対 照 した 作 業 の 結 果 を 示 したものである 宇 治 拾 遺 物 語 から 今 昔 物 語 集 を 見 た 表 2 によると すべての 語 に 対 応 語 があるが 4 番 目 の 一 寺 には 一 /の/ 寺 3 語 が 対 応 している また 今 昔 物 語 集 から 宇 治 拾 遺 物 語 を 見 た 表 3 によると 1 番 めの 今 まし 7 番 目 以 降 の と 申 す 聖 人 在 ます には 対 応 語 がない また 5 番 目 の 陀 楼 摩 の 対 応 語 は 達 磨 で 表 記 が 異 なっているが 同 語 の だるま と 認 定 する さらに 表 2と 表 3の 範 囲 にはないが 対 応 語 があっても 別 の 語 に 対 応 することもあり 例 えば 表 1の 宇 治 拾 遺 物 語 の3 番 目 の 文 の3つめの 語 この は 今 昔 物 語 集 では4つめ 1 宇 治 拾 遺 物 語 のテキストは 新 編 日 本 古 典 文 学 全 集 ( 小 学 館 )による 今 昔 物 語 集 のテキストは 巻 1~ 巻 10 は 日 本 古 典 文 学 大 系 ( 旧 版 ) ( 岩 波 書 店 ) 巻 11~31 は 新 編 日 本 古 典 文 学 全 集 による 新 編 日 本 古 典 文 学 全 集 のテキストは 小 学 館 から 国 立 国 語 研 究 所 に 提 供 されたものを 用 い 日 本 古 典 文 学 大 系 ( 旧 版 ) のテキストは 国 文 学 研 究 資 料 館 の 日 本 古 典 文 学 本 文 データベース のものを 利 用 した なお 今 昔 物 語 集 のテキストは 漢 字 片 仮 名 交 じり 文 であるが 片 仮 名 を 平 仮 名 に 変 換 してデータ 化 を 行 った 261

275 の 文 の 冒 頭 の 語 其 の に 対 応 している このように 文 レベル 語 レベルの 対 応 のありようは 複 雑 であり パラレルコーパスを 作 る 際 は 何 と 何 を 対 応 付 けるのかについて 認 定 にゆれが 生 じないような 詳 しい 基 準 を 作 成 しておく 必 要 がある 2 表 1 宇 治 拾 遺 物 語 121 と 今 昔 物 語 集 巻 4-9 の 文 の 対 応 文 id 宇 治 拾 遺 物 語 今 昔 対 応 文 文 id 今 昔 物 語 集 宇 治 対 応 文 u001 昔 天 竺 に 一 寺 あり k k001 今 (は) 昔 天 竺 に 陀 楼 摩 和 尚 と 申 す 聖 人 u k002 在 ます 此 の 人 五 天 竺 に 不 行 至 ぬ 所 無 く 行 て 諸 の 比 丘 の 所 行 を 善 く 見 て 世 に 傳 へ 給 ふ 人 也 u# k003 一 の 寺 有 り u001 u002 住 僧 もつとも 多 し k004 k004 其 の 寺 に 入 て 比 丘 の 有 樣 共 を 伺 ひ 見 る 寺 に u 比 久 共 多 く 住 む u003 達 磨 和 尚 この 寺 に 入 て 僧 どもの 行 ひをう k k005 或 る 房 には 佛 に 花 香 を 奉 り 或 る 房 には 経 典 u003 かゞひ 見 給 ふに ある 坊 には 念 仏 し 経 を を 讀 誦 する 比 丘 有 あり 樣 々に 貴 く 行 ふ 事 無 読 み さまざまに 行 ふ 限 し u004 ある 坊 を 見 給 ふに 八 九 十 ばかりなる 老 僧 k k006 但 し 其 の 中 に 一 の 房 有 り 人 住 たる 氣 色 無 u004 の ただ 二 人 ゐて 圍 碁 を 打 つ し 草 深 塵 積 れり k007 深 く 入 て 見 れば 八 十 許 なる 老 比 久 に 人 居 て 碁 を 打 つ u004 表 2 宇 治 から 今 昔 への 語 の 対 応 表 3 今 昔 から 宇 治 への 語 の 対 応 文 id 語 id 宇 治 今 昔 対 応 文 対 応 語 分 類 文 id 語 id 今 昔 宇 治 対 応 文 対 応 語 分 類 u 昔 昔 k 同 語 u 天 竺 天 竺 k 同 語 u に に k 同 語 u 一 寺 一 の 寺 k 別 語 u あり 有 り k 同 語 k 今 u001 # 3 非 対 応 k 昔 昔 u 同 語 k 天 竺 天 竺 u 同 語 k に に u 同 語 k 陀 楼 摩 達 磨 u 同 語 k 和 尚 和 尚 u 同 語 k と u003 # 3 非 対 応 k 申 す u003 # 3 非 対 応 k 聖 人 u003 # 3 非 対 応 k 在 ます u003 # 3 非 対 応 このような 対 応 付 けの 作 業 については 基 準 を 整 備 した 上 で 進 めていく 必 要 があるが その 基 準 を 策 定 しつつ 探 索 的 な 試 行 作 業 を 次 の5 対 の 同 文 説 話 に 対 して 実 施 した デー 2 個 々のテキストにおける 単 語 認 定 は 小 木 曽 (2012)などが 示 す 中 古 和 文 の 短 単 位 認 定 基 準 に 従 う これとは 別 に 二 つのテキストを 対 応 付 ける 基 準 の 策 定 が 必 要 である 262

276 タ 量 は 和 文 説 話 集 が 延 べ 語 数 で 約 5500 語 今 昔 物 語 集 が 約 6700 語 である その 思 考 結 果 の 概 要 は 5 節 で 報 告 する 宇 治 31/ 今 昔 巻 宇 治 91/ 今 昔 巻 5-1 宇 治 102/ 今 昔 巻 宇 治 137/ 今 昔 巻 4-9 宇 治 187/ 今 昔 巻 漢 文 説 話 集 と 今 昔 物 語 集 の 同 文 説 話 のパラレルコーパス 4.1 漢 文 説 話 集 と 今 昔 物 語 集 のテキスト 今 昔 物 語 集 との 同 文 説 話 を 収 録 する 漢 文 系 の 説 話 集 は 多 様 で 直 接 的 な 関 係 がある ものと 間 接 的 な 関 係 にとどまるものとがあり その 識 別 は 難 しい 場 合 も 多 い 直 接 関 係 に ない 宇 治 拾 遺 物 語 と 今 昔 物 語 集 をパラレルコーパスにしたように 同 文 性 の 高 い 同 文 説 話 を 持 つ 漢 文 説 話 集 も パラレルコーパス 作 成 の 対 象 としてよいだろう ここでは 日 本 霊 異 記 中 巻 32 話 と 今 昔 物 語 集 巻 を 例 に 取 り 上 げたい この 二 書 の 関 係 については 今 昔 物 語 集 が 日 本 霊 異 記 ( 平 安 時 代 初 期 9 世 紀 前 半 )を 直 接 の 典 拠 と して 翻 訳 したとされている 上 記 のペアの 各 冒 頭 部 を 掲 げよう 3 日 本 霊 異 記 中 巻 32 聖 武 天 皇 世 紀 伊 國 名 草 郡 三 上 村 人 為 薬 王 寺 率 引 知 識 息 晋 薬 分 其 薬 料 物 寄 乎 岡 田 村 主 姑 女 之 家 作 酒 息 利 時 有 斑 犢 入 藥 王 寺 常 伏 塔 基 今 昔 物 語 集 巻 今 昔 紀 伊 国 の 名 草 の 郡 三 上 の 村 に 一 の 寺 を 造 て 名 を 薬 王 寺 と 云 ふ 其 後 知 識 を 引 て 諸 の 薬 を 儲 て 其 の 寺 に 宜 て 普 く 人 に 施 しけり 而 る 間 だ 聖 武 天 皇 の 御 代 に 其 の 薬 の 料 物 を 岡 田 の 村 主 と 云 者 の 姑 の 家 に 宿 し 置 く 而 るに 其 の 家 の 主 其 の 物 を 酒 に 造 て 其 を 人 に 与 へて 員 を 増 して 得 むと 為 るに 其 の 時 に 斑 なる 小 牛 出 来 て 薬 王 寺 の 内 に 入 常 に 塔 の 本 に 臥 す 4.2 文 と 語 の 対 照 3 節 で 和 文 説 話 集 との 同 文 説 話 の 対 応 付 けを 行 ったのと 同 様 の 方 式 で 文 レベルの 対 応 と 語 レベルの 対 応 を 示 すと 表 4 表 5 表 6 のようになる 漢 文 説 話 集 を 扱 う 際 には 和 文 説 話 集 の 場 合 にはなかった 問 題 が 二 点 あり その 処 理 方 法 をあらかじめ 決 めておく 必 要 がある 第 一 点 は 原 文 そのままの 漢 文 テキストを 扱 うのではなく 訓 読 文 テキストを 扱 うとい う 点 である 平 安 鎌 倉 時 代 の 日 本 における 漢 文 は 純 粋 漢 文 は 訓 読 されることも 多 く 和 化 漢 文 は 日 本 語 を 表 記 している 部 分 が 多 く 特 に 今 昔 物 語 集 の 説 話 と 対 応 付 ける 際 は 漢 文 としてではなく 日 本 語 文 として 扱 うべきだと 考 えられる 表 4~6 の 日 本 霊 異 記 のテキストは 新 編 日 本 古 典 文 学 全 集 の 訓 読 文 によったものである 訓 読 する 際 に 原 文 にない 文 字 を 読 み 添 えたことによって 生 じた 語 は 括 弧 で 括 った 4 括 弧 で 括 った 原 文 に ない 語 については 集 計 や 分 析 の 対 象 から 外 すことが 必 要 であろう 第 二 点 は 語 の 同 定 の 問 題 である 和 文 や 和 漢 混 淆 文 の 場 合 は 語 の 同 定 は 比 較 的 容 易 で どこまでを 一 語 と 認 めるのか またどう 読 むのかについて 迷 うものは 多 くない こ れに 対 して 漢 文 は 単 位 や 読 みの 同 定 について 複 数 の 可 能 性 が 想 定 できるものが 多 い 今 昔 物 語 集 との 対 応 付 けということを 考 える 場 合 複 数 の 可 能 性 がある 場 合 は 今 昔 物 語 3 日 本 霊 異 記 のテキストは 新 編 日 本 古 典 文 学 全 集 ( 小 学 館 )による 4 活 用 語 尾 など 語 の 一 部 を 読 み 添 えるものについては 括 弧 などで 括 ることはしなかった 263

277 集 の 表 現 に 近 いものを 採 るという 規 則 を 立 てるのが 現 実 的 だろう 日 本 霊 異 記 の 場 合 は 原 則 として 新 編 日 本 古 典 文 学 全 集 の 訓 読 文 に 従 い 今 昔 物 語 集 の 表 現 により 近 い 認 定 が 可 能 なものについては これを 修 正 していくことにしたい 表 4 日 本 霊 異 記 中 巻 32 と 今 昔 物 語 集 巻 の 文 の 対 応 文 id 霊 異 記 今 昔 対 応 文 id 今 昔 霊 異 記 対 応 r001 聖 武 天 皇 (の)(み) 世 (に) 紀 伊 國 名 k001,k003 k001 今 (は) 昔 紀 伊 (の) 国 の 名 草 の 郡 三 上 の r001 草 郡 三 上 (の) 村 (の) 人 藥 王 寺 (の) 村 に 一 の 寺 を 造 て 名 を 薬 王 寺 と 云 ふ 為 (に) r002 知 識 (を) 率 引 (して) 晋 (く) 藥 分 k002 k002 其 後 知 識 を 引 て 諸 の 薬 を 儲 て 其 の 寺 に r002 (を) 息 し(き) 宜 て 普 く 人 に 施 しけり r003 其 (の) 藥 料 (の) 物 (を) 岡 田 村 主 k003 k003 而 る 間 だ 聖 武 天 皇 の 御 代 に 其 の 薬 の 料 物 r001,r003 (の) 姑 女 之 家 (に) 寄 せ 乎 を 岡 田 の 村 主 と 云 者 の 姑 の 家 に 宿 し 置 く r004 酒 (を) 作 り 利 (を) 息 し(き) k004 k004 而 るに 其 の 家 の 主 其 の 物 を 酒 に 造 て 其 を r 人 に 与 へて 員 を 増 して 得 むと 為 るに 其 の 時 に 斑 なる 小 牛 出 来 て 薬 王 寺 の 内 に 入 て 常 に 塔 の 本 に 臥 す r005 時 (に) 斑 (なる) 犢 有 り(き) k004 r006 藥 王 寺 (に) 入 り 常 (に) 塔 (の) 基 (に) 伏 せ(り) k004 表 5 霊 異 記 から 今 昔 への 語 の 対 応 表 6 今 昔 から 霊 異 記 への 語 の 対 応 文 id 語 id 霊 異 記 今 昔 対 応 文 対 応 語 分 類 文 id 語 id 今 昔 霊 異 記 対 応 文 対 応 語 分 類 r 知 識 知 識 k 同 語 r (を) を k r 率 引 引 k 別 語 r (し) # k002 # r (て) て k r 晋 (く) 普 く k 同 語 r 藥 分 薬 k 別 語 r (を) を k r 息 し 施 し k r (き) けり k k 其 r002 # 3 非 対 応 k 後 r002 # 3 非 対 応 k 知 識 知 識 r 同 語 k を (を) r k 引 率 引 r 別 語 k て (て) r k 諸 r002 # 3 非 対 応 k の r002 # 3 非 対 応 k 薬 藥 分 r 別 語 k を (を) r k 儲 r002 # 3 非 対 応 k て r002 # 3 非 対 応 k 其 の r002 # 3 非 対 応 k 寺 r002 # 3 非 対 応 k に r002 # 3 非 対 応 k 宜 r002 # 3 非 対 応 ( 以 下 略 ) 264

278 このように 漢 文 説 話 集 の 場 合 は 和 文 説 話 集 の 場 合 以 上 に 詳 細 な 基 準 が 必 要 になるが その 基 準 を 作 成 しながら 上 記 のような 対 応 付 けを 次 の 共 通 説 話 の 10 対 について 試 行 した 分 量 は 漢 文 説 話 が 延 べ 約 2000 語 今 昔 物 語 集 が 約 4000 語 である 法 苑 珠 林 巻 37 敬 塔 篇 35 施 繞 部 5/ 今 昔 巻 1-36 法 苑 珠 林 巻 37 敬 塔 篇 35 感 福 部 5/ 今 昔 巻 2-11 三 宝 感 応 要 略 中 21/ 今 昔 巻 6-39 法 華 験 記 中 49/ 今 昔 巻 法 華 験 記 上 18/ 今 昔 巻 法 華 験 記 下 89/ 今 昔 巻 法 華 験 記 下 111/ 今 昔 巻 日 本 霊 異 記 上 5/ 今 昔 巻 日 本 霊 異 記 中 32/ 今 昔 巻 日 本 往 生 極 楽 記 25/ 今 昔 巻 対 照 結 果 の 分 類 と 分 析 例 5.1 対 照 結 果 の 分 類 3 節 4 節 で 説 明 したような 方 法 で 今 昔 物 語 集 以 外 の 説 話 集 ( 説 話 集 A)と 今 昔 物 語 集 ( 説 話 集 B)の 共 通 説 話 について 対 照 を 行 ったデータは 次 のように 分 類 できる 5 説 話 集 A( 今 昔 物 語 集 以 外 )の 語 1 同 語 対 応 例 : 昔 ( 宇 治 ) [ 昔 ( 今 昔 )] 2 別 語 対 応 例 : 率 引 ( 霊 異 記 ) [ 引 く( 今 昔 )] 3 非 対 応 例 : 為 ( 霊 異 記 ) [ ( 今 昔 )] 説 話 集 B( 今 昔 物 語 集 )の 語 1 同 語 対 応 例 : 昔 ( 今 昔 ) [ 昔 ( 宇 治 )] 2 別 語 対 応 例 : 引 く( 今 昔 ) [ 率 引 ( 霊 異 記 )] 3 非 対 応 例 : 今 ( 今 昔 ) [ ( 宇 治 )] 表 2 表 3 表 5 表 6 の 事 例 にはこの 分 類 も 書 き 込 んだ このうち 1 同 語 対 応 は 文 体 が 異 なる 説 話 集 で 同 一 の 語 が 使 われるものであるので 文 体 的 変 異 のない 語 ということ になる 例 えば 和 文 説 話 集 から 今 昔 物 語 集 を 見 たとき 足 知 る 打 つ などは ほとんどすべての 箇 所 で 同 じ 語 が 対 応 しており 漢 文 説 話 集 から 今 昔 物 語 集 を 見 ると 寺 見 る 聞 く などがほぼ 全 例 同 じ 語 が 対 応 している 一 方 2 別 語 対 応 は 別 語 が 選 ばれた 原 因 は 文 体 が 異 なることにある 可 能 性 が 高 く 2に 分 類 されることが 多 い 語 は 文 体 的 変 異 を 研 究 する 際 に 特 に 注 目 すべき 語 群 である と 考 えられる そして 3 非 対 応 は 一 方 の 説 話 集 で 書 かれ 他 方 の 説 話 集 で 書 かれない 理 由 が 文 体 とは 別 の 要 因 ( 説 話 集 の 編 纂 目 的 編 者 の 思 想 など)である 場 合 も 多 いと 思 わ れるが 文 体 が 関 与 している 可 能 性 もあり 2に 次 いで 注 目 していく 必 要 があると 思 われ る 5.2 和 文 説 話 集 との 対 照 結 果 の 分 析 上 記 の 分 類 結 果 のデータの 集 計 と 分 析 を 進 めているが その 中 間 報 告 として 文 体 的 変 異 の 観 点 から 特 徴 的 だと 考 えられるいくつかの 語 について 紹 介 したい まず 説 話 集 Aが 和 文 説 話 集 の 場 合 の 対 照 結 果 の 方 から 取 り 上 げたい た 説 話 集 A( 今 昔 物 語 集 以 外 )の 側 で 2 別 語 対 応 が 特 に 多 いものに 給 ぶ むず で 囲 碁 築 地 此 かる などがある 表 7 は これらの 分 類 別 の 件 数 を 示 したもの だが 此 かる を 除 く5 語 は 今 昔 物 語 集 の 同 文 説 話 では ほぼ 決 まった 語 ( 下 線 の 5 このような 分 類 は 山 元 田 中 近 藤 (2012)でも 示 した 本 稿 の A1 B1は そのときの 2.2 A 2は 2.1 A3は 1.0 B2は 2.3 B3は 3.0 に それぞれ 相 当 する 265

279 語 )が 対 応 しており それぞれ 文 体 的 な 対 語 関 係 にあるものと 考 えられる 表 7 説 話 集 Aにおいて2 別 語 対 応 が 多 い 語 の 例 語 1 同 語 2 別 語 3 非 対 応 2の 今 昔 物 語 集 での 対 応 語 給 (た)ぶ 給 ふ 4 奉 る 1 むず むとす 3 なり[ 推 定 ]1 で ずして 3 囲 碁 碁 5 築 地 築 垣 4 城 1 此 かる 此 く 1 此 れ 1 然 る 1 己 等 が 様 なる 1 夜 叉 の 一 党 1* *は 語 単 位 の 対 応 でなく 複 数 の 語 に 対 応 するもの 文 体 的 対 語 と 考 えられるものについて 平 安 時 代 後 期 (11 世 紀 初 め)までの 和 文 作 品 を 対 象 とした 日 本 語 歴 史 コーパス 平 安 時 代 編 ( 国 立 国 語 研 究 所 ) 6 を 使 って 頻 度 調 査 を 行 うと 次 のように いずれの 対 においても 頻 度 は 一 方 の 語 に 極 端 に 偏 っており 平 安 時 代 において 文 体 的 な 特 異 性 を 持 つ 語 であったことが 裏 付 けられる (1) 給 ぶ(21)/ 給 ふ(17868) (2) むず(21)/むとす(218) (3) で(1079)/ずして(31) (4) 囲 碁 (0)/ 碁 (29) (5) 築 地 (9)/ 築 垣 (0) (1)(2)(4)の3 対 は 平 安 和 文 作 品 では 今 昔 物 語 集 に 特 徴 的 な 語 の 方 が 頻 度 が 圧 倒 的 に 多 くなっている 一 方 (3)(5)の2 対 は 和 文 説 話 集 に 特 徴 的 な 語 の 方 が 頻 度 が 圧 倒 的 に 多 くなっている このような 現 象 は 文 体 的 な 特 異 性 の 内 実 が 二 つの 群 で 異 なって いることを 考 えさせられ 研 究 を 深 めていく 必 要 性 が 強 く 感 じられるところである 一 方 決 まった 語 が 対 応 していない 此 かる のように 対 語 をもたない 文 体 的 な 特 徴 語 が 存 在 していることも 判 明 するが こうした 語 をどのように 位 置 付 けるべきかについて も 研 究 していかなければならない 説 話 集 B( 今 昔 物 語 集 )の 側 で2 別 語 対 応 が 多 いものには 間 碁 比 丘 古 老 暫 く 美 麗 王 宮 などが 指 摘 できる このうち 碁 は A2に 多 い 囲 碁 の 対 応 語 になっていたものであるが それ 以 外 はA2に 多 い 語 とは 一 致 しない それらをまと めた 表 8 によれば 和 文 説 話 集 の 同 文 説 話 で 特 定 の 語 ( 下 線 の 語 )が 対 応 する 場 合 もあれ ば 多 様 な 語 が 対 応 する 場 合 もある これらの 語 についても 当 時 の 他 の 文 献 での 出 現 状 況 を 参 照 しながら 文 体 的 変 異 の 内 実 について 研 究 することが 期 待 されよう 次 に 3 非 対 応 が 特 に 多 い 語 がどのようなものか 見 ていこう 説 話 集 A( 今 昔 物 語 集 こ こ たび 以 外 )の 側 で3 非 対 応 になるものをあげると 此 処 度 いみじ 付 ける 候 ふ え ( 副 詞 ) やがて かな( 終 助 詞 ) など( 副 助 詞 ) などがある これらの 現 象 が 文 体 を 理 由 として 特 徴 語 になっているものなのか 別 の 理 由 によるものなのかについては 個 々の 語 の 事 情 について 研 究 していく 必 要 がある 同 じようにして 説 話 集 B( 今 昔 物 語 さき た 集 )の 側 で3 非 対 応 が 多 いものに 注 目 すると 各 々 先 一 つ 他 更 に 忽 ち あひ 未 だ 相 など 多 くの 語 がリストアップされる これらについても このような 特 徴

280 が 生 じる 背 景 や 事 情 を 検 討 していくことが 求 められるだろう 表 8 説 話 集 Bにおいて2 別 語 対 応 が 多 い 語 の 例 語 1 同 語 2 別 語 3 非 対 応 2の 和 文 説 話 集 での 対 応 語 間 ほど 3 が 1 に 1 碁 囲 碁 5 この 事 1 比 丘 僧 3 住 僧 1 寺 僧 1 他 僧 1 暫 く 暫 し 3 美 麗 をかしげ 2 めでたし 1 美 し1 あはれげ 1 玉 1 王 宮 内 裏 1 御 内 1 公 卿 殿 上 人 *1 *は 語 単 位 の 対 応 でなく 複 数 の 語 に 対 応 するもの 5.3 漢 文 説 話 集 との 対 照 結 果 の 分 析 それでは 説 話 集 A( 今 昔 物 語 集 以 外 )が 漢 文 説 話 集 である 場 合 はどうであろうか 漢 文 説 話 集 の 場 合 3 節 で 述 べたような 難 しい 問 題 がつきまとうため データの 集 計 と 分 の 類 が 不 十 分 な 段 階 であるが 2 別 語 対 応 が 特 に 多 いものとしては 詔 る 沙 門 比 丘 故 などが 挙 げられる これらのうちはじめの3 語 は 表 9に 見 るように 今 昔 物 語 集 の 同 文 説 話 では ほぼ 決 まった 語 ( 下 線 の 語 )が 対 応 しており それぞれ 文 体 的 な 対 語 関 係 にあるものと 考 えられる 一 方 故 は 文 体 的 対 語 はもたない 文 体 的 特 徴 語 と 見 るこ とができるだろう 表 9 説 話 集 Aにおいて2 別 語 対 応 が 多 い 語 の 例 ( 漢 文 説 話 集 ) 語 1 同 語 2 別 語 3 非 対 応 2の 対 応 語 詔 る 仰 す 4 沙 門 僧 3 持 経 者 1 海 蓮 1 比 丘 僧 5 汝 1 故 が 為 に 1 依 て 1 て 1 説 話 集 B( 今 昔 物 語 集 )の 側 で2 別 語 対 応 が 多 いものに 后 僧 申 す 成 る などが 指 摘 できる このうち 僧 は A2に 多 い 沙 門 比 丘 の 対 応 語 になっていた ものであるが それ 以 外 はA2に 多 い 語 とは 一 致 しない それは 表 10 のように 和 文 説 話 集 の 同 文 説 話 では 特 定 の 語 やある 類 の 語 が 対 応 する 場 合 もあれば 多 様 な 語 に 対 応 す る 場 合 もある 表 10 説 話 集 Bにおいて2 別 語 対 応 が 多 い 語 の 例 ( 漢 文 説 話 集 ) 語 1 同 語 2 別 語 3 非 対 応 2の 対 応 語 后 皇 后 4 僧 比 丘 5 沙 門 3 我 1 申 す 奏 す3 願 ふ 1 成 る 生 む1 得 1 作 す 1 所 役 1 最 後 に 3 非 対 応 が 多 いものはどういう 語 だろうか まず 説 話 集 A( 今 昔 物 語 集 以 外 ) 267

281 の 側 では 文 末 の 矣 や 副 詞 亦 が 非 常 に 多 いが これらは 漢 文 説 話 に 使 われてい ても 今 昔 物 語 集 では 排 除 されるタイプの 語 であったと 考 えられる ほかに 其 れ 已 に 更 に などが 同 様 のタイプとしてあがってくる 説 話 集 B( 今 昔 物 語 集 )の 側 では たり き は を などの 助 詞 助 動 詞 が 多 あひだ いが これは そもそも 漢 文 にはない 語 である 自 立 語 にも 間 給 ふ 伝 ふ など 漢 文 にはなく 今 昔 物 語 集 が 独 自 に 使 う 語 は 多 い こうした 語 の 性 質 についても まず は 一 語 一 語 について 研 究 し 文 体 的 特 徴 を 持 つ 事 情 を 究 明 していくことが 望 まれよう 6. おわりに 今 昔 物 語 集 の 同 文 説 話 を 材 料 にして 平 安 時 代 末 期 の 文 体 的 変 異 を 解 明 しようとす る 研 究 は 2 節 にあげたように 従 来 から 盛 んであったが そこに 関 連 説 話 集 とのパラレル コーパスを 持 ち 込 むことで その 方 面 の 研 究 をいっそう 活 発 化 させ 見 通 しのよいものにし ていく 効 果 が 期 待 できる それが 実 現 すれば 平 安 鎌 倉 時 代 における 文 体 的 変 異 に 関 し て 従 来 は 十 分 に 目 の 行 き 届 いていなかった より 広 い 範 囲 の 研 究 につなげていくことが できると 期 待 される そのような 研 究 は パラレルコーパスの 対 象 にならない この 時 代 の 多 くのテキストのコーパス 化 に 対 しても 有 益 な 知 見 をもたらすことになると 思 う 付 記 本 研 究 は 国 立 国 語 研 究 所 共 同 研 究 プロジェクト 通 時 コーパスの 設 計 (プロジェクトリ ーダー: 近 藤 泰 弘 ) 及 び 日 本 学 術 振 興 会 科 学 研 究 費 基 盤 研 究 (B) 和 漢 の 両 系 統 を 統 合 する 平 安 鎌 倉 時 代 語 コーパス 構 築 のための 語 彙 論 的 研 究 ( 研 究 代 表 者 : 田 中 牧 郎 )による 成 果 の 一 部 です 文 献 小 木 曽 智 信 (2012) 和 文 系 資 料 を 対 象 とした 形 態 素 解 析 辞 書 の 開 発 研 究 成 果 報 告 書 ( 科 研 費 報 告 書 小 峯 和 明 (1997) 今 昔 物 語 集 の 形 成 と 構 造 補 訂 版 笠 間 書 院 近 藤 泰 弘 (2012) 日 本 語 通 時 コーパスの 設 計 について ( 国 立 国 語 研 究 所 プロジェクトレ ビュー 国 立 国 語 研 究 所 3-2 pp.84-92) 今 野 真 二 (2009) 文 献 日 本 語 学 港 の 人 佐 藤 武 義 (1984) 今 昔 物 語 集 の 語 彙 と 語 法 明 治 書 院 築 島 裕 (1963) 平 安 時 代 の 漢 文 訓 読 語 につきての 研 究 東 京 大 学 出 版 会 藤 井 俊 博 (2003) 今 昔 物 語 集 の 表 現 形 成 和 泉 書 院 舩 城 俊 太 郎 (2011) 院 政 時 代 文 章 様 式 論 考 勉 誠 出 版 峰 岸 明 (1986) 平 安 時 代 古 記 録 の 国 語 学 的 研 究 東 京 大 学 出 版 会 山 口 仲 美 (1984) 平 安 文 学 の 文 体 の 研 究 明 治 書 院 山 元 啓 史 田 中 牧 郎 近 藤 泰 弘 (2012) 通 時 コーパスと 言 語 空 間 論 ( 第 1 回 コーパス 日 本 語 学 ワークショップ 予 稿 集 国 立 国 語 研 究 所 言 語 資 源 研 究 系 コーパス 開 発 センタ ー pp ) 268

282 日 本 語 歴 史 コーパス 平 安 時 代 編 先 行 公 開 版 について 小 木 曽 智 信 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) 須 永 哲 矢 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 冨 士 池 優 美 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) 中 村 壮 範 (マンパワージャパン 株 式 会 社 ) 田 中 牧 郎 ( 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) 近 藤 泰 弘 ( 青 山 学 院 大 学 文 学 部 / 国 立 国 語 研 究 所 言 語 資 源 研 究 系 ) On the Public Beta Release of the Heian Period Series of the Corpus of Historical Japanese Toshinobu Ogiso (National Institute for Japanese Language and Linguistics) Tetsuya Sunaga (National Institute for Japanese Language and Linguistics) Yumi Fujiike (National Institute for Japanese Language and Linguistics) Takenori Nakamura (Manpower Japan Co., Ltd. ) Makiro Tanaka (National Institute for Japanese Language and Linguistics) Yasuhiro Kondo (Aoyama Gakuin University / National Institute for Japanese Language and Linguistics) 1.はじめに 国 立 国 語 研 究 所 では 通 時 コーパスの 設 計 プロジェクトが 中 心 となって 日 本 語 歴 史 コーパス 1 (Corpus of Historical Japanese,CHJ)の 開 発 準 備 を 進 めてきた( 近 藤 2012) 今 回 このうち 平 安 時 代 の 仮 名 文 学 作 品 からなる 平 安 時 代 編 のデータ 整 備 が 進 んだこ とから これを 先 行 公 開 版 として 一 般 公 開 を 行 うこととした 現 代 日 本 語 書 き 言 葉 均 衡 コーパス (BCCWJ)の 公 開 にも 用 いられているウェブインターフェイス 中 納 言 ( 小 木 曽 ほか 2011)を 利 用 しての 公 開 となる 本 発 表 では CHJ 平 安 時 代 編 の 先 行 公 開 版 の 内 容 について 説 明 し CHJ 中 納 言 の デモンストレーションを 行 う 2. 日 本 語 歴 史 コーパス 平 安 時 代 編 先 行 公 開 版 の 概 要 CHJ 平 安 時 代 編 は 日 本 の 代 表 的 な 古 典 文 学 作 品 である 平 安 時 代 の 仮 名 文 学 作 品 をコーパス 化 したものである 先 行 公 開 版 では 次 の 10 作 品 のデータが 利 用 可 能 である 本 文 はすべて 許 諾 を 得 て 小 学 館 新 編 日 本 古 典 文 学 全 集 ( 新 編 全 集 )を 利 用 している 2 古 今 和 歌 集 土 佐 日 記 竹 取 物 語 伊 勢 物 語 落 窪 物 語 大 和 物 語 枕 草 子 源 氏 物 語 紫 式 部 日 記 和 泉 式 部 日 記 収 録 した 本 文 データには 中 古 和 文 UniDic ( 小 木 曽 ほか 2012,Ogiso et al. 2012)と MeCab を 用 いて 形 態 素 解 析 を 施 し その 解 析 結 果 に 対 して 人 手 による 修 正 を 行 った これ により 出 現 するすべての 語 に 読 み 品 詞 活 用 型 活 用 形 語 種 等 の 形 態 論 情 報 ( 短 単 位 )が 付 与 されている さらに 新 編 全 集 の 情 報 を 利 用 して 本 文 に 本 文 種 別 と 呼 ぶ 情 報 を 付 与 し 当 該 箇 所 が 地 の 文 なのか 会 話 文 なのか あるいは 和 歌 や 手 紙 なのかといった 区 別 がなされている 源 氏 物 語 では 話 者 も 表 示 される togiso@ninjal.ac.jp 1 これまで 暫 定 的 に 通 時 コーパス と 呼 称 されていたものの 正 式 名 称 2 コーパス 化 の 対 象 は 原 文 のみで 現 代 語 訳 等 は 含 まない 269

283 テキスト 量 CHJ 平 安 時 代 編 のテキストの 量 は 表 1 に 示 す 通 りである 全 体 で 約 79 万 語 うち 65%に 近 い 51 万 語 を 源 氏 物 語 が 占 めている 表 1 作 品 別 の 語 数 ( 短 単 位, 記 号 を 含 む) 作 品 名 語 数 伊 勢 物 語 古 今 和 歌 集 和 泉 式 部 日 記 土 佐 日 記 8129 大 和 物 語 枕 草 子 源 氏 物 語 竹 取 物 語 紫 式 部 日 記 落 窪 物 語 総 計 品 詞 語 種 構 成 コーパスに 付 与 された 短 単 位 の 形 態 論 情 報 を 元 に 作 品 ごとに 品 詞 別 の 語 数 を 集 計 した ものが 図 1 である 品 詞 の 認 定 基 準 は 中 古 和 文 UniDic 短 単 位 規 程 集 ( 小 椋 須 永 2012) によっている なお 以 下 では 語 数 に 記 号 を 含 まない 和 泉 式 部 日 記 落 窪 物 語 枕 草 子 土 佐 日 記 竹 取 物 語 大 和 物 語 紫 式 部 日 記 古 今 和 歌 集 源 氏 物 語 伊 勢 物 語 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 伊 勢 物 語 源 氏 物 語 古 今 和 歌 集 紫 式 部 日 記 大 和 物 語 竹 取 物 語 土 佐 日 記 枕 草 子 落 窪 物 語 和 泉 式 部 日 記 感 動 形 状 形 容 助 詞 助 動 接 続 接 頭 接 尾 代 名 動 詞 副 詞 名 詞 連 体 図 1 作 品 別 品 詞 構 成 270

284 同 様 に 語 種 別 の 集 計 を 行 ったものが 図 2 である どの 作 品 でも 大 部 分 が 和 語 であり 全 体 では 96%を 占 める 古 今 集 は 歌 人 の 名 前 官 職 などを 含 むため 固 有 名 や 漢 語 の 割 合 が 高 くなっている ごくわずかに 現 れる 外 来 語 はサンスクリット 語 由 来 の 仏 教 語 である 和 泉 式 部 日 記 落 窪 物 語 枕 草 子 土 佐 日 記 竹 取 物 語 大 和 物 語 紫 式 部 日 記 古 今 和 歌 集 源 氏 物 語 伊 勢 物 語 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 伊 勢 物 語 源 氏 物 語 古 今 和 歌 集 紫 式 部 日 記 大 和 物 語 竹 取 物 語 土 佐 日 記 枕 草 子 落 窪 物 語 和 泉 式 部 日 記 外 漢 固 混 和 図 2 作 品 別 語 種 構 成 形 態 論 情 報 の 特 徴 CHJ に 付 与 される 形 態 論 情 報 は 電 子 化 辞 書 UniDic( 伝 ほか 2007)の 設 計 にもとづく ものである UniDic は 短 単 位 と 呼 ばれる 厳 密 な 規 定 によって 単 語 の 区 切 り 方 が 定 められ ており 揺 れが 少 ない 斉 一 な 単 位 による 解 析 が 可 能 になっている( 小 椋 ほか 2011) また 図 3 に 示 すように 語 彙 素 語 形 書 字 形 発 音 形 という 見 出 し 語 の 階 層 構 造 を 持 っており 利 用 者 が 必 要 に 応 じて 見 出 し 語 のレベルを 選 択 して 利 用 することができる 図 4( 次 頁 ) は 具 体 的 な 見 出 し 語 ( 例 : 何 処 [イズコ])の 例 である 語 彙 素 語 形 書 字 形 発 音 形 図 3 見 出 し 語 の 階 層 構 造 語 彙 素 は 異 語 形 や 異 表 記 をまとめ 上 げた 辞 書 見 出 し(lemma)に 相 当 するもので 語 形 はそのうち 異 語 形 を 区 別 したもの 書 字 形 は 異 表 記 を 区 別 したものである 発 音 形 は 発 音 を 示 すものであるが CHJ においては 現 代 における 読 み 方 を 参 考 までに 示 し たものに 過 ぎない 利 用 者 は 表 記 そのものに 関 心 があるのであれば 書 字 形 を 語 形 の 差 異 に 関 心 があるのであれば 語 形 を 辞 書 見 出 しのレベルでまとめ 上 げたいのであれば 語 彙 素 を 利 用 すればよい 271

285 図 4 見 出 し 語 の 階 層 構 造 の 例 ( 何 処 [イズコ]) CHJ で 利 用 している 中 古 和 文 UniDic の 短 単 位 は 原 則 として 現 代 語 と 同 様 の 基 準 によ っており 相 互 に 比 較 することができるように 配 慮 したものである ただし 語 の 歴 史 的 変 化 や 中 古 語 の 実 態 を 踏 まえ 時 代 別 に 異 なった 扱 いをしている 語 も 少 なくない たとえ ば 現 代 語 では 連 体 詞 とされる この その が 中 古 語 では 代 名 詞 こ そ と 格 助 詞 の に 分 けて 数 えられている CHJ 中 納 言 を 用 いて 中 古 語 の 検 索 をする 場 合 には この 短 単 位 の 規 定 について 理 解 をしておく 必 要 がある 先 行 公 開 版 データの 制 限 CHJ では BCCWJ と 同 様 短 単 位 だけでなく 長 単 位 の 情 報 も 付 与 する 計 画 である し かし 先 行 公 開 版 で 公 開 するデータは 短 単 位 のみである 平 安 時 代 編 の 完 成 版 で 長 単 位 のデータも 公 開 する 予 定 である また CHJ 平 安 時 代 編 が 基 づいている 中 古 和 文 UniDic 短 単 位 規 程 集 には 完 全 でな い 部 分 が 残 されている たとえば 複 合 動 詞 を 一 語 と 認 めるか 分 割 するかという 認 定 基 準 はその 例 である そのため 先 行 公 開 版 では 複 合 動 詞 の 認 定 に 揺 れがあるなどの 問 題 が 残 っている これも 完 成 版 では 統 一 的 な 基 準 の 下 に 修 正 される 予 定 である 3. 日 本 語 歴 史 コーパス 中 納 言 CHJ の 公 開 は 現 在 のところ ウェブ 版 のコンコーダンサー 中 納 言 ( 図 5)のみで 行 っ ている CHJ 中 納 言 は CHJ むけに 若 干 の 修 正 を 行 っているが 基 本 的 に BCCWJ で 利 用 されている 中 納 言 と 同 じものである 書 面 による 申 込 み 手 続 きを 経 ることで 無 償 で 利 用 できる( 手 続 きは 日 本 語 歴 史 コーパス ホームページを 参 照 ) データには 形 態 論 情 報 が 付 与 されているため 表 層 の 文 字 列 だけでなく 形 態 論 情 報 を 利 用 することで 高 度 な 検 索 条 件 の 指 定 を 行 うことができる たとえば 語 彙 素 読 む ( 終 止 形 )を 指 定 することで 読 ま 読 み 読 む 読 め といった 各 活 用 形 を 一 括 で 検 索 す ることが 可 能 である また 先 述 の UniDic の 見 出 し 語 の 階 層 構 造 により 見 出 し 語 を 語 彙 素 で 指 定 すれば その 異 表 記 を 一 括 検 索 することができる したがって 漢 字 表 記 と 仮 名 表 記 の 違 い 異 体 字 や 送 り 仮 名 の 揺 れなどを 一 々 意 識 することなく 検 索 できる また たとえば 品 詞 情 報 を 使 って 形 容 詞 すべて のように 大 きな 語 群 を 検 索 対 象 とす ることもできる 形 態 論 情 報 を 組 み 合 わせて たとえば 漢 語 名 詞 形 容 詞 の 連 体 形 な どの 詳 細 な 条 件 で 検 索 を 行 うことも 可 能 である 272

286 図 5 日本語歴史コーパス 中納言 検索実行画面 さらに 複数の語 最大 10 語 を組み合わせた検索も行うことができる これにより 特定の形容詞の連体形の後に来る名詞 であるとか 特定の動詞に続く助動詞 特定 の動詞の前方 5 語以内に来る 名詞 を といったような 従来の索引では不可能であっ た検索が可能になっている 形態論情報を使った検索以外に 文字列検索 で表層の文字列による検索を行うことも できる この場合にも 検索結果は形態論情報付きで表示されるため 調査したい語にど のような形態論情報が付与されているか分からない場合には いったん文字列検索を行う ことで形態論情報を確認することができる 273

287 検 索 結 果 の 項 目 検 索 結 果 には 表 2 に 示 す 項 目 が 表 示 可 能 である デフォルト 表 示 が 非 表 示 のもの は 画 面 上 のチュエックボックスをオンにすることで 表 示 されるようになる コーパス 情 報 は 検 索 結 果 のコーパス 中 の 位 置 を 示 す 情 報 である サンプル ID と 連 番 とで 短 単 位 の 位 置 を 一 意 に 指 定 することができる 形 態 論 情 報 は 当 該 箇 所 の KWIC と キーに 付 与 されている 形 態 論 情 報 からなる キー( 書 字 形 出 現 形 ) が 実 際 に 出 現 した 表 層 形 ( 活 用 変 化 後 の 形 )であるのに 対 し 書 字 形 は 終 止 形 の 形 である 形 態 論 情 報 中 の ~ 出 現 形 はすべて 活 用 変 化 後 の 形 である ことを 示 す 表 2 検 索 結 果 表 示 項 目 分 類 順 番 列 名 デフォルト 表 示 コーパス 情 報 1 サブコーパス 名 非 表 示 2 サンプル ID 表 示 3 連 番 非 表 示 形 態 論 情 報 KWIC 4 前 文 脈 表 示 5 キー( 書 字 形 出 現 形 ) 表 示 6 後 文 脈 表 示 7 語 彙 素 読 み 表 示 8 語 彙 素 表 示 9 語 彙 素 細 分 類 非 表 示 10 語 形 表 示 11 品 詞 表 示 12 活 用 型 表 示 13 活 用 形 表 示 14 書 字 形 非 表 示 15 仮 名 形 出 現 形 非 表 示 16 発 音 形 出 現 形 非 表 示 17 語 種 非 表 示 18 原 文 文 字 列 非 表 示 本 文 情 報 19 本 文 種 別 表 示 20 話 者 表 示 21 本 文 属 性 非 表 示 作 品 情 報 22 ジャンル 表 示 23 作 品 名 表 示 24 成 立 年 表 示 25 巻 名 等 表 示 26 巻 順 非 表 示 作 者 情 報 27 作 者 表 示 28 生 年 表 示 29 性 別 非 表 示 底 本 情 報 30 底 本 表 示 31 ページ 番 号 表 示 32 校 注 者 非 表 示 33 出 版 社 非 表 示 274

288 本 文 情 報 の 本 文 種 別 は 会 話 手 紙 歌 詞 書 等 の 別 である 話 者 は 会 話 の 話 者 表 示 だが 新 編 全 集 で 明 示 されているものだけが 出 力 され 作 品 によっては 情 報 がない 本 文 属 性 は 和 歌 である 場 合 に 歌 番 号 が 出 力 されている 作 品 情 報 は 当 該 の 作 品 の 基 本 的 な 書 誌 情 報 である ジャンル には 平 安 時 代 編 では 作 り 物 語 日 記 随 筆 歌 集 がある 成 立 年 は 正 確 な 年 が 不 明 のものは 有 力 な 説 に 従 い おおよその 年 代 を 記 入 している 巻 名 等 は 研 究 に 必 要 と 考 えられる 範 囲 で 新 編 全 集 にも とづいて 巻 名 や 章 段 のタイトル 部 立 てなどを 記 入 している 作 者 情 報 は 当 該 の 作 品 の 作 者 の 情 報 である 詳 細 が 不 明 のものは 分 かる 範 囲 で 記 入 している 古 今 和 歌 集 については 仮 名 序 以 外 には 作 者 情 報 を 出 力 していない 底 本 情 報 は CHJ 平 安 時 代 編 が 依 拠 した 新 編 全 集 の 情 報 である 底 本 は 当 該 作 品 が 収 録 された 新 編 全 集 の 巻 数 ページ 番 号 は 当 該 箇 所 が 現 れるページ 数 を 示 す これに より ヒットした 用 例 について 書 籍 の 新 編 全 集 を 開 いて 当 該 箇 所 を 確 認 することができる CHJ には 現 代 語 訳 や 注 は 含 まれていないため こうした 情 報 を 確 認 するためには 新 編 全 集 本 体 を 参 照 する 必 要 がある これらの 情 報 を 含 む 検 索 結 果 は 表 形 式 でダウンロードすることができるため これを 表 計 算 ソフトに 読 み 込 むことで 自 由 に 集 計 を 行 うことができる 特 にピボットテーブルと 呼 ばれる 機 能 を 用 いることで クロス 集 計 を 自 在 に 行 うことが 可 能 である ダウンロード ファイルには 常 に 表 2 の 全 ての 項 目 が 含 まれており さらに 最 終 列 (34 列 目 )に 反 転 前 文 脈 が 出 力 される この 列 は 前 文 脈 を 使 ってソートを 行 うためのもので 前 文 脈 の 文 字 列 の 並 びを 逆 転 させキーに 近 い 文 字 から 順 に 並 べたものである 先 行 公 開 版 インターフェイスの 制 限 現 在 の CHJ 中 納 言 では 検 索 対 象 を 指 定 することができず 常 にコーパス 全 体 を 検 索 することになる したがって 作 品 別 ジャンル 別 に 用 例 数 などを 確 認 するためには い ったん 検 索 結 果 をダウンロードして 集 計 を 行 う 必 要 がある この 問 題 は 2013 年 3 月 に 予 定 している 中 納 言 のアップデートで 改 善 される 予 定 で ある このアップデートにより 作 品 別 ジャンル 別 などの 検 索 対 象 指 定 が 可 能 になるほ か 検 索 条 件 指 定 の 方 法 などさまざまな 機 能 が 改 善 される 予 定 である 4. 今 後 の 計 画 とまとめ CHJ 平 安 時 代 編 の 完 成 版 は 2013 年 度 中 の 公 開 を 予 定 している 完 成 版 では 上 述 した 制 限 をなくし 全 ての 作 品 について 長 単 位 を 付 与 するほか 更 級 日 記 讚 岐 典 侍 日 記 等 の 作 品 を 追 加 する 予 定 である 先 行 公 開 版 には 制 限 があるものの 本 コーパスにより これまでの 古 典 語 の 研 究 手 法 で は 不 可 能 だった 検 索 や 集 計 が 可 能 になった 本 コーパスが 広 く 利 用 され 新 しい 研 究 成 果 につながることを 期 待 したい また これを 機 にコーパス 日 本 語 学 の 裾 野 が 歴 史 的 研 究 の 分 野 にまで 広 がり 研 究 がより 盛 んになることに 期 待 したい 文 献 伝 康 晴 小 木 曽 智 信 小 椋 秀 樹 山 田 篤 峯 松 信 明 内 元 清 貴 小 磯 花 絵 (2007) コーパ ス 日 本 語 学 のための 言 語 資 源 : 形 態 素 解 析 用 電 子 化 辞 書 の 開 発 とその 応 用 日 本 語 科 学 22 pp 小 木 曽 智 信 中 村 壮 範 鈴 木 泰 山 八 木 豊 山 崎 誠 前 川 喜 久 雄 (2011) コーパス 検 索 シ ステム 中 納 言 デモンストレーション 日 本 語 コーパス 完 成 記 念 講 演 会 予 稿 集 pp 小 木 曽 智 信 ほか(2012) 和 文 系 資 料 を 対 象 とした 形 態 素 解 析 辞 書 の 開 発 科 研 費 基 盤 研 究 (C) 和 文 系 資 料 を 対 象 とした 形 態 素 解 析 辞 書 の 開 発 ( 課 題 番 号 ) 研 究 成 果 275

289 報 告 書 ( 中 古 和 文 UniDic ホームページからダウンロード 可 能 ) 小 椋 秀 樹 須 永 哲 矢 (2012) 中 古 和 文 UniDic 短 単 位 規 程 集 科 研 費 基 盤 研 究 (C) 和 文 系 資 料 を 対 象 とした 形 態 素 解 析 辞 書 の 開 発 ( 課 題 番 号 ) 研 究 成 果 報 告 書 2 ( 中 古 和 文 UniDic ホームページからダウンロード 可 能 ) Toshinobu Ogiso, Mamoru Komachi, Yasuharu Den and Yuji Matsumoto. (2012) UniDic for Early Middle Japanese: a Dictionary for Morphological Analysis of Classical Japanese. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC), pp Istanbul, May 2012.( からダウンロード 可 能 ) 近 藤 泰 弘 (2012) 日 本 語 通 時 コーパスの 設 計 NINJAL 通 時 コーパス プロジェクト Oxford VSARPS プロジェクト 合 同 シンポジウム 通 時 コーパスと 日 本 語 史 研 究 予 稿 集 pp.1-10 関 連 URL 日 本 語 歴 史 コーパス 中 納 言 日 本 語 歴 史 コーパスホームページ( 国 立 国 語 研 究 所 コーパス 開 発 センター) NINJAL 通 時 コーパスプロジェクト ホームページ 中 古 和 文 UniDic MeCab: Yet Another Part-of-Speech and Morphological Analyzer 276

290

291 医 学 用 語 の 選 択 に 見 られる 特 徴 金 子 周 司 ( 京 都 大 学 大 学 院 薬 学 研 究 科 ) Characteristics of the Choice of Japanese Medical Words in the Corpora of Scientific and Clinical Documents Shuji Kaneko (Kyoto University Graduate School of Pharmaceutical Sciences) 1.はじめに 医 療 や 生 命 科 学 の 急 激 な 進 歩 は 莫 大 な 数 の 専 門 用 語 を 新 たに 生 み 出 している 筆 者 は 医 学 系 学 生 や 研 究 者 が 英 語 の 専 門 用 語 を 学 習 活 用 するための 電 子 辞 書 の 開 発 に 20 年 来 取 り 組 んできたが 日 本 語 については 訳 語 として 位 置 づけ あまりその 特 性 について 深 く 考 察 してこなかった( 金 子 2006) しかし 今 後 医 療 や 教 育 の 電 子 化 がますます 進 展 し 自 然 言 語 処 理 が 医 療 サポートや 知 識 発 見 に 応 用 されていくことを 考 えると 医 学 用 語 の 日 本 語 表 記 について 理 解 を 深 めることが 必 要 と 思 われる( 金 子 大 武 2010) 本 研 究 ではどのようにして 和 文 で 医 学 用 語 が 選 択 されているかを 少 しでも 知 るために 医 学 文 献 や 医 薬 品 解 説 書 を 元 にしたコーパスを 構 築 し 専 門 用 語 を 抽 出 した 上 で 異 表 記 を 収 集 解 析 した 我 が 国 で 医 学 用 語 をどのように 表 記 するかについては 決 まり 事 や 法 則 があるわけではなく 研 究 者 が 独 自 に 編 み 出 したり すでにある 文 書 を 参 考 に 用 語 が 選 ば れたりしている コーパスの 解 析 結 果 からも 日 本 語 では 漢 字 カタカナ ひらがな 英 語 綴 りなどを 混 在 して 用 いることができるため 異 表 記 が 非 常 に 多 いという 特 徴 があるこ とがわかってきた 編 集 者 や 許 認 可 者 による 修 正 を 経 た 後 の 文 書 においても 医 学 用 語 の 多 様 性 は 維 持 されている いくつかの 例 を 紹 介 して 考 察 してみたい 2.コーパスの 概 要 筆 者 は 出 版 社 である 株 式 会 社 羊 土 社 の 協 力 を 得 て 医 学 研 究 者 が 書 く 総 説 の 全 文 コー パスを 以 前 に 構 築 した( 金 子 2006) 本 研 究 ではそれをさらに 拡 張 し 1996 年 から 2005 年 の 10 年 間 にわたって 実 験 医 学 誌 に 発 表 された 全 総 説 をテキスト 化 することで 実 験 医 学 コーパス(37.3Mbyte)とした 本 コーパスについては 用 語 の 解 析 目 的 でのみ 使 用 でき る 許 諾 契 約 を 締 結 した また 財 団 法 人 日 本 医 薬 情 報 センター( 通 称 JAPIC)が 有 料 で 販 売 している 医 療 用 医 薬 品 全 13,000 種 の 添 付 文 書 情 報 (2008 年 版 )について 解 析 目 的 での 使 用 許 諾 を 得 てテキスト 化 し JAPIC コーパス(49.6Mbyte)とした 解 析 としては ライフサイエンス 辞 書 に 収 録 している 157,347 語 の 日 本 語 をクエリーとし て コーパス 中 で 一 致 する 文 字 列 の 頻 度 を Perl スクリプトにより 求 めた これら 2 種 類 の コーパスの 概 要 を 表 1に 示 す JAPIC コーパスのほうがサイズ 的 には 大 きいが 医 薬 品 固 有 名 が 多 いこともあり 以 下 においては 同 規 模 のコーパスとして 頻 度 ( 語 数 )の 比 較 を 行 う 表 1 本 研 究 で 用 いたコーパスの 概 要 実 験 医 学 JAPIC 文 字 数 20,235,504 25,247,795 読 点 数 271, ,839 句 点 数 504, ,669 など 頻 度 22,897 26,997 血 管 頻 度 13,146 12,345 高 い 頻 度 4,265 4,087 skaneko@pharm.kyoto-u.ac.jp 277

292 3. 各 コーパスの 特 徴 表 2はそれぞれのコーパスで 求 めた 頻 度 のうち 一 方 での 値 が 他 方 の 100 倍 以 上 であっ た 特 徴 語 を 示 している 実 験 医 学 コーパスにおいては 最 先 端 の 成 果 を 研 究 者 自 らが 執 筆 していることもあり 遺 伝 子 タンパク 質 配 列 といった 生 体 分 子 の 名 称 や 物 性 を 表 す 語 が 多 く シグナ ル や ドメイン のように 専 門 家 の 間 でのみ 通 用 する jargon とも 考 えられるカタカナ 語 が 多 用 されている 点 が 特 徴 的 である 一 方 JAPIC コーパスで 最 も 頻 度 が 高 いのは 本 剤 であるが これは 医 薬 品 添 付 文 書 に おける 主 語 として 多 用 されるためである その 他 にも 経 口 投 与 血 中 濃 度 など 添 付 文 書 における 解 説 として 専 門 家 に 注 目 されるべき 特 徴 語 が 見 られる 医 薬 品 は 同 一 作 用 機 序 をもつ 類 似 薬 が 多 いこともあり それらの 添 付 文 書 間 では 記 述 も 似 ている 傾 向 がある こ のことは 実 験 医 学 コーパスからは 50,257 種 類 の 語 が 抽 出 されたのに 対 して JAPIC コーパ スからは 36,449 語 しか 抽 出 されなかった 解 析 結 果 に 反 映 されている 図 1には 各 コーパスを 構 成 している 文 字 種 の 割 合 を 示 した いずれのコーパスにおいて も 英 数 字 とカタカナが 3 4 割 漢 字 の 割 合 も 3 4 割 を 占 めており きわめて 専 門 用 語 に 満 ちた 文 書 であることがわかる 表 2 コーパスの 特 徴 語 ( 頻 度 データ) 語 実 験 医 学 JAPIC 遺 伝 子 45, タンパク 質 31, シグナル 18, ドメイン 14,474 7 配 列 10, 本 剤 35 99,945 経 口 投 与 90 21,550 血 中 濃 度 ,973 既 往 症 2 14,879 妊 婦 11 14,007 図 1 コーパスを 構 成 する 文 字 種 4. 用 語 の 選 択 以 上 のように 構 築 したコーパスを 用 いて 専 門 用 語 の 頻 度 を 見 ていくと いくつかの 問 題 点 に 気 づく それらをデータと 共 に 説 明 していく 278

293 4.1. protein 使 い 分 けの 実 情 Protein とはアミノ 酸 がペプチド 結 合 によって 連 なり そのアミノ 酸 の 性 質 や 場 の 状 況 に よって 特 異 的 な 立 体 構 造 をとる 最 も 重 要 な 生 体 構 成 分 子 種 である 英 語 においては protein という 語 の 他 には 比 較 的 短 い 鎖 を 指 す peptide(ペプチド)という 語 があるが protein に 異 表 記 は 存 在 しない しかしながら 日 本 語 においては protein が 卵 白 に 多 く 含 まれることに 起 源 をもつ 蛋 白 から 蛋 白 質 という 語 を 生 み 出 し 日 本 医 学 会 は 用 語 集 で 蛋 白 質 を 推 奨 している しかし 文 部 科 学 省 は 学 術 用 語 として タンパク 質 という 表 記 を 標 準 と しており 新 聞 や 報 道 等 においては たんぱく 質 という 表 記 が 多 く 採 用 されている そ れぞれから 質 を 除 去 した 表 記 も 多 く 用 いられ さらには プロテイン と 表 記 すれば 一 般 社 会 においてはサプリメントとして 用 いられる 補 助 栄 養 食 品 を 指 すかのように 微 妙 に 使 い 分 けられている ひとつの 英 語 に 対 して 複 数 のカタカナ 外 来 語 が 生 じることは 例 えば vector が 数 学 の 世 界 では ベクトル 分 子 生 物 学 や 情 報 学 では ベクター と 書 かれるように ドイツ 語 由 来 と 英 語 の 発 音 に 近 い 複 数 のカタカナ 語 が 時 代 を 異 にして 生 じるため 珍 しいことではない しかし 医 学 用 語 の 場 合 には ひらがなや 漢 字 での 異 表 記 まで 加 わって 非 常 に 多 様 になって いる 今 回 構 築 したコーパスにおいて 調 べてみた 結 果 を 表 3に 示 すが それぞれ 編 集 者 や 許 認 可 者 の 手 が 入 った 文 書 であるにもかかわらず 多 様 な 表 記 が 検 出 された 表 3 protein の 日 本 語 表 記 における 選 択 語 実 験 医 学 JAPIC たんぱく 質 0 14 タンパク 質 31, タンパク 4, 蛋 白 質 2, 蛋 白 1,067 4,337 プロテイン 実 験 医 学 コーパスで タンパク 質 が 多 く JAPIC コーパスで 蛋 白 が 多 いのは 基 礎 医 学 と 医 療 という 分 野 間 の 差 異 であると 考 えられるが より 詳 細 に 見 ていくと 用 語 はさらに 精 密 に 選 択 されている( 表 4) 表 4 protein の 連 接 語 に 応 じた 選 択 コーパス 連 接 語 タンパク 質 タンパク 蛋 白 質 蛋 白 プロテイン 結 合 1, プリオン 実 験 医 学 分 解 キナーゼ 結 合 ,693 0 JAPIC 糖 実 験 医 学 コーパスにおいて 前 に 結 合 や 後 に 分 解 が 連 接 する 場 合 はいずれも タ ンパク 質 が 多 く 用 いられていた プリオン との 連 接 においては プリオン 蛋 白 とい う 表 記 が 特 異 的 に 高 い 傾 向 が 見 られた このことはカタカナ 同 士 が 連 接 した 場 合 に 元 の 語 の 境 界 が 分 かりづらくなることを 避 けている 表 現 なのかもしれない しかし タンパク 質 をリン 酸 化 する 酵 素 である protein kinase を 表 す 際 には そのままカタカナ 語 として プロ テインキナーゼ が 最 も 頻 出 した JAPIC コーパスにおいては 蛋 白 結 合 のように 蛋 白 という 表 記 が 全 般 的 に 好 んで 279

294 用 いられていたが この 用 語 はいずれの 省 庁 や 団 体 も 推 奨 している 表 記 ではない 一 部 に おいては 糖 蛋 白 質 のように 質 をつけた 表 記 が 集 中 しているケースも 見 られたが これは 他 の 類 似 薬 で 用 いられた 文 書 をそのまま 流 用 して 使 っているために 複 製 増 幅 効 果 が 現 れたものと 推 察 される 4.2. 薬 物 のカテゴリーを 表 す 名 称 先 行 研 究 において 筆 者 は 英 語 圏 で 発 達 した 医 学 や 生 命 科 学 が 日 本 へ 輸 入 された 際 に 必 ずしも 専 門 用 語 を 直 訳 するのではなく 日 本 人 が 理 解 しやすいように 意 訳 を 行 っ てきた 実 例 をいくつか 提 示 した( 金 子 2006) この 結 果 は PubMed で 公 開 されている 英 語 の 医 学 文 献 抄 録 と 実 験 医 学 コーパスの 前 身 である 日 本 語 テキストを 比 較 解 析 して 得 られたも のであったが 今 回 JAPIC コーパスを 新 たに 解 析 することによって これらの 指 摘 が 準 公 的 な 医 薬 品 添 付 文 書 においても 適 用 できることが 明 らかになってきた その 一 例 として 表 5は 腫 瘍 の 増 殖 に 対 して 抑 制 的 に 作 用 するカテゴリーの 薬 物 に 与 え られる 一 般 的 な 名 称 を 調 査 した 結 果 である この 結 果 から いずれのコーパスにおいても 多 様 な 表 記 が 混 在 していることがわかる 専 門 的 には 癌 悪 性 腫 瘍 であり 癌 = 上 皮 細 胞 の(つまり 一 部 の) 悪 性 腫 瘍 であることを 加 味 すると このように 階 層 の 異 なる 概 念 を 同 一 視 している 現 状 は 好 ましいとは 言 えない 表 5 腫 瘍 増 殖 を 抑 制 する 薬 物 の 名 称 語 実 験 医 学 JAPIC 抗 癌 薬 19 0 抗 癌 剤 抗 がん 薬 0 9 抗 がん 剤 3 6 制 癌 剤 37 3 抗 腫 瘍 薬 13 0 抗 腫 瘍 剤 抗 悪 性 腫 瘍 薬 抗 悪 性 腫 瘍 剤 悪 性 腫 瘍 治 療 薬 まとめ 医 学 用 語 は 長 らく 標 準 化 の 方 向 性 で 議 論 されていた しかしながら 本 研 究 で 編 集 者 や 許 認 可 者 の 修 正 を 経 た 文 書 コーパスを 解 析 した 結 果 コントロールされた 状 況 においても 医 学 用 語 の 多 様 性 は 失 われていないことが 明 らかになった 実 際 に 現 場 で 作 成 される 文 書 ( 例 えば 電 子 カルテや 学 会 抄 録 など)はさらに 多 様 で 混 沌 としているであろうことは 容 易 に 想 像 できる 今 後 医 療 文 書 の 電 子 化 などによって 情 報 の 利 活 用 を 目 指 す 場 合 このよ うに 多 様 な 異 表 記 に 耐 えうる(かつ 英 語 表 記 や 略 記 にも 対 応 した) 頑 強 なシソーラスを 早 急 に 整 備 することが 必 要 と 思 われる 文 献 金 子 周 司 (2006) ライフサイエンス 辞 書 とは 情 報 管 理, 49:1, pp 金 子 周 司 大 武 博 (2010) ライフサイエンス 辞 書 からクリニカルインフォマティクスへ 情 報 管 理, 53:9, pp ライフサイエンス 辞 書 プロジェクト 関 連 URL 280

295 日 本 語 教 育 用 の 形 容 詞 の 語 彙 リストと 難 易 度 レベル スルダノヴィッチ イレーナ( 国 立 国 語 研 究 所 日 本 語 教 育 研 究 情 報 センター/ リュブリャーナ 大 学 文 学 部 ) 李 在 鎬 ( 筑 波 大 学 人 文 社 会 系 ) Vocabulary List of Adjectives and Levels of Difficulty for Japanese Language Education Irena Srdanović (National Institute for Japanese Language and Linguistics/ University of Ljubljana) Lee Jae-Ho (University of Tsukuba) 1.はじめに 大 規 模 コーパスの 構 築 と 共 に コーパスに 現 れる 語 彙 の 把 握 ができるようになり バラ ンスが 取 れたコーパスほど 抽 出 された 高 中 低 頻 度 の 語 彙 が 実 際 に 利 用 される 語 彙 の 実 情 を 示 す 傾 向 が 見 られる どのコーパスでもそれぞれの 独 自 の 特 徴 があり その 特 徴 は 語 彙 分 布 にもあるが コーパスが 大 ければ 大 きい また 均 衡 が 取 れていればそれだけ 語 彙 の 分 布 に 偏 りが 少 なく 得 られた 語 彙 データの 信 頼 性 が 高 くなる 大 規 模 コーパスにお いてサブコーパス 別 いわゆるジャンル 別 のデータも 得 られるようになり 分 散 度 (dispersity)による 語 彙 の 特 徴 が 取 り 出 せるようになってきた 第 二 言 語 教 育 においてもこ のような 語 彙 リストがよく 使 われるようになり 近 年 複 数 のリソースを 利 用 して 作 成 され ている 1 Nation(2001)によると 英 語 の 高 頻 度 の 2000 基 本 語 彙 がテキストの 内 容 70%~ 80%をカバーするため 学 習 者 にまずその 語 彙 を 教 えるべきという 指 摘 がある 従 来 の 国 語 研 究 および 日 本 語 研 究 において 語 彙 リストの 研 究 は 様 々なものあり 語 彙 を 確 定 するために 語 彙 頻 度 調 査 の 実 施 専 門 家 の 判 定 編 者 の 判 定 児 童 生 徒 の 理 解 度 の 調 査 成 人 の 獲 得 語 数 の 調 査 語 の 親 密 度 の 調 査 などの 方 法 が 用 いられてきた また 教 育 基 本 語 彙 の 基 本 的 研 究 のような 複 数 の 語 彙 リストがすでにデータベース 化 されて いる そのうち 日 本 語 学 習 者 を 対 象 にしたリストの 例 としては 日 本 語 教 育 基 本 語 彙 デ ータベース ( 教 育 基 本 語 彙 の 基 本 的 研 究 増 補 改 訂 版 2008) 日 本 語 能 力 試 験 出 題 基 準 ( 国 際 交 流 基 金 日 本 国 際 教 育 協 会 1994)があげられる 大 規 模 な 現 代 日 本 語 書 き 言 葉 均 衡 コーパス( 以 下 BCCWJ)などのコーパス 開 発 と 共 に コーパスを 基 にした 日 本 語 教 育 向 けの 語 彙 リストの 作 成 が 始 まった その 例 は 近 年 作 成 された 日 本 語 を 勉 強 する 人 のための 語 彙 データベース ( 松 下 2011)および 日 本 語 教 育 語 彙 表 ( 砂 川 2012 李 砂 川 2012)である 日 本 語 教 育 用 の 語 彙 リストはいくつかあるが その 作 成 方 法 基 にした 資 料 の 特 徴 現 代 性 などに 違 いがあり どの 程 度 収 録 された 語 彙 が 一 致 しているかについては 必 ずしも 明 らかではない 饗 場 (2011)が 3 種 の 語 彙 リストを 調 べた 結 果 リストごとに 非 共 通 語 が 多 くあると 明 らかにした 例 えば 形 容 詞 形 容 動 詞 を 取 り 上 げると 各 語 彙 における 共 通 語 彙 の 割 合 は 54.8% 59.2% 90.5%である スルダノヴィッチ(2012)がリストごと コ ーパスごとに 形 容 詞 の 語 数 を 比 較 した 結 果 差 異 が 多 く 見 られることが 分 かった 本 論 文 の 目 的 は 形 容 詞 を 対 象 にした 既 存 の 日 本 語 の 語 彙 リストを 検 討 し その 語 彙 リストにあ irena.srdanovic@ff.uni-lj.si 1 例 えば 日 本 人 英 語 学 習 者 のための 語 彙 リスト JACET8000( 大 学 英 語 教 育 学 会 基 本 語 改 定 委 員 会 ( 編 ) 2003)は 学 習 者 が 遭 遇 しやすいサブコーパスと BNC コーパス 頻 度 を 対 数 尤 度 比 で 比 較 し 作 成 されたも のである 281

296 る 形 容 詞 と 大 規 模 コーパスから 取 り 出 せる 形 容 詞 を 比 較 しつつ 語 彙 リストに 把 握 されて いない 項 目 を 検 討 することにある そこから 得 られたデータを 基 にして 今 後 の 課 題 とし ては 新 たな 日 本 語 学 習 者 用 形 容 詞 の 語 彙 リストおよび 形 容 詞 と 他 の 単 位 との 組 み 合 わせ の 記 述 を 目 指 すことである 2. 日 本 語 教 育 用 の 語 彙 リスト 以 下 に 取 り 上 げる 語 彙 リストは 本 研 究 の 対 象 にして それぞれのリストに 現 れる 形 容 詞 を 検 討 する 2.1 日 本 語 能 力 試 験 出 題 基 準 の 旧 語 彙 リスト 日 本 語 能 力 試 験 出 題 基 準 (1994)の 旧 語 彙 リスト( 以 下 旧 JLPT 語 彙 リスト )は テスト 作 成 のために 作 られたものであり 教 育 目 標 のために 作 成 されたリストではないが 日 本 語 教 育 において 幅 広 く 利 用 されている 語 彙 難 易 度 は 4 段 階 に 分 かれ 下 位 級 の 4 級 から 上 位 級 の 1 級 までである 旧 JLPT 語 彙 リストは 作 られてから 30 年 以 上 経 過 してい るため 語 彙 の 変 化 に 対 応 していない カタカナ 語 や 擬 音 語 擬 態 語 などの 語 彙 が 少 ない という 問 題 点 がある( 李 砂 川 2012) なお,2010 年 から 実 施 されるようになった 新 しい 日 本 語 能 力 試 験 のために 作 られた 語 彙 リスト は 5 段 階 の 難 易 度 に 分 けられているが, テスト 運 用 上 の 理 由 から 非 公 開 になっている 2.2 日 本 語 教 育 基 本 語 彙 データベース 教 育 基 本 語 彙 データベース 日 本 語 教 育 基 本 語 彙 データベース ( 以 下 国 研 日 本 語 語 彙 DB )は 国 語 研 教 育 基 本 語 彙 データベース に 登 録 した 6103 語 国 立 国 語 研 究 所 日 本 語 教 育 基 本 語 彙 七 種 比 較 対 照 表 の 6195 語 などの 6 種 の 教 育 基 本 語 彙 リストのデータをデータベース 化 したも のである データベース 化 された 6 種 のリストは 様 々な 方 法 で 集 められた 語 彙 データであ り 総 数 は 語 である その 詳 細 は 国 立 国 語 研 究 所 報 告 127 教 育 基 本 語 彙 の 基 本 的 研 究 ( ページ)において 確 認 することができる 同 じく 国 立 国 語 研 究 所 報 告 127 に 搭 載 されている 教 育 基 本 語 彙 データベース ( 以 下 国 研 国 語 語 彙 DB )は 7 種 の 教 育 語 彙 を 利 用 したデータベースで 主 に 国 語 教 育 のデ ータをカバーしている 語 数 は である データベースは 小 学 生 低 学 年 高 学 年 中 学 生 の 理 解 度 を 測 定 したデータに 基 づいて 語 彙 難 易 度 の 3 段 階 に 分 けている(1 は 最 も 低 い 難 易 度 ) 2.3 日 本 語 を 勉 強 する 人 のための 語 彙 データベース 日 本 語 を 勉 強 する 人 のための 語 彙 データベース ( 以 下 TM 語 彙 リスト )は 現 代 日 本 語 書 き 言 葉 均 衡 コーパス (BCCWJ)モニター 公 開 データ(2009 年 度 版 )の 書 籍 およ び Yahoo 知 恵 袋 ( 約 3300 万 語 )を 使 って 松 下 ( )が 作 成 した 語 彙 リストで あり Nation(2001)の 英 語 学 習 のために 提 案 された 語 彙 リスト 作 成 の 枠 組 みに 基 づいてい る その 特 徴 は コーパス 頻 度 およびサブコーパスごとの 語 彙 分 布 を 基 にして 語 彙 を 一 般 用 留 学 生 用 に 分 けたデータである 一 般 用 のデータは 基 本 2500 語 を 含 み 総 合 数 は 語 である 留 学 生 用 のデータは 3 4 種 の 分 野 でよく 使 われる 単 語 であり 科 学 分 野 別 の 特 徴 のあるデータも 掲 載 されている(20312 語 ) 語 彙 レベルで 一 般 人 の 生 活 を 中 心 に 考 えた 重 要 度 のランクおよび Basic Inter Adv H-Adv S-Adv 五 つの 語 彙 ランクがある 語 彙 の 見 出 し 語 には UniDic 辞 書 の 短 単 位 の 語 彙 素 を 使 っている リストには 旧 JLPT 語 彙 リストの 語 彙 難 易 度 語 種 品 詞 などの 情 報 が 含 まれている 2.4 日 本 語 教 育 語 彙 表 日 本 語 教 育 語 彙 表 は 学 習 者 向 け 辞 書 開 発 の 基 礎 資 料 として 開 発 されたもので リ ストの 総 合 数 は 語 である 独 自 に 開 発 された 日 本 語 教 科 書 100 冊 の 日 本 語 教 科 書 282

297 コーパス および BCCWJ の 2009 年 度 版 の 公 開 データを 利 用 し 見 出 し 語 を 決 定 している また 見 出 し 語 に 対 して, 日 本 語 教 育 歴 10 年 以 上 の 教 師 5 名 が 語 彙 の 難 易 度 を 判 定 し 統 計 的 に 調 整 したデータである 見 出 し 語 には UniDic に 基 づく 短 単 位 と 単 語 N-gram による 複 合 語 が 入 っている 語 彙 の 難 易 度 は 初 級 前 半 初 級 後 半 中 級 前 半 中 級 後 半 上 級 前 半 上 級 後 半 の 6 段 階 に 分 かれている 2.5 その 他 上 述 した 日 本 語 教 育 用 の 語 リスト 以 外 に 話 題 別 語 彙 表 などがある( 山 内 ( 編 )2008 橋 本 山 内 2008) また 近 年 Can-do タスクに 基 づいた 語 彙 表 の 作 成 が 行 われている 現 在 の 段 階 でタスク 話 題 に 関 するデータは 少 ない 課 題 遂 行 能 力 に 基 づくコミュニケーシ ョンのための 日 本 語 教 育 のためには 山 内 ( 編 )(2008)のような 試 みは 今 後 も 加 速 化 されるべ きであろう 3.コーパスから 取 り 出 せる 語 彙 リスト 上 に 取 り 上 げた 日 本 語 教 育 語 彙 表 と TM 語 彙 リストは コーパスから 取 り 出 した 語 彙 に 基 づいて 作 成 されたデータであるが 両 方 のリストは BCCWJ の 全 体 版 が 公 開 されていない ときに 作 られたものである 本 研 究 では BCCWJ の 全 体 コーパスおよび 大 規 模 なウェブコ ーパスから 取 り 出 した 語 彙 頻 度 リストを 利 用 し 既 存 のデータと 比 較 する BCCWJ は 総 語 数 1 億 語 の 大 規 模 コーパスで 次 のサブコーパスで 構 成 されている: 出 版 書 籍 (PB) 出 版 新 聞 (PN) 出 版 雑 誌 (PM) 図 書 館 書 籍 (LB) また 特 定 目 的 コー パスとして 白 書 (OW) ベストセラー(OB) 知 恵 袋 (OC) ブログ(OY) 法 律 (OL) 国 会 会 議 録 (OM) 広 報 誌 (OP) 教 科 書 (OT) 韻 文 (OV)である 本 研 究 では MeCab と UniDic の 短 単 位 で 解 析 されたデータを 利 用 した JpWaC は 4 億 語 のウェブコーパスで スケッチエンジンというレクシカルプロファイリ ングツールに 載 せている(スルダノヴィッチ 仁 科 2008) このコーパスは 副 詞 分 布 に よる 13 種 のデータを 分 析 した 結 果 均 衡 BCCWJ コーパスの 書 籍 のデータに 最 も 類 似 して おり 偏 りの 少 ないデータであることが 明 らかになった(Srdanović ら 2008) コーパスは ChaSen と IPADIC で 解 析 されたデータで 統 一 するため 取 り 出 した 形 容 詞 のリストを UniDic で 再 解 析 する 4. 日 本 語 教 育 用 の 形 容 詞 の 語 彙 リスト 本 節 では 既 存 リストおよびコーパスに 現 れる 形 容 詞 の 項 目 を 調 べ 新 しい 日 本 語 教 育 用 の 形 容 詞 語 彙 リストの 項 目 として 検 討 する クラスター 分 析 でコーパスごとに 現 れている 最 も 高 頻 度 の 形 容 詞 を 分 析 し グラフで 表 示 した 上 でその 形 容 詞 の 日 本 語 教 育 においての 利 便 性 を 議 論 する 4.1 既 存 の 語 彙 リストに 現 れる 形 容 詞 語 数 と 難 易 度 表 1 は 既 存 の 語 彙 リストに 現 れる 形 容 詞 の 語 数 を 示 している コーパス 頻 度 と 分 散 度 に 基 づいた TM 語 彙 リスト( 一 般 基 本 語 彙 )にある 形 容 詞 は 93 語 である この 形 容 詞 は 最 も 基 本 的 な 語 彙 で 高 頻 度 であり 様 々なサブコーパスに 表 れる ので 早 い 段 階 で 導 入 し 学 習 するようにリストの 作 成 者 が 推 薦 している 国 研 国 語 語 彙 DB は 日 本 人 の 国 語 教 育 用 のため 形 容 詞 数 は 大 きくなっている(460 語 ) 他 のリストは 日 本 語 教 育 用 の 語 彙 リストで いわゆる 日 本 語 学 習 者 が 勉 強 するための 語 彙 がカバーされてお り 高 い 数 字 からみると TM 一 般 語 彙 リスト(353 語 ) TM 留 学 生 語 彙 リスト(345 語 ) 日 本 語 語 彙 表 (302 語 ) 国 研 日 本 語 語 彙 DB(236 語 ) 旧 JLPT 語 彙 リスト(245 語 )で 並 ぶ このうちもっとも 収 録 語 数 が 多 いリストと 収 録 語 数 が 少 ないリストを 見 ると 3 分 の 1 の 差 が 見 られる 283

298 表 1 語 彙 リストに 現 れる 形 容 詞 の 語 数 旧 JLPT 語 彙 リ スト 1 国 研 国 語 語 彙 DB 国 研 日 本 語 語 彙 DB TM 語 彙 リスト ( 一 般 ) TM 語 彙 リスト 2500 TM 語 彙 リスト ( 留 学 ) 日 本 語 教 育 語 1 彙 表 形 容 詞 - 一 般 接 尾 辞 - 形 容 詞 的 / / / 形 容 詞 - 非 自 立 可 能 / / / 合 計 形 容 詞 語 数 合 計 形 容 詞 % 3,27 1,69 2,00 1,74 3,68 1,70 1,68 合 計 語 彙 リスト 語 数 語 の 形 容 詞 は 他 の 品 詞 と 形 容 詞 と 両 方 分 析 されている 語 も 含 んだ 更 に 語 彙 リストにおける 形 容 詞 の 難 易 度 レベルを 調 べた 結 果 図 1に 示 した 図 1 語 彙 リストにおける 形 容 詞 の 難 易 度 レベルごとの 形 容 詞 の 語 数 割 合 旧 JLPT 語 彙 リストでは 2 級 の 形 容 詞 は 40%ぐらいの 形 容 詞 となっており その 妥 当 性 に 疑 問 が 残 る TM 語 彙 リストにおける 形 容 詞 の 分 布 がもっともバランスがとれているといえ るが 初 級 と 中 級 の 形 容 詞 の 語 数 の 割 合 を 調 整 する 必 要 があるかどうか 検 討 が 必 要 である 日 本 語 教 育 語 彙 表 は 初 中 上 級 ごとのバランスがあるといえるが 中 級 後 半 と 上 級 前 半 の 形 容 詞 を 合 わせた 割 合 が 全 体 の 半 分 の 量 になっている 一 方 で 上 級 後 半 の 語 数 は 少 な く, 語 彙 のレベル 分 けに 偏 りがある 4.2 コーパスに 現 れる 現 れない 形 容 詞 語 彙 リストを 比 較 するためには 統 一 が 必 要 である 統 一 は 表 記 統 一 品 詞 統 一 形 容 詞 の 単 位 の 統 一 であり またそれによってコーパスの 頻 度 数 も 調 整 する 必 要 がある たとえ ば すごい と 凄 い は 表 記 が 違 うため 別 の 項 目 としてコーパスの 語 彙 リストに 現 れ るとき その 頻 度 数 も 再 計 算 する 必 要 がある 特 にコーパスのデータを 比 較 するに 当 たっ て 利 用 した 形 態 素 解 析 ツールおよび 電 子 化 辞 書 によって 差 異 が 見 られる たとえば UniDic 短 単 位 の 特 徴 は 語 彙 の 表 記 を 統 一 した 上 短 単 位 で 解 析 を 行 う 傾 向 がある IPADIC の 特 徴 は 語 彙 の 表 記 を 別 に 捉 え 複 合 語 も 単 位 として 載 せる 傾 向 がある 本 研 究 では BCCWJ が 利 用 している MeCab と UniDic の 短 単 位 のデータをベースにして コーパスのデータを 揃 284

299 えた それで JpWaC が ChaSen と IPADIC を 利 用 したため 形 容 詞 のリストを UniDic で 再 解 析 した 際 形 容 詞 の 語 数 が 非 常 に 変 わったため ある 程 度 手 で 直 した 手 直 しの 差 異 表 記 の 統 一 をしたが 短 単 位 で 分 けた 複 合 形 容 詞 をリストから 亡 くさないように 元 のまま 複 合 の 形 容 詞 として 保 存 した(たとえば 興 味 深 い ) 表 2 では 各 コーパスにおけ る 形 容 詞 の 語 数 が 見 られ JpWaC の 場 合 統 一 前 と 統 一 後 のデータを 示 した 前 述 した 既 存 の 語 彙 リストにおける 形 容 詞 の 語 数 と 比 較 すると 大 きな 差 異 があることがすぐ 見 てとれ る 表 2 BCCWJ と JpWaC に 現 れる 形 容 詞 の 語 数 BCCWJ-UniDic JpWaC-IPADIC 1 JpWaC- 再 計 算 UniDic- 手 直 し 2 形 容 詞 - 一 般 接 尾 辞 - 形 容 詞 的 形 容 詞 - 非 自 立 可 能 合 計 形 容 詞 語 数 元 々の ChaSen-IPADIC の 品 詞 タッグは 形 容 詞 非 自 立 と 形 容 詞 ー 接 尾 2 再 解 析 の 後 5 頻 度 までのデータを 手 で 直 して 672 語 になった 4 頻 度 以 下 は 形 容 詞 として 分 析 されたデー タだけを 計 算 した(234 語 ) BCCWJ と JpWaC の 語 彙 リストを 比 較 した 結 果 二 つのコーパスに 現 れる 形 容 詞 の 分 布 は ほとんど 類 似 していることが 分 かった 両 者 ともあまり 偏 りがないデータと 考 えられ 2 種 のコーパス 比 較 で 得 られたデータで 他 の 既 存 のデータの 評 価 ができると 考 えられる 両 方 のコーパスに 現 れる あるいは 現 れない 形 容 詞 を 観 察 すると データ 処 理 方 法 の 差 異 しか 見 られなかった(いくつか 残 った 表 記 問 題 を 含 む) あるコーパスリストに 無 い 語 は コーパスに 無 いわけではなく そのコーパスの 処 理 方 法 の 結 果 取 り 出 されていないケー スが 多 かった ここでは とくにコーパス 語 彙 頻 度 リストの 作 成 にあたって 形 態 素 解 析 の 依 存 性 またその 問 題 点 が 見 られる BCCWJ リストにあるが JpWaC リストにない また JpWaC リストにあるが BCCWJ リストにない 項 目 は 大 ざっぱに 言 って 三 つに 分 けられ る 短 単 位 の 形 態 素 解 析 を 利 用 したためおよび 形 態 素 解 析 の 誤 りで 現 れていない 形 容 詞 表 記 の 違 いがある 形 容 詞 低 頻 度 で 限 られた 分 野 の 形 容 詞 である JpWaC に 無 いが BCCWJ にある 形 容 詞 は 学 習 者 用 の 語 彙 リストに 現 れない けばい 労 労 じい 露 けい などの 例 があげられる 一 方 BCCWJ リストにないが JpWaC にある 形 容 詞 は 複 合 形 容 詞 か 表 記 の 違 いのもの であり 直 接 コーパスを 文 字 列 か 違 う 表 記 で 検 索 した 結 果 BCCWJ コーパスにも 現 れるも のである たとえば 興 味 深 い のような 複 合 の 形 容 詞 で UniDic の 短 単 位 で 二 分 以 上 の 部 分 に 分 ける たとえば 興 味 深 い は 興 味 と 深 い になる 同 様 の 問 題 が 見 られるものとして, 高 頻 度 100 語 のみを 対 象 にした 場 合 興 味 深 い 格 好 いい 詰 まら ない 勿 体 ない 数 多 い がある 4.3 語 彙 リストに 現 れる 現 れない 形 容 詞 前 節 に 取 り 出 した 興 味 深 い 格 好 いい 詰 まらない 勿 体 ない 数 多 い の 形 容 詞 は 語 彙 リストに 扱 われているか どの 難 易 度 レベルで 扱 われているか 調 査 した 結 果 を 表 3 285

300 に 示 す 表 3 短 単 位 で 取 り 出 せなかった 高 頻 度 100 語 以 内 の 形 容 詞 が 語 彙 リストにあるか 国 研 国 語 語 彙 DB 国 研 日 本 語 語 彙 DB 旧 JLPT 語 彙 リスト TM 語 彙 リスト 日 本 語 教 育 語 彙 表 興 味 深 い 中 級 後 半 格 好 いい ある 級 なし 詰 まらない 1 4 勿 体 ない 中 級 前 半 数 多 い 中 級 前 半 国 語 教 育 語 彙 リストのデータベースでも 三 つの 形 容 詞 が 無 い 理 由 は 一 般 的 に 複 合 語 の データが 圧 倒 的 に 少 ないこと この 語 彙 が 近 年 頻 度 が 高 くなったことなどが 考 えられる 旧 JLPT 語 彙 リストは 三 つ 日 本 語 教 育 語 彙 表 は 二 つの 高 頻 度 複 合 形 容 詞 を 扱 っていない という 結 果 が 得 られた また,TM 語 彙 リストは UniDic 短 単 位 を 利 用 しているので 対 象 の 形 容 詞 は 語 彙 リスト 以 外 だと 予 想 できる 詰 まらない の 語 彙 レベルは 統 一 されて いるが 勿 体 ない の 場 合 低 学 年 のレベル(1)と 中 級 レベルが 見 られる 以 上 の 形 容 詞 の 頻 度 と 分 布 から それぞれの 形 容 詞 を 学 習 項 目 として 語 彙 リストに 入 れることが 推 薦 で きる さらに BCCWJ の 高 頻 度 の 形 容 詞 の 100 語 は 日 本 語 教 育 語 彙 リストにカバーされてい るかを 調 べた 国 研 日 本 語 語 彙 DB TM 語 彙 リスト 日 本 語 教 育 語 彙 表 では 100 語 以 内 の 形 容 詞 がすべてカバーされている しかし 表 記 統 一 には 問 題 があるとよく 見 られる 旧 JLPT 語 彙 リストには 幅 広 い という 形 容 詞 がなかった 高 頻 度 の 100 語 以 降 特 に 200 語 以 降 の 形 容 詞 がリストにあるか 無 いかを 検 討 すると 2 種 の 均 衡 コーパスおよびサブコーパスにおいて 同 じような 分 布 を 持 っている 形 容 詞 のケー スは 多 いが 散 発 的 に 数 少 ない 形 容 詞 がリストにはある たとえば 初 々しい は 旧 JLPT 語 彙 リストと 日 本 語 教 育 語 彙 表 にあるが 歯 痒 い が 無 い 同 じように 心 強 い と 名 高 い は 同 じ 分 布 なのに 前 者 だけが 語 彙 リストに 載 っている そのため コーパスの 頻 度 を 基 にして 同 じような 分 布 の 形 容 詞 は 新 しい 項 目 として 日 本 語 教 育 用 の 扱 いを 検 討 する 必 要 がる 高 頻 度 の 200 語 300 語 の 形 容 詞 のうち 日 本 語 教 育 語 彙 表 と 旧 JLPT 語 彙 リストの 中 上 級 上 級 のものがあるが 同 じような 特 性 を 持 った 形 容 詞 は 扱 っていない 逆 に その 面 から BCCWJ を 基 にした TM 語 彙 リストがもっとよくカバーされている 4.4 クラスタ 分 析 で 見 られる 形 容 詞 分 布 コーパス 頻 度 をもとに 高 頻 度 語 に 対 する 統 計 的 な 分 析 を 以 下 の 手 順 で 行 った 1)BCCWJ の 中 で 合 計 頻 度 500 以 上 の 形 容 詞 158 語 を 抽 出 2)158 語 に 対 する JpWaC の 総 頻 度 を 抽 出 し 分 析 データを 作 成 3)BCCWJ の 合 計 頻 度 やサブコーパスでの 頻 度 JpWaC の 総 頻 度 を 対 数 変 換 4) 対 数 変 換 済 み 値 をもとに SPSS で 階 層 的 クラスタ 分 析 と 主 成 分 分 析 を 行 った ただし 解 析 データに 関 して 一 点 だけ 調 整 した 品 詞 や 語 彙 の 切 り 方 の 相 違 により BCCWJ には 形 容 詞 として 掲 載 されているが JpWaC では 形 容 詞 として 認 定 されていない 6 語 易 い 旨 い らしい ~ぽい さり 気 無 い 限 り 無 い は 分 析 対 象 から 外 した 最 終 的 には 152 語 を 対 象 に 分 析 を 行 った 階 層 的 クラスタ 分 析 におけるオプションとして クラスタ 法 は Ward 法 を 使 用 サンプ ル 間 の 距 離 定 義 は ユークリッド 距 離 を 使 用 した クラスタ 分 析 の 分 類 精 度 を 評 価 するた め 判 別 分 析 を 行 った 判 別 分 析 では 階 層 的 クラスタ 分 析 で 出 力 したクラスタ 数 を 従 属 286

301 変 数 に 対 数 変 換 後 の 値 を 独 立 変 数 にして 変 数 同 時 投 入 法 で 解 析 を 行 った 判 別 分 析 の 結 果 6 個 のクラスタの 場 合 88.2% 5 個 のクラスタの 場 合 86.8% 4 個 のクラスタの 場 合 90.1% 3 個 のクラスタの 場 合 89.5%の 予 測 精 度 が 示 された この 結 果 を 受 け 152 語 のデー タは 4 個 のクラスタとして 捉 えるのがもっとも 適 切 であると 判 断 した 図 2 第 一 主 成 分 第 二 主 成 分 の 得 点 によるサンプルの 散 布 図 主 成 分 分 析 では クラスタ 分 析 と 同 様 に 対 数 変 換 済 み 値 を 使 用 した 第 一 主 成 分 と 第 二 主 成 分 の 合 計 固 有 値 は 81.8%で この 二 つの 主 成 分 で 8 割 以 上 のデータが 説 明 できる また Kaiser-Meyer-Olkin の 標 本 妥 当 性 の 測 度 も となり 説 明 力 の 高 い 分 析 であるこ とが 明 らかになった このことを 踏 まえ クラスタ 分 析 の 結 果 と 対 応 する 形 で 主 成 分 得 点 をもとに 152 語 の 散 布 図 を 作 成 した 図 2 に 目 立 つ 他 のクラスタから 離 れている 形 容 詞 ( 無 い よい 著 しい)は 特 性 を 持 っている 語 である 無 い と よい は 非 自 立 可 能 な 形 容 詞 であり 著 しい は 一 番 高 頻 度 で 特 定 目 的 白 書 のコーパスに 現 れ 偏 りがある 分 布 をもった 形 容 詞 である 既 存 の 語 彙 リストでも 高 い 段 階 で 教 えている 語 である(JLPT:1 級 日 本 語 教 育 語 彙 表 : 中 上 級 TM 語 彙 リスト:Inter) 更 に 各 クラスタの 具 体 例 を 表 4 に 示 す 287

302 表 4 クラスタの 具 体 例 区 分 タイフ 数 形 容 詞 の 例 クラスタ1 5 無 い 良 い 多 い 高 い 大 きい クラスタ2 27 弱 い 短 い 明 るい 重 い 激 しい 強 い 悪 い 少 ない 長 い 早 い 新 しい 欲 しい 深 い 若 い 古 い 小 さい 軽 い 難 しい 難 い 正 しい 低 い 近 い 優 しい 広 い 美 しい 詳 しい 厳 しい クラスタ3 48 乏 しい 力 強 い 浅 い 等 しい 幅 広 い 望 ましい 相 応 しい 苦 しい 厚 い 著 しい 恥 ずかしい 青 い 濃 い 細 い 凄 い 悲 しい 楽 しい 細 かい 美 味 しい 面 白 い 熱 い 難 い 嬉 しい 暑 い 冷 たい 白 い 忙 しい 寂 しい 可 愛 い 狭 い 珍 しい 酷 い 安 い 温 かい 遠 い 甘 い 怖 い 黒 い 暗 い 薄 い 辛 い 素 晴 らしい 痛 い 可 笑 しい 寒 い 赤 い 固 い 遅 い クラスタ4 72 目 覚 ましい 馬 鹿 馬 鹿 しい 悪 しい 青 白 い 根 強 い 重 たい 奥 深 い 程 良 い 粗 い 慌 ただしい しんどい 分 厚 い 険 しい 醜 い 尊 い 快 い 苦 い 細 長 い 痒 い 緩 い 薄 暗 い 荒 い 可 愛 らしい 眩 しい 鈍 い 切 ない 逞 しい 惜 しい 空 しい 好 ましい 賢 い 危 うい しつこい 心 地 良 い 凄 まじい 淡 い 情 けない 臭 い 羨 ましい やばい でかい 黄 色 い 辛 い 涼 しい 汚 い 大 人 しい 軟 らかい 貧 しい 悔 しい 危 ない 怪 しい 不 味 い 煩 い 眠 い めでたい 素 早 い 臭 い 柔 らかい 丸 い 親 しい きつい 幼 い 久 しい 懐 かしい 有 り 難 い 物 凄 い 鋭 い 偉 い 恐 ろしい 太 い 仕 方 無 い 宜 しい 各 クラスタの 解 釈 のため BCCWJ の 総 出 現 頻 度 をもとに 平 均 値 を 確 認 した クラスタ 1 は 平 均 頻 度 が となり 超 高 頻 度 の 形 容 詞 である クラスタ 2 は 平 均 頻 度 が となり 高 頻 度 の 形 容 詞 と 言 える クラスタ 3 は となり 一 定 量 の 使 用 が 確 認 され るが 高 頻 度 で 初 級 でもよく 教 える 語 もある クラスタ 4 は 平 均 頻 度 が となり 比 較 的 に 頻 度 も 低 く 難 易 度 も 高 い 語 彙 が 多 いことが 確 認 された クラスタ 1 2 は 初 級 学 習 者 には 必 須 クラスタ 3 は 初 級 中 級 学 習 者 に 分 けられ クラスタ 4 は 主 に 中 上 級 学 習 者 向 けの 形 容 詞 であるが 黄 色 い および 円 い のような 普 段 初 級 で 学 習 される 語 彙 も 現 れる クラスタで 得 られた 結 果 は サブコーパスおよびコーパスごとの 頻 度 分 布 を 基 にしたグルーピングで 直 接 語 彙 習 得 段 階 と 結 びつけにくいところもあり 他 の 要 因 を 考 慮 に 入 れつつ 教 育 のために 利 用 可 能 である また 同 じような 方 法 で 158 語 以 外 の 形 容 詞 も 分 析 する 必 要 がある 5. 新 しい 形 容 詞 の 語 彙 リストに 向 けて 既 存 の 語 彙 リストとコーパスを 分 析 した 結 果 新 しい 形 容 詞 の 語 彙 リストを 作 成 するメ リットがあることが 明 らかになった 本 研 究 で 収 集 した 形 容 詞 のデータを 更 にデータベー ス 化 して 統 一 し 比 較 できるような 表 として 提 供 することが 望 ましい 今 回 は BCCWJ およびそのサブコーパスによる 形 容 詞 の 語 彙 頻 度 のリストをベースにしたが 今 後 今 月 公 開 された 超 大 規 模 JpTenTen ウェブコーパスのデータを 利 用 する 予 定 である また 今 回 の 研 究 に UniDic の 短 単 位 を 利 用 したが 長 単 位 のデータが 抽 出 できるようになったので 複 合 形 容 詞 を 適 切 に 扱 うために 長 単 位 にデータを 揃 えてデータベース 化 する 予 定 である 2 節 に 取 り 上 げた 語 彙 リストにあるデータを 統 合 し 形 容 詞 の 見 出 し 語 以 外 に 表 記 品 詞 それぞれの 語 彙 リストにあるかどうか その 取 り 出 した 難 易 度 レベル コーパス サブコ ーパスごとの 頻 度 形 容 詞 の 形 式 意 味 分 類 などの 情 報 を 提 供 することを 目 標 としている 6.まとめと 今 後 の 課 題 本 論 文 では 形 容 詞 を 対 象 にして 既 存 の 日 本 語 の 様 々な 語 彙 リストと 大 規 模 な 2 種 のコ ーパスから 取 り 出 した 頻 度 リストを 比 較 した その 結 果 形 容 詞 の 語 数 およびカバーされ た 形 容 詞 その 難 易 度 レベルの 間 にキャップがあると 判 断 された 例 として 取 り 出 した 既 存 の 語 彙 リストにはない 高 頻 度 の 形 容 詞 は 今 後 の 語 彙 リストの 項 目 として 入 れる 必 要 が 288

303 ある どの 既 存 の 語 彙 リストも 全 体 の 大 規 模 な 現 代 日 本 語 均 衡 コーパスか 大 規 模 な 現 代 日 本 語 の 調 査 を 利 用 していないため 語 彙 リストの 再 作 成 が 必 要 であると 考 えられる また コ ーパスデータを 用 いた 語 彙 リストは 形 態 素 解 析 および 電 子 辞 書 の 言 語 処 理 方 法 への 依 存 性 があるということが 確 認 され 特 に 複 合 形 容 詞 のデータはほとんどカバーされていない そのため 今 後 UniDic の 長 単 位 の 分 析 結 果 が 望 まれるとことである 謝 辞 本 研 究 は 博 報 財 団 第 7 回 日 本 語 海 外 研 究 者 招 聘 事 業 日 本 語 教 育 における 語 の 共 起 関 係 という 研 究 ( 平 成 24~25 年 度 招 聘 研 究 員 :スルダノヴィッチ イレーナ)および 研 究 種 目 と 分 野 : 基 盤 研 究 (A) 日 本 語 教 育 研 究 課 題 名 : 汎 用 的 日 本 語 学 習 辞 書 開 発 データ ベース 構 築 とその 基 盤 形 成 のための 研 究 ( 研 究 代 表 者 : 砂 川 有 里 子 ( 筑 波 大 学 ) による 支 援 を 得 ています 教 育 基 本 語 彙 の 基 本 的 研 究 のデータベースおよび BCCWJ のコーパ スを 含 めて 国 立 国 語 研 究 所 が 研 究 環 境 を 与 えてくださったことに 感 謝 いたします 文 献 饗 場 淳 子 (2011) 日 本 語 教 育 用 語 彙 に 共 通 する 語 についての 一 考 察 早 稲 田 大 学 大 学 院 教 育 学 研 究 科 紀 要 18-2, pp 国 際 交 流 基 金 ( 財 ) 日 本 国 際 教 育 協 会 (1994) 日 本 語 能 力 試 験 出 題 基 準 凡 人 社 教 育 基 本 語 彙 の 基 本 的 研 究 増 補 改 訂 版 (2008) 国 立 国 語 研 究 所 報 告 127, 明 治 書 院 砂 川 有 里 子 (2012) 学 習 辞 書 編 集 支 援 データベース 作 成 について - 学 習 辞 書 科 研 プロジ ェクトの 紹 介 日 本 語 教 育 連 絡 会 議 論 文 集 24, pp スルダノヴィッチ イレーナ, 仁 科 喜 久 子 (2008) コーパス 検 索 ツール Sketch Engine の 日 本 語 版 とその 利 用 方 法 日 本 語 科 学 23 号, 国 書 刊 行 会, pp スルダノヴィッチ イレーナ(2012) 複 数 のデータを 活 用 したイ 形 容 詞 と 名 詞 のコロケー ションの 記 述 日 本 語 教 育 のための 資 料 作 成 を 目 指 してー 第 82 回 NINJAL サロン, 2012 年 11 月 27 日 大 学 英 語 教 育 学 会 基 本 語 改 定 委 員 会 ( 編 ) (2003) 大 学 英 語 教 育 学 会 基 本 語 リスト: JACET List of 8000 Basic Words 大 学 英 語 教 育 学 会 橋 本 直 幸 山 内 博 之 (2008) 日 本 語 教 育 のための 語 彙 リストの 作 成 日 本 語 学 ( 特 集 : 語 彙 の 教 育 ) 27-10, 明 治 書 院, pp 松 下 達 彦 (2010) 日 本 語 を 読 むために 必 要 な 語 彙 とは? - 書 籍 とインターネットの 大 規 模 コーパスに 基 づく 語 彙 リストの 作 成 2010 年 度 日 本 語 教 育 学 会 春 季 大 会 予 稿 集 pp 松 下 達 彦 (2011) 日 本 語 を 読 むための 語 彙 データベース (The Vocabulary Database for Reading Japanese) Ver ( 可 能 ) 李 在 鎬 砂 川 有 里 子 (2012) コーパスを 活 用 した 日 本 語 語 彙 表 の 構 築 2012 年 日 本 語 教 育 国 際 研 究 大 会 (ICJLE2012)パネルセッション 日 本 語 教 育 につながるコーパス 研 究 現 状 と 今 後 の 展 望 ( 名 古 屋 大 学 ) 山 内 博 之 ( 編 )(2008) 日 本 語 教 育 スタンダード 試 案 語 彙 ひつじ 書 房 Nation, Paul (2001) Learning vocabulary in another language. Cambridge University Press Srdanović, Irena, Bekeš, Andrej, 仁 科 喜 久 子 (2008) 複 数 のコーパスに 見 られる 副 詞 と 文 末 モ ダリティの 遠 隔 共 起 関 係 特 定 領 域 研 究, 日 本 語 コーパス 平 成 19 年 度 公 開 ワークシ ョップ( 研 究 成 果 発 表 会 ) 予 稿 集, pp

304 関 連 URL 国 立 国 語 研 究 所 の 言 語 コーパス 整 備 計 画 KOTONOHA 日 本 語 教 育 語 彙 表 の 検 索 システム 学 習 項 目 解 析 システム 中 納 言 検 索 システム(BCCWJ) スケッチエンジン 検 索 システム(JpWac, JpTenTen) TM 語 彙 リスト 形 態 素 解 析 辞 書 UniDic 290

305 枕 草 子 長 単 位 データを 用 いた 相 の 類 の 分 析 冨 士 池 優 美 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) The Adjectives and the Adverbs in Makura-no-Soushi: An Analysis Based on Long-unit-word Yumi Fujiike (Center for Corpus Development, NINJAL) 1.はじめに 国 立 国 語 研 究 所 では 現 在 日 本 語 歴 史 コーパス の 準 備 が 進 められている 日 本 語 歴 史 コーパスの 形 態 論 情 報 については 言 語 単 位 として 短 単 位 長 単 位 の 2 種 類 を 採 用 し それぞれに 代 表 形 品 詞 等 の 情 報 を 与 える 1 冨 士 池 (2012b)では 枕 草 子 長 単 位 データを 用 いて 随 想 的 章 段 類 聚 的 章 段 日 記 的 章 段 の 章 段 分 類 を 別 ジャンルの 文 章 と 見 立 て 品 詞 比 率 の 比 較 を 行 った その 結 果 名 詞 率 形 容 詞 率 は 類 聚 的 章 段 で 高 く 日 記 的 章 段 で 低 く 随 想 的 章 段 はその 中 間 となった また 副 詞 率 は 章 段 分 類 の 別 なくほぼ 一 定 であった 一 般 に 形 容 詞 率 や 副 詞 率 といった 相 の 類 の 比 率 は 名 詞 率 と 負 の 相 関 関 係 が 認 められるものだが 負 の 相 関 関 係 が 認 められない ことが 確 認 された これは 形 容 詞 や 副 詞 といった 相 の 類 が 枕 草 子 で 多 用 されているこ との 現 れと 考 えられる 本 発 表 では 枕 草 子 の 相 の 類 に 注 目 し どのように 用 いられているのか 実 態 を 探 る 2. 問 題 の 所 在 2.1 冨 士 池 (2012b) まず 枕 草 子 長 単 位 データを 用 いて 随 想 的 章 段 類 聚 的 章 段 日 記 的 章 段 の 章 段 分 類 を 別 ジャンルの 文 章 と 見 立 て 品 詞 比 率 の 比 較 を 行 った 冨 士 池 (2012b)について 概 要 を 示 す (1) 調 査 対 象 調 査 にあたり 準 備 中 の 枕 草 子 長 単 位 データを 用 いた ここで 言 語 単 位 の 概 要 を 説 明 したい 日 本 語 歴 史 コーパスでは 言 語 単 位 として 短 単 位 長 単 位 の 2 種 類 を 採 用 し ている 2 短 単 位 は 言 語 の 形 態 的 側 面 に 着 目 して 規 定 された 言 語 単 位 であり 意 味 を 持 つ 最 小 の 単 位 ( 最 小 単 位 )を 規 定 した 上 で その 最 小 単 位 を 短 単 位 認 定 規 定 に 基 づいて 結 合 さ yfujiike@ninjal.ac.jp 1 短 単 位 データについては 日 本 語 歴 史 コーパス 平 安 時 代 編 ( 先 行 公 開 版 ) として 枕 草 子 を 含 む 仮 名 文 学 作 品 10 作 品 を 公 開 中 2 日 本 語 歴 史 コーパス 中 古 和 文 の 単 位 認 定 基 準 は 現 代 日 本 語 書 き 言 葉 均 衡 コーパス で 用 いた 認 定 基 準 を 中 古 和 文 に 対 応 できるように 変 更 拡 張 したものである 短 単 位 の 認 定 基 準 については 小 椋 秀 樹 須 永 哲 矢 (2012) 長 単 位 の 認 定 基 準 ほか 概 要 については 冨 士 池 (2012a)を 参 照 291

306 せる(または 結 合 させない)ことにより 短 単 位 を 認 定 する これに 対 して 長 単 位 は 構 文 的 側 面 に 着 目 して 規 定 された 言 語 単 位 であり 文 節 を 規 定 した 上 で 文 節 を 長 単 位 認 定 規 定 に 基 づいて 自 立 語 と 付 属 語 に 分 割 することにより 長 単 位 を 認 定 する 例 えば 小 野 - 小 町 たへ-がたし うつくし-げ は 短 単 位 では - の 位 置 で 切 り 離 されるが 長 単 位 で は 一 まとまりとなる 短 単 位 と 長 単 位 は 同 じ 品 詞 体 系 を 持 つ 章 段 分 類 の 認 定 については 池 田 亀 鑑 (1963)の 分 類 に 基 づき 随 想 随 筆 となっ ているものを 随 想 的 章 段 分 類 となっているものを 類 聚 的 章 段 日 記 となっている ものを 日 記 的 章 段 とした 3 これらが 混 在 する 章 段 もある 新 編 全 集 で 一 本 とある 章 段 については 分 類 が 不 明 であったため 調 査 対 象 からは 除 外 した (2) 調 査 結 果 従 来 行 われてきたテキストを 特 徴 付 ける 指 標 として 主 要 な 品 詞 比 率 を 章 段 分 類 別 に 求 めたほか 樺 島 忠 夫 寿 岳 章 子 (1965)で 提 案 された 品 詞 比 率 に 基 づく 指 標 である MVR( 後 述 )を 用 いて 各 章 段 分 類 の 文 体 的 特 徴 の 把 握 を 試 みた 資 料 規 模 があまりに 小 さい 章 段 と 章 段 分 類 が 混 在 する 章 段 は 除 外 し 随 想 的 章 段 類 聚 的 章 段 日 記 的 章 段 のいずれかか ら 延 べ 語 数 の 多 い 50 章 段 を 取 り 出 し 調 査 対 象 とした 50 章 段 で 全 体 の 約 6 割 に 当 たる 品 詞 比 率 図 1 に 示 した 名 詞 率 動 詞 率 形 容 詞 率 副 詞 率 は 各 品 詞 の 延 べ 語 数 / 総 語 数 であ る Z は 随 想 的 章 段 R は 類 聚 的 章 段 N は 日 記 的 章 段 を 示 し ひげの 下 端 が 最 小 値 上 端 が 最 大 値 箱 の 下 端 が 第 1 四 分 位 点 横 線 が 中 央 値 上 端 が 第 3 四 分 位 点 ひげ から 外 れた 点 は 軽 度 の 外 れ 値 である 名 詞 率 動 詞 率 形 容 詞 率 副 詞 率 図 1 章 段 分 類 別 の 品 詞 比 率 図 1 から 日 記 的 章 段 の 名 詞 率 が 他 の 章 段 分 類 と 比 較 して 低 い 様 子 が 見 てとれる また 類 聚 的 章 段 では 章 段 による 名 詞 率 のばらつきが 大 きい 動 詞 率 については 類 聚 的 章 段 に おける 章 段 によるばらつきの 大 きさが 名 詞 率 以 上 に 目 立 つ 日 記 的 章 段 の 動 詞 率 がやや 高 くなっている 形 容 詞 率 は 名 詞 率 と 似 た 傾 向 を 示 しており 日 記 的 章 段 の 形 容 詞 率 は 他 の 章 段 分 類 と 比 較 して 低 い 副 詞 率 はばらつきの 差 がややあるものの 章 段 分 類 による 大 き な 差 異 は 見 られなかった 小 磯 ほか(2008)や 冨 士 池 ほか(2010)は 現 代 書 き 言 葉 を 対 象 3 章 段 分 類 の 認 定 に 関 しては 諸 説 あり 定 番 と 言 えるような 基 準 がないようである 今 回 の 調 査 では 内 容 を 重 視 し 池 田 (1963)に 基 づくこととした 292

307 とした 調 査 であるが 名 詞 率 と 動 詞 率 形 容 詞 率 副 詞 率 は 負 の 相 関 にあった これに 対 して 冨 士 池 (2012b)の 調 査 結 果 では 形 容 詞 率 が 名 詞 率 と 正 の 相 関 を 示 しており 副 詞 率 も 負 の 相 関 は 見 られなかった MVR 名 詞 の 比 率 は 文 章 の 特 質 を 表 し 名 詞 の 比 率 に 応 じて 他 の 品 詞 もある 傾 向 を 持 って 変 化 する つまり 文 章 のジャンルによって 品 詞 の 割 合 が 決 定 されると 考 えられる 自 立 語 につ いて 品 詞 をその 機 能 によって 体 ( 名 詞 類 ) 用 ( 動 詞 ) 相 ( 形 容 詞 形 状 詞 副 詞 連 体 詞 ) 他 4 の 四 つに 分 類 したとき 体 の 類 と 用 相 それぞれの 類 の 関 係 を 見 るにあたり 樺 島 寿 岳 (1965)は MVR という 指 標 を 提 案 した MVR は MVR=100 相 の 類 の 比 率 / 用 の 類 の 比 率 の 式 で 表 される 体 の 類 の 比 率 ( 以 下 名 詞 率 とする)は 一 般 に 要 約 的 な 文 章 で 大 きく 描 写 的 な 文 章 で 小 さいとする また MVR の 値 が 大 きいほどありさま 描 写 的 であり MVR の 値 が 小 さいほど 動 き 描 写 的 と 考 えられるとし 名 詞 率 と MVR の 組 み 合 わせから 以 下 のような 文 体 的 特 徴 が 見 出 せるとした 5 名 詞 率 : 大 MVR: 小 名 詞 率 : 小 MVR: 大 名 詞 率 : 小 MVR: 小 要 約 的 な 文 章 ありさま 描 写 的 な 文 章 動 き 描 写 的 な 文 章 この 指 標 を 用 いて 品 詞 比 率 から 見 る 文 体 的 特 徴 の 把 握 を 試 みた 横 軸 に 名 詞 率 縦 軸 に MVRを 取 った 散 布 図 を 図 2に 示 す 左 下 から 右 上 にかけて 概 ね 日 記 的 章 段 ( 黒 ) 随 想 的 章 段 ( 白 ) 類 聚 的 章 段 ( 灰 )の 順 で 並 んでいる 様 子 が 見 てとれる 文 体 的 特 徴 と しては 日 記 的 章 段 は 名 詞 率 が 小 さく MVR も 小 さい 動 き 描 写 的 な 文 章 随 想 的 章 段 は 日 記 的 章 段 と 重 なるが MVR がやや 高 く ありさま 描 写 的 な 文 章 であり 類 聚 的 章 段 は 樺 島 寿 岳 (1965)では 示 されていない 名 詞 率 が 大 きく MVR も 大 きい 文 章 という MVR 名 詞 率 (%) 随 想 類 聚 日 記 全 体 図 2 名 詞 率 とMVR( 枕 草 子 章 段 分 類 別 ) ことになる 類 聚 的 章 段 は 名 詞 率 が 高 く 動 詞 率 が 低 く 形 容 詞 率 が 高 いということで 文 体 的 特 徴 を 動 き 描 写 の 少 ない 文 章 としておく は 枕 草 子 全 体 の 名 詞 率 と MVR を 示 すものであり ほぼ 中 心 に 位 置 している これまで 枕 草 子 の 品 詞 比 率 と 考 えられ てきたものは 名 詞 率 MVR 共 にばらつきがあるものが 集 約 された 結 果 であると 言 えるだ 4 樺 島 忠 夫 (1950)の 分 類 による 樺 島 寿 岳 (1965)にならい 他 については 数 が 少 ないため 省 略 した 5 樺 島 寿 岳 (1965)p 単 位 の 長 さについては 言 及 がないが 品 詞 の 説 明 に 大 きな 区 分 として 自 立 語 と 附 属 語 との 二 種 に 分 かれる (p.27)とあることから 文 節 に 基 づく 長 い 系 列 の 単 位 つまり 長 単 位 相 当 と 推 測 される 293

308 ろう このような 枕 草 子 の 各 章 段 の 名 詞 率 MVR の 分 布 は 中 古 和 文 の 中 でどのような 位 置 付 けになるのだろうか 他 の 作 品 と 比 較 を 試 みるため 参 考 程 度 ではあるが 図 2 に 古 典 対 照 語 い 表 に 基 づく 同 様 の 散 布 図 を 重 ね 合 わせたものを 図 3に 示 す * が 古 典 対 照 語 い 表 に 基 づくもの( 作 品 の 略 称 を 付 した)で 白 灰 黒 の 点 が 図 2 の 点 であ る 古 典 対 照 語 い 表 所 収 の 他 作 品 と 比 較 すると 枕 草 子 は 名 詞 率 が 44.2% MVR が 69.5 となっており 名 詞 率 が 小 さく MVR が 高 い ありさま 描 写 的 な 文 章 と 見 える 蜻 蛉 日 記 は 名 詞 率 が 低 く MVR も やや 低 めで 枕 草 子 の 日 記 的 章 段 と 同 傾 向 に 見 え 似 た 品 詞 構 成 から 成 る 可 能 性 がある その 一 方 で 類 聚 的 章 段 のよう に MVR が 高 いものは 古 典 対 照 語 い 表 所 収 作 品 には 見 られ なかった 各 章 段 分 類 と 他 作 品 との 関 係 については 本 来 単 位 を 揃 えて 慎 重 に 検 討 すべき 問 題 であり 6 他 作 品 の 長 単 位 デ MVR 源 氏 * 枕 * 紫 * 方 丈 * 蜻 蛉 徒 然 大 * 鏡 * 更 * 級 * * 土 佐 * 竹 取 伊 勢 * 後 撰 万 葉 * * * 古 今 ータ 整 備 後 の 課 題 としたい 名 詞 率 (%) 図 3 名 詞 率 とMVR( 図 2+ 古 典 対 照 語 い 表 ) 2.2 問 題 の 所 在 枕 草 子 はこれまで 名 詞 率 に 対 して MVR つまり 動 詞 に 対 する 形 容 詞 類 の 割 合 が 高 いと 考 えられてきたが 冨 士 池 (2012b)では 名 詞 率 MVR が 共 に 高 い 類 聚 的 章 段 名 詞 率 MVR が 共 に 低 い 日 記 的 章 段 名 詞 率 MVR が 共 に 中 間 的 ( 他 作 品 と 比 較 すると MVR が 高 い 可 能 性 がある) 随 想 的 章 段 という 異 なる 品 詞 比 率 を 持 つ 文 章 の 集 合 体 であること が 明 らかになった 特 に 類 聚 的 章 段 は 古 典 対 照 語 い 表 所 収 の 他 作 品 との 比 較 の 限 りで は 他 に 類 を 見 ない 品 詞 比 率 に 見 える MVRは 動 詞 に 対 する 形 容 詞 類 の 割 合 であるが 冨 士 池 (2012b)では 動 詞 率 は 名 詞 率 と 負 の 相 関 があり 一 般 的 な 傾 向 を 示 していた そこで 本 稿 では 相 の 類 ( 形 容 詞 形 状 詞 副 詞 )に 注 目 し どのように 用 いられているのか 章 段 分 類 別 に 見 ることで 実 態 を 探 る 6 古 典 対 照 語 い 表 の 単 位 は 文 節 に 基 づくものであり 長 単 位 に 近 いものであるが 一 部 接 辞 を 認 め ていないため( 御 を 冠 する 語 はそれを 除 いた 形 式 を 1 単 位 として 認 める 等 ) 短 単 位 と 対 応 するものも ある 294

309 3. 枕 草 子 相 の 類 の 分 析 3.1 調 査 概 要 調 査 にあたっては 枕 草 子 全 体 の 対 象 とした 長 単 位 データを 使 用 する 7 随 想 類 聚 日 記 のいずれかの 要 素 が 混 在 する 章 段 を 混 在 章 段 とし 新 編 全 集 で 一 本 とある 章 段 については 不 明 とした ここで 枕 草 子 の 資 料 規 模 として 各 章 段 分 類 の 章 段 数 延 べ 語 数 ( 長 単 位 )を 表 1で 確 認 しておく 表 1 各 章 段 分 類 の 章 段 数 延 べ 語 数 随 想 類 聚 日 記 混 在 不 明 計 章 段 数 延 べ 語 数 枕 草 子 における 相 の 類 の 用 いられ 方 を 見 るにあたって 章 段 分 類 別 に 相 の 類 の 頻 度 比 率 名 詞 動 詞 形 容 詞 形 状 詞 8 副 詞 の 相 関 関 係 から 相 の 類 の 各 品 詞 が 各 章 段 分 類 でどのように 用 いられているのかを 見 る また 高 頻 度 語 やコレスポンデンス 分 析 ( 対 応 ) を 通 して 各 章 段 分 類 で 相 の 類 のどのような 語 が 用 いられているのかを 確 認 する 3.2 調 査 結 果 (1) 品 詞 比 率 章 段 分 類 別 相 の 類 の 頻 度 と 比 率 を 表 2 9 に 示 す 比 率 は 各 品 詞 の 延 べ 語 数 / 総 語 数 で 2.1 節 の 図 1には 表 示 されていない 平 均 値 を 示 したものである 図 1と 表 2から 日 記 的 章 段 は 相 の 類 の 比 率 が 随 想 類 聚 と 比 較 して 低 く 形 容 詞 においてそれが 顕 著 であること がわかる また 類 聚 で 副 詞 の 中 央 値 は 高 いが 平 均 比 率 は 低 く 他 の 章 段 分 類 と 比 べて 副 詞 の 比 率 が 低 い 章 段 が 多 い 様 子 がうかがえる このように 相 の 類 の 中 でも 章 段 分 類 によ り 品 詞 構 成 に 差 がある 様 子 が 確 認 できる (2) 品 詞 比 率 の 相 関 関 係 2.1 節 では 名 詞 率 と MVR の 相 関 を 見 たが MVR は 動 詞 と 相 の 類 の 比 率 を 見 る 指 標 で あり 動 詞 及 び 相 の 類 に 属 する 各 品 詞 の 比 率 が 集 約 されてしまい 前 項 (1)で 見 たよう な 章 段 分 類 による 品 詞 構 成 の 差 が 捉 えきれない そのためここでは 各 品 詞 の 相 関 関 係 を 見 る 図 4 に 普 通 名 詞 動 詞 形 容 詞 形 状 詞 副 詞 それぞれの 比 率 ( 自 立 語 中 の 割 合 )の 相 関 を 示 す 図 4 の 点 はそれぞれ 随 想 的 章 段 ( 白 ) 類 聚 的 章 段 ( 灰 ) 日 記 的 章 段 ( 黒 ) 混 在 章 段 不 明 ( 濃 い 灰 )である 表 2 各 章 段 分 類 の 相 の 類 の 頻 度 比 率 随 想 類 聚 日 記 計 形 容 詞 % 5.43% 3.74% 4.57% 形 状 詞 % 1.22% 0.71% 1.03% 副 詞 % 3.45% 4.14% 3.95% 計 % 10.10% 8.58% 7 冨 士 池 (2012b)は 2012 年 8 月 時 点 の 長 単 位 データを 使 用 したが 本 稿 では 2012 年 12 月 時 点 のもの を 使 用 した 全 体 を 対 象 としたため 極 端 な 結 果 を 示 す 章 段 もある 例 えば 第 19 段 たちは の 場 合 た ちは たまつくり のみであり 自 立 語 について 見 たときの 品 詞 比 率 は 名 詞 率 100%となる 8 形 状 詞 は 形 容 動 詞 語 幹 に 相 当 する 9 計 は 随 想 類 聚 日 記 のほか 混 在 不 明 を 含 む 295

310 普 通 名 詞 との 相 関 に 注 目 する と 動 詞 は 左 上 に 類 聚 ( 灰 ) 右 下 に 日 記 ( 黒 ) 随 想 ( 白 )とな っており 負 の 相 関 があるように 見 えるが 形 容 詞 形 状 詞 副 詞 はそれぞれ 異 なる 様 相 を 見 せて いる 形 容 詞 は 類 聚 ( 灰 )が 負 の 相 関 を 示 しているが 全 体 的 に 比 率 が 高 く 日 記 ( 黒 )はある 一 定 の 低 めの 範 囲 に 固 まり 随 想 ( 白 ) は 一 部 が 正 の 相 関 を 示 している ように 見 える 形 状 詞 は 名 詞 の 割 合 とは 関 係 なくある 一 定 の 範 囲 にある 副 詞 は 類 聚 ( 灰 )が 形 容 詞 と 同 様 に 負 の 相 関 を 示 してお り 日 記 ( 黒 ) 随 想 ( 白 )はあ X1_ 普 通 名 詞 X2_ 動 詞 X3_ 形 容 詞 X4_ 形 状 詞 X5_ 副 詞 図 4 普 通 名 詞 動 詞 形 容 詞 形 状 詞 副 詞 の 相 関 る 一 定 の 範 囲 にあるが 形 状 詞 と 比 べるとばらつきが 大 きい ここから 形 容 詞 副 詞 に おいて 名 詞 と 負 の 相 関 関 係 が 見 出 せなかったのは 日 記 ( 黒 ) 随 想 ( 白 )の 品 詞 構 成 によ るものであることが 確 認 できる 猫 は 上 のかぎり 黒 くて 腹 いと 白 き ( 第 50 段 猫 は)など 類 聚 的 章 段 に 多 く モノとその 描 写 という 性 格 を 持 ち 動 詞 を 必 ずしも 必 要 としな いことから 名 詞 率 に 関 わらず 形 容 詞 率 が 高 い 傾 向 にある また 冬 は いみじう 寒 き 夏 は 世 に 知 らず 暑 き ( 第 114 段 冬 は 10 ) 坤 元 録 の 御 屏 風 こそ をかしうおぼゆれ 漢 書 の 屏 風 はおぼしくぞ 聞 えたる 月 次 の 御 屏 風 もをかし ( 第 278 段 坤 元 録 の 御 屏 風 こそ をかしうおぼゆれ)のような 比 較 的 短 い 随 想 的 章 段 で 名 詞 率 と 形 容 詞 率 が 共 に 高 くなっていた その 一 方 で 日 記 的 章 段 を 中 心 に 名 詞 率 形 容 詞 率 が 共 に 低 い 章 段 がある 大 進 生 昌 が 家 に 宮 の 出 でさせたまふに 東 の 門 は 四 足 になして それより 御 輿 は 入 らせた まふ とはじまる 第 6 段 などが 代 表 的 なものであるが 日 記 的 章 段 は 他 章 段 と 比 べて 名 詞 率 が 低 く 動 詞 率 が 高 い 傾 向 にある 枕 草 子 中 に 名 詞 率 形 容 詞 率 が 共 に 高 い 章 段 と 共 に 低 い 章 段 が 混 在 するため 結 果 として 名 詞 率 と 形 容 詞 率 が 負 の 相 関 を 示 さなかったこ とがわかる (3) 章 段 分 類 別 頻 度 上 位 語 ここまで 比 率 を 見 てきたが ここでは 各 章 段 分 類 でどのような 語 が 使 われているのかを 確 認 する 表 3に 形 容 詞 形 状 詞 副 詞 の 章 段 分 類 別 頻 度 上 位 10 語 を 示 す 全 章 段 分 類 頻 度 上 位 10 語 に 含 まれない 語 に 網 掛 けを 付 した 網 掛 けした 語 を 見 ると 若 し は 類 聚 に 7 10 池 田 (1963)では 随 想 的 章 段 と 分 類 されていたが ~は 型 であり 類 聚 的 章 段 と 類 似 の 品 詞 構 成 を 持 つものと 考 えられる 章 段 分 類 には 再 考 の 余 地 があるものと 考 える 296

311 例 日 記 に 13 例 あり 随 想 にやや 多 い 程 度 である 一 方 で 疾 し のように 全 63 例 中 43 例 が 日 記 と 出 現 章 段 分 類 に 偏 りがあるものもあり 比 率 だけではなく 語 に 関 しても 章 段 分 類 による 差 がある 様 子 がうかがえる 表 3 形 容 詞 形 状 詞 副 詞 の 章 段 分 類 別 頻 度 上 位 10 語 形 容 詞 形 状 詞 副 詞 随 想 907 類 聚 820 日 記 1293 随 想 236 類 聚 184 日 記 246 随 想 710 類 聚 520 日 記 1431 可 笑 し 166 可 笑 し 93 いみじ 159 哀 れ 19 哀 れ 29 哀 れ 16 いと 215 いと 172 いと 250 いみじ 86 無 し 61 可 笑 し 109 清 気 17 流 石 8 然 様 8 然 45 然 27 然 95 良 し 45 いみじ 55 無 し 105 鮮 やか 8 可 笑 し 気 7 漫 8 猶 39 猶 21 唯 75 無 し 44 憎 し 32 めでたし 66 然 様 8 更 7 無 下 7 少 し 31 唯 19 猶 75 白 し 26 めでたし 29 疾 し 43 忍 びやか 7 憎 気 7 大 き 6 唯 27 必 ず 14 皆 66 めでたし 25 良 し 25 怪 し 37 細 やか 7 清 気 6 可 笑 し 気 6 又 17 少 し 14 如 何 で 49 憎 し 18 白 し 20 憎 し 32 可 笑 し 気 6 大 き 4 清 気 6 数 多 15 又 14 え 49 近 し 16 近 し 18 良 し 29 更 6 汚 気 4 顕 証 6 え 15 え 13 又 45 若 し 16 多 し 16 多 し 27 大 き 5 心 殊 4 まめやか 6 皆 14 良 く 11 少 し 39 多 し 15 怪 し 14 近 し 24 艶 やか 5 唯 4 密 か 6 まいて 13 未 だ 10 など 39 高 し 15 無 下 5 徒 然 4 皆 10 (4)コレスポンデンス 分 析 ここでは コレスポンデンス 分 析 ( 対 応 分 析 )で 章 段 分 類 と 相 の 類 の 高 頻 度 語 との 対 応 を 確 認 する 相 の 類 の 頻 度 上 位 20 語 のコレスポンデンス 分 析 結 果 の 散 布 図 を 図 5 に 示 す 分 析 には 統 計 分 析 パ ッケージ R の ca パッケージの ca 関 数 を 用 いた 第 1 次 元 の 寄 与 率 は 80.33% 第 2 次 元 の 寄 与 率 は 19.67%であった 図 5 では 第 1 次 元 の 正 の 方 向 に 日 記 負 の 方 向 には 随 想 類 聚 が 布 置 されており 第 1 次 元 は 日 記 とその 他 を 分 ける 軸 第 2 次 元 は 随 想 と 類 聚 を 分 ける 軸 と 見 ること ができる 第 1 次 元 を 見 ると 正 の 方 向 に 日 記 と 共 に 如 何 に 如 何 で 猶 然 唯 皆 又 え といった 副 詞 いみじ 怪 し めでたし といっ 第 2 次 元 た 形 容 詞 が 布 置 された 副 詞 はほぼ 正 の 方 向 に 布 置 されており 動 き 描 写 にあたり 用 いら れる 語 と 言 える 例 外 である いと は 程 度 の 甚 だしい 様 を 表 すものであり 主 に 形 容 詞 が 布 置 された 負 の 方 向 に 共 に 布 置 され ありさま 描 写 に 用 いられたと 見 ることができる 第 2 次 元 を 見 ると 正 の 方 向 に 随 想 及 び 可 笑 し 良 し が 負 の 方 向 に 類 聚 及 び 哀 れ 憎 し 11 が 布 置 された めでたし 可 笑 し 良 し 哀 れ は 共 に 肯 定 的 な 評 価 を 表 す 哀 れ 良 可 し笑 し 随 想 白 し 類 聚 いと 憎 し 少 し 多 し 第 1次 元 無 し 猶 いみじ 然 唯 如 何 に 日 記 又 え 怪 し めでたし 図 5 相 の 類 頻 度 上 位 20 語 の 散 布 皆 如 何 で 11 憎 し は 第 26 段 にくきもの での 多 用 が 影 響 したものと 考 えられる 形 容 詞 +もの 型 章 段 は 多 くあるが その 形 容 詞 が 章 段 中 に 多 用 されることは 少 なく にくきもの は 例 外 と 言 える 297

312 語 であるが めでたし は 日 記 を 可 笑 し 良 し は 随 想 を 哀 れ は 類 聚 をそれぞ れ 特 徴 付 ける 語 と 考 えられる 4. 終 わりに 枕 草 子 長 単 位 データを 用 いて 品 詞 構 成 とその 相 関 関 係 について 章 段 分 類 別 に 見 たと ころ 日 記 的 章 段 で 動 詞 率 が 高 いこと 類 聚 的 章 段 や 短 い 随 想 的 章 段 で 動 詞 率 が 極 端 に 低 く 名 詞 率 形 容 詞 率 が 共 に 高 いことが 確 認 された 枕 草 子 中 に 名 詞 率 形 容 詞 率 が 共 に 高 い 章 段 と 共 に 低 い 章 段 が 混 在 するため 結 果 として 名 詞 率 と 形 容 詞 率 が 負 の 相 関 を 示 さなかったと 言 えるだろう また 相 の 類 の 頻 度 上 位 語 とそのコレスポンデンス 分 析 か ら 日 記 的 章 段 で 副 詞 が 動 き 描 写 に 用 いられ 随 想 類 聚 的 章 段 では 形 容 詞 がありさま 描 写 に 用 いられたことや 肯 定 的 な 評 価 を 表 す 形 容 詞 類 の 中 でも 章 段 分 類 により 差 がある 様 子 がうかがわれた 付 記 本 稿 は 国 立 国 語 研 究 所 共 同 研 究 プロジェクト 通 時 コーパスの 設 計 (プロジェクトリー ダーは 近 藤 泰 弘 客 員 教 授 )の 成 果 の 一 部 である また 用 いた 新 編 全 集 枕 草 子 の 電 子 テキストは 小 学 館 から 上 記 プロジェクトのために 提 供 されたものである 文 献 池 田 亀 鑑 (1963) 全 講 枕 草 子 至 文 堂 小 椋 秀 樹 須 永 哲 矢 (2012) 中 古 和 文 UniDic 短 単 位 規 定 集 平 成 21(2009)- 平 成 23 (2011) 年 度 科 学 研 究 費 補 助 金 基 盤 研 究 (C) 和 文 系 資 料 を 対 象 とした 形 態 素 解 析 辞 書 の 開 発 研 究 成 果 報 告 書 2 ( よ りダウンロード 可 能 ) 樺 島 忠 夫 (1950) 類 別 した 品 詞 の 比 率 に 見 られる 規 則 性 国 語 国 文 24-6 樺 島 忠 夫 (1988) 日 本 語 はどう 変 わるか - 語 彙 と 文 字 - 岩 波 書 店 樺 島 忠 夫 寿 岳 章 子 (1965) 文 体 の 科 学 綜 芸 舎 小 磯 花 絵 小 木 曽 智 信 小 椋 秀 樹 (2008) 短 単 位 情 報 に 基 づくジャンル 間 の 文 体 に 関 する 分 析 特 定 領 域 研 究 日 本 語 コーパス 平 成 20 年 度 全 体 会 議 予 稿 集 pp 冨 士 池 優 美 小 西 光 小 椋 秀 樹 小 木 曽 智 信 小 磯 花 絵 (2010) 長 単 位 に 基 づく 媒 体 カ テゴリ 間 の 品 詞 比 率 に 関 する 分 析 特 定 領 域 日 本 語 コーパス 平 成 22 年 度 公 開 ワー クショップ 予 稿 集 pp 冨 士 池 優 美 (2012a) 中 古 和 文 における 長 単 位 の 概 要 第 2 回 コーパス 日 本 語 学 ワークシ ョップ 予 稿 集 pp 冨 士 池 優 美 (2012b) 枕 草 子 の 語 彙 章 段 分 類 に 注 目 して 第 101 回 国 語 語 彙 史 研 究 会 (2012 年 9 月 29 日 ) 口 頭 発 表 資 料 宮 島 達 夫 編 (1971) 古 典 対 照 語 い 表 笠 間 索 引 叢 刊 4 笠 間 書 院 298

313 接 続 助 詞 けど の 音 調 と 意 味 用 法 に 関 する 予 備 的 考 察 田 頭 未 希 ( 東 海 大 学 教 養 教 育 センター) A Preliminary Study about Tone and Discourse Function of Kedo Miki Tagashira (Foreign Language Center, Tokai University) 1.はじめに 田 頭 ( 谷 口 ) (2012a,b)では 話 し 言 葉 にみられる 接 続 助 詞 が について 句 末 音 調 と その 意 味 用 法 について 分 析 し 言 いさし の 用 法 では 下 降 調 談 話 主 題 の 提 示 の 用 法 では 上 昇 調 となることが 比 較 的 多 いこと また 一 方 で 特 定 の 音 調 と 用 法 が 一 対 一 で 強 く 結 びついているわけではなく むしろ 話 し 言 葉 では 句 末 音 調 と 意 味 用 法 はある 程 度 幅 をもって 対 応 していることを 述 べた さらに 接 続 助 詞 が は 語 彙 情 報 としては 下 降 調 をとるが 松 永 (2002)が 指 摘 している 韻 律 句 末 の 音 調 はイントネーションによって 影 響 を 受 けやすいので 注 意 が 必 要 である という 見 解 を 量 的 分 析 により 明 らかにした 話 し 言 葉 では 句 末 は 上 昇 調 や 上 昇 下 降 調 などの 音 調 変 化 を 伴 う 方 が 一 般 的 で 自 然 であると いえる 本 稿 では 接 続 助 詞 が とほぼ 同 じ 意 味 用 法 を 持 ち が と 同 様 に 話 し 言 葉 におい て 頻 繁 に 使 用 される 接 続 助 詞 けど けれど けども けれども 1 を 取 り 上 げ その 音 調 と 意 味 用 法 の 関 係 について 考 察 する 2. 目 的 本 研 究 の 大 きな 目 的 は 日 本 語 の 話 し 言 葉 について 韻 律 句 末 の 音 調 と 句 末 に 表 れるそれ ぞれの 品 詞 の 意 味 用 法 との 対 応 関 係 を 体 系 的 に 記 述 することである 本 稿 では 接 続 助 詞 けど 類 に 注 目 する 接 続 助 詞 けど 類 を 扱 う 理 由 は 以 下 である まず 文 末 のイントネーションを 扱 った 研 究 に 比 べ いわゆる 発 話 途 中 とみられる 場 所 のイントネーションとその 意 味 用 法 機 能 などとの 関 連 を 扱 った 研 究 が 少 ない また 接 続 助 詞 はその 本 来 の 機 能 から 発 話 末 にも 発 話 途 中 にも 表 れる 品 詞 であるため 同 じ 品 詞 で 同 時 に2つの 生 起 位 置 の 音 調 と 意 味 用 法 の 関 係 をみることができる 田 頭 ( 谷 口 ) (2012a,2012b)で 扱 った が と 同 様 に 複 数 の 意 味 用 法 を 持 つこと さらに 動 詞 や 形 容 詞 などに 後 続 した 場 合 語 彙 情 報 としては け ど 類 の 内 部 では 音 調 変 化 を 伴 わないことがあげられる また 一 方 で が とは 異 なり2 モーラ 以 上 から 構 成 された 語 で 実 際 の 話 し 言 葉 ではその 内 部 で 音 調 変 化 を 伴 うバリエー ションが が よりも 多 いと 予 測 でき もしバリエーションがあれば 韻 律 句 末 の 音 調 変 化 の 現 れ 方 の 比 較 ができると 考 えられる t-miki@tokai-u.jp 1 本 稿 では 接 続 助 詞 けど けれど けども けれども はそれぞれ 異 形 態 であるが 同 じ 意 味 用 法 を 持 つ 一 つの 形 式 と 考 える 本 稿 中 に 書 かれている 形 態 は 基 本 的 に 他 の3 つのいずれに 入 れ 替 えて 読 んでも 意 味 は 変 わらない けど けれど けども けれど も を 合 わせて 言 うときには けど 類 という 表 現 を 用 いることにする 299

314 3. 分 析 データ 3.1 音 声 資 料 日 本 語 話 し 言 葉 コーパス ( 以 下 CSJ)( Maekawa )のコアデータのうち 韻 律 情 報 が 付 与 されている 約 18 時 間 分 ( 模 擬 講 演 107 ファイル)を 分 析 資 料 とした 3.2 韻 律 句 末 の 音 調 本 稿 での 韻 律 句 の 意 味 を 定 義 しておく イントネーションの 物 理 的 変 化 量 として 基 本 周 波 数 を 考 え 時 間 軸 に 沿 って 示 される 音 調 の 変 化 のうち 冒 頭 の 上 昇 から 始 まり 発 話 末 にかけて 下 がっていく 基 本 周 波 数 で 示 されるひとつの 山 のまとまりを 韻 律 句 と 呼 ぶ (Pierrehumbert and Beckman 1988) 韻 律 句 に は Intonation Phrase 3 ( 以 下 IP)とAccentual Phrase( 以 下 AP)の2つがある 音 調 の 連 鎖 という 意 味 では 東 京 方 言 では ひとつのアク セント 句 は 相 対 的 に 低 いピッチ(%L)で 始 まった 後 すぐに 上 昇 し(H-) ア ク セ ン ト 核 4 が あればそこで 下 降 し(H*+L) 最 後 も ま た 低 く 終 わ る ( L%) と い う 基 本 周 波 数 の 一 連 の 変 化 からなる( 五 十 嵐 他 2008) CSJ では X-J_ToBI と 呼 ばれる 韻 律 ラベリングシステムを 採 用 し 韻 律 句 末 の 音 調 の 型 と して 5 つの 型 を 定 義 している 下 降 調 (L%) 上 昇 調 (H%) 上 昇 下 降 調 (HL%) 低 ピッチ 区 間 を 伴 う 上 昇 調 (LH%) 上 昇 下 降 上 昇 調 5 (HLH%)である 4. 接 続 助 詞 けど 類 4.1 音 調 の 型 明 解 日 本 語 アクセント 辞 典 (1997)によると 接 続 助 詞 けど 類 について 語 彙 的 に 与 えられている 音 調 は け から ど にかけてアクセントを 持 つが 基 本 的 には けど 類 単 独 で 使 用 されることは 少 なく 動 詞 や 形 容 詞 名 詞 に 後 続 して 用 いられるため 次 の ように 説 明 できる 6 形 容 詞 の 場 合 も 以 下 の 説 明 の 動 詞 の 場 合 と 同 様 に 起 伏 式 形 容 詞 の 場 合 には 形 容 詞 の 型 を 変 えないで 低 く 下 がってつき 平 板 式 形 容 詞 の 場 合 には 最 後 の 拍 を 変 え 低 く 下 がってつく 7 ここでは 便 宜 上 前 接 要 素 と 比 べ 低 く 下 がる 音 のみを 下 線 付 き で 表 記 する 平 板 式 動 詞 につく 場 合 : 助 詞 の 第 一 拍 から 低 く 下 がってつく 例 )なくけど ( 泣 くけど) 2 CSJ の 概 要 について 説 明 している 論 文 のひとつである 3 Pierrehumbert and Beckman(1988)ではアクセント 句 より 階 層 的 に 上 位 の 単 位 として 中 間 句 (Intermediate Phrase)と 発 話 (Utterance)を 置 くが J_ToBI ではそれらを 融 合 した 単 位 としてイントネーション 句 (Intonation Phrase)を 定 めている 4 語 彙 的 に 指 定 されたアクセントを 意 味 する なお この 注 釈 は 筆 者 が 加 筆 したもので 五 十 嵐 他 (2008)は 本 文 カギ 括 弧 の 表 現 である %L H- H*+L などは CSJ で 採 用 されている 韻 律 ラベリング X-JToBI で 使 われる 記 号 である 5 本 稿 での 分 析 データでは 上 昇 下 降 上 昇 調 は 全 接 続 助 詞 9,518 例 のうちわずか 2 例 であり いずれも て の 例 であったため 今 回 の 分 析 には 含 まれていない 6 新 明 解 日 本 語 アクセント 辞 典 ( 秋 永 2002)の 付 録 (72) (74)の 表 より まとめは 筆 者 による 韻 律 句 末 の 音 調 は 語 彙 情 報 として 指 定 された 以 外 の 一 般 的 音 調 以 外 に 特 に 助 詞 などの 類 はイントネーションによって 変 化 しやすいので 注 意 が 必 要 である 点 が 明 記 されて いる( 秋 永 2002) 7 平 板 式 形 容 詞 の 場 合 は 形 容 詞 の 最 後 の 拍 を 低 く 変 え 低 く 下 がってつく 300

315 起 伏 式 動 詞 につく 場 合 : 動 詞 の 型 を 変 えないで 低 く 下 がってつく 例 )よむけど ( 読 むけど) 上 記 の 例 に 示 した 通 り けど 類 が 動 詞 や 形 容 詞 などに 後 続 する 場 合 語 彙 情 報 として 持 っている 音 調 は 前 接 要 素 の 品 詞 やアクセント 型 に 関 わらず 前 接 要 素 に 続 いて 低 く 下 がってつく 下 降 調 である 4.2 用 法 接 続 助 詞 けど 類 は 先 行 研 究 8 により 次 のような 用 法 9 を 持 つことが 指 摘 されている( 森 田 1980, 渡 辺 2000 永 田 大 浜 2001 他 ) 例 は(a) 先 行 研 究 からの 引 用 または 筆 者 に よる 作 例 と(b)CSJ から 取 り 出 した 例 ( 鍵 括 弧 にデータの Talk ID)を 示 す ( 当 該 要 素 の 太 字 表 記 句 読 点 位 置 と 推 定 される 箇 所 でのスペースは CSJ の 転 記 にて 分 かち 書 きされた 箇 所 を 示 す ) (1) 談 話 主 題 の 導 入 : 話 題 の 移 行 主 題 の 提 示 する (a)お 借 りした 本 ですけど とても 面 白 かったです (b)えーっと まず 中 学 三 年 の ま 高 校 入 試 の 頃 に ちょっと 遡 るんですけど その 時 は まー[S00M0065] (2) 逆 接 対 比 : 前 出 の 文 脈 と 相 反 する 事 項 を 述 べる 統 語 的 には 取 り 立 ての は も が 用 いられることや 対 照 的 な 叙 述 が 表 現 される (a)あの 映 画 は 前 半 は 面 白 かったけど 後 半 は 退 屈 した 雨 が 降 ったけど 運 動 会 は 行 われた( 永 田 大 浜 2001 より) (b) 普 通 だったら その 立 ち 入 り 禁 止 区 間 を 入 ったところに お 咎 めの 言 葉 一 言 ぐらい 言 うと 思 うんですけど それ も 全 く 言 わずに[S01F0183] (3) 並 列 累 加 : 二 つの 事 柄 を 並 べる (a) 彼 は 走 るのも 速 いけど 泳 ぐのもうまい (b) 凄 く 頭 が 良 くて で 凄 い おとなしいんですけど 超 面 白 い 感 じ で[S02F0094] (4) 挿 入 : 補 足 説 明 を 付 け 加 える けど 節 がなくても 前 後 の 文 意 が 通 じる (a)この 前 貸 した 本 を 明 日 もし 無 理 だったら 明 後 日 でもいいんだ けど 返 してくれる?( 永 田 大 浜 2001) (b)そんな ことも ありましたし 娘 と 二 人 で 毎 日 あの 猫 の こと 書 いて あのー 夏 目 漱 石 じゃないけど あのー 猫 の 小 説 でも 書 けると いいねなんて[S01F1522] (5) 前 置 き: 後 続 する 事 項 を 補 足 したり 後 件 の 解 釈 を 阻 害 する 要 因 を 排 除 す 8 けれども の 用 法 を4つに 分 類 するもの( 三 枝 2007) 6 つ に 分 類 するもの( 森 田 1980, 永 田 大 浜 2001)など 研 究 者 によって 必 ずしも 一 致 しているわけではなく また 分 類 され た 用 法 の 語 も 少 しずつ 異 なっていることに 注 意 が 必 要 である 本 稿 では 森 田 や 永 田 らの 研 究 に 用 いられている 分 類 を 基 に 逆 接 と 対 比 の 分 類 には 曖 昧 な 場 合 がある( 渡 部 2000) を 反 映 させ 6つの 用 法 に 分 類 した 9 定 義 は のものを 筆 者 により 短 くまとめている 例 は 永 田 大 浜 (2001)より 301

316 るために 置 く 挿 入 との 違 いは 前 置 き は けど 節 が 前 後 の 文 意 を 理 解 するために 必 要 である 点 談 話 主 題 の 導 入 との 違 いは 談 話 主 題 の 導 入 が それ 以 前 までの 話 題 との 関 係 性 の 有 無 であるのに 対 し 前 置 き は けど 節 と 後 続 節 との 関 連 が 重 要 であるといえる (a)ち ょ っ と M さんにききたいんですけどね 要 するに いま この 少 年 法 の 議 論 になってる ま いろんな あのー 驚 くような 事 件 で すよね その 事 件 が 頻 発 してくると 何 か 社 会 はおかしいんじゃない かとあの ( 永 田 大 浜 2001) (b)まず 理 系 は 全 部 却 下 という 形 に なってますので 文 系 で 考 えて それで 今 度 は 経 済 学 部 とか ありますけど これは やっぱり うん 経 済 だから 計 算 を するんだろうと やっぱり 算 数 が 出 てくるんじゃないかと[S01M0225] (6) 言 い 切 りの 回 避 言 いさし: 話 し 手 の 主 張 を 弱 める 働 きをする 対 話 では 次 に 会 話 が 続 くことを 話 し 手 が 意 識 しているサインとして 働 く または 最 後 ま で 述 べずに 話 題 が 他 のことへと 移 行 してしまうような 場 合 もある (a)あの 人 はとてもいい 方 だと 思 いますけど (b) 面 白 い 授 業 で それで 何 とか 続 けてこれた 面 も ある のかなと で 歴 史 は あんまり 得 意 じゃなかったから きっと それが 良 かったんじゃないかと 思 うんですけど で まー そう やって 予 備 校 に 通 っていて で [S01M0225] 模 擬 講 演 データにみられた 接 続 助 詞 けど 類 の 例 を 上 記 6 つの 用 法 に 分 類 することを 試 みた 当 該 要 素 の 前 後 の 転 記 時 間 にして 数 秒 から 数 十 秒 間 に 相 当 する 箇 所 を 読 み 前 後 の 文 脈 から 筆 者 が 判 断 し 分 類 10 を 行 った 5. 結 果 分 析 データ 全 体 では 接 続 助 詞 けど は 1937 例 あった そのうちランダムに 約 半 数 を 抽 出 し 1019 例 について 用 法 の 分 類 を 試 みた 従 ってこれが 本 稿 での 分 析 データ 総 数 である 内 訳 を 表 1に 示 す 形 態 としては けれども けど の 使 用 頻 度 が 多 いことが 分 かる そ の 他 としては け げ けお けよ けれとも けろ が 含 まれる 1019 例 のうち 4.2 節 で 示 した 用 法 の 分 類 において 判 断 に 迷 ったものが 45 例 あった その 45 例 を 除 いた 974 例 をもとに 以 下 の 分 析 結 果 と 考 察 を 行 うことにする 974 例 の 句 末 音 調 の 割 合 の 分 布 を 表 2に 示 す 全 体 としては HL つまり 上 昇 下 降 調 が 約 半 数 を 占 めている 韻 律 句 末 の 音 調 変 化 は 前 接 要 素 のアクセントの 位 置 と 句 末 までの 距 離 が 関 係 している 可 能 性 が 高 いため け ど 類 を 構 成 モ ー ラ 数 11 で 分 け( 表 3) 句 末 音 調 との 関 係 を 調 べた 結 果 を 表 4 12 に 示 す H つまり 上 昇 調 は4モーラの 場 合 に 特 徴 的 に 多 く L つまり 下 降 調 は4モーラで 特 徴 的 に 少 ないといえる 句 末 音 調 の 型 は 韻 律 句 末 からの 距 離 が 影 響 している 点 が 指 摘 できる 次 に 用 法 について 考 える 用 法 別 の 例 数 を 表 5に 示 す 用 法 として 最 も 頻 度 が 高 かった 10 分 類 に 関 して 判 断 に 迷 ったものや 判 断 できなかったものについては 今 回 の 分 析 では すべて 除 外 した 11 CSJ の 転 記 が 長 音 表 記 になっているものは 長 音 も1モーラと 数 え 分 類 した けーど も は4モーラ けーど は3モーラに 分 類 する 12 け などの 1モーラの 3 例 と LHL の 音 調 の 型 4 例 は 分 割 表 には 入 っていない 302

317 表 1 分 析 データの 内 訳 けれども けーども けども けれど けーど けど その 他 全 体 データ 全 体 分 析 データ 表 2 句 末 音 調 別 の 例 数 表 3 モーラ 数 別 の 例 数 L HL H LHL 合 計 度 数 202 (21%) 451 (46%) 317 (33%) 4 (0%) 974 4モーラ 3モーラ 2モーラ 1モーラ 合 計 度 数 471 (49%) 190 (20%) 310 (32%) 3 (0%) 974 表 4 けど 類 構 成 モーラ 数 と 音 調 表 5 用 法 別 の 例 数 度 数 列 % 行 % H HL L 並 列 累 加 談 話 主 題 の 導 入 11 (1%) 71 (7%) 度 数 2モーラ 挿 入 510 (52%) 3モーラ 前 置 き 言 い 切 りの 回 避 逆 接 対 比 合 計 78 (8%) 28 (3%) 276 (28%) モーラ のは 挿 入 の 用 法 で 用 例 の 約 半 数 をしめていた 次 が 逆 接 対 比 の 用 法 で この2 つの 用 法 で 約 8 割 ということになる 表 6は 句 末 音 調 と 用 法 の 関 係 を 示 す いずれの 用 法 も 上 昇 調 や 上 昇 下 降 調 となる 割 合 が 下 降 調 よりも 高 い 逆 接 対 比 前 置 き 挿 入 談 話 主 題 の 導 入 並 列 累 加 の 用 法 では 上 昇 下 降 調 が 高 く 特 に 談 話 主 題 の 導 入 では6 割 がこの 音 調 をとっている また 用 例 数 は 少 ないが 言 い 切 りの 回 避 の 用 法 では 上 昇 調 が 高 いことが 分 かる さらに どの 用 法 でどの 形 態 が 使 われやすいのかについては 談 話 主 題 の 導 入 の 場 合 には けれども の 使 用 が 半 数 以 上 を 占 め また 累 加 並 列 303

318 では けども と けれども で8 割 以 上 を 占 めているのが 特 徴 としてあげられる それ 以 外 の 用 法 では けども けれども に けど が 加 わり 3つの 形 態 が 使 用 されている ことが 分 かる 6. 考 察 表 1に けど 類 の 形 態 の 使 用 頻 度 を 示 したが もちろん 話 者 によっては けれども の 使 用 が 圧 倒 的 に 他 の 形 態 よりも 多 い 人 もいれば けど の 使 用 頻 度 が 高 い 人 もおり 話 者 のくせがはっきりと 現 れている 人 がみられる 一 方 で 例 えば 談 話 主 題 の 導 入 の 場 合 には けれども を 必 ず 使 用 するというように 用 法 と 形 態 にある 程 度 の 決 まりのよう なものを 持 って 話 している 話 者 もみられた 音 調 に 関 しては 上 昇 下 降 調 の 頻 度 が 高 かったが それにはいくつか 理 由 が 考 えられる まず けど の 場 合 もともと け から ど にかけての 下 降 を 語 彙 情 報 として 持 って 表 6 用 法 と 音 調 度 数 列 % H HL L 行 % 逆 接 対 比 言 い 切 りの 回 避 前 置 き 挿 入 談 話 主 題 の 導 入 並 列 累 加

319 いる また この 上 昇 下 降 調 には 韻 律 句 末 の2モーラにまたがっての 上 昇 下 降 と 句 末 の 最 終 モーラ 内 での 上 昇 下 降 も 含 まれ バリエーションが 多 いことも 上 げられる けど 類 は 最 大 で4モーラの 長 さのものが 前 接 要 素 について 発 話 されることから 前 接 要 素 自 体 の 長 さやアクセントの 位 置 などとの 関 係 から 韻 律 句 末 での 語 彙 情 報 としての 音 調 が 顕 在 化 さ れやすくなったと 考 えられる けれども は ど と も の 間 でもアクセントのような 下 降 をつけて 発 音 される 場 合 も 考 えられ これらが 上 昇 下 降 調 の 割 合 を 高 めている 原 因 に あげられる けど 類 と 同 様 の 意 味 用 法 を 持 つ 接 続 助 詞 が は 圧 倒 的 に 上 昇 調 をとる 割 合 が 高 かった( 田 頭 ( 谷 口 )2012b) 点 とも 比 較 でき 興 味 深 いといえる 用 法 については 挿 入 の 用 法 が 最 も 頻 度 が 高 かったが けど 類 は 他 の 接 続 助 詞 に 比 べ 節 の 結 びつきに 論 理 性 が 弱 い 点 ( 三 枝 2007)が 指 摘 されており それゆえ けど 類 節 がなくても 文 全 体 の 意 味 には 影 響 を 与 えない 付 け 足 し 的 な 説 明 や 挿 入 が 話 し 言 葉 では 多 用 されていると 考 えられる また 言 い 切 り 回 避 用 法 は その 使 われ 方 として 終 助 詞 の ね や よ に 似 ており 文 末 についてモダリティに 相 当 するような 意 味 も 担 ってい るといえる 尾 谷 (2003)はこのような 使 われ 方 をする けど 類 を 一 種 のポライトネス マーカーとしての 機 能 を 持 つと 指 摘 しているが 音 声 面 からも 上 昇 調 を 伴 うことで より 丁 寧 さを 加 えているといえる 用 法 と 音 調 の 関 係 については ある 特 定 の 用 法 と 音 調 が 強 く 結 ぶつき この 用 法 の 場 合 にはこの 音 調 をとるという 関 係 性 はみられない ゆるやかな 傾 向 として 例 えば 談 話 主 題 の 導 入 の 場 合 には 上 昇 下 降 調 が 用 いられやすいなどを 指 摘 することはできる この 傾 向 は 接 続 助 詞 が でもみられた( 田 頭 ( 谷 口 )2012a,b) 類 似 の 用 法 を 持 ちながら 音 調 とのゆるやかな 対 応 関 係 には 違 いがみられる けど 類 と が の 比 較 については 今 後 の 課 題 としたい 7.まとめ 日 本 語 話 し 言 葉 コーパス を 利 用 し 接 続 助 詞 けど 類 の 音 調 と 意 味 用 法 それら の 関 係 について 分 析 を 行 った 接 続 助 詞 が と 同 様 に けど 類 でも 話 し 言 葉 では 上 昇 下 降 調 や 上 昇 調 をとる 頻 度 が 高 いことが 量 的 分 析 より 明 らかになった 音 調 と 意 味 用 法 と の 関 係 については 談 話 主 題 の 導 入 として けど 類 が 使 われた 場 合 に 上 昇 下 降 調 が 用 いられやすいという 傾 向 はみられたものの 全 体 として 音 調 と 意 味 用 法 はゆるやかに 対 応 していることが 指 摘 できる 参 考 文 献 秋 永 一 枝 (2002) アクセント 習 得 法 則 新 明 解 日 本 語 アクセント 辞 典 第 二 版 金 田 一 春 彦 ( 監 修 ) 秋 永 一 枝 ( 編 ) pp.1-99 三 省 堂 五 十 嵐 陽 介 菊 池 英 明 前 川 喜 久 雄 (2008) 韻 律 情 報 報 告 書 日 本 語 話 し 言 葉 コーパス 構 築 法 ( ンロード 可 能 ) 尾 谷 昌 則 (2003)p 主 体 化 に 関 する 一 考 察 : 接 続 詞 けど の 場 合 日 本 認 知 言 語 学 会 論 文 集 第 3 巻 pp ( よりダウ ンロード 可 能 ) 三 枝 令 子 (2007) 話 し 言 葉 における が けど 類 の 用 法 一 橋 大 学 留 学 生 センター 紀 要 10 pp 田 頭 ( 谷 口 ) 未 希 (2012a) 接 続 助 詞 が の 音 調 と 意 味 用 法 日 本 語 話 し 言 葉 コーパス の 分 析 を 通 して 第 一 回 コーパス 日 本 語 学 ワークショップ 発 表 資 料 永 田 良 太 大 浜 るい 子 (2001) 接 続 助 詞 ケ ド の 往 訪 間 の 関 係 に つ い て 発 話 場 面 に 着 目 し 305

320 て 日 本 語 教 育 110 pp 日 本 語 教 育 学 会 森 田 良 行 (1980) 基 礎 日 本 語 2 意 味 と 使 い 方 角 川 書 店 渡 辺 学 (2000) 逆 接 表 現 の 記 述 と 体 系 ケド ワリニ クセニをめぐって 現 代 日 本 語 研 究 7 大 阪 大 学 大 学 院 Maekawa, K. (2003) Corpus of Spontaneous Japanese: Its design and evaluation. In Proceedings of ISCA and IEEE workshop on Spontaneous Speech Processing and Recognition Tokyo. Miki Tagashira-Taniguchi (2012b) Tone and Function on /ga/ in Japanese. Workshop on Innovation and Applications in Speech Technology (IAST) in Dublin Pierrehumbert, B. and M. Beckman (1988) Japanese Tone Structure. Cambridge, MA: MIT Press. 306

321 学 習 者 が 犯 す 誤 用 の 要 因 背 景 からみる 日 本 語 作 文 支 援 八 木 豊 ( 株 式 会 社 ピコラボ) 1 ホドシチェク ボル( 東 京 工 業 大 学 ) 阿 辺 川 武 ( 国 立 情 報 学 研 究 所 ) 仁 科 喜 久 子 ( 東 京 工 業 大 学 ) Relevance of Learners' Errors in the Development of a Japanese Writing Support System Yutaka YAGI (Picolab Co., Ltd.) Bor Hodošček (Tokyo Institute of Technology) Takeshi ABEKAWA (National Institute of Informatics) Kikuko NISHINA (Tokyo Institute of Technology) 1. はじめに 近 年 国 立 国 語 研 究 所 による 現 代 日 本 語 書 き 言 葉 均 衡 コーパス ( 以 後 BCCWJ)をは じめとする 日 本 語 大 規 模 コーパスの 開 発 が 進 展 し オンラインのコーパス 検 索 ツールとし ての 中 納 言 少 納 言 NINJAL-LWP for BCCWJ によって 特 定 の 語 の 頻 度 や 共 起 関 係 文 法 的 な 振 る 舞 いなどを 知 ることができるようになり 日 本 語 の 研 究 者 には 大 きな 恩 恵 をもたらした また 日 本 語 教 育 の 分 野 でも 日 本 語 教 育 の 研 究 者 や 教 師 によるこれらの コーパスやツールを 利 用 した 教 育 方 法 や 教 材 開 発 の 動 きがみられるようになってきた 仁 科 他 (2011) Hodošček 他 (2011)による 日 本 語 作 文 支 援 システム なつめ 2 の 開 発 もその 一 つ であり 文 書 作 成 時 に 表 現 したい 共 起 語 の 検 索 と 例 文 参 照 を 可 能 にした しかしながら このシステムは 上 級 レベルの 一 部 の 学 習 者 を 除 いて 利 用 するには 困 難 な 点 が 多 い 例 え ば 単 語 の 表 記 を 正 しく 習 得 してないと 検 索 できない 提 示 される 例 文 は 学 習 者 の 日 本 語 能 力 に 応 じたレベルに 絞 り 込 まれていないなどの 問 題 があるためである そこで さらに 広 範 囲 の 学 習 者 にも 容 易 に 利 用 できるシステムを 目 指 し 学 習 者 作 文 コーパス なたね 3 を 構 築 し そこに 見 られる 学 習 者 の 犯 しやすい 誤 用 を 分 析 し その 誤 用 の 要 因 や 背 景 を 知 る ことで 学 習 者 が 入 力 した 文 の 誤 用 を 自 動 的 に 指 摘 して 修 正 案 を 示 すシステムを 最 終 目 標 とすることとした 2. 学 習 者 作 文 コーパス なたね なたね は 我 々が 独 自 に 収 集 した 学 習 者 作 文 に 対 して 日 本 語 教 師 による 添 削 を 行 っ た 誤 用 タグ 付 きデータである 誤 用 タグは 大 きく 誤 用 の 対 象 誤 用 の 内 容 誤 用 の 要 因 背 景 という 3 つの 視 点 から 構 成 しており さらにそれぞれを 3 階 層 に 細 分 類 する ことで 全 体 として 約 70 種 類 を 定 義 している( 曹 他 (2012)) 2012 年 12 月 現 在 大 学 院 や 大 学 あるいは 語 学 学 校 に 在 籍 する 192 人 の 日 本 語 学 習 者 による 285 作 文 ( 総 文 字 数 205,520 1 yagi@picolab.jp 2 日 本 語 作 文 支 援 システム なつめ 3 学 習 者 作 文 コーパス なたね

322 表 1 母 語 別 学 習 者 数 母 語 男 性 女 性 性 別 未 入 力 計 中 国 語 マラーティー 語 ベトナム 語 韓 国 語 スペイン 語 2 2 マレー 語 1 1 スロベニア 語 1 1 ハンガリー 語 1 1 タイ 語 1 1 母 語 未 入 力 計 表 2 母 語 別 作 文 数 母 語 男 性 女 性 性 別 未 入 力 計 中 国 語 マラーティー 語 ベトナム 語 韓 国 語 スペイン 語 2 2 マレー 語 8 8 スロベニア 語 7 7 ハンガリー 語 1 1 タイ 語 1 1 母 語 未 入 力 計 字 )に 含 まれる 約 6,500 箇 所 の 誤 用 に 対 しておよそ 9,000 件 の 誤 用 タグを 付 与 して 公 開 して いる 4 収 集 した 作 文 は PC 入 力 と 手 書 きの 区 別 辞 書 使 用 の 有 無 や 時 間 制 限 などのコント ロールを 行 っておらず 作 文 のテーマも 自 己 紹 介 からエッセイ 風 のものまで 様 々である 作 文 データそのもの 以 外 に 性 別 国 籍 母 語 学 習 歴 日 本 語 能 力 ( 日 本 語 能 力 試 験 の レベルや 日 本 語 教 師 による 主 観 評 価 )といった 学 習 者 のメタ 情 報 も 可 能 な 範 囲 で 併 せて 収 集 しており 作 文 を 公 開 するにあたっては 複 数 の 日 本 語 教 師 の 協 力 のもとに 本 人 の 承 諾 を 得 ることができた 情 報 のみを 公 開 している なたね における 母 語 別 の 学 習 者 数 および 作 文 数 を 表 1 表 2に 示 す 作 文 を 収 集 できる 環 境 が 限 られていることから 現 状 では 中 国 語 を 母 語 とする 学 習 者 が 多 く 全 体 の 半 分 以 上 を 占 めている 3. 誤 用 の 要 因 背 景 の 分 析 本 章 では なたね に 付 与 した 誤 用 タグのうち 誤 用 の 要 因 背 景 に 着 目 して 学 習 者 が 犯 しやすい 誤 りの 傾 向 学 習 者 の 母 語 や 日 本 語 能 力 といったメタ 情 報 との 関 連 につい て 分 析 を 行 う 表 3は 誤 用 の 要 因 背 景 に 含 まれる 誤 用 タグの 頻 度 を 母 語 別 に 集 計 し た 結 果 である 表 見 出 しのアルファベットは 学 習 者 の 母 語 を 表 しており( 脚 注 参 照 ) それ ぞれの 列 がその 母 語 における 誤 用 タグの 頻 度 右 端 の 列 が なたね 全 体 の 頻 度 である 以 降 では 誤 用 の 要 因 背 景 に 含 まれる 誤 用 タグの 項 目 類 似 母 語 干 渉 レジスタ ー を 取 り 上 げ 順 を 追 って 説 明 する 3.1. 類 似 類 似 した 語 句 との 混 同 が 要 因 となっている 誤 用 が 該 当 し 類 似 している 内 容 に 応 じて 意 味 の 類 似 字 形 の 類 似 音 の 類 似 の 3 つに 下 位 分 類 している それぞれについて 代 表 的 な 誤 用 例 を 以 下 に 挙 げる 矢 印 の 左 側 の 下 線 部 が 誤 用 箇 所 矢 印 の 右 側 の 斜 体 が 日 本 語 教 師 による 訂 正 例 で 末 尾 の 括 弧 内 には 学 習 者 の 母 語 を 記 した 意 味 の 類 似 成 長 についてだんだん 深 く 了 解 理 解 できた ( 中 国 語 ) 字 形 の 類 似 公 島 広 島 と 東 京 とおきなわを 見 たいです (マラーティー 語 ) 音 の 類 似 これは 私 のしょうらいのゆうめい ゆめです (マラーティー 語 ) 意 味 の 類 似 では 特 に 日 本 語 で 用 いられるある 漢 語 の 意 味 が 中 国 とは 異 なる 意 味 で 用 い 4 総 文 字 数 には 句 読 点 やその 他 の 補 助 記 号 も 含 む ただし 現 在 もメンテナンスを 継 続 して おり Web サイト 上 での 表 示 はここで 挙 げた 数 値 と 一 致 しないことがある 308

323 5 表 3 誤 用 の 要 因 背 景 項 目 zh mr vi ko es ms sl hu th 未 計 意 味 の 類 似 字 形 の 類 似 音 の 類 似 母 語 干 渉 レジスター 文 体 の 不 統 一 その 他 計 られることがしばしばある 例 えば 日 本 語 で 理 解 と 表 現 する 場 合 に 中 国 語 では 了 解 と 表 現 することができる このような 場 合 学 習 者 は 日 本 語 のコンテクストの 中 に 母 語 の 意 味 と 合 致 する 語 を 挿 入 してしまう 日 本 語 において 理 解 と 了 解 は 意 味 的 に 類 似 してはいるが 使 い 分 けが 必 要 であることから ( 漢 語 の) 意 味 の 類 似 という 誤 用 タグ を 付 与 している この 例 は 中 国 語 からの 母 語 干 渉 と 重 なるものである 類 似 に 関 する 誤 用 の 中 で 字 形 の 類 似 や 音 の 類 似 では マラーティー 語 を 母 語 とする 学 習 者 の 誤 用 が 著 しく 多 くなっている これは マラーティー 語 では 作 文 を 収 集 した 多 くが 日 本 語 レベル 初 級 の 学 習 者 で 平 仮 名 片 仮 名 の 読 み 書 きも 不 十 分 であることに 加 えて 原 則 としてパソコンなどを 使 用 せず 手 書 きの 作 文 を 収 集 したことで 余 計 に 顕 著 な 傾 向 が 現 れたためといえる 実 際 は 字 形 の 類 似 と 音 の 類 似 は 相 互 的 であり どちらによるものかの 判 定 は 困 難 である 例 えば マラーティー 語 話 者 の 作 文 中 に 首 で 走 いて 道 を 歩 きなが ら という 誤 用 がある 首 は 道 という 字 形 の 誤 り 走 は 歩 の 字 形 の 誤 りで ある 直 接 学 習 者 にインタビューできないため 判 定 は 推 測 によることになるが 音 声 では みち あるいて と 認 識 していると 思 われる 上 級 者 で 日 本 語 の 音 声 を 正 確 に 習 得 して いない 場 合 があっても 漢 字 表 記 では 音 声 習 得 の 不 正 確 さは 顕 在 化 しないが 非 漢 字 圏 初 級 学 習 者 は 仮 名 表 記 をすることで 音 の 類 似 による 誤 用 が 顕 著 になっている その 他 の 母 語 については 中 上 級 の 学 習 者 で 構 成 されており 字 形 の 類 似 や 音 の 類 似 によ る 誤 用 はほとんど 見 られなくなる 意 味 の 類 似 による 誤 用 については 日 本 語 レベルが 上 がっても 中 国 語 や 韓 国 語 といった 漢 字 圏 の 学 習 者 を 中 心 に 散 見 されることと 対 照 的 である 3.2. 母 語 干 渉 中 国 語 を 母 語 とする 学 習 者 による 熟 語 の 誤 用 など 学 習 者 の 母 語 の 影 響 に 因 ると 考 えら れる 誤 用 が 該 当 する 類 似 の 場 合 と 同 様 に 代 表 的 な 誤 用 例 を 以 下 に 挙 げる 母 語 干 渉 十 月 一 日 午 後 わたしたちは 4 時 の 火 車 汽 車 に 乗 って ( 中 国 語 ) 母 語 干 渉 この 場 合 は 更 生 された 更 生 した 人 間 ならば 例 外 にしたいと 思 う ( 韓 国 語 ) 母 語 干 渉 は コーパス 全 体 でも 58 件 と 少 ないうえに そのうちのおよそ 8 割 は 中 国 語 を 母 語 とする 学 習 者 による 漢 字 選 択 の 誤 りである これは 中 国 語 を 母 語 とする 学 習 者 の 割 合 が 多 いこともあるが 日 本 語 教 師 が 添 削 する 際 に 母 語 干 渉 であると 判 断 できる 内 容 は 漢 5 zh: 中 国 語 mr:マラーティー 語 vi:ベトナム 語 ko: 韓 国 語 es:スペイン 語 ms: マレー 語 sl:スロベニア 語 hu:ハンガリー 語 th:タイ 語 未 : 母 語 未 入 力 309

324 字 圏 の 学 習 者 による 漢 字 選 択 の 誤 りに 限 定 されやすいためではないかと 考 える その 他 は 前 述 の 2 つ 目 に 挙 げた 誤 用 例 のように 韓 国 語 を 母 語 とする 学 習 者 が 自 動 詞 に される をつける 誤 りが 2 件 ほど 含 まれている 以 外 に 母 語 干 渉 と 一 概 には 言 えないものも 含 まれ ており 今 後 タグ 付 けした 日 本 語 教 師 への 確 認 および 必 要 ならば 修 正 を 行 う 予 定 である 3.3. レジスター 機 能 文 法 では 言 語 表 現 の 異 なりを 社 会 的 な 拘 束 力 をもつ 言 語 学 上 の 規 範 における 言 語 使 用 域 の 変 異 即 ち レジスター と 呼 び Halliday(2004)はレジスター 機 能 として 次 の 3 項 目 を 挙 げている (1)コミュニケーションの 目 的 と 主 題 に 関 わる フィールド (Field of discourse) (2)コミュニケーションを 行 うための 手 段 に 関 わる モード (Mode of discourse) (3)コミュニケーションパートナー 同 士 の 関 係 に 関 わる テナー (Tenor of discourse) 書 き 手 と 話 し 手 がどのような 関 係 で どのようコンテクストのもとで 発 話 するかによって それぞれ 異 なる 語 彙 文 法 項 目 で 記 述 されることを 示 すものである 学 習 者 作 文 においては 授 業 で 提 出 するレポート 内 で 話 し 言 葉 を 使 用 しているなど 場 にそぐわない 表 現 全 般 がレジスターの 誤 りに 該 当 する 現 時 点 でレジスターに 関 する 誤 り のタグは 483 件 あるが 話 し 言 葉 と 書 き 言 葉 の 違 いによるものが 大 部 分 である 類 似 の 場 合 と 同 様 に 代 表 的 な 誤 用 例 を 以 下 に 挙 げる レジスター1 少 子 化 のせいで ために これから 日 本 人 の 労 働 者 がだんだん 次 第 に 少 なくなります (ベトナム 語 ) レジスター2 文 章 を 読 んでいるとき とても 苦 しいですね ときどき 意 味 はちゃんと 十 分 に 理 解 できないこともありますよ ( 中 国 語 ) レジスター3 女 性 たちも 経 済 的 に 力 を 持 ち 始 め 徐 徐 に 平 等 に 向 けての 運 動 をやり 始 めた 始 めた ( 韓 国 語 ) レジスター1 の 例 では 理 由 や 原 因 を 示 す 接 続 表 現 に 主 観 的 な 意 味 を 含 む せい を 用 い ている アカデミックな 文 章 では 判 断 に 感 情 表 現 を 含 ませるのは 不 適 切 であり レジスタ ーの 誤 りと 判 断 される だんだん は 話 し 言 葉 であるため 書 きことばの 表 現 に 修 正 案 が 示 されている レジスター2 の 例 は 初 級 会 話 で 学 習 した 終 助 詞 が 使 用 されている 作 文 である 日 本 語 の 終 助 詞 は コミュニケーション 相 手 の 同 意 を 求 めるために 有 効 な 表 現 であるが アカデミ ックな 文 章 ではこの 種 の 表 現 を 使 用 しないことを 習 得 していない 例 である レジスター3 の 例 は ( 運 動 を)やり 始 める という 動 詞 が 話 し 言 葉 のなかでもくだけた 表 現 となっている 他 にも 次 のようなくだけた 表 現 の 作 文 がみられる これらの 表 現 は 初 級 教 科 書 でも 現 れないものであり 日 本 留 学 後 のコミュニケーションを 通 して 教 室 外 で 習 得 した 表 現 と 推 測 される レジスター4 しかし 伝 統 的 な 習 慣 とか などでは 女 性 が 不 平 等 な 目 に 会 うことが いまだにも 多 く 残 っている ( 韓 国 語 ) レジスター5 くじ 引 きで 日 本 語 クラスに 入 り 日 本 語 を 勉 強 し 始 りました うちの 私 たちのクラスで 10 人 がアメリカの 大 学 に 入 学 して 他 の 20 人 は 全 部 日 本 に 来 ました ( 中 310

325 国 語 ) レジスターの 誤 りは 前 述 の 類 似 の 誤 りとは 反 対 に 初 級 の 学 習 者 であるマラーティー 語 母 語 話 者 にはほとんどみられなかった これは 初 級 学 習 者 がレジスターを 使 い 分 けるに 至 っていない 点 にある 初 級 で 教 えられる 語 彙 および 教 材 の 構 成 からみると おおむね 話 し 言 葉 が 優 先 的 に 導 入 される そのため 日 本 語 教 師 のほうで 初 級 学 習 者 に 対 してはそこ までチェックせず 表 記 の 誤 りなどその 他 の 添 削 を 優 先 するということが 日 本 語 教 師 への インタビューから 明 らかになった レジスターが 問 題 になるのは このようなシラバスで 学 んできた 学 習 者 が 中 級 から 上 級 に 至 った 段 階 で レポートなどのアカデミックな 文 章 を 書 く 必 要 性 が 生 じる 場 合 である アカデミックな 文 章 では 学 習 者 は 話 し 言 葉 と 書 き 言 葉 を 区 別 して 書 き 分 けなければなら ないほか 作 文 全 体 を 通 して 文 体 の 統 一 も 図 らねばならない 次 の 例 は 作 文 中 での 文 体 の 不 統 一 による 誤 用 である 作 文 全 体 の 中 で 文 末 の 真 の 鍵 でしょう の 部 分 のみが 丁 寧 体 となっている である の 推 量 形 がわからないために でしょう にしたと 推 測 できる 誤 用 例 が 他 の 学 習 者 の 作 文 にも 散 見 する 文 体 の 不 統 一 現 状 がかえない どうしも 真 の 先 進 国 にならない 女 性 の 社 会 進 出 は 先 進 国 に 真 の 鍵 でしょう であろう ( 中 国 語 ) 以 上 のようなレジスターの 不 整 合 としての 誤 用 例 は 話 し 言 葉 による 会 話 場 面 を 中 心 と する 初 級 の 教 材 での 学 習 内 容 を 習 得 した 後 で 文 章 を 書 く 段 階 に 入 って 書 き 言 葉 のレジ スターの 知 識 が 不 足 しているためと 考 えられる 現 時 点 では このような 区 別 をレジスタ ーの 異 なりとして 体 系 的 に 教 える 教 材 はほとんどなく アカデミックな 表 現 が 必 要 な 上 級 レベルの 学 習 者 に 対 する 教 材 やコースウエアへの 対 応 が 十 分 でないと 推 測 できる 4. まとめと 今 後 の 課 題 本 稿 では 作 文 を 支 援 するシステムを 上 級 者 のみでなく 広 範 囲 の 学 習 者 にも 容 易 に 利 用 できるシステムを 目 指 し 学 習 者 作 文 コーパス なたね を 構 築 し 自 動 校 正 システムを 最 終 目 標 として そこに 見 られる 学 習 者 の 犯 しやすい 誤 用 を 分 析 し その 誤 用 の 要 因 や 背 景 を 考 察 した 誤 用 の 要 因 と 背 景 を 分 析 するために なたね に 収 録 されている 意 味 の 類 似 字 形 の 類 似 音 の 類 似 母 語 干 渉 レジスター の 誤 用 例 を 観 察 し 考 察 した 結 果 以 下 の ような 結 論 を 得 た (1) 字 形 の 類 似 音 の 類 似 による 誤 りは 非 漢 字 圏 初 級 学 習 者 の 例 に 多 く 見 られた 語 の 表 記 と 音 声 理 解 は 相 互 的 なものであり どの 母 語 の 学 習 者 にも 誤 った 理 解 はあ るが 特 に 非 漢 字 圏 初 級 学 習 者 は 漢 字 表 記 にハンディキャップがあるため 仮 名 表 記 を 使 用 することで 音 声 理 解 の 誤 りが 顕 在 化 していると 考 えられる (2) 意 味 の 類 似 による 誤 りの 中 で 漢 字 圏 学 習 者 によるものは 母 語 における 漢 語 の 意 味 と 日 本 語 における 意 味 の 異 同 によって 誤 ることがあり 母 語 干 渉 の 影 響 もある と 考 えられる (3) 母 語 干 渉 は 語 の 意 味 の 類 似 によるものが 多 く 見 られ 構 文 的 なものもわずか であるが 見 られた 311

326 (4) レジスター の 誤 用 は 初 級 レベルではほとんどタグが 付 けられていない その 理 由 は 初 級 学 習 者 の 語 彙 表 現 の 学 習 範 囲 が 話 し 言 葉 中 心 であり レジスターの 違 いを 示 すバリエーションがないことから 誤 用 としてタグを 付 けられないためで ある 一 方 上 級 者 では 話 し 言 葉 によって 学 んだ 日 本 語 の 知 識 で アカデミック な 文 章 を 書 く 段 階 になって レジスターの 知 識 が 不 十 分 であるために 不 適 切 な 表 現 が 散 見 されることになる 文 体 の 不 統 一 についても 文 法 的 な 知 識 の 不 足 が 影 響 し ている 部 分 があると 考 えられる 上 級 学 習 者 は 初 級 で 学 んだ 話 し 言 葉 に 加 えて アカデミックな 書 き 言 葉 さらに 高 度 な フォーマルな 話 し 言 葉 手 紙 などのフォーマルな 書 き 言 葉 表 現 など 様 々なバリエーション を 習 得 する 必 要 が 生 じてくる これらの 表 現 を 教 室 の 授 業 だけで 学 ぶには 時 間 的 制 限 も あり 習 熟 することは 困 難 である 我 々の 今 後 の 課 題 としては さらに 学 習 者 データを 追 加 し 不 適 切 な 表 現 を 分 析 するこ とで 学 習 者 に 必 要 な 適 切 な 文 章 表 現 の 提 示 を 可 能 にするシステムを 目 指 す 必 要 がある 謝 辞 本 研 究 は 文 部 科 学 省 科 学 研 究 費 補 助 金 基 盤 研 究 (C) 日 本 語 作 文 支 援 システムで 考 慮 すべき 学 習 者 属 性 情 報 と 提 示 項 目 の 分 析 研 究 ( 研 究 代 表 者 : 阿 辺 川 武 研 究 期 間 :2012 年 4 月 ~2015 年 3 月 )および 同 補 助 金 挑 戦 的 萌 芽 研 究 日 本 語 学 習 者 誤 用 コーパスを 利 用 し た 作 文 システムの 開 発 ( 研 究 代 表 者 : 仁 科 喜 久 子 研 究 期 間 :2010 年 4 月 ~2013 年 3 月 ) による 助 成 を 得 て 実 施 しています 参 考 文 献 仁 科 喜 久 子 村 岡 貴 子 因 京 子 Joyce Terence Andrew 鎌 田 美 千 子 阿 辺 川 武 (2011) バ ランス コーパス 利 用 による 日 本 語 作 文 支 援 システム なつめ の 構 築 と 評 価 特 定 領 域 研 究 日 本 語 コーパス 平 成 22 年 度 公 開 ワークショップ( 研 究 成 果 報 告 会 ) 予 稿 集 pp Hodošček Bor 阿 辺 川 武 Bekeš Andrej 仁 科 喜 久 子 (2011) レポート 作 成 のための 共 起 表 現 産 出 支 援 作 文 支 援 ツール なつめ の 使 用 効 果 専 門 日 本 語 教 育 研 究 13 号 pp 曹 紅 荃 八 木 豊 黒 田 史 彦 仁 科 喜 久 子 (2012) 学 習 者 コーパス なたね の 構 築 と 応 用 の 可 能 性 第 5 回 日 本 語 教 育 とコンピュータ 国 際 会 議 (Castel/J) Halliday M.A.K. and C.M.I.M. Matthiessen (2004). An Introduction to Functional Grammar. 3rd ed. London: Arnold 仁 科 喜 久 子 監 修 (2012) 日 本 語 学 習 支 援 の 構 築 言 語 教 育 コーパス システム 開 発 凡 人 社 八 木 豊 ホドシチェク ボル 仁 科 喜 久 子 (2012) BCCWJ と 学 習 者 作 文 コーパスを 利 用 した 日 本 語 作 文 支 援 - 表 記 と 共 起 に 関 する 誤 用 添 削 プロトタイプ 構 築 - 第 1 回 コーパ ス 日 本 語 学 ワークショップ 予 稿 集 pp

327 近 代 女 性 向 け 雑 誌 記 事 における 一 人 称 代 名 詞 の 分 析 形 態 論 情 報 付 き 近 代 女 性 雑 誌 コーパス を 用 いて 近 藤 明 日 子 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) First Person Pronouns in the Articles Published in the Modern Women s Magazines: An Analysis of Morphologically Annotated Modern Women s Magazines Corpus KONDO, Asuko (Center for Corpus Development, NINJAL) 1.はじめに これまでの 近 代 語 の 一 人 称 代 名 詞 に 関 する 研 究 では 小 説 の 会 話 部 分 落 語 速 記 口 語 文 典 といった 話 し 言 葉 的 性 質 の 強 い 口 語 文 を 主 に 分 析 の 対 象 としてきた 1 一 方 で 雑 誌 太 陽 (1895~1928 刊 )に 基 づく 太 陽 コーパス ( 国 立 国 語 研 究 所 ( 編 ) 2005)を 用 いた 分 析 から 当 時 一 人 称 代 名 詞 は 話 し 言 葉 的 性 質 の 強 い 口 語 文 のみに 出 現 するのではなく 例 えば 論 説 文 のような 書 き 言 葉 的 性 質 の 強 い 文 章 にも 多 く 出 現 し その 使 用 実 態 は 話 し 言 葉 的 性 質 の 強 い 口 語 文 のそれとは 大 きく 異 なることも 明 らかにされつつある( 近 藤 ) 本 稿 では 太 陽 コーパス の 比 較 資 料 として 作 成 された 近 代 女 性 雑 誌 コーパス ( 国 立 国 語 研 究 所 2006)に 形 態 論 情 報 を 新 たに 付 与 したデータを 利 用 して 明 治 後 期 から 大 正 期 にかけて 刊 行 された 女 性 向 け 雑 誌 に 出 現 する 一 人 称 代 名 詞 を 網 羅 的 に 抽 出 し 分 析 対 象 とする そして 一 人 称 代 名 詞 の 語 形 と 文 章 の 種 類 との 対 応 関 係 や 語 形 と 著 者 性 別 文 体 との 対 応 関 係 の 点 から 文 語 文 体 から 口 語 文 体 へ 文 体 が 大 きく 変 化 し た 時 期 における 雑 誌 記 事 での 一 人 称 代 名 詞 の 使 用 実 態 について その 一 部 を 明 らかにする 2. 形 態 論 情 報 付 き 近 代 女 性 雑 誌 コーパス 近 代 女 性 雑 誌 コーパス は 明 治 後 期 から 大 正 期 にかけて 刊 行 された 女 性 向 け 雑 誌 に 基 づくコーパスである 女 学 雑 誌 (1894~1895 年 刊 行 分 31 冊 ) 女 学 世 界 (1909 年 刊 行 分 6 冊 ) 婦 人 倶 楽 部 (1925 年 刊 行 分 3 冊 )の 計 40 冊 1362 記 事 が 収 録 されて おり 太 陽 コーパス と 比 較 させながら 当 時 の 女 性 が 読 んでいた 書 き 言 葉 の 実 態 を 把 握 することが 可 能 な 資 料 となっている( 田 中 2006) この 近 代 女 性 雑 誌 コーパス を 利 用 することで 雑 誌 太 陽 の 主 な 読 者 層 からは 外 れていた 女 性 を 対 象 とする 雑 誌 記 事 での 一 人 称 代 名 詞 の 使 用 実 態 の 一 部 が 明 らかになると 考 える また 太 陽 コーパス の 掲 載 記 事 のほとんどが 男 性 の 著 したものであるのに 対 し 近 代 女 性 雑 誌 コーパス の 掲 載 記 事 は 女 性 の 著 したものが 多 く 含 まれる よって 近 代 女 性 雑 誌 コーパス から 当 時 の 一 人 称 代 名 詞 使 用 の 男 女 差 について 明 らかになることも 期 待 される ただし 公 開 されている 近 代 女 性 雑 誌 コーパス には 形 態 素 解 析 による 形 態 論 情 報 が 付 与 されていない これはコーパス 開 発 当 時 近 代 語 を 含 めた 古 い 時 代 の 日 本 語 資 料 に kondo@ninjal.ac.jp 1 ある 程 度 の 年 代 にわたる 複 数 の 資 料 を 対 象 に 複 数 の 一 人 称 代 名 詞 の 分 析 を 行 った 先 行 研 究 として 岡 田 (1998) 祁 (2006a)(2006b) 那 須 (1986) 房 (2004)などがある 313

328 ついて 実 用 的 な 精 度 で 形 態 素 解 析 することが 実 現 されていなかったためである しかし 近 年 になり 近 代 の 文 語 論 説 文 を 対 象 とする 形 態 素 解 析 辞 書 近 代 文 語 UniDic ( 小 木 曽 2009)や 旧 仮 名 遣 いの 口 語 文 を 対 象 とする 形 態 素 解 析 辞 書 ( 小 木 曽 2012)が 開 発 される など 近 代 語 の 資 料 も 実 用 的 な 精 度 で 形 態 素 解 析 できる 環 境 が 整 ってきた 国 立 国 語 研 究 所 の 形 態 論 情 報 データベース( 小 木 曽 中 村 2011)には これらの 辞 書 を 用 いて 形 態 素 解 析 したデータが 格 納 されている 本 稿 ではこのデータベースの 2013 年 1 月 時 点 のデータ に 基 づき 分 析 考 察 を 行 う なお 形 態 論 情 報 から 得 られる 近 代 女 性 雑 誌 コーパス の 延 べ 語 数 ( 記 号 類 除 く)は 1,265,905 語 である 3. 一 人 称 代 名 詞 の 抽 出 漢 文 欧 文 部 分 2 を 除 いた 近 代 女 性 雑 誌 コーパス 全 体 から 次 の1~3の 手 順 で 一 人 称 代 名 詞 を 抽 出 した 1 形 態 論 情 報 で 品 詞 が 代 名 詞 となっている 見 出 し 語 を 抽 出 する 2 1で 抽 出 された 見 出 し 語 のうち 一 人 称 代 名 詞 として 用 いられるものを 選 択 する 3 3 2で 選 択 した 見 出 し 語 について コーパスの ルビ 情 報 や 文 脈 を 参 照 し 解 析 誤 りの 修 正 を 手 作 業 で 行 う また 一 人 称 代 名 詞 の 表 記 に 用 いられる 主 な 文 字 列 と 同 じ 出 現 形 をとる 代 名 詞 以 外 の 見 出 し 語 についても 一 人 称 代 名 詞 と 新 たに 見 なされるものは 修 正 を 行 う さ らに 出 雲 (2004)で 明 治 の 女 性 の 論 説 的 文 章 に 用 いられる 一 人 称 代 名 詞 として 挙 げられ ている 語 形 のうち コーパスの 形 態 論 情 報 で は 代 名 詞 とされていなかった 妹 (まい) 小 妹 (しょうまい) について 新 たに 文 字 列 検 索 を 行 い 一 人 称 代 名 詞 と 見 なされる ものは 修 正 を 行 った この 手 順 により 抽 出 された 一 人 称 代 名 詞 の 語 形 とそ れぞれの 粗 頻 度 と 出 現 記 事 数 を 示 したものが 表 1 であ る 1 記 事 に 複 数 の 語 形 が 出 現 する 場 合 出 現 記 事 数 は それぞれの 語 形 で 重 複 してカウントした( 表 2 以 下 も 同 様 ) 27 種 類 の 語 形 が 得 られ 一 人 称 代 名 詞 全 体 の 粗 頻 度 は 4,896 語 となった 近 藤 (2012)の 太 陽 コーパ 表 1 一 人 称 代 名 詞 の 粗 頻 度 語 形 粗 頻 度 出 現 記 事 数 わたし 2, わたくし 余 僕 吾 人 おれ わらわ 我 々 余 輩 それがし わし 妾 (しょう) あたし 42 8 我 輩 (わがはい) 拙 者 33 3 妹 (まい) 16 2 てまえ 10 7 おいら 8 5 わなみ 6 1 おら 4 4 あたい 5 4 小 妹 (しょうまい) 5 2 やつがれ 2 2 わて 2 1 あっし 1 1 うら 1 1 わい 1 1 一 人 称 代 名 詞 全 体 4, 漢 文 欧 文 部 分 の 抽 出 は コーパスの 引 用 タグの 種 別 属 性 値 を 使 って 行 った 女 性 雑 誌 コーパス の XML タグの 仕 様 は 太 陽 コーパス のものに 準 拠 する 太 陽 コーパス の XML タグの 仕 様 については 田 中 (2005)を 参 照 のこと 3 われ のように 一 人 称 代 名 詞 だけでなく 二 人 称 代 名 詞 反 射 指 示 代 名 詞 といった 他 の 用 法 でも 多 く 用 いられる 見 出 し 語 については 本 稿 では 考 察 対 象 外 とした 314

329 ス での 抽 出 結 果 と 比 較 すると 太 陽 コーパス に 出 現 せず 女 性 雑 誌 コーパス のみ に 出 現 する 語 形 として 妾 妹 てまえ あたい 小 妹 やつがれ わい の 7 語 形 があ げられる そのうち 妾 妹 あたい 小 妹 の 4 語 形 は 女 性 専 用 と 言 える 一 人 称 代 名 詞 であり 女 性 向 け 雑 誌 ならではの 出 現 傾 向 となっている 4. 文 章 の 種 類 と 一 人 称 代 名 詞 との 対 応 関 係 次 に 表 1 でとりあげた 27 語 形 について 文 章 の 種 類 との 対 応 関 係 について 見 ていく ここでいう 文 章 の 種 類 とは その 書 き 言 葉 話 し 言 葉 的 性 質 の 強 弱 により 分 類 するもので ある まず 書 き 言 葉 的 性 質 の 強 い 文 章 の 代 表 として 非 文 学 作 品 である 記 事 の 地 の 文 を 選 ぶ 女 性 雑 誌 コーパス の 扱 う 時 期 は 言 文 一 致 の 完 成 する 時 期 に 一 致 し 地 の 文 も 文 語 文 体 から 口 語 文 体 に 大 きく 変 化 する このことから 非 文 学 作 品 である 記 事 の 地 の 文 を 文 語 文 体 のものと 口 語 文 体 のものにさらに 分 けることにする 反 対 に 話 し 言 葉 的 性 質 の 強 い 文 章 の 代 表 として 文 学 作 品 の 会 話 部 分 を 選 ぶ 本 稿 の 分 析 の 観 点 とする 文 章 の 種 類 を 改 めてあげると (ア) 文 語 地 の 文 ( 非 文 学 ) (イ) 口 語 地 の 文 ( 非 文 学 ) (ウ) 口 語 会 話 ( 文 学 )の 3 種 表 2 一 人 称 代 名 詞 の 文 章 の 種 類 別 粗 頻 度 出 現 記 事 数 類 となる 文 章 文 語 地 の 文 口 語 地 の 文 口 語 会 話 の 種 類 別 の 本 文 語 形 粗 頻 度 出 現 記 事 数 粗 頻 度 出 現 記 事 数 粗 頻 度 出 現 記 事 数 の 抽 出 は コー わたし 2 1 (0.2) (25.3) (29.4) わたくし 13 3 (0.5) (22.6) (15.3) パスに XML タ 余 (9.0) 6 4 (1.5) 4 3 (1.7) グによって 付 与 僕 1 1 (0.2) 15 7 (2.6) (16.4) 吾 人 (8.0) 7 4 (1.5) された 各 種 情 報 おれ 1 1 (0.4) (10.7) に 基 づいて 行 っ わらわ 2 1 (0.2) 1 1 (0.4) た 4 我 々 7 5 (0.9) (4.5) 25 8 (4.5) 余 輩 (1.7) この 3 種 の 文 それがし (2.3) わし 45 8 (4.5) 章 の 種 類 ごとに 妾 (しょう) 6 4 (0.7) 各 語 形 の 粗 頻 度 あたし 2 1 (0.4) 12 6 (3.4) 我 輩 (わがはい) (3.0) 3 3 (1.1) 出 現 記 事 数 お 拙 者 33 3 (1.7) よびコーパス 中 妹 (まい) 16 2 (0.3) てまえ 1 1 (0.4) 6 4 (2.3) で 該 当 種 類 の 文 おいら 7 4 (2.3) 章 を 含 む 全 記 事 わなみ おら 3 3 (1.7) 数 を 示 したもの あたい 4 3 (1.7) が 表 2 である 小 妹 (しょうまい) 1 1 (0.2) 値 が 0 の 場 合 空 欄 で 示 した ( 表 3 以 下 も 同 あっし やつがれ うら わて わい (0.6) (0.6) 様 ) ( ) 内 の コーパス 全 体 記 事 数 575 (100.0) 265 (100.0) 177 (100.0) 4 地 の 文 は 引 用 タグによってマークアップされていない 部 分 とした 会 話 部 分 は 種 別 属 性 値 が 会 話 の 引 用 タグによってマークアップされている 部 分 とした 文 学 作 品 非 文 学 作 品 の 区 別 は 記 事 タグのジ ャンル 属 性 値 の NDC 番 号 の 左 2 桁 が 91~99 および 9X となっているタグでマークアップされている 部 分 を 文 学 作 品 とし それ 以 外 の 部 分 を 非 文 学 作 品 とすることで 行 った 文 語 口 語 の 区 別 は 記 事 タグおよ び 引 用 タグの 文 体 属 性 値 に 基 づき 行 った 315

330 値 はコーパス 全 体 記 事 数 に 対 する 該 当 語 形 の 出 現 記 事 数 の 割 合 ( 単 位 %)である 語 形 と 文 章 の 種 類 との 対 応 関 係 を 見 るために 表 2 の( ) 内 の 値 を 用 いてコレスポン デンス 分 析 5 を 行 った 粗 頻 度 ではなく 出 現 記 事 数 に 基 づく 値 を 用 いるのは 一 人 称 代 名 詞 は 特 定 の 記 事 に 集 中 して 用 いられる 傾 向 があり 粗 頻 度 を 用 いた 分 析 ではその 特 定 の 記 事 の 傾 向 に 分 析 結 果 が 左 右 されると 考 えたためである 分 析 結 果 から 第 1 次 元 ( 寄 与 率 80.26%) と 第 2 次 元 ( 寄 与 率 19.74%)の 得 点 を 2 次 元 空 間 上 に 布 置 したものが 図 1 である 第 2 次 元 ( 寄 与 率 20.05%) C B わらわ 口 語 地 の 文 わたくし わたし 我 々 おら 口 語 会 話 てまえ僕 あたし おれ あたい おいら 拙 わい わて わし 者 A 我 輩 吾 人 余 文 語 地 の 文 それがし 小 余 妹 輩 妾 第 1 次 元 ( 寄 与 率 79.95%) 図 1 一 人 称 代 名 詞 の 語 形 と 文 章 の 種 類 の 散 布 図 図 1 から 一 人 称 代 名 詞 の 語 形 と 文 章 の 種 類 との 間 に 強 い 対 応 関 係 が 確 認 でき 文 章 の 種 類 との 親 疎 関 係 から 語 形 を 次 の A~C の 3 グループに 分 けることができる 文 語 地 の 文 に 近 い A グループの 語 形 が 最 も 書 き 言 葉 的 性 質 が 強 く B C の 順 に 書 き 言 葉 的 性 質 が 弱 く 話 し 言 葉 的 性 質 が 強 くなり 口 語 会 話 に 近 い C グループの 語 形 が 最 も 話 し 言 葉 的 性 質 が 強 い と 見 なされる A 吾 人 妾 小 妹 それがし 妹 余 余 輩 我 輩 文 語 地 の 文 で 主 に 用 いられ 口 語 地 の 文 口 語 会 話 ではほとんど 用 いられない B わたくし わたし わらわ 我 々 口 語 地 の 文 口 語 会 話 で 主 に 用 いられ 文 語 地 の 文 ではほとんど 用 いられない C あたい あたし おいら おら おれ 拙 者 てまえ 僕 わい わし わて 口 語 会 話 で 主 に 用 いられ 文 語 地 の 文 口 語 地 の 文 ではほとんど 用 いられない 地 の 文 での 一 人 称 代 名 詞 の 使 用 実 態 は 口 語 会 話 とは 大 きく 異 なることになり 一 人 称 代 5 分 析 には 統 計 分 析 ソフト R の MASS パッケージの corresp 関 数 を 用 いた 316

331 名 詞 全 般 について 考 察 するためには 分 析 対 象 として 口 語 会 話 だけでなく 地 の 文 も 含 める 必 要 があることが 改 めて 確 認 された 5. 文 語 地 の 文 の 一 人 称 代 名 詞 ここからは 地 の 文 に 出 現 する 一 人 称 代 名 詞 について 特 に 取 り 上 げ その 使 用 実 態 につ いてより 詳 しく 分 析 考 察 する まず 文 語 地 の 文 に 出 現 する 一 人 称 代 名 詞 を 取 り 上 げる その 前 提 として コーパス 全 体 における 文 語 地 の 文 を 持 つ 非 文 学 記 事 ( 以 下 文 語 記 事 ) の 実 態 を 見 ていく 表 3 は 文 語 記 事 の 数 量 を 刊 行 年 著 者 性 別 記 事 文 体 ごとに 示 した ものである 1894 年 刊 行 分 の 記 事 については 1895 年 刊 行 分 と 併 せて 集 計 した 著 者 性 別 は コーパスに 同 梱 されている 著 者 リスト(authors.xml)に 挙 げられている 著 者 について その 著 者 名 や 記 事 内 容 から 判 断 し 男 女 不 明 の 3 種 に 分 類 した 無 署 名 および 複 数 著 者 の 記 事 はすべて 著 者 性 別 を 不 明 とした 記 事 文 体 とは 記 事 中 で 使 用 されている 文 末 辞 の 種 類 によって 分 類 するものを 言 う ここでは 文 末 辞 に 候 (そうろ)う を 用 いる 候 文 か 否 かという 観 点 から 記 事 文 体 を 分 類 した 地 の 文 に 動 詞 候 う(ソウロウ) が 1 回 以 上 出 現 する 文 語 記 事 35 記 事 のうち 記 事 の 一 部 分 のみが 候 文 になっているものや 前 代 の 著 作 であるものを 除 いた 13 記 事 を 候 文 とし それ 以 外 の 記 事 を 非 候 文 に 分 類 した 表 3 刊 行 年 著 者 性 別 記 事 文 体 別 の 文 語 記 事 数 通 年 非 候 文 候 文 非 候 文 候 文 非 候 文 候 文 非 候 文 候 文 男 女 不 明 小 計 合 計 刊 行 年 ごとの 合 計 記 事 数 の 経 年 変 化 を 見 ると 1895 年 に 505 記 事 あった 文 語 記 事 の 数 は 年 を 追 うごとに 急 激 に 減 少 し 1925 年 に 至 って 1 記 事 しかない これは 文 語 文 体 から 口 語 文 体 へ 文 体 の 基 調 が 大 きく 変 化 した 当 時 の 書 き 言 葉 のありようと 相 関 した 変 化 と 言 える 著 者 性 別 ごとに 記 事 数 の 経 年 変 化 を 見 ると 1895 年 は 男 性 が 著 者 の 記 事 がほとんどを 占 め 女 性 が 著 者 の 記 事 はわずかであるのが 1909 年 は 男 性 が 1 記 事 に 対 し 女 性 が 9 記 事 と 記 事 数 の 多 寡 が 逆 転 していることが 分 かる また 記 事 文 体 と 著 者 性 別 との 対 応 関 係 を 見 るために 通 年 での 値 による 男 女 別 記 事 文 体 別 の 2 2 クロス 表 でフィッシャーの 正 確 確 率 検 定 6 を 行 ったところ p=.0000 となり 1% 水 準 で 非 候 文 は 男 性 が 有 意 に 多 く 候 文 は 女 性 が 有 意 に 多 いことが 確 認 された つまり 女 性 は 候 う を 用 いて 読 み 手 への 配 慮 を 示 す 文 体 を 多 用 する 傾 向 があることになる 以 上 の 文 語 記 事 全 体 の 傾 向 を 踏 まえ 文 語 地 の 文 に 出 現 する 一 人 称 代 名 詞 について 見 て いく 著 者 が 男 性 または 女 性 の 記 事 について 刊 行 年 記 事 文 体 別 に 一 人 称 代 名 詞 の 語 形 ご との 出 現 記 事 数 を 示 したものが 表 4 である 1925 年 の 文 語 記 事 には 一 人 称 代 名 詞 が 出 現 し なかったので 表 中 に 載 せていない 6 検 定 には R の fisher.test 関 数 を 用 いた 317

332 表 4 文 語 地 の 文 における 一 人 称 代 名 詞 の 著 者 性 別 刊 行 年 記 事 文 体 別 の 出 現 記 事 数 男 性 グループ 語 形 通 年 非 候 文 候 文 非 候 文 候 文 非 候 文 候 文 合 計 余 吾 人 A 我 輩 余 輩 それがし B 我 々 C 僕 グループ A B 女 性 語 形 通 年 非 候 文 候 文 非 候 文 候 文 非 候 文 候 文 合 計 妾 小 妹 妹 余 我 々 わたくし まず 男 性 による 記 事 を 見 ると 非 候 文 のものにのみ 一 人 称 代 名 詞 が 出 現 する この 傾 向 は 表 3 にある 男 性 による 記 事 の 文 体 別 数 と 相 関 した 結 果 と 考 えられる 出 現 する 語 形 は A グループの 余 吾 人 我 輩 余 輩 それがし を 中 心 とし B グループの 我 々 もわず かに 出 現 する 以 下 に 用 例 をあげる (1) 余 は 先 般 園 照 マクレーン 事 件 裁 判 の 判 决 書 を 英 國 に 申 遣 はし 置 きしを 以 到 着 次 第 貴 社 にも 贈 る 可 し(1984 年 29 号 園 照 女 に 関 して 其 一 佐 伯 理 一 郎 ) 7 (2) 何 [なに]を 以 [もつ]て 然 [し]か 言 [い]ふと 問 [と]ふものあらば 吾 [ご] 人 [じん]は 先 [ま]づ 女 [ぢよ] 學 [がく] 生 [せい]が 家 [いへ]を 成 [な]して 評 [ひやう] 判 [ばん]あしき 所 以 [ゆゑん] 何 處 [いづこ]にありや と 反 [はん] 問 [もん]せん (1894 年 31 号 女 生 徒 の 卒 業 と 婚 嫁 巌 本 善 治 ) なお C グループの 僕 が 1 記 事 に 出 現 するが これは 小 松 (1999)に 言 う 漢 文 で 使 用 される 聞 き 手 への 敬 意 の 強 い 僕 に 通 じるものであり 当 時 の 口 語 会 話 に 出 現 する 僕 とは 性 質 の 異 なるものである 次 に 女 性 による 記 事 を 見 ると まず 妾 小 妹 妹 という 女 性 専 用 の 語 形 が 出 現 する 点 が 大 きな 特 徴 としてあげられる 一 方 で 余 のように 主 に 男 性 が 用 いるとされる 語 形 を 女 性 も 用 いる 場 合 があることも 分 かる 以 下 に 例 をあげる (3) 小 妹 事 茲 に 貴 欄 を 愛 讀 せらるゝ 御 婦 人 方 に 對 し 數 言 の 祝 辭 を 呈 し 度 御 受 納 の 上 貴 白 に 御 掲 載 被 下 候 はゞ 幸 甚 に 存 じ 候 (1895 年 2 号 米 国 ハリス 夫 人 の 寄 書 フロラ ビー ハリス) (4) 本 篇 の 批 評 につきては 未 だ 一 冊 にまとまりて 出 板 にならぬ 先 きより 既 に 諸 大 家 の 評 やかましければ 更 に 予 の 拙 評 を 加 ふるの 要 を 見 ず (1895 年 8 号 新 刊 書 磯 松 まつ 子 ) また 男 性 による 記 事 とは 異 なり A グループの 妾 小 妹 妹 や B グループの わ たくし のように 候 文 の 記 事 に 出 現 する 語 形 が 認 められる この 傾 向 は 表 3 にある 女 性 による 記 事 の 文 体 別 数 と 相 関 した 結 果 である 可 能 性 がある ただし 女 性 による 記 事 や 候 7 用 例 の 引 用 に 際 し [ ] 内 にルビを 示 し 末 尾 の( ) 内 に 刊 行 年 号 数 記 事 題 名 記 事 著 者 を 示 す 318

333 文 の 記 事 の 数 量 自 体 が 少 ないため 明 確 なことは 言 えない 語 形 別 に 見 ると A グループのうち 余 吾 人 我 輩 余 輩 それがし は 非 候 文 にのみ 出 現 するのに 対 し 同 じ A グループでも 妾 小 妹 妹 は 候 文 にのみ 出 現 する B グル ープでは 我 々 が 非 候 文 のみに 出 現 し わたくし は 候 文 のみに 出 現 する 同 じグルー プ 内 でも 記 事 文 体 に 対 応 した 使 い 分 けがあったと 見 られるが これについても 出 現 記 事 数 の 少 ない 語 形 については 明 確 なことは 言 えない 文 語 地 の 文 での 語 形 と 著 者 性 別 と 記 事 文 体 との 対 応 関 係 については 今 後 対 象 資 料 を 広 げて 分 析 を 重 ねる 必 要 があるだろう 8 6. 口 語 地 の 文 の 一 人 称 代 名 詞 次 に 口 語 地 の 文 での 一 人 称 代 名 詞 の 使 用 実 態 についてより 詳 しく 見 ていく その 前 提 として コーパス 全 体 における 口 語 地 の 文 を 持 つ 非 文 学 記 事 ( 以 下 口 語 記 事 ) の 実 態 を 見 るため その 数 量 を 刊 行 年 著 者 性 別 記 事 文 体 ごとに 表 5 に 示 す 刊 行 年 と 著 者 性 別 の 分 類 については 表 3 と 同 様 の 処 理 をした 記 事 文 体 は ここでは 常 体 か 敬 体 か という 観 点 から 分 類 した 助 動 詞 です ます の 出 現 回 数 が 0 回 の 記 事 の 文 体 を 常 体 助 動 詞 です ます の 出 現 回 数 が 1 回 以 上 で かつ 動 詞 御 座 る(ゴザル) + 助 動 詞 ます の 出 現 回 数 が 0 回 の 記 事 の 文 体 を 敬 体 動 詞 御 座 る(ゴザル) + 助 動 詞 ま す の 出 現 回 数 が 1 回 以 上 の 記 事 の 文 体 を 敬 体 (ございます) として 分 類 した 常 体 表 5 刊 行 年 著 者 性 別 記 事 文 体 別 の 口 語 記 事 数 敬 体 敬 体 (ござ 敬 体 (ござ 常 体 敬 体 います) います) 常 体 敬 体 敬 体 (ござ います) 刊 行 年 ごとの 合 計 記 事 数 の 経 年 変 化 を 見 ると 1895 年 には 記 事 数 3 と 同 年 の 文 語 記 事 数 505 に 比 較 してもわずかであったのが 1909 年 には 141 と 急 増 し 同 年 の 文 語 記 事 数 69 を 上 回 るまでになる 1925 年 は 121 と 1909 年 より 記 事 数 が 減 少 するが 同 年 の 文 語 記 事 数 は 1 であり 非 文 学 記 事 のほとんどは 口 語 記 事 であることになる 9 文 語 文 体 から 口 語 文 体 へ 文 体 の 基 調 が 大 きく 変 化 した 当 時 の 書 き 言 葉 のありようと 相 関 する 変 化 と 言 える 著 者 性 別 ごとに 記 事 数 の 経 年 変 化 を 見 ると 1895 年 は 女 性 が 著 者 の 記 事 がないが 1909 年 では 男 性 27 記 事 に 対 して 女 性 70 記 事 と 女 性 による 記 事 数 のほうが 多 くなる しかし 1925 年 に は 男 性 36 記 事 に 対 して 女 性 18 記 事 と 男 性 による 記 事 数 のほうが 多 くなる また 記 事 文 体 と 著 者 性 別 との 対 応 関 係 を 見 るために 通 年 での 値 による 記 事 文 体 別 男 女 別 の 3 2 クロス 表 に χ 2 検 定 10 による 多 重 比 較 (ボンフェローニ 法 )を 行 ったところ 常 体 対 敬 体 で p=.0925 常 体 対 敬 体 (ございます) で p=.0000 敬 体 対 敬 体 (ございます) で p=.0000 となり 1% 水 準 で 常 体 および 敬 体 は 男 性 で 有 意 に 多 く 敬 体 常 体 敬 体 敬 体 (ござ います) 男 女 不 明 小 計 合 計 通 年 8 出 雲 (2004)は 清 水 紫 琴 若 松 賤 子 らの 論 説 的 文 章 に 出 現 する 一 人 称 代 名 詞 について 主 に 女 学 雑 誌 で 調 査 し 吾 人 余 余 輩 わらわ 妾 小 妹 妹 われ わなみ わたし わたくし 等 の 出 現 を 報 告 する ただし 各 語 形 の 候 文 非 候 文 文 語 口 語 別 の 頻 度 は 示 されていない 9 田 中 (2006)によれば 著 作 権 の 事 情 から 1925 年 分 は 1909 年 分 より 公 開 できた 分 量 が 少 なく さらに 1925 年 は 1909 年 より 文 学 ジャンルの 占 める 割 合 が 高 くなっている 非 文 学 の 口 語 記 事 数 が 1909 年 より 1925 年 で 少 なくなるのはこれらのことが 主 に 影 響 していると 考 えられる 10 検 定 には R の chisq.test 関 数 を 用 いた 319

334 (ございます)は 女 性 で 有 意 に 多 いことが 確 認 された つまり 口 語 記 事 において 女 性 は 男 性 より 読 み 手 に 配 慮 した 丁 重 な 文 体 を 用 いていることになる 文 語 記 事 で 女 性 が 候 文 を 多 用 する 傾 向 と 併 せて 見 れば 当 時 の 女 性 は 文 語 口 語 を 問 わず 丁 重 さといった 読 み 手 への 配 慮 がより 強 く 表 せる 文 体 を 選 択 する 傾 向 にあったことになる 以 上 の 口 語 記 事 全 体 の 傾 向 を 踏 まえ 口 語 地 の 文 に 出 現 する 一 人 称 代 名 詞 について 見 て いく 著 者 が 男 性 または 女 性 の 記 事 について 刊 行 年 記 事 文 体 別 に 一 人 称 代 名 詞 の 語 形 ご との 出 現 記 事 数 を 示 したものが 表 6 である 表 6 口 語 地 の 文 における 一 人 称 代 名 詞 の 著 者 性 別 刊 行 年 記 事 文 体 別 の 出 現 記 事 数 グループ 語 形 常 体 敬 体 敬 体 (ござ います) 常 体 男 性 通 年 敬 体 敬 体 (ござ います) 常 体 敬 体 敬 体 (ござ います) 吾 人 A 余 我 輩 わたくし B わたし 我 々 C 僕 合 計 グループ 語 形 常 体 敬 体 敬 体 (ござ います) 常 体 女 性 通 年 まず 男 性 による 記 事 を 見 ると 一 人 称 代 名 詞 の 出 現 する 記 事 は 敬 体 が 過 半 を 占 め 常 体 がそれに 続 き 敬 体 (ございます)はほとんどない この 傾 向 は 表 5 にある 男 性 によ る 記 事 の 文 体 別 数 に 相 関 した 結 果 と 考 えられる 出 現 する 語 形 は B グループの わたくし わたし 我 々 を 中 心 とし A グループの 吾 人 余 我 輩 や C グループの 僕 も 少 数 出 現 する 以 下 に 例 をあげる (5) まづ 私 [わたし]は 根 [こん] 本 [ぽん]として 新 [しん] 夫 [ふう] 婦 [ふ]は 當 [たう] 然 [ぜん] 別 [べつ] 居 [きよ]すべきだと 云 [い]ふ 説 [せつ]を 採 [と] るものです (1925 年 6 号 当 然 別 居 すべきもの 千 葉 亀 雄 ) (6) 先 [せん] 日 [じつ] 余 [よ]が 大 [おほ] 隈 [くま] 伯 [はく]に 遇 [あ]つた 時 [と き] 伯 [はく]は 女 [ぢよ] 史 [し]の 事 [こと]をヒドくほめて 吾 [わが] 黨 [た う]の 女 [ぢよ] 傑 [けつ]ぢやと 云 [い]つてゐられたが 此 [この] 分 [ぶん]で は 壽 [じゆ] 命 [みやう]も 伯 [はく] 同 [どう] 樣 [やう] 百 二 十 五 歳 [さい] 迄 [ま で]は 確 [たし]かゝも 知 [し]れぬ (1909 年 8 号 実 践 女 学 校 河 岡 潮 風 ) (7) 僕 [ぼく]を 女 性 [をんな] 苛 [いぢ]めの 鬼 [おに]でゞもあるやうに 思 [おも]ふ てる 女 [ぢよ] 學 [がく] 生 [せい] 諸 [しよ] 君 [くん]もあるか 知 [し]らんが 女 [をんな]に 對 [たい]しては 却 々[なか~~] 親 [しん] 切 [せつ]な 男 [をとこ] で 女 [ぢよ] 學 [がつ] 校 [かう]に 教 [けう] 師 [し]たること 實 [じつ]に 十 四 [よ] 年 [ねん] 女 [ぢよ] 子 [し] 教 [けう] 育 [いく]にかけては 隨 [ずい] 分 [ぶん] 敬 体 敬 体 (ござ います) 常 体 敬 体 敬 体 (ござ います) A 我 輩 わたくし B わたし 我 々 C てまえ 合 計 320

335 の 古 [ふる] 狸 [だぬき]である (1909 年 5 号 卒 業 生 への 注 文 青 柳 有 美 ) 次 に 女 性 による 記 事 を 見 ると 一 人 称 代 名 詞 の 出 現 する 記 事 は 敬 体 (ございます)が 過 半 を 占 め 敬 体 がそれに 続 き 常 体 はわずかである この 傾 向 は 表 5 にある 女 性 による 記 事 の 文 体 別 数 に 相 関 した 結 果 と 考 えられる 出 現 する 語 形 は B グループの わたくし わたし を 中 心 とし B グループの 我 々 C グループの てまえ もわずかに 出 現 する 以 下 に 例 をあげる (8) 私 [わたくし]は 女 [ぢよ] 子 [し]の 獨 [どく] 身 [しん] 主 [しゆ] 義 [ぎ]を 絶 [ぜつ] 對 [たい]に 御 [お] 止 [と]め 申 [まを]し 上 [あ]げますが 自 [じ] 分 [ぶ ん]は 此 [この] 境 [きやう] 遇 [ぐう]を 天 [てん] 職 [しよく]と 感 [かん] 謝 [し や]して 及 [およ]ぶ 限 [かぎ]り 働 [はたら]くつもりで 御 [ご] 座 [ざ]います (1909 年 5 号 私 の 実 行 する 精 力 主 義 嘉 悦 孝 子 ) (9) 次 に 夫 [をつと]も 私 [わたし]も 至 つてその 讀 [どく] 書 [しよ] 家 [か]ぢやあり ませんが 而 も 愛 [あい] 書 [しよ] 家 [か]の 方 [はう]で 小 [ちひ]さい 建 [た て] 物 [もの]ですが 裏 [うら]に 圖 [と] 書 [しよ] 館 [くわん]も 厶 [ござ]い ます (1909 年 10 号 私 の 豪 奢 世 界 すみれ 女 史 ) (10) 堪 [たま]らなくなつて 男 [だん] 子 [し]は 帽 [ぼう]を 振 [ふ]りわれ~~は 手 [て]にせる 白 [しろ]いハンカチーフを 上 [うへ]に 捧 [さゝ]げた (1909 年 10 号 夏 の 新 橋 驛 秋 雨 ) なお A グループの 我 輩 の 例 は 我 輩 は 下 女 である という 記 事 題 名 中 に 用 いられた ものであり 該 当 記 事 本 文 では わたし わたくし が 出 現 することから 例 外 的 なもの と 見 なしてよい 語 形 別 に 見 ると A グループの 吾 人 余 我 輩 と B グループの 我 々 と C グルー プの 僕 は 常 体 および 敬 体 の 記 事 に 出 現 し 敬 体 (ございます)の 記 事 には 出 現 しない ただし これらの 語 形 の 出 現 する 文 脈 を 確 認 すると 男 性 による 記 事 のうち 余 の 出 現 する 敬 体 の 1 記 事 吾 人 の 出 現 する 敬 体 の 2 記 事 我 輩 の 出 現 する 敬 体 の 2 記 事 僕 の 出 現 するに 1 記 事 ついては 記 事 文 体 は 敬 体 に 分 類 したものの 記 事 中 の 一 部 を 占 める 常 体 の 文 中 にこれらの 語 形 が 出 現 していることがわかった また 女 性 による 記 事 に 出 現 す る 我 輩 については 上 述 のとおり 例 外 的 なものであった 整 理 すると A グループの 余 我 輩 は 常 体 の 記 事 のみに 出 現 し A グループの 吾 人 と B グループの 我 々 と C グ ループの 僕 は 常 体 および 敬 体 の 記 事 に 出 現 していることになる 一 方 B グループの わ たくし わたし は 常 体 敬 体 の 記 事 だけでなく 敬 体 (ございます)の 記 事 にも 出 現 する 書 き 言 葉 的 性 質 の 強 い A グループは 常 体 敬 体 に 出 現 し A グループよりも 話 し 言 葉 的 性 質 の 強 い B グループは 敬 体 (ございます)に 出 現 する 傾 向 にあるとおおよそ 言 えるが B C グループにありながら 敬 体 (ございます)に 出 現 しない 我 々 僕 のような 語 形 もあり 語 形 の 持 つ 書 き 言 葉 話 し 言 葉 的 性 質 の 強 弱 と 記 事 文 体 との 間 に 対 応 関 係 があるとは 単 純 には 言 い 切 れない 同 じグループに 属 する 語 形 であっても さらにその 内 部 で 記 事 文 体 に 対 応 した 使 い 分 けがあったと 考 えるのが 穏 当 であろう 一 人 称 代 名 詞 の 語 形 と 記 事 文 体 と の 対 応 関 係 については 今 後 調 査 対 象 資 料 を 広 げてさらに 分 析 を 深 めたい 7.おわりに 以 上 形 態 論 情 報 付 き 近 代 女 性 雑 誌 コーパス を 用 いて 主 に 非 文 学 記 事 の 地 の 文 で の 一 人 称 代 名 詞 の 使 用 実 態 について 分 析 考 察 した 記 事 著 者 の 性 別 と 記 事 文 体 との 間 に は 対 応 関 係 あることがまず 確 認 でき さらに 記 事 文 体 に 応 じて 一 人 称 代 名 詞 が 使 い 分 けら 321

336 れている 傾 向 が 見 られた 実 際 の 記 事 の 執 筆 においては 一 人 称 代 名 詞 の 選 択 より 先 に 著 者 性 別 に 応 じた 記 事 文 体 の 選 択 があったと 考 えるほうが 自 然 であるならば 一 人 称 代 名 詞 の 出 現 傾 向 は 記 事 文 体 の 出 現 傾 向 に 強 く 影 響 を 受 け その 記 事 文 体 の 出 現 傾 向 は 著 者 性 別 の 傾 向 に 影 響 を 受 けていることになる 当 時 の 記 事 地 の 文 の 一 人 称 代 名 詞 の 使 用 実 態 を 解 明 するためには その 前 提 として 当 時 の 著 者 性 別 ごとの 記 事 文 体 の 使 用 実 態 を 把 握 する ことが 重 要 であることが 本 稿 の 考 察 から 確 認 された 記 事 文 体 と 一 人 称 代 名 詞 の 語 形 との 対 応 関 係 については 近 代 女 性 雑 誌 コーパス のテ キスト 量 が 分 析 に 十 分 ではなかったことや 記 事 文 体 の 認 定 方 法 に 一 層 の 工 夫 が 必 要 であっ たことなどから 本 稿 では 精 緻 な 考 察 までたどりつけなかった これらの 問 題 点 について 改 善 をはかり さらに 考 察 を 進 めていきたい 文 献 石 川 慎 一 郎 前 田 忠 彦 山 崎 誠 ( 編 )(2010) 言 語 研 究 のための 統 計 入 門 くろしお 出 版 出 雲 朝 子 (2004) 女 性 の 文 章 と 近 代 日 本 語 学 23:7 pp 岡 田 賢 二 (1998) 明 治 期 の 東 京 語 における 人 称 代 名 詞 の 研 究 明 治 大 正 期 の 落 語 の 速 記 本 にあらわれた 一 二 人 称 代 名 詞 埼 玉 大 学 国 語 教 育 論 叢 2 pp 小 木 曽 智 信 (2009) 科 学 研 究 費 補 助 金 研 究 成 果 報 告 書 近 代 文 語 文 を 対 象 とした 形 態 素 解 析 のための 電 子 化 辞 書 の 作 成 とその 活 用 ( よりダウンロード 可 ) 小 木 曽 智 信 (2012) 旧 仮 名 遣 いの 口 語 文 を 対 象 とした 形 態 素 解 析 辞 書 じんもんこん 2012 論 文 集 2012:7 pp 小 木 曽 智 信 中 村 壮 範 (2011) 特 定 領 域 研 究 日 本 語 コーパス 平 成 22 年 度 研 究 成 果 報 告 書 現 代 日 本 語 書 き 言 葉 均 衡 コーパス 形 態 論 情 報 データベースの 設 計 と 実 装 改 訂 版 (JC-U-10-01) 祁 福 鼎 (2006a) 明 治 時 代 語 における 自 称 詞 の 使 用 実 態 と 使 用 規 範 について 文 学 研 究 論 集 24 pp 祁 福 鼎 (2006b) 明 治 時 代 語 における 自 称 詞 の 推 移 と 位 相 について 明 治 大 学 日 本 文 学 32 pp.95(1)-78(18) 国 立 国 語 研 究 所 ( 編 )(2005) 太 陽 コーパス 雑 誌 太 陽 日 本 語 データベース 博 文 館 新 社 小 松 寿 雄 (1999) キミ ボク 対 使 用 補 考 学 苑 705 pp 近 藤 明 日 子 (2008) 近 代 語 における 一 人 称 代 名 詞 よ わがはい 太 陽 コーパス を 資 料 として 社 会 言 語 科 学 11:1 pp 近 藤 明 日 子 (2011) 太 陽 コーパス に 見 る 一 人 称 代 名 詞 吾 人 (ごじん) 余 (よ) との 比 較 から 近 代 語 研 究 16 pp 近 藤 明 日 子 (2012) 単 語 情 報 付 き 太 陽 コーパス を 用 いた 一 人 称 代 名 詞 の 分 析 日 本 語 学 会 2012 年 度 秋 季 大 会 予 稿 集 pp 田 中 牧 郎 (2005) 言 語 資 料 としての 雑 誌 太 陽 の 考 察 と 太 陽 コーパス の 設 計 雑 誌 太 陽 によ る 確 立 期 現 代 語 の 研 究 太 陽 コーパス 研 究 論 文 集 博 文 館 新 社 pp.1-48 田 中 牧 郎 (2006) 近 代 女 性 雑 誌 コーパス の 概 要 日 本 学 術 振 興 会 科 学 研 究 費 補 助 金 研 究 成 果 報 告 書 基 盤 研 究 (B) 20 世 紀 初 期 総 合 雑 誌 コーパス の 構 築 による 確 立 期 現 代 語 の 高 精 度 な 記 述 pp ( よりダウンロード 可 ) 那 須 小 代 美 (1986) 三 遊 亭 円 朝 の 人 情 噺 における 人 称 代 名 詞 の 考 察 国 文 研 究 32 pp 房 極 哲 (2004) 近 代 語 における 一 二 人 称 代 名 詞 の 変 遷 について 日 本 文 化 學 報 21 pp.1-15 関 連 URL R 近 代 女 性 雑 誌 コーパス 近 代 文 語 UniDic 322

337 虎 明 本 狂 言 集 コーパスの 構 造 化 - 仕 様 と 事 例 の 検 討 - 小 林 正 行 ( 群 馬 大 学 教 育 学 部 ) 市 村 太 郎 ( 国 立 国 語 研 究 所 コーパス 開 発 センター) Structuring the Corpus of Toraakira-bon Kyogen Masayuki Kobayashi (Gunma University) Taro Ichimura (National Institute for Japanese Language and Linguistics) 1.はじめに 国 立 国 語 研 究 所 通 時 コーパス プロジェクトの 一 環 として 検 討 されている 虎 明 本 狂 言 の 電 子 化 について 資 料 の 電 子 化 に 際 し いかなる 要 素 を 認 定 し どのように 構 造 化 するのが 適 切 かについて 検 討 し モデルを 示 す 狂 言 テキストは 演 劇 資 料 であり 台 詞 とト 書 きから 成 る 台 本 本 文 を 中 心 とし さらに 舞 台 外 の 要 素 として 注 釈 が 付 されることがある 底 本 である 大 塚 光 信 編 大 蔵 虎 明 能 狂 言 集 翻 刻 註 解 (2006, 清 文 堂 )は 原 資 料 に 付 された 情 報 をよく 残 したまま 活 字 化 し さらに 原 本 にはない 要 素 を 付 加 している 本 発 表 では 多 様 なテキストの 段 階 を 持 つ 虎 明 本 狂 言 集 のタグセットや 処 理 方 針 を 示 し いくつかの 例 を 提 示 する なお 本 発 表 では 便 宜 上 大 蔵 虎 明 能 狂 言 集 翻 刻 註 解 を 底 本 と 呼 ぶこととする 2. 虎 明 本 狂 言 集 コーパス 化 の 意 義 狂 言 は 中 世 から 近 世 にかけての 言 語 資 料 として 重 要 な 位 置 を 占 めている 登 場 人 物 が 多 彩 で 身 分 関 係 が 明 確 であること 対 話 劇 の 形 で 進 行 し 場 面 状 況 が 明 確 であることから 口 語 資 料 としての 価 値 は 極 めて 高 い 狂 言 資 料 の 中 でも 虎 明 本 は 寛 永 19 年 (1642) 大 蔵 流 十 三 世 宗 家 大 蔵 弥 太 郎 虎 明 の 手 による 大 蔵 流 の 祖 本 である 本 狂 言 237 曲 を 収 めており 狂 言 の 類 別 や 詞 章 の 整 備 され た 台 本 として 質 量 とも 第 一 級 の 資 料 である その 詞 章 には 中 世 室 町 時 代 の 言 葉 を 伝 承 していると 見 られる 点 書 写 当 時 である 近 世 初 期 の 日 常 語 の 影 響 を 受 けたと 思 われる 点 舞 台 言 語 として 整 理 され 固 定 化 類 型 化 する 兆 候 が 見 られる 点 がある 狂 言 史 上 の 位 置 を 踏 まえ 他 の 台 本 との 比 較 ということが 不 可 欠 であるが 注 釈 書 や 総 索 引 が 整 備 され 中 世 から 近 世 の 言 語 資 料 として 広 く 利 用 されてきている しかし 刊 行 されている 大 蔵 虎 明 本 狂 言 集 総 索 引 は 狂 言 の 類 別 に 合 わせた 8 分 冊 の 形 をとっており 単 語 認 定 の 基 準 にばらつきがある 一 定 の 基 準 でアノテーションされ た 形 態 論 情 報 付 コーパスの 完 成 は 狂 言 の 言 語 の 研 究 だけにとどまらず 中 世 から 近 世 初 期 にかけての 言 語 研 究 に 大 きな 成 果 をもたらす 3.コーパスの 設 計 方 針 本 研 究 では コーパスの 主 な 利 用 者 として 言 語 研 究 者 を 想 定 する そのため 言 語 的 に 重 要 な 文 と 短 単 位 (ほぼ 語 に 相 当 )が 基 本 的 な 単 位 となる 底 本 は 大 蔵 虎 明 能 狂 言 集 翻 刻 註 解 上 下 巻 を 用 いる 最 新 の 活 字 本 文 であり 注 記 ミセケチ 等 原 本 の 情 報 を 反 映 させることに 配 慮 されており また 読 みの 指 示 など 詳 細 な 注 記 がなされている 本 研 究 では そのような 底 本 の 状 況 をできるだけ 反 映 しつつ 単 なる 文 字 列 の 電 子 化 で はなく どこで 得 られた どういう 要 素 の どのような 性 質 を 持 つ 語 の 表 記 体 であるとい う 情 報 が 付 された 用 例 の 一 覧 を 短 時 間 で 取 り 出 せるようなコーパスを 目 指 している 323

338 そのため 底 本 内 の 各 文 書 要 素 について XMLを 用 いて 記 述 し 国 語 研 が 作 成 した 太 陽 コーパス の 仕 様 や BCCWJ の 仕 様 明 六 雑 誌 コーパス の 仕 様 を 継 承 しながら TEI P5 を 参 考 に 必 要 なタグを 選 択 追 加 し 構 造 化 する 市 村 河 瀬 小 木 曽 (2012)では 洒 落 本 コーパスも 含 め 近 世 口 語 テキスト として 共 通 の 基 礎 的 な 構 造 化 案 を 示 したが 本 発 表 では さらに 実 際 の 作 業 の 過 程 で 現 れた 問 題 を 基 に タグ 仕 様 を 再 設 定 する 構 造 化 されたデータには さらに 品 詞 情 報 や 活 用 形 等 形 態 素 レベルで 情 報 を 付 与 する なお 各 演 目 はそれぞれ 作 品 としては 独 立 しているため 1 演 目 を1テキストとする 4. 狂 言 テキストの 構 造 とタグセット 狂 言 テキストは 台 本 本 文 を 中 心 とし その 前 後 にはしばしば 注 釈 が 付 される( 図 1) 台 本 本 文 ( 著 者 の 注 釈 ) 構 成 要 素 : 話 者 発 話 ト 書 き 注 記 ( 著 者 の 注 釈 ) 図 1 狂 言 テキストの 構 造 概 略 各 々 独 立 した 演 目 ではあるが 全 体 として 筆 者 は 同 一 であり 形 式 や 言 語 的 状 況 は 比 較 的 安 定 している 台 本 であるため 読 み 物 とは 異 なり 序 や 後 書 がつかず 注 釈 が 多 くなる また 当 然 台 詞 とト 書 きが 中 心 となる 会 話 文 に 付 記 される 話 者 の 表 示 は 原 著 者 によるものと 校 注 者 によるものがあり 会 話 文 の 前 後 や 合 間 にト 書 きが 付 される 本 コーパスと 並 行 して 通 時 コーパス プロジェクトでは 洒 落 本 大 成 のコーパスの 設 計 も 進 められているが 文 書 の 構 造 を 比 較 すると 話 者 会 話 文 と 割 書 きで 主 に 構 成 さ れる 洒 落 本 とはある 程 度 の 類 似 性 があるといえる そのため 洒 落 本 大 成 コーパスの 仕 様 との 共 通 化 を 図 り 基 本 的 には 共 通 のタグセットで 表 現 する 一 方 で 台 詞 やト 書 き 本 文 校 訂 や 書 き 入 れ 注 釈 という 舞 台 台 本 である 狂 言 ならで はの 要 素 については 新 たに 要 素 を 設 定 し 運 用 も 改 める 以 下 各 要 素 について 詳 説 する (なお DTD については 同 日 発 表 の 洒 落 本 コーパス の 構 造 化 にある 図 を 参 照 されたい ) 4.1 文 書 の 構 造 に 関 する 要 素 表 1 文 書 の 構 造 に 関 するタグ( 太 線 は 階 層 上 の 大 きな 切 れ 目 ) タグ( 要 素 ) 説 明 属 性 <text> 作 品 ( 演 目 ) 全 体 作 品 のシリーズ タ イトル 等 を 開 始 タグ 内 に 記 必 須 シリーズ 名 ( 必 須 作 品 タイトル( 必 須 作 品 名 の 読 み( 任 意 西 暦 成 立 年 ( 必 須 和 暦 成 立 年 ( 必 須 ) <front> <body> 前 付 け 部 分 ( 狂 言 の 場 合 は 原 則 <titleblock>のみ) 主 本 文 324

339 <article> 記 任 意 ) <titleblock> <article>レベルでのタイトル 等 の 記 述 <p> <block> <s> タイトルや 注 釈 等 を 除 く 本 文 の 塊 <p>で 記 述 された 本 文 とは 区 別 されるタ イトル 注 釈 等 のブロック 要 素 必 須 ) <SUW> 短 単 位 ( 多 岐 にわたるため 省 略 ) 文 書 構 造 に 関 する 基 本 的 な 要 素 は 洒 落 本 と 共 通 である テキスト 全 体 を 表 す<text>と そ れを 構 成 する<front><body>から 成 る 作 品 に 関 する 情 報 は 属 性 値 で<text> 内 に 記 述 する さらに 内 部 は<titleBlock>と<article>に 分 割 され さらに 本 文 に<p> 注 釈 に<block>を 付 す これらはさらに<s>に 分 割 され 文 は 形 態 論 情 報 を 記 述 した<SUW>に 分 割 される なお 作 品 ごとに 序 文 後 書 きが 付 されることはないため 実 質 台 詞 ト 書 き 注 釈 によ る 大 きな<body>と タイトルのみの<front>で 構 成 される また 作 品 内 に 小 見 出 し 等 はなく 洒 落 本 等 に 比 べればシンプルな 文 書 構 造 といえる article 要 素 前 付 後 付 を 除 いた 中 心 的 本 文 は 小 見 出 し 等 を 伴 う 複 数 の 要 素 から 成 るこ とがあり このような 階 層 の 要 素 を 表 すものとして <article>を 用 いる 狂 言 の 各 作 品 に は 小 見 出 し 等 は 見 られず 実 質 テキストのタイトルを 除 くすべての 部 分 が 該 当 する p 要 素 <article> 内 の 本 文 の 塊 全 体 で 付 与 する 視 覚 上 また 内 容 上 いわゆる 段 落 を 認 定 す るのは 困 難 である 本 研 究 では 主 たる 本 文 かそれ 以 外 か に 重 点 をおいている block 要 素 視 覚 上 また 構 成 上 明 らかに 主 本 文 の 塊 と 区 別 される 要 素 を 表 す type 属 性 で タイトル 著 者 日 付 注 釈 等 の 別 を 記 述 する 狂 言 では 演 目 内 的 な 会 話 文 とト 書 きを 主 本 文 の 塊 と 見 演 目 外 的 な また 追 加 的 な 情 報 を 付 加 する 注 釈 を 本 文 の 塊 と 区 別 される 要 素 と 見 る titleblock 要 素 テキストのタイトル 箇 所 に 付 与 する 狂 言 単 独 で 見 たときには<block>タ グのみでも 事 足 りるが 共 通 仕 様 をめざす 洒 落 本 では 内 題 が 現 れることがあり <article> と 同 階 層 でマークアップされるため それに 合 わせて 本 要 素 を 付 与 する s 要 素 すべてのテキストは 文 に 分 割 される ただしいわゆる 文 とは 完 全 に 同 一 ではな く 発 話 や 割 書 の 区 切 りでも 切 る なお <s>が<s>を 含 むような 階 層 性 は 認 めない SUW 要 素 短 単 位 (おおよそ 語 に 相 当 )を 表 す すべての 文 は 短 単 位 に 分 割 される 本 研 究 での 基 本 的 な 単 位 である 語 彙 素 語 形 書 字 形 活 用 型 活 用 形 発 音 形 等 語 に 関 する 多 くの 情 報 が 属 性 で 記 述 される 開 発 中 の 近 世 口 語 UniDic による 解 析 結 果 を 人 手 で 修 正 して 付 与 する 325

340 <text textid=" 虎 明 本 狂 言 _034_ 大 名 _ 入 間 川 " series=" 虎 明 本 狂 言 大 名 狂 言 之 類 #34" title=" 入 間 川 " year="1642" year_w=" 寛 永 19"><front><titleBlock><block type="title"><s><pb n="170"/><lb/> 入 間 川 </s></block></titleblock></front> <body><article><p><speech><s><speaker value=" 大 名 "/><lb/> 罷 出 たる 者 <kana>は</kana> <hi rend=" 傍 線 "> 東 </hi> 国 <info text=" はるかおん 国 ともなのる"/>にかくれもなひ 大 名 です </s><s><ruby resp="annotator" rubytext=" 訴 ">そ </ruby><ruby resp="annotator" rubytext=" 訟 ">せう</ruby>の 事 有 て 永 々<lb/> 在 京 仕 る 処 に <ruby resp="annotator" rubytext="あん"> 安 </ruby><ruby resp="annotator" rubytext="ど"> 堵 </ruby>の<ruby resp="annotator" rubytext="み"> 御 </ruby><ruby resp="annotator" rubytext="げう"> 教 </ruby><ruby resp="annotator" rubytext="しよ"> 書 </ruby>をいた<odoriji originaltext="ゞ">だ</odoriji>き 殊 にお<ruby resp="annotator" rubytext="いとま"> 暇 </ruby>を 下 された 程 に 急 でく<lb/> だらふと 存 る </s><s> 太 郎 くわじやあるか</s></speech><speech><s><speaker value=" 太 郎 冠 者 "/> お 前 に </s></speech><speech><s><speaker value=" 大 名 "/> いそひで<ruby resp="annotator" rubytext=" 立 ">た</ruby><lb/>て </s></speech><speech><s><speaker value=" 太 郎 冠 者 "/> 御 <ruby resp="annotator" rubytext=" 機 ">き</ruby><ruby resp="annotator" rubytext=" 嫌 ">げん</ruby>が<ruby resp="annotator" rubytext=" 良 ">よ</ruby>う 御 ざある </s></speech><speech><s><speaker value=" 大 名 "/> その 事 よ </s><s> 訴 <corr type="erratum" originaltext=" 詔 " resp="annotator"> 訟 </corr>こと<ruby resp="annotator" rubytext=" 悉 ">〳〵</ruby>く<lb/><ruby resp="annotator" rubytext=" 安 ">あん</ruby><ruby resp="annotator" rubytext=" 堵 ">ど</ruby>し おいとまを 下 された<kana>は</kana> </s></speech><speech><s><speaker value=" 太 郎 冠 者 "/> やれ〳〵それ<kana>は</kana>めでたひ 事 で<lb/> 御 ざる </s> 図 2 作 品 冒 頭 部 分 の 形 式 化 例 ( 上 巻 入 間 川 p.170) <speech><s><speaker value=" 入 間 "/> 扨 <kana>は</kana><hi rend=" 傍 線 ">いるま</hi>やうをのけ<lb/>てか </s></speech><speech><s><speaker value=" 大 名 "/> 中 〳〵</s></speech><stage><s><add> 二 度 云 て 三 度 め 程 に </add></s></stage><speech><s><speaker value=" 入 間 "/> <ruby resp="annotator" rubytext=" 存 ">ぞん</ruby>じも<ruby resp="annotator" rubytext=" 寄 ">よ</ruby>らぬに 色 々の 物 を<ruby resp="annotator" rubytext=" 貰 ">もら</ruby>ふて うれ <lb/>しうなひと 申 事 <vmark>が</vmark>ござらふぞ </s><s> 身 にあまつてかたじけなふ 御 ざる</s></speech><stage><s> と 云 て<lb/>いた<odoriji originaltext="ゞ">だ</odoriji>く</s></stage><speech><s><speaker value=" 大 名 "/> 身 にあまつて <ruby resp="annotator" rubytext="かたじけない"> 忝 </ruby>とおしやる<kana>は</kana> うれしうなひといふ 事 じ<lb/>や 程 に こちへお<ruby resp="annotator" rubytext=" 返 ">かや</ruby>しやれ</s></speech><stage><s> と 云 て 皆 とりかへす </s></stage><speech><s><speaker value=" 入 間 "/> あのたらしが <pb n="176"/><lb/>やるまひぞ〳〵 </s></speech><stage><s> と 云 ておいいるなり</s><s> 太 郎 くわじや<kana>は</kana> 太 刀 を 主 にわたしてひ<lb/>つこ む</s></stage></p><block type=" 注 釈 "><s><lb/> 私 <kana>に</kana> 云 右 つめのこと<kana>は</kana> 何 共 がてんのゆき かたき 事 也 </s><s> 然 共 <hi rend=" 傍 線 ">いるま</hi>やうをのけて<lb/>といふ<kana>は</kana> のけいでと 云 事 を ま こと<odoriji originaltext="ゝ">と</odoriji> 心 得 ていふたによつて 取 かへした<kana>は</kana>こと<kana>は</kana><lb/> りなり<info originalpage=""/></s></block><block type=" 注 釈 "><s><lb/> 一 </s><s>いる<corr type="omission" resp="annotator">ま</corr>やうをのけてと 云 <kana>は</kana> のけ<add>い</add>でと 云 ことじやにと 云 へ <vmark><kana>ば</kana></vmark>よくきこへ 候 へ 共 そ<lb/>れにて<kana>は</kana> 人 がしるによつていわぬがよき 也 </s></block></article></body></text> 図 3 作 品 末 尾 の 形 式 化 例 ( 上 巻 入 間 川 pp ) 326

341 キー 語 彙 素 出 現 形 発 音 形 品 詞 解 析 活 用 型 活 用 形 補 助 記 号 - 括 弧 開 罷 罷 る マカリ 動 詞 - 一 般 文 語 四 段 -ラ 行 連 用 形 - 一 般 出 出 でる イデ 動 詞 - 一 般 文 語 下 二 段 -ダ 行 連 用 形 - 一 般 たる たり タル 助 動 詞 文 語 助 動 詞 -タリ- 完 了 連 体 形 - 一 般 者 者 モノ 名 詞 - 普 通 名 詞 - 一 般 は は ワ 助 詞 - 係 助 詞 補 助 記 号 - 読 点 東 国 東 国 トーゴク 名 詞 - 普 通 名 詞 - 一 般 に に ニ 助 詞 - 格 助 詞 かくれ 隠 れ カクレ 名 詞 - 普 通 名 詞 - 一 般 も も モ 助 詞 - 係 助 詞 なひ 無 い ナイ 形 容 詞 - 非 自 立 可 能 形 容 詞 連 体 形 - 一 般 大 名 大 名 ダイミョー 名 詞 - 普 通 名 詞 - 一 般 です です デス 助 動 詞 助 動 詞 -デス 終 止 形 - 一 般 補 助 記 号 - 読 点 そせう 訴 訟 ソショー 名 詞 - 普 通 名 詞 -サ 変 可 能 の の ノ 助 詞 - 格 助 詞 事 事 コト 名 詞 - 普 通 名 詞 - 一 般 有 有 る アリ 動 詞 - 非 自 立 可 能 文 語 ラ 行 変 格 連 用 形 - 一 般 て て テ 助 詞 - 接 続 助 詞 永 々 長 々 ナガナガ 副 詞 在 京 在 京 ザイキョー 名 詞 - 普 通 名 詞 -サ 変 可 能 仕 る 仕 る ツカマツル 動 詞 - 一 般 文 語 四 段 -ラ 行 連 体 形 - 一 般 処 所 トコロ 名 詞 - 普 通 名 詞 - 副 詞 可 能 に に ニ 助 詞 - 格 助 詞 補 助 記 号 - 読 点 安 堵 安 堵 アンド 名 詞 - 普 通 名 詞 -サ 変 可 能 の の ノ 助 詞 - 格 助 詞 御 御 ミ 接 頭 辞 教 書 教 書 ギョーショ 名 詞 - 普 通 名 詞 - 一 般 を を オ 助 詞 - 格 助 詞 いただき 頂 く イタダキ 動 詞 - 非 自 立 可 能 文 語 四 段 -カ 行 連 用 形 - 一 般 補 助 記 号 - 読 点 殊 に 殊 に コトニ 副 詞 お 御 オ 接 頭 辞 暇 暇 イトマ 名 詞 - 普 通 名 詞 - 一 般 を を オ 助 詞 - 格 助 詞 下 さ 下 す クダサ 動 詞 - 一 般 文 語 四 段 -サ 行 未 然 形 - 一 般 れ れる レ 助 動 詞 助 動 詞 -レル 連 用 形 - 一 般 た た タ 助 動 詞 助 動 詞 -タ 連 体 形 - 一 般 程 程 ホド 名 詞 - 普 通 名 詞 - 副 詞 可 能 に に ニ 助 詞 - 格 助 詞 補 助 記 号 - 読 点 急 急 ぐ イソイ 動 詞 - 一 般 文 語 四 段 -ガ 行 で で デ 助 詞 - 格 助 詞 連 用 形 -イ 音 便 くだらふ 下 る クダロー 動 詞 - 一 般 文 語 四 段 -ラ 行 意 志 推 量 形 と と ト 助 詞 - 格 助 詞 存 る 存 ずる ぞんずる 動 詞 - 一 般 文 語 サ 行 変 格 連 体 形 - 一 般 補 助 記 号 - 読 点 太 郎 太 郎 タロー 名 詞 - 普 通 名 詞 - 一 般 くわじや 冠 者 カジャ 名 詞 - 普 通 名 詞 - 一 般 ある 有 る アル 動 詞 - 非 自 立 可 能 文 語 ラ 行 変 格 連 体 形 - 一 般 か か カ 助 詞 - 終 助 詞 補 助 記 号 - 括 弧 開 お 御 オ 接 頭 辞 前 前 マエ 名 詞 - 普 通 名 詞 - 副 詞 可 能 に に ニ 助 詞 - 格 助 詞 図 4 短 単 位 解 析 済 みデータの 例 ( 一 部 項 目 省 略 上 巻 入 間 川 p.170) 327

342 4.2 文 語 の 機 能 に 関 する 要 素 表 2 文 語 の 機 能 に 関 する 要 素 タグ( 要 素 ) 説 明 属 性 <speech> 会 任 意 ) <quotation> <stage> <speaker> <speaker/> <delivery> <verse> 1 単 純 な 発 話 以 外 の 引 用 要 素 2ト 書 き 内 の 台 詞 指 示 等 ト 書 き 話 者 ( 校 注 者 付 記 の 場 合 は 空 要 素 ) 発 話 等 のスタイルの 表 示 韻 任 意 任 意 任 意 任 意 ) 文 以 上 文 未 満 speech 要 素 1 回 的 な 会 話 文 の 連 続 を 表 す <speaker>を 発 話 の 内 部 に 認 定 し 一 体 として 扱 う 会 話 文 内 に 話 者 が 示 されていない 場 合 には@source 属 性 で 話 者 を 可 能 な 限 り 記 述 す る また 底 本 では 紙 面 上 () 付 で 校 注 者 により 話 者 が 示 されことも 多 く それにつ いては 空 要 素 属 性 で 話 者 を 記 述 する quotation 要 素 手 紙 や 和 歌 等 単 純 な 会 話 文 以 外 の 引 用 要 素 を 表 属 性 でどのよ うな 種 の 引 用 属 性 で 出 典 を 記 述 する また しばしば 現 れるト 書 き 内 の 台 詞 指 示 等 は 本 来 階 層 は 異 なるが 本 要 素 で 記 述 する その 場 合 基 本 的 に 話 者 表 示 属 性 で 話 者 を 記 述 する stage 要 素 本 文 内 的 な 要 素 としてト 書 きを 表 す 狂 言 は 舞 台 演 劇 であり 台 詞 とト 書 きが 比 較 的 明 確 に 分 かれるのが 特 徴 である ト 書 きは 時 に 内 容 としては 本 文 外 的 な 挿 入 的 な ものあり この 点 注 釈 と 重 なるのだが 会 話 と 会 話 を 割 って または 会 話 に 付 属 して 述 べている 点 において 本 文 の 塊 の 外 側 に 付 される 注 釈 ほどの 独 立 性 はない(つまり 階 層 的 には 別 の 次 元 のもの)と 見 る そのため 内 容 が 注 釈 的 なト 書 きであっても 会 話 に 割 って 入 る 以 上 は 本 文 内 的 な 要 素 であって <block> 扱 いはしない speaker 要 素 会 話 文 に 付 属 する 小 書 き 等 で 記 される 話 者 の 表 示 である 底 本 では 原 作 者 による 話 者 表 示 のほか 校 注 者 が 補 った( ) 付 の 話 者 がある これらは 原 作 者 の 表 示 と 区 別 するため 空 要 素 属 性 内 に 記 述 する delivery 要 素 台 詞 の 内 部 には 話 者 だけでなくその 台 詞 のスタイルを 小 書 き 等 で 記 してあ る 場 合 がある 狂 言 においては 舞 がけり など 散 文 資 料 の 発 話 に 比 べ 細 かく 台 詞 指 示 がなされており 重 要 な 要 素 である verse 要 素 韻 文 は 歌 舞 等 について 文 未 満 の 単 位 で 付 与 する 4.3 語 文 字 単 位 で 外 形 機 能 等 を 表 す 要 素 虎 明 本 狂 言 集 は 筆 者 による 本 文 修 正 や テキストの 追 加 削 除 の 指 示 が 頻 繁 に 行 われるという 点 で 特 徴 的 である また 底 本 には 洒 落 本 大 成 とは 異 なり 校 注 者 による 誤 りの 指 摘 (ママ 注 )や 校 注 者 が 追 加 した 振 り 仮 名 等 があって 原 資 料 の 筆 者 の 指 示 と 校 注 者 による 情 報 との 2 段 階 で 記 述 し 分 ける 必 要 がある そのため 洒 落 本 コーパス の 仕 様 に 比 べ 本 文 校 訂 に 関 する 記 述 が 詳 細 である 328

343 表 3 語 文 字 単 位 で 外 形 等 を 表 す 要 素 タグ( 要 素 ) 説 明 属 性 <hi> 文 字 列 ( 語 )に 対 する 装 必 須 ) <lruby> 左 必 須 任 意 任 意 ) <ruby > 必 須 任 意 任 意 ) <odoriji> 踊 り 字 を 開 いた 文 必 須 ) <gap/> 抹 消 破 損 等 で 判 読 できない 文 字 の 存 在 ( 空 要 素 ) <corr> <corr/> 本 文 修 必 須 任 意 任 意 ) <unclear> 推 読 された 文 任 意 任 意 ) <vmark> 濁 点 付 仮 名 に 変 換 した 箇 所 <g> 外 必 須 任 意 ) <kana> 片 仮 名 を 平 仮 名 に 変 換 した 箇 所 <add> 著 者 によって 追 加 されたテキスト <kanbun> <kanbun/> 漢 文 ( 返 読 任 意 ) 返 読 前 返 読 任 意 任 意 ) 短 単 位 以 上 短 単 位 未 満 hi 要 素 傍 線 が 付 される 小 書 きされるなど 外 形 的 特 徴 を 持 った 文 字 列 ( 語 )を 表 す 狂 言 では 固 有 名 詞 に 傍 線 が 引 かれるケースがあるが 必 ずしも 機 能 は 一 定 ではない ruby 要 素 文 字 列 の 右 側 に 付 され 文 字 文 字 列 の 読 み 等 を 表 す 振 り 仮 名 等 を 指 属 性 内 にルビ 文 字 列 が 記 述 される 右 側 漢 字 傍 記 も 含 む 凡 例 によると 原 資 料 に 付 されている 振 り 仮 名 漢 字 傍 記 (A)については<>が 付 され ており 校 注 者 によって 新 たに 付 されたもの(B)には 何 も 付 されていない 旨 の 記 述 がある 属 性 で 校 注 者 により 付 与 されたものを 区 別 する (A) <ruby rubytext=" ソサノヲ "> 素 盞 烏 </ruby>( 上 巻 ゑびす 大 黒 p.6) (B) <ruby resp="annotator" rubytext=" 戯 ">ざれ</ruby> 事 ( 上 巻 連 歌 毗 沙 門 p.10) lruby 要 素 文 字 列 に 沿 って 小 書 きされる 文 字 は 右 側 の 振 り 仮 名 だけでなく 左 側 に 付 さ れることもある rubytext 属 性 内 にルビ 文 字 列 が 記 述 される corr 要 素 本 文 テキスト 修 正 箇 所 であり 文 字 単 位 で 付 す 狂 言 の 場 合 本 文 テキストの 正 誤 にかかわる 指 示 としては ミセケチ 等 による 筆 者 の 校 訂 箇 所 と ママ 注 によって 校 注 者 が 誤 りを 指 摘 している 箇 所 の 2 種 があり 特 徴 的 なものと 言 える これらは 区 別 す べきものであり また 原 文 を 確 認 できる 形 にすることが 重 要 である 一 方 で 形 態 論 情 報 を 付 すことを 考 慮 すると 本 文 としては きれいな 本 文 であることが 望 ましい まず@type 属 性 で 誤 字 (erratum) 衍 字 (excess) 脱 落 (omission)の 別 を 付 し 本 文 329

344 は 修 正 後 の 形 属 性 で 元 のテキストを 記 述 する 属 性 で 筆 者 (writer)の 指 示 によるものか 校 注 者 (annotator)の 指 摘 によるものかを 記 述 する 校 注 者 の 指 摘 するママ 注 には いかなる 誤 りかが 頭 注 に 明 記 されず 推 測 困 難 な 場 合 がある そのような 箇 所 は 修 正 属 性 で 修 正 なし と 記 述 する <s> 今 日 <ruby resp="annotator" rubytext=" 最 ">さい</ruby><ruby resp="annotator" rubytext=" 上 ">じやう</ruby> 吉 <corr originaltext=" 日 日 " type="excess" resp="annotator"> 日 </corr>でござる<lb/>により 聟 殿 のおいでなされうずるとのおこ <corr type="omission" resp="annotator">と</corr>じや</s> 図 5ママ 注 の 形 式 化 例 ( 上 巻 鶏 聟 p.353 下 線 は 筆 者 ) vmark 要 素 底 本 にはなく 電 子 化 に 際 して 新 たに 濁 点 を 付 与 した 箇 所 に 付 与 する ただ し 踊 り 字 箇 所 はもとのテキストを 属 性 値 に 記 録 するため タグ 付 け 対 象 とはしない add 要 素 筆 者 による 傍 記 や 符 号 等 によって 挿 入 指 示 がなされた 本 文 に 付 与 する 文 字 単 位 から 複 数 文 単 位 まで 多 岐 にわたり 強 調 表 示 も 含 む 文 を 超 える 単 位 で 挿 入 指 示 がなされる 場 合 は 文 単 位 で 付 与 し 短 単 位 未 満 の 場 合 は 文 字 単 位 で 付 与 する <speech><s><speaker value="えびす"/><delivery>かたり</delivery></s><s> 夫 <hi rend=" 傍 線 ">ゑびす</hi> 三 郎 殿 といつ <vmark><kana>ぱ</kana></vmark> <hi rend=" 傍 線 "><ruby resp="annotator" rubytext=" 伊 弉 諾 ">いざな<vMark>ぎ </vmark></ruby></hi><hi rend=" 傍 線 "><ruby resp="annotator" rubytext=" 伊 弉 冉 ">いざな<kana>み</kana></ruby></hi>の <ruby resp="annotator" rubytext=" 尊 ">みこと</ruby> あ<info originalpage=""/>ま<lb/>の 岩 くらの<ruby resp="annotator" rubytext=" 苔 ">こけ</ruby><ruby resp="annotator" rubytext=" 蓆 ">むしろ</ruby>にて <hi rend=" 傍 線 "> 男 </hi><hi rend=" 傍 線 "> 女 </hi>の<ruby resp="annotator" rubytext=" 語 ">かた</ruby>らひをなし 日 神 月 神 <ruby resp="annotator" rubytext=" 蛭 ">ひる</ruby><ruby resp="annotator" rubytext=" 子 ">こ</ruby><lb/><ruby resp="annotator" rubytext=" 素 盞 烏 ">そさのお </ruby>の 御 子 をまうけ 給 ふ <hi rend=" 傍 線 ">ひるこ</hi>と<kana>は</kana> 某 が 事 </s><s><info text=" "/><add><info text=" "/><kana><hi rend=" 傍 線 "> 天 照 太 神 </hi>より 三 番 めのをと〳〵 成 <kana>れ</kana><vmark>ば</vmark>とて <hi rend=" 傍 線 "> 西 の 宮 </hi>の<hi rend=" 傍 線 ">ゑびす 三 郎 </hi> 殿 といは<odoriji originaltext="ゝ">は</odoriji>れ </kana></add>うぢ<info text=" 氏 ウジ "/><corr originaltext="し" type="erratum" resp="writer">す</corr><corr originaltext=" ゆ" type="excess" resp="writer"/><ruby rubytext=" 図 性 ">じやう</ruby><info text=" 種 シユ 姓 ジヤウ "/><ruby resp="annotator" rubytext=" 誰 ">たれ</ruby><lb/>にか<ruby resp="annotator" rubytext=" 劣 ">おと</ruby>りたまふべき </s><s>なんぼういみじき<ruby resp="annotator" rubytext=" 位 ">くらい</ruby>にて<kana>は</kana>なきか よく〳〵 <lb/><ruby resp="annotator" rubytext=" 信 ">しん</ruby><ruby resp="annotator" rubytext=" 仰 ">がう</ruby>せよ </s><s><ruby resp="annotator" rubytext=" 楽 ">たのし</ruby>うなさうずるぞ<lb/></s></speech> 図 6 複 雑 な 注 記 本 文 訂 正 等 の 形 式 化 例 ( 上 巻 ゑびす 大 黒 p.4 下 線 は 筆 者 ) 330

345 4.4 位 置 情 報 と 本 文 外 情 報 表 4 底 本 テキストの 位 置 情 報 を 表 すタグ タグ( 要 素 ) 説 明 属 性 <pb/> ページ 開 始 ( 空 要 素 必 須 ) <cb/> 段 開 始 ( 空 要 素 必 須 ) <lb/> 行 開 始 ( 空 要 素 ) <info/> 本 文 外 情 報 ( 空 要 素 任 意 )@text( 任 意 任 意 任 意 ) info 要 素 本 文 外 の 情 報 を 空 要 素 <info/>で 表 す 底 本 には 影 印 の 改 ページが 付 されており その 位 置 情 報 を@originalPage 属 性 で 記 述 する また 注 などの 傍 記 が 本 文 脇 に 付 されるこ とがあるが 本 文 外 に 相 当 する 傍 記 注 記 等 は@text 属 性 で 記 述 する 5.コーパス 化 に 向 けての 課 題 5.1 本 文 認 定 と 読 み 順 の 確 定 虎 明 本 狂 言 集 には 筆 者 校 注 者 による 本 文 に 関 わる 多 くの 校 訂 や 注 記 の 情 報 があ り 複 雑 な 状 況 を 呈 している 箇 所 もある 上 欄 や 本 文 末 に 付 された 挿 入 指 示 については 場 所 が 指 定 されていない 場 合 内 容 によって 適 切 な 挿 入 箇 所 を 定 めなければならない また 同 じ 傍 記 であっても 本 文 に 追 加 する 要 素 本 文 を 訂 正 する 要 素 注 記 と 多 様 で また 必 ずしも 校 注 者 による 言 及 があるわけではなく 個 別 に 検 討 判 断 する 必 要 がある 何 が 本 文 で 何 が 本 文 でないか また どの 順 で 読 むべきか 等 は 基 本 的 なことではある が 本 文 を 決 めなければならないコーパスにおいて 大 きな 課 題 である 5.2 解 釈 の 問 題 舞 台 台 本 であるため 会 話 の 切 れ 目 が 比 較 的 わかりやすく また 底 本 には 校 注 者 の 詳 細 な 注 が 付 されているため 近 世 散 文 資 料 等 に 比 べれば 文 認 定 は 容 易 である しかし によ って 文 が 区 切 られているわけではなく また 間 接 引 用 か 直 接 引 用 かがはっきりせず 文 認 定 が 困 難 な 箇 所 は 存 在 する 文 認 定 や 現 代 語 訳 が 行 われていない 資 料 を 扱 う 際 の 共 通 の 課 題 である また 2で 述 べたように 言 語 的 な 状 況 は 中 世 語 に 近 いとされるため 濁 点 付 与 に 関 し ては タグを 付 与 するとはいえ 慎 重 を 期 する 必 要 がある 例 えば 現 代 では 濁 音 で 発 音 さ れるものでも 清 音 で 読 んでおくべきものがしばしばみられ( かがやく かかやく など) これらは 日 葡 辞 書 等 の 記 載 を 参 照 するなどし 個 別 に 検 討 する 必 要 がある 6.おわりに 虎 明 本 狂 言 集 では 主 に 版 本 が 主 体 である 洒 落 本 とは 異 なり 筆 者 の 本 文 に 対 する 校 訂 や 補 遺 補 入 が 随 所 に 見 られる 底 本 においてもそれがよく 反 映 されており また 校 注 者 によって 追 加 された 要 素 も 多 く 見 られる 今 後 本 文 校 訂 に 関 する 多 様 な 要 素 を 持 つ 資 料 を 対 象 とするにあたって 文 書 構 造 としてどのレベルまで 想 定 し 記 述 するのかが 課 題 となる 本 研 究 で 言 えば 傍 記 等 の 中 での 振 り 仮 名 等 を 構 造 化 するのは 現 状 では 困 難 で あり このようなものの 扱 いをどうするのかは 今 後 の 課 題 である 331

346 また さまざまなレベルで 出 現 する 補 遺 補 入 の 類 の 扱 いは 階 層 構 造 を 前 提 とする XML を 用 いる 以 上 資 料 ごとに 検 討 され 続 けなくてはならない 課 題 であろう 日 本 語 史 資 料 として 狂 言 はもちろん 浄 瑠 璃 歌 舞 伎 等 の 舞 台 資 料 は 極 めて 重 要 であ る 本 研 究 での 検 討 は 日 本 語 歴 史 コーパス 構 築 に 向 けて これら 舞 台 作 品 を 含 めた 仕 様 を 作 る 上 での 足 掛 かりになると 考 える 文 献 市 村 太 郎 河 瀬 彰 宏 小 木 曽 智 信 (2012) 近 世 口 語 テキストの 構 造 化 とその 課 題 情 報 処 理 学 会 研 究 報 告 人 文 科 学 とコンピュータ 研 究 会 報 告 (CH96) pp.1-8 大 塚 光 信 編 (2006) 大 蔵 虎 明 能 狂 言 集 翻 刻 註 解 清 文 堂 北 原 保 雄 村 上 昭 子 鬼 山 信 行 小 川 栄 一 山 崎 誠 吉 見 孝 夫 土 屋 博 映 大 倉 浩 編 ( ) 大 蔵 虎 明 本 狂 言 集 総 索 引 1-8 武 蔵 野 書 院 近 藤 明 日 子 田 中 牧 郎 明 六 雑 誌 コーパス の 仕 様 国 立 国 語 研 究 所 共 同 研 究 報 告 近 代 語 コーパス 設 計 のための 文 献 言 語 研 究 成 果 報 告 書 pp 国 立 国 語 研 究 所 近 藤 泰 弘 (2012) 日 本 語 通 時 コーパスの 設 計 について 国 語 研 プロジェクトレビュー 3 pp 国 立 国 語 研 究 所 田 中 牧 郎 (2005) 言 語 資 料 としての 雑 誌 太 陽 の 考 察 と 太 陽 コーパス の 設 計 国 立 国 語 研 究 所 報 122 雑 誌 太 陽 による 確 立 期 現 代 語 の 研 究 太 陽 コーパス 研 究 論 文 集 pp.1-48 博 文 館 新 社 田 中 牧 郎 小 木 曽 智 信 (2000) 総 合 雑 誌 太 陽 の 本 文 の 様 態 と 電 子 化 テキスト 日 本 語 科 学 8 pp 国 立 国 語 研 究 所 安 永 尚 志 (1998) 国 文 学 研 究 とコンピュータ 勉 誠 社 山 口 昌 也 高 田 智 和 北 村 雅 則 間 淵 洋 子 大 島 一 小 林 正 行 西 部 みちる(2011) 特 定 領 域 研 究 日 本 語 コーパス 平 成 22 年 度 研 究 成 果 報 告 現 代 日 本 語 書 き 言 葉 均 衡 コーパス における 電 子 化 フォーマット ver.2.2 文 部 科 学 省 科 学 研 究 費 特 定 領 域 研 究 日 本 語 コーパス データ 班 関 連 URL Text Encoding Initiative (ガイドライン P5 日 本 語 版 ) 332

347 F0 / F0 Characteristics at the Level of Intonational Phrase in Spontaneous Japanese Yuichi Ishimoto (Principles of Informatics Research Division/Speech Media Group, NII Hanae Koiso (Dept. Linguistic Theory and Structure, NINJAL) IPF0 1. IP F0 2. IP IP F0 3. F0 4. F0 final lowering 1. IP F0 2. F0 IP F0 final lowering F0 3. F0 IP F0 Pierrehumbert & Beckman1988AP IP Utterance F0 declination F0 final lowering F0 F0 declination declination final lowering F0 F0 declination ishimoto@nii.ac.jp 333

348 Kawahara and Shinya2008 IP F0 F0 F0 F0 IP F0 F0 IP F Corpus of Spontaneous Japanese: CSJ 2004CSJ CSJ 3 RDB 2012CSJ CSJ 2006 clause 3 Absolute boundary Strong boundary Weak boundary 2.3 Pierrehumbert & Beckman1988 (IP) (AP)AP 1 2 F0 IP AP AP 334

349 1 AP IP IP F0 declination final lowering F0 AP IP AP 1 IP F0 CSJ X-JToBI 2006 Break IndexBIBI=2 AP BI=3 IP BI=F BI=D BI=3 IP IP IP IP F0 X-JToBI Tone F0 F0 IP AP H-A F0 IP AP L% F0 F0 F0 Z X-JToBI *1 9, IP F0 IP 3.1 IP F (2012) 1. IP F0 *1 335

350 2 IP :N:W:S:A 1 IP IP :N:W:S:A IP IP N W S A N W S A IP F0 F0 F0 IP F0 IP 2 IP F0 2 IP F CSJ 2 IP IP 37,385 IP IP IP 3 F(3.000, = , p<0.001tukey 336

351 N W S A IP :N:W:S:A IP IP F0 2 IP 4 F0 F0 IP 4 IP IP F0 2 5 IP F0 F0 5 IP F0 4. IP F0 4.1 F0 IP IP IP IP IP IP IP Z F0 F0 IP F0 IP F0 IP 337

352 図 4 IP 直前のポーズの長さと F0 最大値 図上部の N, W, S, A は IP 直前の節境界 図 5 IP 直後のポーズの長さと F0 最小値 図上部の N, W, S, A は IP 直後の節境界 4.2 結果と考察 IP 直前の節境界と F0 最大値 IP 直前の節境界ごとの F0 最大値に対する結果を表 2 に示す*2 なお 直前が強境界および 絶対境界の場合の節単位末までの時間は節単位長に等しく 加えて絶対境界の場合は発話末ま での時間と発話長も等しくなるため それぞれ除外している 表 2 から すべての節境界に共通して IP 長が長いほど当該 IP の F0 最大値は高くなる傾 向にあることが分かる この結果は IP 内の AP のダウンステップで F0 が下がりすぎないよ う 長い IP の場合は IP 冒頭を高めの F0 で始めるといった調整が 場所を問わず共通して見 られることを意味する *2 一般化線形混合モデルの構築には R の lme4 パッケージに収録されている lmer 関数を用いた また p 値は languager パッケージの pvals.fnc 関数で算出した 338

353 2 : F0 IP (N) IP (W) Estimate Std. Error t Estimate Std. Error t (Intercept) p<0.01 ** p<0.01 ** p=0.04 * p<0.01 ** p<0.01 ** p<0.01 ** p<0.01 ** p= p<0.01 ** p=0.02 * IP p<0.01 ** p<0.01 ** p<0.01 ** p= p<0.01 ** p<0.01 ** IP (S) IP (A) Estimate Std. Error t Estimate Std. Error t (Intercept) p<0.01 ** p<0.01 ** p= p<0.01 ** p= p= p= p=0.03 * p= p=0.97 IP p<0.01 ** p<0.01 ** p=0.29 **: 1% *: 5% +: 10% IP F0 F0 F0 declination IP F0 IP F0 IP F0 IP F0 3 0 F0 declination IP IP 339

354 3 : F0 IP (N) IP (W) Estimate Std. Error t Estimate Std. Error t (Intercept) p<0.01 ** p<0.01 ** p<0.01 ** p=0.02 * p<0.01 ** p<0.01 ** p<0.01 ** p= p<0.01 ** p<0.01 ** IP p<0.01 ** p<0.01 ** p<0.01 ** p=0.02 * p<0.01 ** p<0.01 ** IP (S) IP (A) Estimate Std. Error t Estimate Std. Error t (Intercept) p<0.01 ** p<0.01 ** p= p= p<0.01 ** p<0.01 ** p= p= p= p=0.98 IP p<0.01 ** p= p=0.23 **: 1% *: 5% +: 10% F0 IP F0 IP IP F0 F0 F0 IP F0 F0 F IP F0 IP F0 3 IP IP IP 340

355 IP IP IP F0 IP AP F0 IP F0 IP F0 IP F0 IP F IP IP F0 F0 F0 IP IP F0 F0 F0 F F0 IP IP F0 IP F0 F0 IP F IP F F0 F0 F0 F0 2. F0 F0 F0 F0 341

356 F0 3. F0 F0 F0 4. F0 IP IP F0 IP F0 IP F0 F0 declination (2012) 1, pp (2012) 2, pp Pierrehumbert, Janet B. and Mary E. Beckman(1988) Japanese tone structure, Cambridge: MIT Press. Kawahara, Shigeto and Takahiro Shinya (2008) The intonational of gapping and coordination in Japanese: evidence for intonational phrase and utterance, Phonetica, 65, pp (2004), 15, pp (2012) RDB 1, pp (2006) 124), pp (2006) 124), pp

357 日 本 語 話 者 の 英 語 発 話 にみられる 日 本 語 の 音 節 構 造 と 母 音 の 無 声 化 との 関 係 Japanese AESOP コーパスの 分 析 から 近 藤 眞 理 子 ( 早 稲 田 大 学 国 際 教 養 学 部 ) 鍔 木 元 ( 早 稲 田 大 学 国 際 情 報 通 信 研 究 科 ) Relationship between Syllable Structure and Vowel Devoicing in Japanese Speakers English Analysis of Japanese AESOP Corpus Mariko Kondo (SILS and LASS, Waseda University) Hajime Tsubaki (GITS and LASS, Waseda University) 1.はじめに 本 研 究 は2008 年 よりアジア 各 国 の 研 究 機 関 との 共 同 プロジェクトとして 進 行 してい るアジア 言 語 話 者 の 英 語 発 話 コーパス 構 築 プロジェクト(AESOP: Asian English Speech corpus Project)(Meng et al., 2009; Vischeglia et al., 2009 等 ) の 日 本 語 話 者 の 英 語 の 音 声 発 話 の データをもとに 日 本 語 の 音 韻 特 性 を 考 察 したものである AESOPの 日 本 語 話 者 の 発 話 デ ータは 現 在 約 160 人 分 のデータが 集 められ 現 在 も 収 集 中 である(Kondo, 2012) 臨 界 期 を 過 ぎた 外 国 語 学 習 者 には 通 常 母 語 の 音 韻 特 性 が 音 声 知 覚 と 産 出 の 両 面 で 現 れる(Lenneberg, 1964; Patkowski, 1989) また 第 一 言 語 の 音 韻 特 性 は 音 素 やフレーズなど 様 々な 音 韻 単 位 および リズムやイントネーションなどの 韻 律 面 で 顕 著 に 現 れ どの 音 韻 単 位 における 間 違 いも 韻 律 の 乱 れもすべてコミュニケーションにとって 重 要 である 個 々の 音 素 の 発 音 の 正 確 さは 単 語 の 判 別 には 重 要 であるが 第 二 言 語 の 発 話 の 流 暢 さの 判 定 評 価 により 大 きく 影 響 を 及 ぼすのは 韻 律 面 の 正 確 さである (Anderson-Hsieh et al., 1992) 実 際 のコミュニケ ーションでは 韻 律 が 意 味 の 強 調 やフレーズ 境 界 統 語 構 造 スピーチアクト また 話 者 の 感 情 や 態 度 などの 伝 達 をつかさどっている(Prince et al., 1991; Hirschberg, 2002; Grice & Bauman, 2007) したがって 第 一 言 語 が 第 二 言 語 に 韻 律 上 間 違 った 影 響 を 与 えると 意 味 や 発 話 の 意 図 感 情 の 理 解 に 誤 解 を 生 じさせ 意 思 の 疎 通 の 妨 げとなる しかし 第 二 言 語 の 韻 律 習 得 の 重 要 性 とは 裏 腹 に これまで 第 二 言 語 の 音 声 習 得 の 研 究 は 音 素 などの 個 々 の 音 の 習 得 が 中 心 となっていたので (Jilka, 2007) AESOPの 発 話 コーパスでは 英 語 の 韻 律 習 得 を 主 な 研 究 目 的 の 一 つとして 構 成 した したがってAESOPコーパスを 用 いて 日 本 語 話 者 の 英 語 発 話 の 韻 律 上 の 問 題 を 検 証 することで 韻 律 特 性 を 含 む 日 本 語 の 音 声 特 性 を 浮 き 彫 りにすることができる 今 回 の 分 析 では 日 本 語 話 者 の 英 語 の 発 音 の 間 違 いの 中 から 母 音 の 挿 入 に 焦 点 を 当 て 音 節 構 造 と 母 音 の 無 声 化 現 象 について 考 察 し 日 本 語 の 発 話 リズムの 特 性 を 検 証 する 2. 手 法 今 回 の 分 析 には すでに 収 録 済 みの 日 本 語 母 語 話 者 約 160 人 の 英 語 発 話 データのうち 分 析 が 済 んでいる 関 東 方 言 話 者 50 人 分 の The North Wind and the Sun (International Phonetic Association, 1999) の 読 み 上 げ 文 を 対 象 とした 被 験 者 は 日 本 語 を 母 語 とする 大 学 生 大 学 院 生 である 英 語 のレベルは 日 本 の 大 学 レベルで 英 語 教 育 の 経 験 がある 英 語 教 員 ( 英 語 母 語 話 者 三 名 日 本 語 母 語 話 者 五 名 )に 発 話 の 自 然 さ 流 暢 さ 音 の 正 確 さ 英 語 ら しさ 全 体 に 関 して 主 観 的 に 評 価 をしてもらった 判 定 の 基 準 は レベル1( 英 語 として 理 解 が 困 難 );レベル2( 英 語 として 発 音 は 良 くない);レベル3(ごく 平 均 的 日 本 語 話 者 の 英 語 の 発 音 );レベル4( 英 語 としてとても 自 然 で 上 手 な 発 音 );レベル5( 英 語 母 語 343

358 話 者 レベルの 発 音 )で 各 レベルの 中 間 値 (.5) を 設 け 9 段 階 評 価 とした 50 人 の 被 験 者 の 判 定 レベルの 内 訳 は 表 1 の 通 りである 表 1 被 験 者 の 英 語 の 発 音 レベル 主 観 評 価 判 定 基 準 と 各 レベルごとの 被 験 者 数 レベル 判 定 基 準 very poor poor average good very good 人 数 音 声 データに 対 して 隠 れマルコフモデル(HMM)に 基 づいた 音 響 モデル HTK モジュー ル(URL 参 照 ) 及 び 単 語 辞 書 を 用 いた 自 動 音 素 アラインメントを 実 施 した 本 アラインメ ントは 分 析 周 期 10ms 窓 幅 20ms で 行 われ ARPABET 表 記 (URL 参 照 )の 音 素 列 が 出 力 結 果 となる 従 来 アラインメントに 使 用 される 単 語 辞 書 は 標 準 アメリカ 英 語 の 発 話 コ ーパス TIMIT(URL 参 照 )に 準 拠 しているため 日 本 語 訛 を 含 む 英 語 発 話 データのアライ ンメントには 必 ずしも 適 しておらず 正 確 なアラインメントができないデータも 存 在 する そのため 本 アラインメントにおいては The North Wind and the Sun に 出 現 する 全 ての 単 語 について 日 本 語 母 語 話 者 の 英 語 発 話 を 想 定 した 音 素 列 パターンを 単 語 辞 書 データに 追 加 し 日 本 語 訛 を 含 む 英 語 音 素 列 もほぼ 正 確 に 抽 出 できるようにした( 表 2) 自 動 アライ ンメントに 手 修 正 を 加 えた 結 果 をもとに 日 本 語 母 語 話 者 の 英 語 の 発 音 がどのように 異 な るか 検 証 した 表 2 単 語 発 話 の 追 加 音 素 列 パターン stronger の 例 英 語 母 語 話 者 の 発 音 [stɹɑŋɡɚ] ARPABET [stɹɑŋɡɚ] s t r aa nɡ ɡ er [stɹɔŋɡəɹ] s t r ao nɡ ɡ er [stɹɔŋɡə] s t r ao nɡ ɡ ah 日 本 語 話 者 の 予 測 発 音 [stɔɾɔŋɡaː] s t ao r ao nɡ ɡ aa [sʊtɔɾɔŋɡaː] s uh t ao r ao nɡ ɡ aa [stlɑŋɡɚ] s t l aa nɡ ɡ er [stlɔŋɡəɹ] s t l ao nɡ ɡ er [stlɔŋɡə] s t l ao nɡ ɡ ah 3. 結 果 と 考 察 3.1 音 素 の 逸 脱 自 動 アラインメントの 結 果 発 音 のモデルとした 標 準 アメリカ 英 語 から 逸 脱 した 発 音 と 分 析 されたものが 2,480 例 抽 出 された( 図 1) 個 別 の 例 で 一 番 多 かったものは/r/の 脱 落 で この 例 のほとんどは 音 節 の 尾 子 音 の/r/を 発 音 せず /r/に 先 行 する 音 節 核 の 母 音 を 伸 ばすこと により 長 母 音 として 発 音 している 例 であるが これは 今 回 自 動 アラインメントの 規 範 の 発 音 として 使 った 標 準 アメリカ 英 語 が rhothic アクセントであるために 規 範 とは 異 なる 発 音 とされているのであって 母 音 に 後 続 する 尾 子 音 の/r/の 脱 落 は 必 ずしも 間 違 いではない したがって /r/の 脱 落 を 除 いた 日 本 語 話 者 の 英 語 の 発 話 特 徴 を 分 析 した 結 果 は 従 来 から 344

359 指 摘 されている 日 本 語 話 者 の 英 語 の 発 音 の 問 題 点 つまり 母 音 の 音 質 母 音 の 挿 入 子 音 の 音 質 子 音 の 脱 落 子 音 の 挿 入 などを 映 し 出 している 例 えば/l/ /r/, /b/ /v/, /s/ /θ/ など 日 本 語 にない 子 音 音 素 を 日 本 語 にある 音 声 的 に 近 い 別 の 子 音 で 代 用 している 例 は 1,216 例 あった( 表 3) 子 音 の 音 素 では 日 本 語 にない/l/が/r/([ɹ], [ɻ], [ɾ]) に, /v/が/b/に, /θ/ が/s/に, /ð/が[dz], [dʑ], [dʒ], [z]などの 日 本 語 の 音 素 または 異 音 に 置 き 換 わっている 例 が 非 常 に 多 く 見 られた また 英 語 の 発 音 主 観 評 価 値 とモデル 発 音 からの 逸 脱 とみなされた 音 素 の 数 には 強 い 相 関 がみられた(R=-0.454; p<0.005) 図 1 モデル 発 音 からの 逸 脱 とみなされた 音 素 の 数 と 英 語 の 発 音 主 観 評 価 値 との 関 係 表 3 他 の 音 素 に 置 き 換 わった 子 音 の 総 数 1,216 例 中 の 主 な 英 語 子 音 音 素 の 代 用 英 語 音 素 代 用 された 子 音 サンプル 数 /l/ /r/ ([ɹ], [ɻ], [ɾ]) 203 /r/ /l/ 64 /ð/ [dz], [dʑ], [dʒ], [z] 142 /v/ /b/ 24 /θ/ /s/ 78 /r/ 脱 落 母 音 の 逸 脱 子 音 の 間 違 いよりも 多 かったのが 母 音 の 問 題 で 母 音 の 音 質 にかかわるものが 1,346 例 母 音 の 挿 入 が 463 例 あった 母 音 の 音 質 に 関 しては /ə/ の 調 音 位 置 が 中 央 でなく [a](105 例 ) [ʌ](292 例 ) [ɔ](55 例 ) [i, ɪ](30 例 ) [e](18 例 ) などと 調 音 周 辺 部 の 母 音 として 調 音 されているものが 多 かった 英 語 の /ə/ は 強 勢 の 置 かれていない 弱 音 節 に 起 きるが 日 本 語 話 者 が 日 本 語 にはない /ə/ を 日 本 語 の 五 母 音 のどれかに 分 類 し 強 母 音 として 発 音 していることが 伺 える( 第 4 節 参 照 ) その 他 多 く 見 られた 母 音 の 間 違 いは/ʌ/ 345

360 (281 例 )で[a]と 認 識 された 例 が 164 例 /æ/ の 間 違 いが 107 例 で うち[a](52 例 )か[ʌ] (44 例 )と 認 識 されたものが 殆 どで 続 いて /ɔ/ の 間 違 いが 94 例 で[a](61 例 )と[ʌ](29 例 )として 認 識 されたものが 大 半 であった 3.3 母 音 の 挿 入 と 音 節 構 造 母 音 の 間 違 いで 非 常 に 多 かったのが 母 音 の 挿 入 で 463 例 が 抽 出 された( 図 2) 母 音 の 挿 入 は 日 本 語 と 英 語 の 音 節 構 造 の 違 いからくるものである( 表 4) 英 語 の 子 音 の 連 続 の 環 境 (/C 1 C 2 (C 3 )/)において 実 際 の 英 語 の 音 節 構 造 にかかわらず 日 本 語 話 者 は 母 音 を 挿 入 することにより/C 1 V.C 2 V.(C 3 V)/と 軽 音 節 /CV/に 分 析 することに 起 因 している 第 二 言 語 の 音 節 構 造 に 第 一 言 語 の 音 節 構 造 では 許 容 されない 構 造 がある 場 合 話 者 は 様 々な 発 音 の ストラテジーを 試 みるが 日 本 語 母 語 話 者 が 第 二 言 語 で 子 音 の 連 続 に 接 した 場 合 子 音 を 省 略 したり 融 合 させ 新 しい 子 音 で 代 用 するのではなく 子 音 間 に 母 音 を 挿 入 し 音 節 構 造 を /CV/に 再 構 成 するという 手 段 をとる また 日 本 語 の 音 節 構 造 は 基 本 的 に 開 音 節 で 閉 音 節 は モーラ 子 音 /N/ と /Q/ が 音 節 末 に 来 るとき 以 外 は 起 きない したがって 第 二 言 語 の 語 末 が 閉 音 節 のときも 語 末 に 母 音 を 挿 入 することで/-CV/という 新 しい 音 節 を 構 成 する 図 2 英 語 レベル 別 挿 入 母 音 数 と 母 音 の 種 類 表 4 日 本 語 と 英 語 の 音 節 構 造 の 比 較 日 本 語 英 語 (C)(j)V(V)(C)(C) (C)(C)(C)V(C)(C)(C) AESOP コーパスの The North Wind and the Sun には 子 音 の 連 続 が 起 きる 単 語 および 語 末 に 子 音 が 来 る 単 語 が 数 多 くあるが すべての 母 音 の 挿 入 例 が 見 られた( 表 5) 他 にwind [ʊɪndɔ], warm [ʊɔːmʊ] にみられるように /w + 母 音 / のときで 母 音 が/a/ 以 外 のとき /w/が 子 音 /w/でなく 母 音 /u/となり /wɪn-/, /wɔːm/という 閉 音 節 が /ʊ.ɪn-/, /ʊ.ɔː.mʊ/ と 後 続 母 音 とは 別 の 音 節 に 構 造 が 変 わっている 例 も 見 られた 346

361 表 5 Japanese AESOP The North Wind and the Sun の 挿 入 母 音 の 例 (a) 連 続 子 音 間 ( 下 線 の 母 音 が 挿 入 母 音 ) disputinɡ [dɪsʊpjuːtɪŋ] attempt [ɑtempʊtɔ] warmly [waʊmʊliː] wrapped [rɑpʊt] cloak [kʊraʊk] stronger [sʊtɔrəŋgɑ:] obliɡed [əbʊraidʒɪd] fold [fourʊd] immediately [ɪmedɪətɔriː] agreed [ʌgʊriːd] blue [bʊlu:] succeed [sɑkʊsiːd] closely [kʊrowsʊriː] (b) 語 末 ( 二 重 下 線 部 が 挿 入 母 音 ) first [fa:stɔ] succeed [sɑkʊʃiːdɔ] came [keɪmʊ] wrapped [ræptɔ] agreed [ʌgʊliːdɔ] warm [wɑ:mʊ] attempt [ɑtempʊtɔ] take [teɪkʊ] his [hidzʊ] last [rɑstʊ] took [tʊkʊ] was [wɑzʊ] obliged [ʌbʊraɪdʒidʊ] up [ʌpʊ] as [ædzʊ] should [ʃʊdʊ] confess [kʌnfesʊ] along [ɑrəŋgʊ] fold [faʊldʊ] off [ɔfʊ] disputinɡ [dɪsʊpjuːtɪŋʊ] around [ɑraʊndʊ] gave [geːvʊ] making [meɪkɪŋʊ] 挿 入 された 母 音 は 弱 母 音 の[ɔ], [ʊ]が 圧 倒 的 に 多 い( 図 2) 日 本 語 への 外 来 語 での 挿 入 母 音 の 規 則 は 歯 茎 破 裂 音 /t, d/ の 後 は/o/, 破 擦 音 /tʃ, dʒ/ の 後 は /i/, その 他 の 子 音 の 後 は/u/で ある(Shinohara, 2004) しかし 実 際 の 英 語 の 発 話 ではいわゆるカタカナ 語 で 英 語 を 発 音 し ているわけではなくとも 日 本 語 の/CV/の 音 節 構 造 を 根 底 に 英 語 を 発 話 してしまい はっき りとではないが 子 音 の 連 続 の 間 に 無 意 識 に/t, d/の 後 に[ɔ] /tʃ, dʒ/の 後 に[ɪ] その 他 の 子 音 の あとには[ʊ]が 入 ってしまうと 考 えられる 特 に 一 番 例 が 多 かった[ʊ] の 挿 入 は 話 者 の 英 語 レベルとの 負 の 相 関 がみられなかった(R=-0.205; p>0.1)( 図 3) [ɔ] [ʊ]は 日 本 語 の 母 音 /o/と/u/の 実 際 の 音 質 に 近 いことを 考 えると 両 母 音 が 実 際 によく 挿 入 されるのは 納 得 が いく 図 3 英 語 レベル 別 の 子 音 間 または 語 末 の/u/の 挿 入 347

362 さらに 高 母 音 /u/は/i/とともに 標 準 語 を 含 む 東 日 本 を 中 心 とする 多 くの 方 言 で 無 声 子 音 間 または 無 声 子 音 が 先 行 する 発 話 末 では 無 声 化 する The North Wind and the Sun のデ ータでは 無 声 子 音 の 連 続 が 少 なからずあり うち 高 母 音 /u/が 挿 入 される 可 能 性 がありかつ その/u/ が 無 声 化 される 可 能 性 のある 環 境 があるのは attempt /atenputo/, disputing /disupjuutingu/, first /faasuto/, last /rasuto/, stronger /sutorongaa/, succeed /sakusiido/, wrapped /raqputo/であるが first と last 以 外 の disputinɡ [dɪsʊpjuːtɪŋʊ](5 例 ) attempt [ətempʊtɔ](10 例 ) stronger [sʊtɔrɑŋɡər](20 例 ) succeed [səkʊsiːd](8 例 ) wrapped [ræpʊtɔ](6 例 ) と 典 型 的 な 無 声 化 環 境 で/u/に 準 ずる 母 音 の 挿 入 ( 下 線 部 )が 少 なからずみられた 無 声 化 環 境 での 母 音 /u/の 挿 入 は 音 節 構 造 と 音 節 内 での 位 置 にかかわらず 見 られた( 音 節 末 /dɪsu.pju:t.ɪŋu/, /səku.si:d/ 頭 子 音 /sutrɑŋ.ɚ(r)/, 尾 子 音 /ə.temput/, /ræput/) この 傾 向 は 英 語 のレベルが 高 い 話 者 にも 少 なからずみられた 日 本 語 話 者 にとって/(C)V/という 日 本 語 の 絶 対 的 な 音 節 構 造 があり それが 第 二 言 語 の 発 話 においても 強 く 作 用 しており 必 ずしも 英 語 の 音 節 構 造 では 音 素 列 を 分 析 していないであろうことが 推 測 される 今 回 first と last の 尾 子 音 の /-st/ では /u/ の 挿 入 例 が 見 られなかったが 歯 茎 摩 擦 音 が 先 行 し 無 声 破 裂 音 が 後 続 する 環 境 での 無 声 化 率 が 一 般 的 に 高 いことから( 武 田 & 桑 原, 1987; 吉 田 & 匂 坂, 1990; Maekawa & Kikuchi, 2005) 無 声 化 が 特 に 起 きやすい 環 境 であることが 要 因 であろ う 同 じ/st/の 連 続 でも stronger では 挿 入 母 音 の 例 が 多 くみられることから シラブル 内 での 位 置 や 二 連 続 子 音 と 三 連 続 子 音 での 挿 入 母 音 の 生 起 率 が 異 なるのかは これからの 検 討 課 題 である これらの 結 果 は 日 本 語 話 者 の 英 語 発 話 で ストレスが 置 かれていない 音 節 で 母 音 の 弱 化 が 起 きにくいという 研 究 報 告 (Lee et al., 2006; Kondo, 2008; Sugahara, 2009)や 日 本 語 発 話 においては 単 一 の 無 声 化 環 境 での 高 母 音 の 無 声 化 率 はほぼ 100% 近 いという 研 究 報 告 (Kondo, 2005)を 考 慮 すると 日 本 語 話 者 の 日 本 語 及 び 第 二 言 語 の 知 覚 と 発 話 特 にリズ ムにおいて 如 何 に /CV/ という 基 本 の 音 節 構 造 またはモーラが 強 く 影 響 しているかがわか る また この 音 節 構 造 にかかわる 問 題 は 英 語 レベルの 高 い 話 者 にもみられる 問 題 であ ることから Mazuka et al. (2011) の 研 究 結 果 にみられるよう 音 節 構 造 は 第 一 言 語 習 得 の 根 幹 をなし 第 二 言 語 習 得 のあらゆる 面 に 影 響 を 与 えていると 考 えられる 4.まとめ 日 本 語 話 者 の 英 語 発 話 の 分 析 から 日 本 語 話 者 にとって 日 本 語 の 音 素 にない 英 語 の 音 の 発 話 は 母 音 も 子 音 も 難 しいが 個 々の 音 素 の 発 音 の 問 題 は 大 方 英 語 のレベルが 上 がるに つれて 解 消 されていく しかし レベルが 上 がっても 根 深 く 残 る 問 題 の 一 つが 子 音 間 と 語 末 の 閉 音 節 の 後 の 母 音 の 挿 入 である 母 音 の 挿 入 は /CV/ を 基 本 とする 日 本 語 の 音 節 構 造 を 保 とうとすることから 起 きていると 推 測 されるが この 影 響 は 単 なる 音 節 構 造 という 抽 象 的 な 音 韻 理 論 の 問 題 にとどまらず 英 語 発 話 に 際 し フットを 基 本 とした 強 勢 リズムや 強 勢 リズムに 付 随 して 起 きる 弱 音 節 での 母 音 の 弱 化 などの 発 話 リズム 全 体 の 問 題 にかかわ ってくる 反 面 日 本 語 話 者 の 英 語 発 話 を 考 察 することで 日 本 語 話 者 にとっての 音 素 の 認 識 や 韻 律 上 重 要 な 単 位 は 何 かなどの 日 本 語 の 音 韻 に 関 する 根 本 的 な 問 題 の 答 えが 見 える Japanese AESOP の 分 析 がさらに 進 んでいけば 日 本 語 話 者 の 英 語 発 話 の 問 題 だけで なく 日 本 語 そのものの 特 性 の 解 明 にもつながっていくであろう 348

363 謝 辞 本 研 究 は 文 部 科 学 省 科 学 研 究 費 補 助 金 基 盤 研 究 (B) 第 一 言 語 の 韻 律 特 性 が 日 本 語 学 習 者 の 音 声 知 覚 生 成 に 及 ぼす 影 響 の 解 明 ( 平 成 22~25 年 度 研 究 代 表 者 : 近 藤 眞 理 子 ) による 補 助 を 得 ています 参 考 文 献 Anderson-Hsieh, Janet, Ruth Johnson and Kenneth Koehler (1992) The Relationship between Native Speaker Judgments of Nonnative Pronunciation and Deviance in Segmentals, Prosody and Syllable Structure, Language Learning, 42:4. Grice, Martine and Stefan Bauman (2007) An Introduction to Intonation Functions and Models, in Non-native Prosody: Phonetic Description and Teaching Practice, Trouvain, J. and Ulrike, G. (eds), pp , Berlin: Mouton de Gruyter. Hirschberg, Julia (2002) Communication and Prosody: Functional Aspects of Prosody, Speech Communication, Volume 36, Issues 1-2, pp International Phonetic Association (1999) Handbook of the International Phonetic Association: A Guide to the Use of the International Phonetic Alphabet, Cambridge: Cambridge University Press. Jilka, Matthias (2007) Different Manifestations and Perceptions of Foreign Accent in Intonation, in Non-native Prosody: Phonetic Description and Teaching Practice, Trouvain, Jurgen and Ulrike, Gut (eds), pp , Berlin: Mouton de Gruyter. Kondo, Mariko (2005) Syllable Structure and its Acoustic Effects on Vowels in Devoicing Environments, Voicing in Japanese, Van De Weijer, Jeroen M., Kensuke Nanjo and Tetsuo Nishihara (Eds.). pp Kondo, Mariko (2009) Is Acquisition of L2 Phonemes Difficult?; Production of English Stress by Japanese Speakers, Proceedings of the 10th Generative Approaches to Second Language Acquisition Conference (GASLA 2009), Melissa Bowles, M., Ioin, T. Montrul, S. and Tremblay, A. (eds.). Somerville, MA: Cascadilla Proc. Project Kondo, Mariko (2012) Design and Analysis of Asian English Speech Corpus - How to Elicit L1 Phonology in L2 English Data, In Tono, Yukio, Yuji Kawaguchi and Makoto Minegishi (Eds.). Vol. IV: Developmental and Crosslinguistic Perspectives in Learner Corpus Research. Amsterdam/Philadelphia: John Benjamins Lee, Borim, Susan G. Guion, and Tetsuo Harada (2006) Acoustic analysis of the production of unstressed English vowels by early and late Korean and Japanese bilinguals, Studies in Second Language Acquisition, 28, Lenneberg, Eric (1967) Biological Foundations of Language. New York: John Wiley & Sons. Maekawa, Kikuo and Hideaki Kikuchi (2005) Corpus-based analysis of vowel devoicing in spontaneous Japanese: an interim report, Voicing in Japanese, Van De Weijer, Jeroen M., Kensuke Nanjo and Tetsuo Nishihara (Eds.). pp Mazuka, Reiko, Cao, Yvonne, Dupoux, Emmanuel, and Christophe, Anne (2011) "The development of phonological illusion: A cross-linguistic study with Japanese and French infants", Developmental Science, 14 (4), pp Meng, Helen, Chiu-yu Tseng, Mariko Kondo, Alissa Harrison and Tanya Visceglia (2009) Studying L2 Suprasegmental Features in Asian Englishes: A Position Paper, Proceedings of

364 INTERSPEECH (Brighton, UK, 6-10 September 2009) Patkowski, Mark (1989) Age and accent in a second language: a reply to James E. Flege. Applied Linguistics 11: Price, Patti, Mari Ostendorf, Stefanie Shattuck-Hufnagel and Cynthia Fong (1991) The Use of Prosody in Syntactic Disambiguation,'' Journal of the Acoustical Society of America, 90(6), pp Shinohara, Shigeko (2004) Emergence of Universal Grammar in Foreign Word Adaptations, Constraints in Phonological Acquisition. Kager, René, Joe Pater, and Wim Zonneveld (Eds.). Cambridge: Cambridge University Press Sugahara, Mariko (2009) Secondary stress vowels in American English: The target undershoot of F1 and F2 formant values, Proceedings of the 16 th International Congress of Phonetic Sciences. Saarbrucken, Germany 武 田 一 哉 桑 原 尚 夫 (1987) 母 音 無 声 化 の 要 因 分 析 と 予 測 手 法 の 検 討 日 本 音 響 学 会 1987 年 度 秋 季 研 究 発 表 会 公 演 論 文 集 Visceglia, Tanya, Chiu-yu Tseng, Mariko Kondo, Helen Meng, and Yoshinori Sagisaka (2009) Phonetic Aspects of Content Design in AESOP (Asian English Speech corpus Project), 2009 Oriental COCOSDA (Beijing, China, August, 2009) 吉 田 夏 也 匂 坂 芳 典 (1990) 母 音 無 声 化 の 要 因 分 析 ATRテクニカルレポート(TR-I-0159), 1-9. ARPABET: The HTK modules: TIMIT: 350

365 Criteria for Intonational Unit Identification: The Case of the Corpus of Spontaneous Japanese Hanae Koiso (Dept. Linguistic Theory and Structure, NINJAL Kikuo Maekawa (Dept. Corpus Studies, NINJAL Yosuke Igarashi (Hiroshima University 1. Corpus of Spontaneous Japanese, CSJ , CSJ RDB 2012 CSJ-RDB CSJ 3 XML 2 CSJ X JToBIMaekawa et al. 2002; 2006 J ToBIVenditti 1995, 2005 Break Index BI BI=1 BI=2 *1 BI=3 *2 koiso@ninjal.ac.jp *1 1 2 F0 X JToBI BPMBI=2 BI=3 BI=2+pBI=2+b BI=2+bp *2 J ToBI Pierrehumbert & Beckman (1988) (intermediate phrase) (utterance) J ToBI 351

366 new 1 BI=2 BI=3 BI=3 1 X JToBI BI BI CSJ 2 J ToBI Pierrehumbert & Beckman 1988 X JToBIeXtended J ToBI 2 CSJ 1 2 XML ID APID BI CSJ-RDB X JToBI 352

367 CSJ 2006X JToBI X JToBI 1 X JToBI BI BI * BI BI=2 3 <F BI=2<F,3<F 2. F BI *

368 BI BI (3) 2 F 2 3 F 2 F F 2 3 F F 2 3 BI=3 3 BI=3 3 BI F2 F 2.2 4A 1 2 F0 *4 4B 4C *

369 (A) (B) 1. BI=2/3 2+D/3-D CSJ BI=2/3<D D 2. (C) BI=2/3 D BI BI=2/3<D D 4 BI BI BI *5 1. BI *6 BI=2 3 4A1 BI=2 3 4A2BC 2. BI <D 4BC 3. BI=D BI=3-D BI=2+D *7 *5 2 4BBI=<D BI=2BI=3 BI=<D BI=2,3 3 4B BI=2,3 BI=D *6 H- A 2006 *7 3 D 355

370 BI=2 3 BI=3,3-D 5 BI BI (3) 2 D 2+D 3 D D 2 3-D D D D D 3-D 2+D 3-D BI=3, 3-D BI 23FF2D2+D3-D 4A1 A1BI=2 3 BI=D+2,D-3 356

371 BI=2+D,3-DBI=2,3 BI=F,F2BI=D (1) BI=3,3-D (2) (1) BI=F,F2,D 6 BI BI (3) 2 F D2 3 D F 2 D3 F D 3 F D2 D D3 D2 3 BI=3,3-D 6 3. CSJ 2012 CSJ-RDB ), XML 124), pp

372 ), pp RDB 1, pp , 15, pp ), pp : 26, pp Maekawa, Kikuo, Hideaki Kikuchi, Yosuke Igarashi & Jennifer Venditti (2002) X JToBI: An extended J ToBI for spontaneous speech, Proceedings of the 7th International Conference on Spoken Language Processing (ICSLP2002), pp Pierrehumbert, Janet & Mary Beckman1988 Japanese tone structure, Cambridge: The MIT Press. Venditti, Jennifer1997 Japanese ToBI Labelling Guidelines, In K. Ainsworth-Darnell M. D Imperio (eds.) Papers from the Linguistics Laboratory, Ohio State University Working Papers in Linguistics 50, pp First distributed in 1995 at a web document 358

373 音 声 言 語 コーパスにおける speaking style の 評 定 と 分 布 転 記 テキストに 着 目 して 沈 睿 ( 早 稲 田 大 学 人 間 科 学 学 術 院 ) 菊 池 英 明 ( 早 稲 田 大 学 人 間 科 学 学 術 院 ) Rating and Distribution of Speaking Style in Speech Corpora -Focusing on Speech Transcriptions- Raymond SHEN (Faculty of Human Sciences, Waseda University) Hideaki KIKUCHI (Faculty of Human Sciences, Waseda University) 1.はじめに 郡 ( 郡 2006)によれば,speaking style( 口 調, 発 話 様 式 )は 個 別 言 語 の 特 徴 記 述 に 必 要 不 可 欠 である. 故 に, 一 つの 言 語 を 習 得 する 際,その 言 語 の speaking style の 習 得 も 重 要 だ と 思 われる.しかし, 現 在 の 外 国 語 教 育 の 分 野 では, 文 法 や 語 彙 などの 内 容 が 優 先 されて おり,speaking style に 関 する 内 容 が 十 分 に 取 り 込 まれていない. 一 方,コンピュータ 技 術 の 進 歩 に 伴 い, 大 規 模 コーパスや CALL システムなどの 外 国 語 教 育 への 応 用 に 関 する 研 究 が 盛 んに 行 われているため, 大 量 の 話 し 言 葉 を 収 録 した 音 声 言 語 コーパスを speaking style の 習 得 にも 活 用 できるのではないかと 考 えられる.その 際,まず 音 声 言 語 コーパスの speaking style の 判 別 をできるようにしなければならない. 近 年,speaking style は 音 声 研 究 の 分 野 で 注 目 されてきたが,speaking style の 定 義 に 関 して は, 半 世 紀 以 来, 明 確 な 定 義 が 提 案 されていない. 当 初,Uhlmann は speaking style を 特 定 利 用 のための 口 頭 あるいは 書 かれた 表 現 として 定 義 した(Uhlmann 1964).この 定 義 に 基 づけば,speaking style は 話 し 言 葉 と 書 き 言 葉 の 両 方 で 重 要 な 指 標 と 言 える. Eskenazi は データに 基 づいて speaking style を 定 義 することを 提 案 した(Eskenazi 1993). 本 稿 では 主 に Eskenazi の 提 案 を 用 いるため, 後 述 する. 音 声 研 究 において,speaking style は 研 究 目 的 に 応 じて 定 義 され, 様 々な 分 野 で 研 究 されて いる. 音 声 の 物 理 特 性 や 音 響 特 徴 に 焦 点 を 絞 った 研 究 が 多 いが, 発 話 内 容 や 言 語 的 特 徴 に 注 目 する 研 究 はまだ 少 ない. 本 研 究 は 外 国 語 教 育 への 応 用 を 想 定 しているため, 話 し 言 葉 の 音 響 や 韻 律 の 側 面 から 改 善 をしやすい 発 話 内 容 や 言 語 的 特 徴 が 記 述 される 転 記 テキスト に 着 目 する.なお, 従 来 の 自 然 言 語 処 理 の 分 野 で, 書 き 言 葉 に 対 する 文 体 ジャンルの 判 別 や 著 者 推 定 などの 研 究 は 多 く 行 われている. 品 詞 率, 語 種 率 と 形 態 素 パタンを 特 徴 量 と した 方 法 が 有 効 であることが 実 証 されたため, 本 研 究 もそれらの 特 徴 量 を speaking style の 判 別 に 用 いることを 想 定 し, 話 し 言 葉 の 転 記 テキストに 着 目 して speaking style の 定 量 化 と モデルの 構 築 を 試 みる. 2. 手 法 本 稿 では,Eskenazi が 提 案 した speaking style を 表 現 する 3 尺 度 を 用 いる.Eskenazi はデー タに 基 づいて(data-driven)speaking style を 定 義 することを 提 案 した(Eskenazi 1993).Eskenazi は, 人 間 のコミュニケーションは,あるチャンネルを 通 じて, 情 報 (message)が 話 し 手 から 聞 き 手 へ 伝 達 することであり,speaking style を 定 義 する 際,この 情 報 の 伝 達 過 程 を 考 慮 する こ と が 必 要 で あ る と 主 張 し た. Eskenazi に よ れ ば, speaking style は 明 瞭 さ (Intelligibility-oriented, 以 降 I とする), 親 しさ (Familiarity, 以 降 F とする), 社 会 階 層 (Social strata, 以 降 C とする)の 3 尺 度 で 定 義 できる.Eskenazi によれば, 明 瞭 さ は 話 し 手 の 発 話 内 容 の 明 瞭 さの 度 合 いであり, 情 報 の 読 み 取 りやすさ 伝 達 内 容 の 理 解 しやすさ raymondshenrui@gmail.com kikuchi@waseda.jp 359

374 図 1 本 研 究 の 流 れと 本 稿 の 位 置 づけ( 緑 の 部 分 ) Figure 1 process in this study (the green part is mentioned in this paper) や, 読 み 取 りの 困 難 さ 伝 達 内 容 の 理 解 の 困 難 さを 示 す. 発 話 者 が 意 図 的 に 発 話 の 明 瞭 さ をコントロールしている 場 合 も 含 む. 親 しさ は 話 し 手 と 聞 き 手 との 親 しさにより 変 化 する 表 現 様 式 の 度 合 いであり, 家 族 同 士 の 親 しい 会 話 や,お 互 いの 言 語 や 文 化 を 全 く 知 ら ない 外 国 人 同 士 の 親 しくない 会 話 などにあらわれる 発 話 様 式 を 示 す. 社 会 階 層 は 発 話 者 の 発 話 内 容 の 教 養 の 度 合 いであり, 口 語 的 な, 砕 けた, 下 流 的 な 表 現 ( 社 会 階 層 が 低 い) や, 洗 練 された, 上 流 的 な 表 現 ( 社 会 階 層 が 高 い)を 示 す. 話 し 手 と 聞 き 手 の 背 景 や 会 話 の 文 脈 によって 変 化 する 場 合 もある. 本 稿 の 流 れについて 図 1 を 用 いて 説 明 する.なお, 本 稿 は 緑 の 部 分 を 紹 介 する.まず, speaking style の 異 なる 様 々な 音 声 言 語 コーパスから 6 コーパス(Speech Corpora)をバラン スよく 選 出 する. 続 いて 6 コーパス(カテゴリ)から 10 サンプルずつ 音 声 の 転 記 テキスト (Transcriptions)を 選 出 し,speaking style の 最 も 安 定 する 部 分 と 思 われる 最 中 部 の 約 300 字 程 度 のテキスト(300 words)を 抽 出 する.なお, 本 研 究 では,サンプルごとの speaking style の 集 積 をサンプルが 属 するコーパスの speaking style とみなす. 続 いて 抽 出 したテキストに 対 し, 上 述 の speaking style の 3 尺 度 を 用 いて 評 定 実 験 を 行 う(Rating). 本 稿 はここまで 紹 介 す るが,さらに,Mecab を 用 いて 抽 出 したテキストに 対 して 形 態 素 解 析 を 行 い(Results), 品 詞 率, 語 種 率, 形 態 素 パタンを 特 徴 量 として 抽 出 する(Feature Extraction). 評 定 実 験 で 得 られ た 結 果 の 平 均 を 求 め,3 尺 度 の 学 習 データにする(3-scales). 最 後 に R の lm 関 数 を 用 い, 線 形 重 回 帰 分 析 のステップワイズ 変 数 選 択 ( 変 数 増 減 法 )(Multi-regression Analysis)で,3 尺 度 において,それぞれの 判 別 モデルを 求 める. 3. 評 定 実 験 本 章 では, 評 定 実 験 の 詳 細 について 述 べる. 3.1 評 定 者 本 評 定 は, 大 学 生 男 女 22 名 の 評 定 者 による. 3.2 刺 激 本 実 験 の 刺 激 に 音 声 言 語 コーパス 内 の 転 記 テキストを 使 用 する 音 声 言 語 コーパス なるべく 多 様 な speaking style を 含 む 音 声 言 語 コーパスを 使 用 するために, 実 験 で 使 用 す る 音 声 の 転 記 テキストを 以 下 の 6 種 類 の 音 声 コーパス(カテゴリ)から 選 出 した. (1) 日 本 語 話 し 言 葉 コーパス( 前 川 ら 2000)- 講 演 (CSJ1 と 呼 ぶ) 360

375 日 本 語 話 し 言 葉 コーパス(the Corpus of Spontaneous Japanese, CSJ)は, 日 本 語 の 自 発 音 声 を 大 量 に 集 めて 多 くの 研 究 用 情 報 を 付 加 した, 質 量 ともに 世 界 最 高 水 準 の 話 し 言 葉 研 究 用 のデータベースである. 本 研 究 では,CSJ に 収 録 された speaking style の 中 でも, 特 に 学 会 発 表 及 び 模 擬 講 演 発 表 (ひとつのテーマに 関 してのモノローグ)をまとめて 扱 う. (2) 日 本 語 話 し 言 葉 コーパス-インタビュー(CSJ2 と 呼 ぶ) (1)と 同 じく CSJ から 選 出 した,インタビュー 形 式 の 対 話 である. 講 演 音 声 と 対 話 音 声 の speaking style は 大 いに 違 うと 思 われるので, 今 回 の 実 験 目 的 を 考 慮 し, 別 のカテゴリとし た.なお,インタビュアーとインタビュイーとの 両 方 のチャネルの 音 声 を 使 用 した. (3) 千 葉 大 地 図 課 題 対 話 コーパス( 堀 内 ら 1999)(MAPTASK と 呼 ぶ) 地 図 を 用 いて 課 題 を 遂 行 するための 対 話 コーパスである. (4) 新 入 生 対 話 コーパス(FDC と 呼 ぶ) 大 学 の 研 究 室 に 所 属 して 1 ヶ 月 の 大 学 生 同 士 の 間 の 自 由 対 話 を 収 録 したコーパスである. 本 コーパスは 初 対 面 の 二 者 の 対 話 音 声 が, 時 間 経 過 および 二 者 の 親 密 性 の 向 上 とともに どのように 変 化 するのかを 調 べることを 目 的 としている. (5) 車 載 環 境 における 質 問 応 答 の 対 話 コーパス( 宮 澤 ら 2010)(AUTO と 呼 ぶ) 本 コーパスは, 模 擬 車 内 環 境 でドライビングゲームをプレイしたドライバー 役 被 験 者 と, 同 乗 してナビゲーションを 行 ったナビゲーター 役 被 験 者 に 対 して, 走 行 実 験 終 了 後 に, 実 験 中 の 動 画 を 見 せながら 感 想 やナビゲーションの 的 確 さをインタビューした 際 の 対 話 音 声 である.インタビューはドライバー,ナビゲーターそれぞれに 対 して 実 施 した.な お,ドライバーとナビゲーターとの 両 方 のチャネルの 音 声 を 使 用 した. (6) 旅 行 についての 対 話 コーパス( 岩 野 ら 1997)(TRAVEL と 呼 ぶ) 旅 行 の 計 画 について, 面 識 のある 二 人 の 研 究 室 メンバーの 間 で 交 わされた 自 由 対 話 を 収 録 したコーパスである 転 記 テキストの 加 工 上 述 の 6 種 類 のカテゴリから 10 個 ずつ 合 計 60 個 の 音 声 サンプルを 無 作 為 で 選 出 する. Speaking style の 最 も 安 定 する 部 分 を 抽 出 するため, 上 記 の 各 音 声 に 付 随 する 転 記 テキス ト 中 部 より 約 300 字 のテキストを 切 り 出 す.なるべく 発 話 の 内 容 の 影 響 を 避 け, 発 話 様 式 や 口 調 だけで 評 定 してもらうため,テキストの 名 詞 ( 代 名 詞 は 除 く)の 部 分 を 全 て に 自 動 変 換 した( 図 2 に 参 照 ). 3.3 評 定 方 法 本 評 定 は SD 法 を 用 いる. 一 つのテキストを 読 んだ 後,3 尺 度 のそれぞれについて 7 段 階 で 評 定 してもらう. 明 瞭 さ に 関 して, 不 明 瞭 の 場 合 1, 明 瞭 の 場 合 7, 親 しさ に 関 し て, 親 しい 場 合 1, 親 しくない 場 合 7, 社 会 階 層 に 関 して, 低 い 場 合 1, 高 い 場 合 7 とす る. 評 定 はインターネット 上 のアンケートサイトを 介 して 行 う. 評 定 の 前 に, 尺 度 につい ての 詳 細 説 明 をよく 読 むように 指 示 した. 4. 結 果 と 考 察 3 章 で 述 べた 評 定 実 験 によって 得 られた 結 果 を 本 章 で 述 べる. まず,3 尺 度 の 相 関 係 数 を 求 めた. 明 瞭 さ I と 親 しさ F の 相 関 係 数 が.26, 明 瞭 さ I と 社 会 階 層 C が.48, 親 しさ F と 社 会 階 層 C が.56 である. 今 回 の 評 定 実 験 の 結 果 によると,3 尺 度 が 必 ずしも 独 立 ではないことが 分 かった. さらに,22 名 の 評 定 者 の 評 定 結 果 の 平 均 を 各 サンプルの 得 点 として 図 2(X 軸 が 明 瞭 さ I, Y 軸 が 親 しさ F,Z 軸 は 社 会 階 層 C)に 示 したように 3 尺 度 空 間 上 にプロットした 結 果, 刺 激 テキストがコーパスの 収 録 条 件 や 収 録 環 境 などの 特 徴 により 分 かれる 仮 説 とほぼ 一 致 だと 分 かった. 例 えば, 図 2 の 赤 い 点 が 旅 行 についての 対 話 コーパス(TRAVEL)のサンプルを 示 し,3 尺 度 空 間 上 に 不 明 瞭 親 しい 口 語 的 な 位 置 に 集 まっている.TRAVEL コーパス 内 の 音 声 が 研 究 室 メンバー 同 士 の 間 の 旅 行 計 画 についての 自 由 対 話 なので, 予 想 される 分 布 361

376 図 2 刺 激 テキストの 3 尺 度 空 間 上 の 分 布 Figure 2 the distribution of text stimuli on the space of 3-scales of speaking style と 一 致 すると 言 える. 5.まとめ 本 稿 では, 従 来 の 書 き 言 葉 に 対 する 文 体 やジャンル 判 別 の 手 法 を 話 し 言 葉 における speaking style の 定 量 化 とモデル 化 に 用 いる 前 に, speaking style を 明 瞭 さ (Intelligibilityoriented), 親 しさ (Familiarity), 社 会 階 層 (Social strata)の 3 尺 度 を 用 いて 音 声 言 語 コー パスからサンプリングした 音 声 の 転 記 テキストに 対 する 評 定 実 験 を 行 い, 音 声 コーパスの speaking style の 分 布 を 考 察 した.その 結 果, 刺 激 テキストがコーパスの 収 録 条 件 や 収 録 環 境 などの 特 徴 により 分 かれる 仮 説 通 り 3 尺 度 空 間 上 で 分 かれることが 分 かった. 今 後 の 方 針 として, 従 来 の 自 然 言 語 処 理 の 手 法 を 用 い,speaking style の 3 尺 度 それぞれの 判 別 モデルを 構 築 し, 学 習 者 や 教 師 に speaking style の 自 動 判 別 サービスを 提 供 しようと 考 えている. 文 献 Eskenazi, M. (1993) Trends in Speaking style Research Keynote speech, Proceedings Eurospeech 93, Berlin. Uhlmann, A.M. (1964) Meyers Neues Lexikon VEB Bibliograhisches Institut Leipzig, ausgabe in acht bänden edition. 岩 野 裕 利, 杉 田 洋 介, 松 永 美 穂, 白 井 克 彦 (1997) 対 面 および 非 対 面 における 対 話 の 違 い- 頭 の 振 りの 役 割 分 析 音 声 言 語 情 報 処 理 研 究 報 告, Vol , pp 郡 史 郎 (2006) 日 本 語 の 口 調 にはどんな 種 類 があるか 音 声 研 究, Vol. 10-3, pp 堀 内 靖 雄, 中 野 有 紀 子, 小 磯 花 絵, 石 崎 雅 人, 鈴 木 浩 之, 岡 田 美 智 男, 仲 真 紀 子, 土 屋 俊, 市 川 熹 (1999) 日 本 語 地 図 課 題 対 話 コーパスの 設 計 と 特 徴 人 工 知 能 学 会 誌, Vol.14-2, pp 前 川 喜 久 雄, 籠 宮 隆 之, 小 磯 花 絵, 小 椋 秀 樹, 菊 池 英 明 (2000) 日 本 語 話 し 言 葉 コーパスの 設 計 音 声 研 究, Vol.4-2, pp 宮 澤 幸 希, 影 谷 卓 也, 沈 睿, 菊 池 英 明, 小 川 義 人, 端 千 尋, 太 田 克 己, 保 泉 秀 明, 三 田 村 健 (2010) 自 動 車 運 転 環 境 下 におけるユーザーの 受 諾 行 動 を 促 すシステム 提 案 の 検 討 人 工 知 能 学 会 誌, Vol.25-6, pp

377

378 Construction of a Browser-based Annotation Tool for Verb Meanings and Semantic Role Labels Masayuki Ueno(Graduate School of Natural Science and Technology, Okayama University) Koichi Takeuchi(Graduate School of Natural Science and Technology, Okayama University) 1. BCCWJ CORE [1] Web CakePHP[2] 2. FrameNet[3] Slate[4] FrameNet FrameNet frame FrameNet[5] [6] framenet Web FrameSQL Slate [7] Slate 363

379 [] [] 3.2. Web MySQL[8] CakePHP BCCWJ LUW LUW 1 luw sentence BCCWJ CORE luw semantic vth luw_verb luw freqluw_verbid_sentenceid luw_verb sence luw_semantic luw_vth 1 [] 3.4. BCCWJ 364

380 1 5 A) B) C) D) E) Web [9]

381 ( 2 1 ) A B C D B C AB 92%984/ %177/312 AC 91%932/ %209/306 AD 82%714/869 65%457/696 BC 81%900/ %920/1458 BD 84%4647/ %7781/11830 CD 82%951/ %1704/ % AD 366

382 Web % 60% 367

383 [1]. [2] CakePHP. [3] FrameNet. [4] Slate. [5] Japanese FrameNet. [6]. FrameSQL. 21 (), pp , [7] Dain Kaplan,,. Slate. 17, pp , [8] MySQL. [9],.. 2, NL , pp ,

384 () Implimentation of an Environment for Personal Corpus Construction and Annotation Masaya YAMAGUCHI (Dept. Corpus Studies, NINJAL) 1 ( 2005) Web Web ( 2011) ( 2006) KHCorder( 2003) : (1) (2) HTML XML XML XML 369

385 Shift JISUTF- 8EUC XML UTF-16 JIS X 0201 Unicode (NFKC, Normalization Form Compatibility Composition) (Davis and Whistler 2012) HTMLXML XML XML XML HTML HTML XHTML XSLT XML XHTML XML XML XSLT XML stand off Java 1 1 H2 370

386 (1) (2) Mecab JUMAN XML : 3 2 XML ( ) XML 2 ver.1.5a

387 (1) XHTML (2) URL Web wget XHTML (3) XML 3.2 MeCab(ver.0.994, IPADIC) Ubuntu (CPU: Intel Xeon E GHz, Memory: 8GB) , (2005) vol.12, No.4, pp (2011) pp (2006) / 12 pp (2003) 24pp Mark Davis, Ken Whistler Eds. (2012) Unicode Normalization Forms, Unicode Technical Reports UAX 15, URL KHCorder H2 Mecab JUMAN wget 372

388 () () () () (/) Temporal Ordering Annotation on the Balanced Corpus of Contemporary Written Japanese Sachi Yasuda (Center for Corpus Development, NINJAL) Hikari Konishi (Center for Corpus Development, NINJAL) Masayuki Asahara (Center for Corpus Development, NINJAL) Mizuho Imada (Center for Corpus Development, NINJAL) Kikuo Maekawa (Dept. Corpus Studies/Center for Corpus Development, NINJAL) 1. 1 MUC-6 (Grishman and Sundheim (1996)) MUC-6 TIMEX (@type="date") (@type="time") last year MUC-6 TIMEX Setzer (Setzer (2001)) TERN (DARPA TIDES (2004)) TERN TIMEX2 373

389 1 MUC-6 (Grishman and Sundheim (1996)) Setzer (2001) TERN TIMEX2 (DARPA TIDES (2004)) TimeML TIMEX3 (Pustejovsky et al. (2003)) TimeML TLINK TimeBank (Pustejovsky et al. (2003)) TimeML Aquaint TimeML Corpus TimeML Boguraev and Ando (2005) - Mani (2006) TempEval (Verhagen et al. (2007)) -/ TempEval-2 (Verhagen et al. (2010)) -/ TempEval-3 (2013 ) -/ IREX ( (1999)) (Sekine et al. (2002)) (2010) (2012) / / -/ Pustejovsky TimeML (Pustejovsky et al. (2003)) TERN TIMEX2 TIMEX3 TLINK TimeBank (Pustejovsky et al. (2003)) Aquaint TimeML Corpus (Boguraev and Ando (2005); Mani (2006)) (Boguraev and Ando (2006))2007 SemEval 2007 TempEval (Verhagen et al. TempEval-2 (Verhagen et al. (2010)) 2013 SemEval-2013 TempEval-3 IREX ( (1999)) IREX (Sekine et al. (2002)) / (Balanced Corpus of Contemporary Written Japanese; BCCWJ ) ( (2010)) ( (2012); (2013)) TimeML TIMEX3 BCCWJ BCCWJ 374

390 Allen TIMEX3 ( (2012); (2013)) EVENT 2.2 EVENT TimeML EVENT EVENT EVENT () ,111 Generic EVENT EVENT () EVENT 375

391 EVENT () EVENT EVENT OCCURRENCEREPORTINGPERCEPTIONASPECTUALI ACTION I STATESTATE 7 OCCURRENCE REPORTING PERCEPTION ASPECTUAL I ACTION I STATE STATE OCCURRENCE STATE STATE (Thing) OCCURRENCE 5 OCCURRENCE OCCURRENCE (Thing) OCCURRENCE (PROCESS) OCCURRENCE EVENT /EVENT EVENT /EVENT EVENT /EVENT EVENT /EVENT EVENT /EVENT REPORTING REPORTING ThingOCCURRENCE 376

392 EVENT /EVENT EVENT /EVENT PERCEPTION PERCEPTION Thing OCCURRENCE EVENT /EVENT EVENT /EVENT OCCURRENCE A B EVENT /EVENT OCCURRENCE I STATE ASPECTUAL ASPECTUAL 1. Initiation 2. Reinitiation 3. Termination 4. Culmination 5. Continuation 10 1 EVENT /EVENT 3 EVENT /EVENT EVENT /EVENT EVENT /EVENT I ACTIONIntensional Action I ACTION I STATE 377

393 I ACTION I STATE REPORTING PERCEPTION I ACTION ACTION EVENT /EVENT EVENT /EVENT EVENT /EVENT EVENT /EVENT I STATEIntensional States I STATE STATE EVENT /EVENT EVENT /EVENT EVENT /EVENT EVENT /EVENT I ACTION STATE EVENT (1995) EVENT /EVENT EVENT /EVENT I STATE EVENT /EVENT EVENT /EVENT 2.3 EVENT 2 Allen (Allen (1983)) 13 during/equal/contains

394 after met-by overlapped-by finishes during started-by equal starts contains finished-by overlaps meets before 2 Allen 3 - is included (during ) subevent is included identity (equal ) identity includes (contains ) subevent includes vague ( DCT ) ( T2E ) ( E2E ) ( MATRIX ) 4 1 EVENT 379

395 5 4 (DATE) 54 (DATE) 727 (TIME) 107 (DURATION) 291 (SET) OCCURRENCE 2367 (5 ) (1291) REPORTING 126 PERCEPTION 27 ASPECTUAL 63 I ACTION 880 I STATE 195 STATE %-80% ( DCT ) ( T2E ) ( E2E ) ( MATRIX ) = after, during, contains, before equal vague

396 7 DCT T2E E2E MATRIX after = = = = =2906 met-by 0 0 0= = = = =5 overlapped-by = = = = =22 finishes 2 8 1= = = = =1 during = = = = =389 started-by 1 0 0= = = = =2 equal = = = = =202 starts 2 0 0= = = = =2 contains = = = = =915 finished-by 0 0 0= = = = =0 overlaps 2 2 4= = = = =33 meets = = = = =24 before = = = = =1867 is included 0 0 0= = = = =1 identity 0 0 0= = = = =4 includes 0 0 0= = = = =1 vague = = = = =314 A B C = 8 DCT T2E E2E MATRIX (0.743) 1513(0.691) 1642(0.552) 679(0.545) 6688(0.653) (0.743) 1513(0.691) 1667(0.561) 697(0.560) 6731(0.657) (0.748) 1605(0.734) 1862(0.627) 776(0.623) 7116(0.695) (0.750) 1644(0.751) 1884(0.634) 780(0.627) 7188(0.702) () ( ) 13+1 ( 13+1)TempEval 5+1 ( BEFORE, BEFORE-OR-OVERLAP, OVERLAP, OVERLAP-OR-AFTER, AFTER, VAGUE ) ( 5+1) 3+1 ( BEFORE, OVERLAP, AFTER, VAGUE ) ( 3+1) 4 ( ) 65.3% (Cohen s kappa 0.733) TimeBank 1.2 TLINK ( 55% 77% ) 4 DCT T2E E2E, MATRIX

397 21 (2012) 2 (2013) 19 Allen, J. (1983). Maintaining knowledge about temporal intervals. Communications of the ACM. Boguraev, B., and R. Kubota Ando (2005). TimeML-Compliant Text Analysis for Temporal Reasoning. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI-05), pp Boguraev, B., and R. Kubota Ando (2006). Analysis of TimeBank as a Resource for TimeML parsing. Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC-06). DARPA TIDES (2004). The TERN evaluation plan; time expression recognition and normalization. Working papers, TERN Evaluation Workshop. Grishman, R., and B. Sundheim (1996). Message Understanding Conference-6: a brief history. Proceedings of the 16th International Conference on Computational Linguistics (COLING-96), pp Mani, I. (2006). Machine Learning of Temporal Relations. Proceedings of the 44th Annual Meeting of the Association for Computational Linguistics (ACL-2006), pp Pustejovsky, J., P. Hanks, R. Saurí, A. See, R. Gaizauskas, A. Setzer, B. Sundheim, L. Ferro, M. Lazo, I. Mani, and D. Radev (2003). The TIMEBANK Corpus. Proceedings of Corpus Linguistics 2003, pp Pustejovsky, J., J. Casta no, R. Ingria, R. Saurí, R. Gaizauskas, A. Setzer, and G. Katz (2003). TimeML: Robust Specification of Event and Temporal Expressions in Text. Proceedings of the 5th International Workshop on Computational Semantics (IWCS-5). Sekine, S., K. Sudo, and C. Nobata (2002). Extended Named Entity Hierarchy. The Third International Conference on Language Resources Evaluation (LREC-02). Setzer, A. (2001). Temporal Information in Newswire Articles: An Annotation Scheme and Corpus Study. Unpublished doctoral dissertation, University of Sheffield. Verhagen, M., R. Gaizauskas, F. Schilder, M. Hepple, G. Kats, and J. Pustejovsky (2007). SemEval-2007 Task 15: TempEval Temporal Relation Identification. Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval-2007), pp Verhagen, M., R. Saurí, T. Caselli, and J. Pustejovsky (2010). SemEval-2010 Task 13: TempEval-2. Proceedings of the 5th International Workshop on Semantic Evaluations (SemEval-2010), pp (1995) - - (2004) (2001) (2010) Yahoo! 16, pp IREX (1999)IREX 382

398 理 研 母 子 会 話 コーパス(R-JMICC) 構 築 の 試 みと 研 究 成 果 対 乳 児 自 発 音 声 における 日 本 語 特 有 の 韻 律 的 分 節 的 特 徴 の 解 明 を 目 指 して 西 海 枝 洋 子 ( 理 化 学 研 究 所 脳 科 学 総 合 研 究 センター 言 語 発 達 研 究 チーム) 渡 辺 和 希 ( 筑 波 大 学 大 学 院 ) 小 西 隆 之 ( 理 化 学 研 究 所 脳 科 学 総 合 研 究 センター 言 語 発 達 研 究 チーム) 伊 藤 直 子 ( 筑 波 大 学 大 学 院 ) 金 礪 愛 ( 早 稲 田 大 学 人 間 科 学 学 術 院 ) 五 十 嵐 陽 介 ( 広 島 大 学 文 学 研 究 科 文 学 部 ) 宮 澤 幸 希 ( 理 化 学 研 究 所 脳 科 学 総 合 研 究 センター 言 語 発 達 研 究 チーム) 西 川 賢 哉 ( 理 化 学 研 究 所 脳 科 学 総 合 研 究 センター 言 語 発 達 研 究 チーム) 馬 塚 れい 子 ( 理 化 学 研 究 所 脳 科 学 総 合 研 究 センター 言 語 発 達 研 究 チーム) Riken Japanese Mother Infant Conversation Corpus (R-JMICC) Compilation and Recent Findings of Japanese-Specific Prosodic and Segmental Characteristics in Infant-Directed Speech Yoko Saikachi (Lab. for Language Development, RIKEN Brain Science Institute) Kazuki Watanabe (Graduate school of University of Tsukuba) Takayuki Konishi (Lab. for Language Development, RIKEN Brain Science Institute) Naoko Ito (Graduate school of University of Tsukuba) Ai Kanato (Waseda University) Yosuke Igarashi (Hiroshima University) Koki Miyazawa (Lab. for Language Development, RIKEN Brain Science Institute) Ken ya Nishikawa (Lab. for Language Development, RIKEN Brain Science Institute) Reiko Mazuka (Lab. for Language Development, RIKEN Brain Science Institute) 1. はじめに 大 人 は 乳 児 に 語 りかける 際 韻 律 的 分 節 的 特 徴 を 強 調 した 独 特 な 話 し 方 をする( 対 乳 児 音 声 Infant-Directed Speech; IDS) 全 体 的 に 声 が 高 く ゆっくりとして ピッチの 変 動 幅 が 大 きいなどの IDS の 特 徴 は 多 言 語 において 報 告 されており(Fernald et al. 1989, Soderstrom 2007) その 普 遍 性 と 言 語 獲 得 における 重 要 性 が 示 唆 されてきた しかし 日 本 語 は 他 の 言 語 とは 異 なる 独 特 な 音 韻 体 系 そして 韻 律 構 造 を 持 つ その 特 異 性 を 考 慮 した 上 で 対 乳 児 音 声 の 音 響 的 特 徴 を 定 量 的 に 分 析 し 明 らかにした 研 究 はほとんど 行 われて こなかった そこで 本 研 究 チームでは ここ 数 十 年 の 間 に 開 発 が 進 められてきた 音 声 コーパスの 構 築 技 術 を 応 用 し 理 研 母 子 会 話 コーパス(R-JMICC) (Mazuka, Igarashi, and Nishikawa 2006, 五 十 嵐, 馬 塚 2006)の 構 築 を 進 めている このコーパスは 2005 年 に 収 録 を 行 った ヶ 月 の 乳 児 を 持 つ 母 親 22 名 による 自 発 的 な 会 話 音 声 データ( 対 乳 児 音 声 および 対 成 人 音 声 ) ysaikachi@brain.riken.jp 383

399 と その 4 年 後 の 2009 年 に 収 録 を 行 った 同 じ 母 親 による 音 声 データ( 対 乳 児 音 声 対 成 人 音 声 および 読 み 上 げ 音 声 )で 構 成 されており 日 本 語 話 し 言 葉 コーパス(CSJ) ( 前 川 2004, 2006)にほぼ 準 拠 した 形 態 論 情 報 分 節 音 情 報 および 韻 律 情 報 が 付 与 されてい る これらの 付 加 情 報 を 活 用 することにより 韻 律 句 の 構 成 やピッチアクセント 句 末 音 調 といった 日 本 語 の 韻 律 特 性 を 考 慮 しながら 自 発 音 声 における 韻 律 的 分 節 的 特 徴 を 分 析 することが 可 能 となった 本 稿 では まずコーパスの 概 要 を 説 明 した 後 に(2 節 ) コーパス 分 析 に 基 づく 最 近 の 研 究 成 果 の 具 体 例 として 日 本 語 対 乳 児 音 声 における 1)ピッチレンジの 拡 大 という 韻 律 的 強 調 の 局 所 性 (Igarashi and Mazuka 2008, Igarashi et al. 2009)(3 節 )と 2) 長 短 母 音 の 持 続 時 間 長 の 分 布 特 性 (Bion et al. in press)(4 節 )を 紹 介 する 2. データ 2.1. 理 研 母 子 会 話 コーパス 理 研 母 子 会 話 コーパス(R-JMICC) は 2005 年 に 収 録 されたデータと 2009 年 に 収 録 されたデータで 構 成 される( 表 1 参 照 ) 2005 年 収 録 のデータは 会 話 形 式 の 自 発 音 声 ( 以 下 05 セット) 2009 年 収 録 のデータは 会 話 形 式 の 自 発 音 声 ( 以 下 09 セット)と 文 章 の 読 み 上 げ 音 声 ( 以 下 ATR セット)から 構 成 される 収 録 年 ( 参 加 者 数 ) 2005 年 (22 人 ) 2009 年 (20 人 ) 表 1 理 研 母 子 会 話 コーパス の 概 要 発 話 スタイル 内 容 総 時 間 語 数 ( 名 称 ) ( 収 録 時 間 / 文 の 総 数 ) 自 発 音 声 IDS 絵 本 を 見 ながらの 会 話 (15 分 ) 11 時 間 (05 セット) 玩 具 で 遊 びながらの 会 話 (15 分 ) ADS 育 児 に 関 する 会 話 (10 分 ) 3 時 間 自 発 音 声 IDS 絵 本 を 見 ながらの 会 話 (10 分 ) 7 時 間 (09 セット) 玩 具 で 遊 びながらの 会 話 (10 分 ) ADS 育 児 に 関 する 会 話 (10 分 ) 3 時 間 読 み 上 げ 音 声 ATR 音 素 バランス 503 文 A セッ 4 時 間 (ATR セット) ト(50 文 ) 参 加 者 05 セットの 参 加 者 は 母 親 22 名 (25-43 歳 平 均 年 齢 33.0, SD±3.6)とその 子 供 である 母 親 は 全 て 関 東 地 方 ( 東 京 神 奈 川 埼 玉 千 葉 ) 出 身 であり 標 準 日 本 語 を 話 す 子 供 の 月 齢 は カ 月 ( 平 均 20.4, SD±2.7 カ 月 )であった 2009 年 には 2005 年 の 収 録 に 参 加 した 親 子 22 組 中 20 組 が 再 度 参 加 した 音 声 の 収 録 環 境 理 化 学 研 究 所 言 語 発 達 研 究 チーム 内 の 防 音 室 で 母 親 にヘッドセット 型 コンデンサマイ ク(CROWN, CM-312A)を 装 着 してもらい 一 組 ずつ 録 音 を 行 った また 直 接 の 分 析 対 象 とはしていないが 2005 年 にはコンデンサマイク(Behringer, B-5)をテーブル 上 に 配 置 し 2009 年 には 子 どもにもヘッドセット 型 ダイナミックマイク(SHURE, SM10A)を 装 着 しても らい 子 供 の 発 話 も 収 録 した 音 声 は DAT(TASCAM, DA-P1)を 用 いて 収 録 した(44.1 khz 16 ビット) 384

400 2.1.3 収 録 内 容 05 セットの 内 容 は 3 種 類 である まず IDS として 1) 絵 本 を 見 ながら 母 親 が 子 供 に 話 し かける 音 声 と 2) 玩 具 で 遊 びながら 子 供 に 話 しかける 母 親 の 音 声 を 収 録 した 次 に 対 成 人 発 話 (Adult-Directed Speech; ADS)として 3) 同 じ 母 親 による 成 人 の 実 験 者 ( 同 年 代 かつ 子 育 て 中 の 女 性 ) との 会 話 音 声 も 収 録 した ADS は 育 児 に 関 する 内 容 が 多 かった 2009 年 には 05 セットと 同 一 のタスクを 用 いた 自 発 音 声 (09 セット)に 加 え 母 親 による 読 み 上 げ 文 (ATR セット)の 収 録 を 行 った 2.2. 研 究 用 付 加 情 報 R-JMICC には 書 き 起 こしテキスト( 転 記 テキスト) 形 態 論 情 報 ( 単 語 境 界 や 品 詞 および 活 用 形 についての 情 報 ) 分 節 音 情 報 韻 律 情 報 といった 様 々な 研 究 用 付 加 情 報 が 付 与 されている( 図 1 参 照 )(Mazuka, Igarashi, and Nishikawa 2006) 1 付 加 情 報 は 概 ね CSJ ( 国 立 国 語 研 究 所 ( 編 )2006)に 準 拠 している m o o,i <cl> cj ih m o <pz> mj,i N,n a i Q,sy o mo (W oicji H;oisjiH) mo<h> mjinna iqsyo L% HL% # Time (s) 図 1 研 究 用 付 加 情 報 の 一 例 波 形 F0 曲 線 Spectrogram Segment 層 Word 層 Tone 層 BI 層 Prominence 層 Miscellaneous 層 Event 層 (a) 音 切 り 書 き 起 こし: 発 話 を200msec 以 上 のポーズで 区 切 り( 音 切 り) 区 切 られた 単 位 ( 転 記 基 本 単 位 ; IPU)ごとに 聞 き 取 れる 範 囲 で 忠 実 に 発 話 を 記 す 談 話 音 声 現 象 (フィラー 語 断 片 歌 声 対 成 人 音 声 等 )を 記 述 するためのタグもこの 段 階 で 付 与 する (b) 形 態 論 情 報 付 与 : 短 単 位 ( 辞 書 の 見 出 し 語 に 相 当 )および 長 単 位 ( 複 合 語 を 一 つと 扱 う) という 二 種 類 の 形 態 論 的 単 位 を 認 定 し それぞれの 単 位 に 品 詞 などの 付 加 情 報 を 付 与 する (c) 分 節 音 情 報 および 韻 律 情 報 付 与 : 分 節 音 情 報 として 子 音 母 音 の 種 類 とその 境 界 位 置 に 関 する 情 報 を 韻 律 情 報 として アクセント イントネーション( 韻 律 句 境 界 のレ ベル 句 末 音 調 の 種 類 等 )に 関 する 情 報 を 記 す 韻 律 ラベリングスキームは CSJで 採 用 されているX-JToBI 方 式 の 体 系 を 一 部 改 訂 したものである( 五 十 嵐 馬 塚 2006) 3. 日 本 語 対 乳 児 自 発 音 声 における 韻 律 的 特 徴 :ピッチレンジ 拡 大 の 局 所 性 3.1 研 究 の 背 景 および 目 的 1 05 セットは 一 連 のアノテ-ション 作 業 が 終 了 しており 3 節 および 4 節 で 紹 介 する 研 究 成 果 は 05 セ ットの 解 析 結 果 に 基 づくものである ATR セットも 一 通 りアノテ-ション 作 業 が 終 了 している 09 セット は (a)-(b)の 作 業 が 終 了 しており 現 在 (c)の 分 節 音 情 報 および 韻 律 情 報 の 付 与 を 進 めている 385

401 これまで 多 くの 研 究 により ピッチレンジの 拡 大 という 韻 律 的 強 調 が IDS の 主 要 な 特 徴 とされてきたが 日 本 語 にはそのような 強 調 が 存 在 しないのではないかと 示 唆 されてきた (Fernald et al. 1989) 五 十 嵐 らは 日 本 語 特 有 の 韻 律 的 強 調 の 実 態 を 明 らかにするために アクセント ダウンステップ 句 末 音 調 などの 日 本 語 に 特 徴 的 な 韻 律 構 造 による 影 響 を 考 慮 した 上 で R-JMICC(05 セット)におけるピッチレンジの 分 析 を 行 った(Igarashi and Mazuka 2008, Igarashi et al. 2009) 3.2 日 本 語 の 韻 律 構 造 韻 律 句 の 特 徴 R-JMICC のラべリングスキームである X-JoBI では アクセント 句 (Accentual Phrase, 以 下 AP)とイントネーション 句 (Intonational Phrase, 以 下 IP)の 2 種 類 の 韻 律 句 が 仮 定 されて いる AP は 句 頭 で 上 昇 し その 後 句 末 にかけて 段 々と 下 がり 低 く 終 わるというような ピッチ 曲 線 で 特 徴 づけられる(Venditti 2005) AP がアクセントを 含 む 有 核 句 の 場 合 アク セントによる 急 激 なピッチの 下 降 があるため 無 核 句 と 比 較 すると AP の 最 低 ピッチが 引 き 下 げられ ピッチレンジが 拡 大 する AP より 階 層 的 に 上 位 に 位 置 づけられる IP は アクセント 核 が 後 続 する AP の 最 大 ピッ チを 反 復 的 に 低 下 させるダウンステップという 音 韻 現 象 が 生 じる 領 域 と 定 義 され IP 境 界 でピッチリセット( 前 の 文 脈 とは 独 立 した 新 たなピッチレンジの 設 定 )が 生 じる IP 内 の アクセントの 数 が 増 えると ダウンステップの 影 響 により 一 番 目 の AP の 最 大 ピッチが 高 く なり そのため IP のピッチレンジが 拡 大 すると 考 えられる 句 末 複 合 境 界 音 調 (Boundary Pitch Movement; BPM) AP の 終 端 には 下 降 調 だけではなく 上 昇 調 や 上 昇 下 降 調 などの 局 所 的 音 調 が 生 じる 句 末 複 合 境 界 音 調 (Boundary Pitch Movement, 以 下 BPM)と 呼 ばれるこの 音 調 は 質 問 強 調 継 続 など 語 用 論 的 な 意 味 あるいは 発 話 意 図 の 伝 達 に 重 要 な 役 割 を 果 たしており R-JMICC では 主 に H% ( 上 昇 調 1) LH%( 上 昇 調 2) HL%( 上 昇 下 降 調 )によって 表 現 さ れている(Igarashi and Mazuka 2008, Igarashi et al. 2009)( 図 2) 韻 律 句 の BPM 以 外 の 場 所 ( 以 下 主 要 部 と 呼 ぶ)のピッチパターンは アクセントやダ ウンステップ 等 語 彙 情 報 によって 規 定 されているため 韻 律 的 強 調 による 変 化 の 度 合 い は 限 定 的 と 考 えられる 一 方 韻 律 句 末 に 生 じる BPM はそのような 制 約 がなく 発 話 の 意 図 などを 表 現 するためにピッチの 特 徴 を 強 調 しやすい 場 所 であると 考 えられる 図 2 BPM および 主 要 部 のピッチ 曲 線 3.3 コーパス 分 析 2 2 IDS データは 絵 本 を 読 みながらの 会 話 音 声 のみ 分 析 対 象 としている また 22 名 中 1 名 の 母 親 のデー タは 声 質 に 問 題 があるため 分 析 対 象 外 としている 386

402 3.3.1 Utterance( 発 話 ) 3 全 体 の 特 徴 五 十 嵐 らはまず Utterance 全 体 を 対 象 とした 分 析 を 行 った( 図 3) その 結 果 ピッチの 最 大 値 平 均 値 最 小 値 は ADS と 比 較 して IDS では 有 意 に 高 くなっていたが IDS におけ るピッチレンジの 拡 大 は 観 察 されず 先 行 研 究 (Fernald et al. 1989)と 同 様 の 結 果 が 得 られ た 図 3 Utterance 全 体 のピッチの 特 徴 左 図 :ピッチの 最 大 値 ( 図 の 上 限 値 ) 平 均 値 ( 図 の 中 央 値 ) 最 小 値 ( 図 の 下 限 値 ) 右 図 :ピッチレンジ エラーバーは 標 準 偏 差 を 示 す BPM および 主 要 部 の 特 徴 ピッチレンジの 拡 大 を Utterance 全 体 で 測 定 するのではなく 主 要 部 と BPM に 分 けて 分 析 を 行 った まず BPM の 相 対 頻 度 を 分 析 したところ H%と LH%は IDS でより 頻 繁 に 現 れ 逆 に HL%は ADS でより 頻 繁 に 観 察 された( 図 4) 次 に BPM 毎 にピッチの 特 徴 量 を 分 析 したところ IDS では 全 ての BPM の 種 類 で ピ ッチの 最 大 値 および 平 均 値 が ADS よりも 有 意 に 高 く ピッチレンジが 有 意 に 拡 大 していた ( 図 5 図 6) ピッチの 最 小 値 については H%と LH%では IDS のほうが 有 意 に 高 かった が HL%では 発 話 者 間 に 有 意 差 はなかった H% LH% HL% 図 4 BPM の 出 現 率 H% LH% HL% 図 5 BPM のピッチの 特 徴 : 最 大 値 平 均 値 最 小 値 3 ここでは Utterance( 発 話 )を 200msec 以 上 のポーズが 後 続 する IP 境 界 で 区 切 られる 単 位 と 定 義 して いる 387

403 H% LH% HL% 図 6 BPM におけるピッチレンジ 次 に 主 要 部 のピッチの 特 徴 量 を 比 較 したところ ピッチの 最 大 値 平 均 値 最 小 値 は ADS と 比 較 して IDS では 有 意 に 高 かったが ピッチレンジは ADS が IDS と 比 較 して 有 意 に 大 きかった( 図 7) つまり Utterance を 主 要 部 と BPM に 分 けて 分 析 すると IDS におけるピッチレンジの 拡 大 は 韻 律 句 末 の BPM でのみ 顕 著 に 現 れ 主 要 部 では IDS よりも ADS のほうが ピッチレ ンジが 大 きいことが 明 らかになった 図 7 主 要 部 のピッチの 特 徴 : 最 大 値 平 均 値 最 小 値 ( 左 図 ) ピッチレンジ( 右 図 ) IP の 長 さを 考 慮 した 場 合 の 主 要 部 におけるピッチレンジ 最 後 に 主 要 部 におけるピッチレンジを IP の 長 さを 考 慮 して 分 析 した 結 果 を 紹 介 する まず 持 続 時 間 長 (msec) モ ラ 数 短 単 位 数 IP の 数 AP の 数 アクセントの 数 といっ た 項 目 について 計 測 したところ 全 てにおいて ADS のほうが IDS より 長 かった 次 に IP の 長 さ(アクセント 数 )を 統 一 して ADS と IDS のピッチレンジを 比 較 した ( 図 8) その 結 果 アクセント 数 が 個 では IDS は ADS と 比 べて ピッチレンジが 有 意 に 大 きかったが 0 個 および 4 個 の 場 合 はレジスター 間 に 有 意 な 差 は 認 められなかった 図 8 IP の 長 さ(アクセント 数 )を 統 一 した 際 のピッチレンジ 388

404 つまり IP の 主 要 部 のピッチレンジは 主 にアクセントの 数 によって 決 められていること そして 主 要 部 で ADS の 平 均 ピッチレンジが 大 きいのは ADS では より 多 くのアクセント が 含 まれているためであり このことが IDS におけるピッチレンジの 拡 大 を 分 かりづらく している 理 由 であることが 明 らかになった 3.4 ピッチの 特 徴 に 関 するまとめ 五 十 嵐 らは 韻 律 情 報 が 付 与 されている R-JMICC を 使 用 して 日 本 語 特 有 の 韻 律 構 造 を 考 慮 した 分 析 を 行 うことにより 日 本 語 の 対 乳 児 自 発 音 声 では ピッチレンジの 拡 大 とい う 韻 律 的 特 徴 の 強 調 が 韻 律 句 末 の BPM に 局 所 的 に 現 れることを 明 らかにした 五 十 嵐 ら の 研 究 の 大 きな 意 義 は ここ 数 十 年 で 研 究 が 積 み 重 ねられてきた 韻 律 の 音 韻 構 造 (Ladd 1996, Pierrerhumbert and Beckman 1988)に 基 づく 分 析 を 行 うことによって 対 乳 児 音 声 におけ る 韻 律 的 特 徴 の 強 調 が 全 ての 言 語 で 同 じように 現 れているのではなく 個 別 言 語 独 自 の 韻 律 構 造 の 枠 内 で 表 出 するものであることを 示 したことである 今 後 多 様 な 言 語 で 解 析 が 進 むことにより 個 々の 言 語 特 有 の 対 乳 児 音 声 の 特 徴 だけではなく 構 造 的 な 違 いが 大 きい 言 語 間 における 共 通 した 特 徴 を 明 らかにすることが 出 来 れば 音 声 言 語 獲 得 における 言 語 普 遍 性 の 解 明 への 一 歩 となることが 期 待 される 4. 日 本 語 の IDS における 長 短 母 音 の 出 現 頻 度 分 布 特 性 本 節 では 長 短 母 音 という 日 本 語 特 有 の 音 韻 対 立 に 焦 点 をあてて 対 乳 児 自 発 音 声 にお ける 音 韻 の 出 現 頻 度 分 布 特 性 を 分 析 した Bion らによる 研 究 (Bion et al. in press)を 紹 介 する 4.1 研 究 の 背 景 日 本 語 では 床 /toko/と 渡 航 /tokoo/のように 母 音 の 長 短 が 語 の 意 味 を 区 別 する が 英 語 のような 言 語 では 母 音 の 長 短 のみで 語 の 意 味 を 区 別 することはない では 乳 児 は 一 体 どのようにして 母 語 特 有 の 音 韻 的 な 対 立 構 造 を 習 得 しているのであろうか 乳 児 にとっての 主 要 な 入 力 音 声 である 対 乳 児 音 声 には 何 か 手 がかりとなるような 情 報 が 含 ま れているのだろうか Werker らは 日 本 語 を 母 語 とする 母 親 による 読 み 上 げ 音 声 の 分 析 に 基 づき 日 本 語 では 長 短 母 音 間 に 母 音 長 の 確 かな 差 が 存 在 し 音 韻 的 な 長 さの 指 標 として 使 用 することが 出 来 ることを 指 摘 している(Werker et al. 2007) しかし この 結 果 は 無 意 味 単 語 対 を 用 いた 発 話 内 容 を 予 め 統 制 している 読 み 上 げ 音 声 の 収 録 に 基 づく 結 果 であり 多 様 な 実 在 語 を 豊 富 に 含 む 自 発 的 な 日 本 語 対 乳 児 音 声 においても 同 様 の 結 果 が 得 られるのかどうかは 明 ら かになっていない また 乳 児 のように 長 母 音 短 母 音 というカテゴリーが 存 在 すること 自 体 をまだ 認 識 していない 場 合 入 力 音 声 における 音 韻 カテゴリーの 出 現 頻 度 分 布 特 性 が 音 韻 の 獲 得 に 重 要 な 役 割 を 果 たしていることが 統 計 学 習 モデルを 用 いた 研 究 (Vallabha et al. 2007)や 乳 児 を 対 象 とした 実 験 的 研 究 (Maye et al. 2002)によって 指 摘 されている このような 研 究 で は 入 力 音 声 の 特 徴 として 1) 異 なる 音 韻 カテゴリーが 入 力 音 声 に 同 頻 度 で 存 在 すること そして 2) 出 現 頻 度 分 布 が 二 つの 山 を 持 つような 双 峰 性 であること という 二 つの 条 件 を 前 提 にしているが 日 本 語 の 対 乳 児 自 発 音 声 においても 前 提 とされている 頻 度 分 布 特 性 が 存 在 しているのかどうかは 確 かめられていない 4.2 研 究 の 目 的 Bion らの 研 究 の 目 的 は 母 語 の 音 韻 構 造 を 習 得 するために 重 要 とされている 特 徴 が 実 際 の 入 力 音 声 において 存 在 しているのかどうか R-JMICC(05 セット)における 日 本 語 の 長 389

405 短 母 音 の 出 現 頻 度 分 布 特 性 を 分 析 し 検 証 することである 4.3 コーパス 分 析 平 均 値 の 比 較 Bion らはまず 自 発 的 な 日 本 語 対 乳 児 発 話 音 声 においても 長 短 母 音 間 に 確 実 な 音 響 的 な 違 いが 存 在 するのかどうかを 検 討 するために 日 本 語 の 各 母 音 (a,e,i,o,u)について 短 母 音 と 長 母 音 の 長 さの 平 均 を 比 較 した 図 9 に 示 すように 母 音 の 種 類 に 関 係 なく 長 母 音 は 短 母 音 よりも 長 く その 差 は 統 計 的 に 有 意 であった 次 に Werker et al.(2007)に 従 って 母 音 のカテゴリーが 従 属 因 子 母 音 長 が 独 立 因 子 そ して 話 者 がランダム 効 果 とするロジスティック 回 帰 分 析 を 行 った 母 音 の 持 続 時 間 長 に 基 づいて 母 音 のカテゴリー( 短 母 音 vs. 長 母 音 )を 予 想 するモデルは 有 意 であった 22 名 それぞれの 話 者 においても 同 じような 結 果 が 得 られた このように 大 量 の 母 音 を 含 む 自 然 発 話 の 収 録 においても Werker et al. (2007)と 同 様 に 日 本 語 の 長 短 母 音 の 長 さには 確 かな 差 があることが 確 認 された 図 9 長 短 母 音 の 持 続 時 間 長 : 被 験 者 間 平 均 および 標 準 偏 差 出 現 頻 度 分 布 特 性 の 分 析 次 に 単 純 な 出 現 頻 度 分 布 モデルによって 日 本 語 における 音 韻 的 な 長 さの 習 得 を 説 明 す ることが 可 能 なのかどうかを 探 るために 対 乳 児 発 話 データにおける 母 音 の 頻 度 分 布 を 分 析 した( 図 10) その 結 果 コーパスに 現 れている 母 音 のほとんどが 短 母 音 であること( 全 体 の 94%) そしてそれぞれの 母 音 について 入 力 音 声 における 長 短 母 音 の 分 布 が 完 全 に 重 複 していることが 分 かった 22 名 それぞれの 話 者 においても 同 様 の 結 果 が 確 認 された 図 10 長 短 母 音 の 出 現 頻 度 分 布 つまり 実 際 の 日 本 語 の 入 力 音 声 では ほとんどの 母 音 が 短 母 音 であり もともとの 出 現 頻 度 の 偏 りがあるため 長 短 母 音 を 合 わせた 母 音 長 の 出 現 頻 度 分 布 は 音 韻 カテゴリー 習 得 モデルが 前 提 としたような 双 峰 性 ではなく 単 峰 性 であることが 確 認 された 4.4 長 短 母 音 の 分 析 に 関 するまとめ 390

<4D F736F F D208ED089EF95DB8CAF89C193FC8FF38BB CC8EC091D492B28DB88C8B89CA82C982C282A282C42E646F63>

<4D F736F F D208ED089EF95DB8CAF89C193FC8FF38BB CC8EC091D492B28DB88C8B89CA82C982C282A282C42E646F63> 社 会 保 険 加 入 状 況 等 の 実 態 調 査 結 果 平 成 27 年 6 月 18 日 一 般 社 団 法 人 日 本 電 設 工 業 協 会 社 会 保 険 加 入 状 況 等 の 実 態 調 査 結 果 について 1. 調 査 の 目 的 社 会 保 険 加 入 促 進 計 画 の 計 画 期 間 (H24 年 度 ~H28 年 度 までの5 年 間 )の 中 間 時 点 として 1

More information

Ⅰ 調 査 の 概 要 1 目 的 義 務 教 育 の 機 会 均 等 その 水 準 の 維 持 向 上 の 観 点 から 的 な 児 童 生 徒 の 学 力 や 学 習 状 況 を 把 握 分 析 し 教 育 施 策 の 成 果 課 題 を 検 証 し その 改 善 を 図 るもに 学 校 におけ

Ⅰ 調 査 の 概 要 1 目 的 義 務 教 育 の 機 会 均 等 その 水 準 の 維 持 向 上 の 観 点 から 的 な 児 童 生 徒 の 学 力 や 学 習 状 況 を 把 握 分 析 し 教 育 施 策 の 成 果 課 題 を 検 証 し その 改 善 を 図 るもに 学 校 におけ Ⅰ 調 査 の 概 要 Ⅱ 札 幌 の 子 どもの 学 力 学 習 意 欲 等 について Ⅲ 学 力 調 査 の 結 果 概 要 及 び 改 善 の 方 向 等 について Ⅰ 調 査 の 概 要 1 目 的 義 務 教 育 の 機 会 均 等 その 水 準 の 維 持 向 上 の 観 点 から 的 な 児 童 生 徒 の 学 力 や 学 習 状 況 を 把 握 分 析 し 教 育 施 策 の 成 果

More information

為 が 行 われるおそれがある 場 合 に 都 道 府 県 公 安 委 員 会 がその 指 定 暴 力 団 等 を 特 定 抗 争 指 定 暴 力 団 等 として 指 定 し その 所 属 する 指 定 暴 力 団 員 が 警 戒 区 域 内 において 暴 力 団 の 事 務 所 を 新 たに 設

為 が 行 われるおそれがある 場 合 に 都 道 府 県 公 安 委 員 会 がその 指 定 暴 力 団 等 を 特 定 抗 争 指 定 暴 力 団 等 として 指 定 し その 所 属 する 指 定 暴 力 団 員 が 警 戒 区 域 内 において 暴 力 団 の 事 務 所 を 新 たに 設 暴 力 団 員 による 不 当 な 行 為 の 防 止 等 に 関 する 法 律 の 一 部 を 改 正 する 法 律 暴 力 団 員 による 不 当 な 行 為 の 防 止 等 に 関 する 法 律 例 規 整 備 * 暴 力 団 員 による 不 当 な 行 為 の 防 止 等 に 関 する 法 律 の 一 部 を 改 正 する 法 律 例 規 整 備 公 布 年 月 日 番 号 平 成 24 年

More information

2 役 員 の 報 酬 等 の 支 給 状 況 平 成 27 年 度 年 間 報 酬 等 の 総 額 就 任 退 任 の 状 況 役 名 報 酬 ( 給 与 ) 賞 与 その 他 ( 内 容 ) 就 任 退 任 2,142 ( 地 域 手 当 ) 17,205 11,580 3,311 4 月 1

2 役 員 の 報 酬 等 の 支 給 状 況 平 成 27 年 度 年 間 報 酬 等 の 総 額 就 任 退 任 の 状 況 役 名 報 酬 ( 給 与 ) 賞 与 その 他 ( 内 容 ) 就 任 退 任 2,142 ( 地 域 手 当 ) 17,205 11,580 3,311 4 月 1 独 立 行 政 法 人 統 計 センター( 法 人 番 号 7011105002089)の 役 職 員 の 報 酬 給 与 等 について Ⅰ 役 員 報 酬 等 について 1 役 員 報 酬 についての 基 本 方 針 に 関 する 事 項 1 役 員 報 酬 の 支 給 水 準 の 設 定 についての 考 え 方 独 立 行 政 法 人 通 則 法 第 52 条 第 3 項 の 規 定 に 基 づき

More information

<5461726F2D8179835A8362836794C5817A313230333039817988C495B6817A>

<5461726F2D8179835A8362836794C5817A313230333039817988C495B6817A> - 1 - 省 百 七 旅 客 部 改 省 令 平 成 省 令 伴 並 平 成 省 令 並 ま づ 並 令 づ く 領 平 成 月 大 臣 前 田 武 志 づ く 領 語 お 使 語 監 督 針 平 成 省 千 百 お 使 語 - 2 - 務 名 簿 款 寄 附 為 登 記 証 明 組 織 図 保 制 証 機 器 機 器 設 設 備 記 載 決 算 報 足 経 的 礎 証 績 分 証 程 七 イ 概

More information

平成25年度 独立行政法人日本学生支援機構の役職員の報酬・給与等について

平成25年度 独立行政法人日本学生支援機構の役職員の報酬・給与等について 平 成 25 年 度 独 立 行 政 法 日 本 学 生 支 援 機 構 の 役 職 員 の 報 酬 給 与 等 について Ⅰ 役 員 報 酬 等 について 1 役 員 報 酬 についての 基 本 方 針 に 関 する 事 項 1 平 成 25 年 度 における 役 員 報 酬 についての 業 績 反 映 のさせ 方 日 本 学 生 支 援 機 構 は 奨 学 金 貸 与 事 業 留 学 生 支 援

More information

Microsoft PowerPoint - 報告書(概要).ppt

Microsoft PowerPoint - 報告書(概要).ppt 市 町 村 における 地 方 公 務 員 制 度 改 革 に 係 る 論 点 と 意 見 について ( 概 要 ) 神 奈 川 県 市 町 村 における 地 方 公 務 員 制 度 改 革 に 係 る 検 討 会 議 について 1 テーマ 地 方 公 務 員 制 度 改 革 ( 総 務 省 地 方 公 務 員 の 労 使 関 係 制 度 に 係 る 基 本 的 な 考 え 方 )の 課 題 の 整

More information

検 討 検 討 の 進 め 方 検 討 状 況 簡 易 収 支 の 世 帯 からサンプリング 世 帯 名 作 成 事 務 の 廃 止 4 5 必 要 な 世 帯 数 の 確 保 が 可 能 か 簡 易 収 支 を 実 施 している 民 間 事 業 者 との 連 絡 等 に 伴 う 事 務 の 複 雑

検 討 検 討 の 進 め 方 検 討 状 況 簡 易 収 支 の 世 帯 からサンプリング 世 帯 名 作 成 事 務 の 廃 止 4 5 必 要 な 世 帯 数 の 確 保 が 可 能 か 簡 易 収 支 を 実 施 している 民 間 事 業 者 との 連 絡 等 に 伴 う 事 務 の 複 雑 等 の 当 初 見 直 し 案 の 検 討 状 況 について 資 料 1-1 項 目 名 検 討 検 討 の 進 め 方 検 討 状 況 都 道 府 県 担 当 者 との 意 見 交 換 では 結 果 精 度 の 低 下 に 伴 い 結 果 が 活 用 されなくなった 場 合 の 員 のモチベーション 低 下 の 可 能 性 や 員 の 配 置 換 え 等 についての 考 慮 が 必 要 との 意

More information

<6D313588EF8FE991E58A778D9191E5834B C8EAE DC58F4992F18F6F816A F990B32E786C73>

<6D313588EF8FE991E58A778D9191E5834B C8EAE DC58F4992F18F6F816A F990B32E786C73> 国 立 大 学 法 人 茨 城 大 学 の 役 職 員 の 報 酬 給 与 等 について Ⅰ 役 員 報 酬 等 について 1 役 員 報 酬 についての 基 本 方 針 に 関 する 事 項 1 平 成 24 年 度 における 役 員 報 酬 についての 業 績 反 映 のさせ 方 役 員 に 支 給 される 給 与 のうち 期 末 特 別 手 当 については 国 立 大 学 評 価 委 員 会

More information

m07 北見工業大学 様式①

m07 北見工業大学 様式① 国 立 大 学 法 人 北 見 工 業 大 学 ( 法 人 番 号 6460305000387)の 役 職 員 の 報 酬 給 与 等 について Ⅰ 役 員 報 酬 等 について 1 役 員 報 酬 についての 基 本 方 針 に 関 する 事 項 1 役 員 報 酬 の 支 給 水 準 の 設 定 についての 考 え 方 当 該 法 人 の 主 要 事 業 は 教 育 研 究 事 業 である 役

More information

1 平 成 27 年 度 土 地 評 価 の 概 要 について 1 固 定 資 産 税 の 評 価 替 えとは 地 価 等 の 変 動 に 伴 う 固 定 資 産 の 資 産 価 値 の 変 動 に 応 じ その 価 格 を 適 正 で 均 衡 のとれたものに 見 直 す 制 度 である 3 年 ご

1 平 成 27 年 度 土 地 評 価 の 概 要 について 1 固 定 資 産 税 の 評 価 替 えとは 地 価 等 の 変 動 に 伴 う 固 定 資 産 の 資 産 価 値 の 変 動 に 応 じ その 価 格 を 適 正 で 均 衡 のとれたものに 見 直 す 制 度 である 3 年 ご 平 成 27 年 度 固 定 資 産 ( 土 地 ) 評 価 替 えについて - 県 内 市 町 の 基 準 宅 地 の 評 価 額 - 市 町 名 区 分 所 在 地 ( 参 考 ) 27 年 度 27 年 度 24 年 度 修 正 率 評 価 額 評 価 額 評 価 額 変 動 率 H26.1.1~ H26.1.1 基 準 H26.7.1 修 正 H23.7.1 修 正 B/C-1 H26.7.1

More information

2 役 員 の 報 酬 等 の 支 給 状 況 役 名 法 人 の 長 理 事 理 事 ( 非 常 勤 ) 平 成 25 年 度 年 間 報 酬 等 の 総 額 就 任 退 任 の 状 況 報 酬 ( 給 与 ) 賞 与 その 他 ( 内 容 ) 就 任 退 任 16,936 10,654 4,36

2 役 員 の 報 酬 等 の 支 給 状 況 役 名 法 人 の 長 理 事 理 事 ( 非 常 勤 ) 平 成 25 年 度 年 間 報 酬 等 の 総 額 就 任 退 任 の 状 況 報 酬 ( 給 与 ) 賞 与 その 他 ( 内 容 ) 就 任 退 任 16,936 10,654 4,36 独 立 行 政 法 人 駐 留 軍 等 労 働 者 労 務 管 理 機 構 の 役 職 員 の 報 酬 給 与 等 について Ⅰ 役 員 報 酬 等 について 1 役 員 報 酬 についての 基 本 方 針 に 関 する 事 項 1 平 成 25 年 度 における 役 員 報 酬 についての 業 績 反 映 のさせ 方 検 証 結 果 理 事 長 は 今 中 期 計 画 に 掲 げた 新 たな 要

More information

1

1 精 華 町 個 人 情 報 保 護 条 例 改 正 に 向 けての 考 え 方 ( 案 ) 平 成 27 年 4 月 精 華 町 0 1 目 次 1 個 人 情 報 保 護 に 関 する 法 体 系 と 番 号 法 における 特 定 個 人 情 報 の 保 護 措 置... 1 2 番 号 法 と 精 華 町 個 人 情 報 保 護 条 例 における 個 人 情 報 の 定 義 上 の 差 異...

More information

 

  障 害 者 政 策 委 員 会 第 2 小 委 員 会 ( 第 3 回 ) 資 料 一 覧 資 料 1-1 論 点 4 15 24 条 所 得 保 障 等 ( 年 金, 諸 手 当, 経 済 的 負 担 の 軽 減 等 )について に 関 する 厚 生 労 働 省 資 料 1 資 料 1-2 論 点 4 15 24 条 所 得 保 障 等 ( 年 金, 諸 手 当, 経 済 的 負 担 の 軽 減

More information

<31352095DB8CAF97BF97A6955C2E786C73>

<31352095DB8CAF97BF97A6955C2E786C73> 標 準 報 酬 月 額 等 級 表 ( 厚 生 年 金 ) 標 準 報 酬 報 酬 月 額 厚 生 年 金 保 険 料 厚 生 年 金 保 険 料 率 14.642% ( 平 成 18 年 9 月 ~ 平 成 19 年 8 月 ) 等 級 月 額 全 額 ( 円 ) 折 半 額 ( 円 ) 円 以 上 円 未 満 1 98,000 ~ 101,000 14,349.16 7,174.58 2 104,000

More information

質 問 票 ( 様 式 3) 質 問 番 号 62-1 質 問 内 容 鑑 定 評 価 依 頼 先 は 千 葉 県 などは 入 札 制 度 にしているが 神 奈 川 県 は 入 札 なのか?または 随 契 なのか?その 理 由 は? 地 価 調 査 業 務 は 単 にそれぞれの 地 点 の 鑑 定

質 問 票 ( 様 式 3) 質 問 番 号 62-1 質 問 内 容 鑑 定 評 価 依 頼 先 は 千 葉 県 などは 入 札 制 度 にしているが 神 奈 川 県 は 入 札 なのか?または 随 契 なのか?その 理 由 は? 地 価 調 査 業 務 は 単 にそれぞれの 地 点 の 鑑 定 62 (Q&A) 目 次 1 鑑 定 評 価 の 委 託 は 入 札 か 随 意 契 約 か またその 理 由 は 何 か 2 委 託 料 は 他 県 と 比 べて 妥 当 性 のある 金 額 か 3 地 価 公 示 ( 国 の 調 査 )との 違 いは 何 か また 国 の 調 査 結 果 はどう 活 用 しているか 4 路 線 価 を 利 用 しない 理 由 は 何 か 5 委 託 料 の 算

More information

2. ど の 様 な 経 緯 で 発 覚 し た の か ま た 遡 っ た の を 昨 年 4 月 ま で と し た の は 何 故 か 明 ら か に す る こ と 回 答 3 月 17 日 に 実 施 し た ダ イ ヤ 改 正 で 静 岡 車 両 区 の 構 内 運 転 が 静 岡 運

2. ど の 様 な 経 緯 で 発 覚 し た の か ま た 遡 っ た の を 昨 年 4 月 ま で と し た の は 何 故 か 明 ら か に す る こ と 回 答 3 月 17 日 に 実 施 し た ダ イ ヤ 改 正 で 静 岡 車 両 区 の 構 内 運 転 が 静 岡 運 地 本 業 務 ニ ュ ー ス J R 東 海 労 静 岡 地 方 本 部 NO.1 8 2 0 1 2 年 6 月 1 9 日 発 行 者 : JR 東 海 労 静 岡 地 方 本 部 山 本 繁 明 申 6 号 に 関 する 幹 事 間 折 衝 を 開 催!! 6 月 15 日 地 本 は 静 岡 車 両 区 に お け る 構 内 運 転 士 に 対 す る 誤 支 給 及 び 戻 入 に つ

More information

答申第585号

答申第585号 別 紙 諮 問 第 722 号 答 申 1 審 査 会 の 結 論 平 成 23 年 月 日 区 営 業 所 で 起 きた 物 損 事 故 に 関 する 全 ての 内 容 の 文 書 の 開 示 請 求 に 対 し 終 業 点 呼 記 録 簿 ほか7 件 を 対 象 公 文 書 として 特 定 し 一 部 開 示 と した 決 定 は 妥 当 である 2 審 査 請 求 の 内 容 (1) 審 査

More information

公表表紙

公表表紙 国 立 大 学 法 人 山 梨 大 学 の 役 の 報 酬 給 与 等 について 国 立 大 学 法 人 等 の 役 員 の 報 酬 等 及 び の 給 与 の 水 準 の 公 表 方 法 等 について(ガイドライン) ( 平 成 17 年 2 月 7 日, 総 務 大 臣 策 定 )に 基 づく 公 表 平 成 26 年 9 月 国 立 大 学 法 人 山 梨 大 学 国 立 大 学 法 人 山

More information

続 に 基 づく 一 般 競 争 ( 指 名 競 争 ) 参 加 資 格 の 再 認 定 を 受 けていること ) c) 会 社 更 生 法 に 基 づき 更 生 手 続 開 始 の 申 立 てがなされている 者 又 は 民 事 再 生 法 に 基 づき 再 生 手 続 開 始 の 申 立 てがなさ

続 に 基 づく 一 般 競 争 ( 指 名 競 争 ) 参 加 資 格 の 再 認 定 を 受 けていること ) c) 会 社 更 生 法 に 基 づき 更 生 手 続 開 始 の 申 立 てがなされている 者 又 は 民 事 再 生 法 に 基 づき 再 生 手 続 開 始 の 申 立 てがなさ 簡 易 公 募 型 競 争 入 札 方 式 ( 総 合 評 価 落 札 方 式 )に 係 る 手 続 開 始 の 公 示 次 のとおり 指 名 競 争 入 札 参 加 者 の 選 定 の 手 続 を 開 始 します 平 成 28 年 9 月 20 日 分 任 支 出 負 担 行 為 担 当 官 東 北 地 方 整 備 局 秋 田 河 川 国 道 事 務 所 長 渡 邊 政 義 1. 業 務 概 要

More information

耐 震 診 断 受 付 期 間 4 月 16 日 ( 月 )~1 月 31 日 ( 木 ) 予 定 戸 数 100 戸 1 補 助 の 条 件 次 のすべての 要 件 に 該 当 すること (1) 市 民 自 らが 所 有 し 居 住 していること (2) 昭 和 56 年 5 月 31 日 以 前

耐 震 診 断 受 付 期 間 4 月 16 日 ( 月 )~1 月 31 日 ( 木 ) 予 定 戸 数 100 戸 1 補 助 の 条 件 次 のすべての 要 件 に 該 当 すること (1) 市 民 自 らが 所 有 し 居 住 していること (2) 昭 和 56 年 5 月 31 日 以 前 平 成 24 年 度 地 震 に 備 えて 補 強 し 住 み 慣 れた 家 に 住 み 続 けよう 旧 耐 震 基 準 ( 昭 和 56 年 5 月 31 日 以 前 )によって 建 設 された 木 造 住 宅 の 耐 震 診 断 費 耐 震 改 修 費 の 一 部 を 補 助 します 必 ず 事 前 に 申 請 してください 事 前 に 着 手 した 場 合 には 補 助 対 象 になりませんのでご

More information

16 日本学生支援機構

16 日本学生支援機構 様 式 1 公 表 されるべき 事 項 独 立 行 政 法 人 日 本 学 生 支 援 機 構 ( 法 人 番 号 7020005004962)の 役 職 員 の 報 酬 給 与 等 について Ⅰ 役 員 報 酬 等 について 1 役 員 報 酬 についての 基 本 方 針 に 関 する 事 項 1 役 員 報 酬 の 支 給 水 準 の 設 定 についての 考 え 方 日 本 学 生 支 援 機

More information

1 総 合 設 計 一 定 規 模 以 上 の 敷 地 面 積 及 び 一 定 割 合 以 上 の 空 地 を 有 する 建 築 計 画 について 特 定 行 政 庁 の 許 可 により 容 積 率 斜 線 制 限 などの 制 限 を 緩 和 する 制 度 である 建 築 敷 地 の 共 同 化 や

1 総 合 設 計 一 定 規 模 以 上 の 敷 地 面 積 及 び 一 定 割 合 以 上 の 空 地 を 有 する 建 築 計 画 について 特 定 行 政 庁 の 許 可 により 容 積 率 斜 線 制 限 などの 制 限 を 緩 和 する 制 度 である 建 築 敷 地 の 共 同 化 や 参 考 資 料 1-17 民 間 都 市 整 備 事 業 建 築 計 画 に 関 わる 関 連 制 度 の 整 理 都 市 開 発 諸 制 度 には 公 開 空 地 の 確 保 など 公 共 的 な 貢 献 を 行 う 建 築 計 画 に 対 して 容 積 率 や 斜 線 制 限 などの 建 築 基 準 法 に 定 める 形 態 規 制 を 緩 和 することにより 市 街 地 環 境 の 向 上 に

More information

<6D33335F976C8EAE825081698CF6955C9770816A2E786C73>

<6D33335F976C8EAE825081698CF6955C9770816A2E786C73> 国 立 大 学 法 人 新 潟 大 学 の 役 職 員 の 報 酬 給 与 等 について Ⅰ 役 員 報 酬 等 について 1 役 員 報 酬 についての 基 本 方 針 に 関 する 事 項 1 平 成 18 年 度 における 役 員 報 酬 についての 業 績 反 映 のさせ 方 本 学 が 定 める 役 員 に 支 給 する 期 末 特 別 手 当 (ボーナス)において, 役 員 の 本 給

More information

Microsoft Word - 【溶け込み】【修正】第2章~第4章

Microsoft Word - 【溶け込み】【修正】第2章~第4章 第 4 章 金 要 件 と 金 額 1 ( 高 齢 になった 場 合 に 受 け 取 れる 金 ) 要 件 1 受 資 格 期 間 保 険 料 納 付 済 期 間 と 保 険 料 免 除 期 間 を 合 わせて25 以 上 あること (ただし 金 額 には 反 映 されないが 受 資 格 期 間 には 算 入 される 合 算 対 象 期 間 があります) 消 費 税 が 引 き 上 げられる 27

More information

(Microsoft Word - \221\346\202P\202U\201@\214i\212\317.doc)

(Microsoft Word - \221\346\202P\202U\201@\214i\212\317.doc) (1) 1 ア 調 査 すべき の 手 法 情 報 できる 主 要 な 眺 望 地 点 及 び 主 要 で 身 近 な 視 点 の 状 況 な 実 視 施 点 地 ( 区 点 不 域 のうち 特 周 定 辺 の 多 主 数 の 要 な なものをいう 人 々 眺 望 又 地 は 点 周 ( 辺 の 不 以 住 特 下 民 定 が 同 多 じ ) 数 の する 人 及 々が 場 び 所 対 利 で 象

More information

●幼児教育振興法案

●幼児教育振興法案 第 一 九 〇 回 衆 第 五 〇 号 幼 児 教 育 振 興 法 案 目 次 前 文 第 一 章 総 則 ( 第 一 条 - 第 八 条 ) 第 二 章 幼 児 教 育 振 興 基 本 方 針 等 ( 第 九 条 第 十 条 ) 第 三 章 基 本 的 施 策 ( 第 十 一 条 - 第 十 七 条 ) 附 則 幼 児 期 において 人 は その 保 護 者 や 周 囲 の 大 人 との 愛 情

More information

<8BB388F58F5A91EE82A082E895FB8AEE967B95FB906A>

<8BB388F58F5A91EE82A082E895FB8AEE967B95FB906A> 恵 庭 市 教 員 住 宅 のあり 方 基 本 方 針 平 成 25 年 2 月 恵 庭 市 教 育 委 員 会 目 次 1. 教 員 住 宅 の 現 状 (1) 教 員 住 宅 の 役 割 1 (2) 教 員 住 宅 の 実 態 1 (3) 環 境 の 変 化 1 (4) 教 員 の 住 宅 事 情 1 2 2. 基 本 方 針 の 目 的 2 3.あり 方 検 討 会 議 の 答 申 内 容

More information

第4回税制調査会 総4-1

第4回税制調査会 総4-1 平 成 25 年 12 月 国 際 課 税 原 則 の 総 合 主 義 から 帰 属 主 義 への 見 直 し 税 制 調 査 会 国 際 課 税 ディスカッショングループ 国 際 課 税 原 則 の 総 合 主 義 から 帰 属 主 義 への 見 直 し 1. 見 直 しの 背 景 意 義 外 国 法 人 及 び 非 居 住 者 ( 以 下 外 国 法 人 等 という )に 対 する 課 税 原

More information

国立研究開発法人土木研究所の役職員の報酬・給与等について

国立研究開発法人土木研究所の役職員の報酬・給与等について 様 式 1 公 表 されるべき 事 項 国 立 研 究 開 発 法 人 土 木 研 究 所 の 役 職 員 の 報 酬 給 与 等 について 別 添 Ⅰ 役 員 報 酬 等 について 1 役 員 報 酬 についての 基 本 方 針 に 関 する 事 項 1 役 員 報 酬 の 支 給 水 準 の 設 定 についての 考 え 方 当 研 究 所 は 土 木 技 術 に 関 する 研 究 開 発 技 術

More information

国 家 公 務 員 の 年 金 払 い 退 職 給 付 の 創 設 について 検 討 を 進 めるものとする 平 成 19 年 法 案 をベースに 一 元 化 の 具 体 的 内 容 について 検 討 する 関 係 省 庁 間 で 調 整 の 上 平 成 24 年 通 常 国 会 への 法 案 提

国 家 公 務 員 の 年 金 払 い 退 職 給 付 の 創 設 について 検 討 を 進 めるものとする 平 成 19 年 法 案 をベースに 一 元 化 の 具 体 的 内 容 について 検 討 する 関 係 省 庁 間 で 調 整 の 上 平 成 24 年 通 常 国 会 への 法 案 提 国 家 公 務 員 の 年 金 払 い 退 職 給 付 の 創 設 について 財 務 省 主 計 局 給 与 共 済 課 長 調 査 主 任 土 谷 晃 浩 加 塩 雄 斗 1.はじめに ( 以 下 19 年 一 元 化 法 案 という )において 厚 退 職 給 付 ( 退 職 金 + 年 金 ( 事 業 主 分 ))の 官 民 均 衡 を 図 る 観 点 から 国 家 公 務 員 の 退 職 手

More information

12 大 都 市 の 人 口 と 従 業 者 数 12 大 都 市 は 全 国 の 人 口 の 約 2 割 従 業 者 数 の 約 3 割 を 占 める 12 大 都 市 の 事 業 所 数 従 業 者 数 及 び 人 口 は 表 1 のとおりです これらの 12 大 都 市 を 合 わせると 全

12 大 都 市 の 人 口 と 従 業 者 数 12 大 都 市 は 全 国 の 人 口 の 約 2 割 従 業 者 数 の 約 3 割 を 占 める 12 大 都 市 の 事 業 所 数 従 業 者 数 及 び 人 口 は 表 1 のとおりです これらの 12 大 都 市 を 合 わせると 全 はははは 平 成 25 年 12 月 3 日 平 成 26 年 2 月 26 日 改 訂 統 計 トピックスNo.75 経 済 センサスでみる12 大 都 市 の 産 業 特 性 と 主 要 産 業 - 平 成 24 年 経 済 センサス 活 動 調 査 の 分 析 事 例 2 地 域 分 析 - 経 済 センサスは 我 が 国 の 事 業 所 及 び 企 業 の 経 済 活 動 の 状 態 を 全

More information

入 札 参 加 者 は 入 札 の 執 行 完 了 に 至 るまではいつでも 入 札 を 辞 退 することができ これを 理 由 として 以 降 の 指 名 等 において 不 利 益 な 取 扱 いを 受 けることはない 12 入 札 保 証 金 免 除 13 契 約 保 証 金 免 除 14 入

入 札 参 加 者 は 入 札 の 執 行 完 了 に 至 るまではいつでも 入 札 を 辞 退 することができ これを 理 由 として 以 降 の 指 名 等 において 不 利 益 な 取 扱 いを 受 けることはない 12 入 札 保 証 金 免 除 13 契 約 保 証 金 免 除 14 入 入 札 公 告 次 のとおり 一 般 競 争 入 札 に 付 します なお 本 業 務 の 契 約 締 結 は 当 該 業 務 に 係 る 平 成 27 年 度 予 算 の 執 行 が 可 能 となってい ることを 条 件 とします 平 成 27 年 2 月 17 日 独 立 行 政 法 人 鉄 道 建 設 運 輸 施 設 整 備 支 援 機 構 契 約 担 当 役 鉄 道 建 設 本 部 九 州

More information

<4D6963726F736F667420576F7264202D203032208E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A76905682C98AD682B782E993C195CA915B9275964082C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

<4D6963726F736F667420576F7264202D203032208E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A76905682C98AD682B782E993C195CA915B9275964082C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6 様 式 租 税 特 別 措 置 等 に 係 る 政 策 の 事 前 評 価 書 1 政 策 評 価 の 対 象 とした 産 業 活 力 の 再 生 及 び 産 業 活 動 の 革 新 に 関 する 特 別 措 置 法 に 基 づく 登 録 免 租 税 特 別 措 置 等 の 名 称 許 税 の 特 例 措 置 の 延 長 ( 国 税 32)( 登 録 免 許 税 : 外 ) 2 要 望 の 内 容

More information

3. 選 任 固 定 資 産 評 価 員 は 固 定 資 産 の 評 価 に 関 する 知 識 及 び 経 験 を 有 する 者 のうちから 市 町 村 長 が 当 該 市 町 村 の 議 会 の 同 意 を 得 て 選 任 する 二 以 上 の 市 町 村 の 長 は 当 該 市 町 村 の 議

3. 選 任 固 定 資 産 評 価 員 は 固 定 資 産 の 評 価 に 関 する 知 識 及 び 経 験 を 有 する 者 のうちから 市 町 村 長 が 当 該 市 町 村 の 議 会 の 同 意 を 得 て 選 任 する 二 以 上 の 市 町 村 の 長 は 当 該 市 町 村 の 議 第 6 回 税 理 士 試 験 固 定 資 産 税 はじめに 第 一 問 については 個 別 理 論 題 の 出 題 であった 1については 固 定 資 産 評 価 員 及 び 固 定 資 産 評 価 補 助 員 に 関 する 出 題 であったが 個 別 理 論 での 出 題 であり 判 断 に 迷 う 点 もなく 高 得 点 を 取 ることが 可 能 な 問 題 であった については 区 分 所

More information

(4) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 国 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている.

(4) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 国 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている. 別 紙 高 山 村 の 給 与 定 員 管 理 等 について 総 括 () 件 費 の 状 況 ( 普 通 会 計 決 算 ) 住 民 基 本 台 帳 口 歳 出 額 実 質 収 支 件 費 件 費 率 ( 参 考 ) (26 年 月 日 ) A B B/A 24 年 度 の 件 費 率 年 度 千 千 千 2,9 2,64,628 6,8 467,928 8. 2.4 (2) 職 員 給 与 費

More information

(5) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 概 要 国 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている 総 合 的

(5) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 概 要 国 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている 総 合 的 矢 掛 町 の 給 与 定 員 管 理 等 について 総 括 () 件 費 の 状 況 ( 普 通 会 計 決 算 ) 区 分 住 民 基 本 台 帳 口 歳 出 額 実 質 収 支 件 費 件 費 率 ( 参 考 ) (25 年 度 末 ) A B B/A 24 年 度 の 件 費 率 25 年 度 5,055 千 7,78,45 千 48,9 千 877,259.3 2.8 (2) 職 員 給

More information

0605調査用紙(公民)

0605調査用紙(公民) 社 会 公 民 番 号 2 略 称 東 京 書 籍 書 名 新 編 新 し 公 民 1 基 礎 基 本 確 実 な 定 着 を 図 るため を 促 すため や 個 応 じた 3 単 元 ( 単 元 設 定 4 各 年 ( び や 考 え 展 開 5 特 徴 的 な 単 元 おけ る 課 題 関 わり 等 ア 1 単 位 時 間 ( 見 開 き 2 頁 ) 毎 課 題 を 設 定 し 課 題 関 連

More information

03 平成28年度文部科学省税制改正要望事項

03 平成28年度文部科学省税制改正要望事項 平 成 28 年 度 文 部 科 学 省 税 制 改 正 要 望 事 項 平 成 27 年 8 月 28 日 H27 税 制 改 正 要 望 事 項 1. 寄 附 税 制 の 拡 充 (1) 国 立 大 学 法 人 等 への 個 人 寄 附 に 係 る 税 額 控 除 の 導 入 等 所 得 税 等 新 設 (2) 学 校 法 人 への 個 人 寄 附 に 係 る 所 得 控 除 上 限 額 の 引

More information

3 独 占 禁 止 法 違 反 事 件 の 概 要 (1) 価 格 カルテル 山 形 県 の 庄 内 地 区 に 所 在 する5 農 協 が, 特 定 主 食 用 米 の 販 売 手 数 料 について, 平 成 23 年 1 月 13 日 に 山 形 県 酒 田 市 所 在 の 全 国 農 業 協

3 独 占 禁 止 法 違 反 事 件 の 概 要 (1) 価 格 カルテル 山 形 県 の 庄 内 地 区 に 所 在 する5 農 協 が, 特 定 主 食 用 米 の 販 売 手 数 料 について, 平 成 23 年 1 月 13 日 に 山 形 県 酒 田 市 所 在 の 全 国 農 業 協 平 成 26 年 度 における 東 北 地 区 の 独 占 禁 止 法 の 運 用 状 況 等 について 平 成 27 年 6 月 10 日 公 正 取 引 委 員 会 事 務 総 局 東 北 事 務 所 第 1 独 占 禁 止 法 違 反 事 件 の 処 理 状 況 1 公 正 取 引 委 員 会 は, 迅 速 かつ 実 効 性 のある 事 件 審 査 を 行 うとの 基 本 方 針 の 下, 国

More information

- 1 - 総 控 負 傷 疾 病 療 養 産 産 女 性 責 帰 べ 由 試 ~ 8 契 約 契 約 完 了 ほ 契 約 超 締 結 専 門 的 知 識 技 術 験 専 門 的 知 識 高 大 臣 専 門 的 知 識 高 専 門 的 知 識 締 結 契 約 満 歳 締 結 契 約 契 約 係 始

- 1 - 総 控 負 傷 疾 病 療 養 産 産 女 性 責 帰 べ 由 試 ~ 8 契 約 契 約 完 了 ほ 契 約 超 締 結 専 門 的 知 識 技 術 験 専 門 的 知 識 高 大 臣 専 門 的 知 識 高 専 門 的 知 識 締 結 契 約 満 歳 締 結 契 約 契 約 係 始 部 案 参 照 文 目 1 1 持 可 能 療 険 制 構 築 国 民 険 部 9 部 11 1 5 特 別 15 6 17 7 運 確 18 8 0 9 独 立 10 - 1 - 総 控 負 傷 疾 病 療 養 産 産 女 性 責 帰 べ 由 試 ~ 8 契 約 契 約 完 了 ほ 契 約 超 締 結 専 門 的 知 識 技 術 験 専 門 的 知 識 高 大 臣 専 門 的 知 識 高 専 門

More information

2 一 般 行 政 職 給 料 表 の 状 況 ( 平 成 24 年 4 月 1 日 現 在 ) 1 級 2 級 3 級 4 級 5 級 ( 単 位 : ) 6 級 7 級 8 級 1 号 給 の 給 料 月 額 135,6 185,8 222,9 261,9 289,2 32,6 366,2 41

2 一 般 行 政 職 給 料 表 の 状 況 ( 平 成 24 年 4 月 1 日 現 在 ) 1 級 2 級 3 級 4 級 5 級 ( 単 位 : ) 6 級 7 級 8 級 1 号 給 の 給 料 月 額 135,6 185,8 222,9 261,9 289,2 32,6 366,2 41 の 給 与 定 員 管 理 等 について 1 総 括 (1) 件 費 の 状 況 ( 普 通 会 計 決 算 ) 住 民 基 本 台 帳 口 歳 出 額 実 質 収 支 件 費 件 費 率 ( 参 考 ) (23 年 度 末 ) A B B/A 22 年 度 の 件 費 率 23 年 度 93,8 33,985,381 9,329 5,769,881 17. 17.8 (2) 職 員 給 与 費 の

More information

( 別 紙 ) 以 下 法 とあるのは 改 正 法 第 5 条 の 規 定 による 改 正 後 の 健 康 保 険 法 を 指 す ( 施 行 期 日 は 平 成 28 年 4 月 1 日 ) 1. 標 準 報 酬 月 額 の 等 級 区 分 の 追 加 について 問 1 法 改 正 により 追 加

( 別 紙 ) 以 下 法 とあるのは 改 正 法 第 5 条 の 規 定 による 改 正 後 の 健 康 保 険 法 を 指 す ( 施 行 期 日 は 平 成 28 年 4 月 1 日 ) 1. 標 準 報 酬 月 額 の 等 級 区 分 の 追 加 について 問 1 法 改 正 により 追 加 別 添 事 務 連 絡 平 成 27 年 12 月 18 日 日 本 年 金 機 構 厚 生 年 金 保 険 部 長 殿 厚 生 労 働 省 年 金 局 事 業 管 理 課 長 持 続 可 能 な 医 療 保 険 制 度 を 構 築 するための 国 民 健 康 保 険 法 等 の 一 部 を 改 正 する 法 律 による 健 康 保 険 法 及 び 船 員 保 険 法 改 正 内 容 の 一 部 に

More information

(Microsoft Word - \220\340\226\276\217\221.doc)

(Microsoft Word - \220\340\226\276\217\221.doc) 南 丹 市 建 設 業 新 分 野 進 出 支 援 事 業 補 助 金 申 請 用 紙 記 入 説 明 書 様 式 第 1 号 ( 第 7 条 関 係 )の 記 入 方 法 南 丹 市 長 様 市 長 名 を 記 入 元 号 年 月 日 を 記 入 平 成 年 月 日 申 請 者 情 報 を 記 入 ( 代 表 企 業 ) ( 申 請 者 ) 所 在 地 南 丹 市 園 部 町 小 桜 町 47 番

More information

Taro-08国立大学法人宮崎大学授業

Taro-08国立大学法人宮崎大学授業 国 立 大 学 法 人 宮 崎 大 学 授 業 料 その 他 の 費 用 に 関 する 規 程 平 成 19 年 3 月 30 日 制 定 改 正 平 成 19 年 9 月 10 日 平 成 20 年 3 月 25 日 平 成 21 年 1 月 29 日 平 成 21 年 9 月 3 日 平 成 21 年 11 月 27 日 平 成 23 年 3 月 30 日 ( 趣 旨 ) 第 1 条 この 規

More information

異 議 申 立 人 が 主 張 する 異 議 申 立 ての 理 由 は 異 議 申 立 書 の 記 載 によると おおむね 次 のとおりである 1 処 分 庁 の 名 称 の 非 公 開 について 本 件 審 査 請 求 書 等 について 処 分 庁 を 非 公 開 とする 処 分 は 秋 田 県

異 議 申 立 人 が 主 張 する 異 議 申 立 ての 理 由 は 異 議 申 立 書 の 記 載 によると おおむね 次 のとおりである 1 処 分 庁 の 名 称 の 非 公 開 について 本 件 審 査 請 求 書 等 について 処 分 庁 を 非 公 開 とする 処 分 は 秋 田 県 諮 問 庁 : 秋 田 県 知 事 諮 問 日 : 平 成 19 年 5 月 17 日 ( 諮 問 第 89 号 ) 答 申 日 : 平 成 19 年 11 月 16 日 ( 答 申 第 51 号 ) 事 件 名 : 国 民 健 康 保 険 審 査 会 に 係 る 文 書 の 部 分 公 開 決 定 処 分 に 対 する 異 議 申 立 てに 関 する 件 答 申 第 1 審 査 会 の 結 論 秋

More information

区議会月報 平成19年4-5月

区議会月報 平成19年4-5月 し ぶ や 区 議 月 報 平 成 19 年 4~5 月 499~500 * 目 次 1 4 月 の 議 一 覧 1 2 4 月 の 委 員 活 動 のあらまし 等 (1) 議 運 営 委 員 2 (2) の 議 2 3 5 月 の 議 一 覧 3 4 平 成 19 年 第 1 回 臨 時 のあらまし (1) 概 要 4 (2) 議 決 等 件 数 4 (3) 議 決 等 の 内 容 5 5 5 月

More information

市 の 人 口 密 度 は 5,000 人 を 超 え 図 4 人 口 密 度 ( 単 位 : 人 /k m2) に 次 いで 高 くなっている 0 5,000 10,000 15,000 首 都 圏 に 立 地 する 政 令 指 定 都 市 では 都 内 に 通 勤 通 学 する 人 口 が 多

市 の 人 口 密 度 は 5,000 人 を 超 え 図 4 人 口 密 度 ( 単 位 : 人 /k m2) に 次 いで 高 くなっている 0 5,000 10,000 15,000 首 都 圏 に 立 地 する 政 令 指 定 都 市 では 都 内 に 通 勤 通 学 する 人 口 が 多 政 令 指 定 都 市 市 の 特 徴 ~ 他 都 市 等 との 比 較 と 政 策 の 方 向 性 市 が 政 令 指 定 都 市 となって 4 年 経 過 した 2007( 平 成 19) 年 4 月 に 市 と 市 が 加 わり 政 令 指 定 都 市 は 全 国 で 17 市 となった そこで 改 めて 他 の 政 令 指 定 都 市 と 比 較 分 析 を 実 施 した 図 1 政 令 指

More information

18 国立高等専門学校機構

18 国立高等専門学校機構 様 式 1 公 表 されるべき 事 項 独 立 行 政 法 人 国 立 高 等 専 門 学 校 機 構 の 役 職 員 の 報 酬 給 与 等 について Ⅰ 役 員 報 酬 等 について 1 役 員 報 酬 についての 基 本 方 針 に 関 する 事 項 1 平 成 25 年 度 における 役 員 報 酬 についての 業 績 反 映 のさせ 方 当 機 構 役 員 給 与 規 則 で 文 部 科

More information

職 員 の 平 均 給 与 月 額 初 任 給 等 の 状 況 (1) 職 員 の 平 均 年 齢 平 均 給 料 月 額 及 び 平 均 給 与 月 額 の 状 況 ( 平 成 年 月 1 日 現 在 ) 1 一 般 行 政 職 福 岡 県 技 能 労 務 職 歳 1,19,98 9,9 歳 8,

職 員 の 平 均 給 与 月 額 初 任 給 等 の 状 況 (1) 職 員 の 平 均 年 齢 平 均 給 料 月 額 及 び 平 均 給 与 月 額 の 状 況 ( 平 成 年 月 1 日 現 在 ) 1 一 般 行 政 職 福 岡 県 技 能 労 務 職 歳 1,19,98 9,9 歳 8, 1 総 括 (1) 件 費 の 状 況 ( 普 通 会 計 決 算 ) 住 民 基 本 台 帳 口 の 給 与 定 員 管 理 等 について 歳 出 額 実 質 収 支 件 費 件 費 率 ( 参 考 ) ( 年 度 末 ) A B B/A 年 度 の 件 費 率 年 度,,1,9 1, 9,9 1.1 1. 件 費 には 村 長 副 村 長 教 育 長 の 給 与 議 会 議 員 各 種 委 員

More information

Microsoft Word - A6001A.doc

Microsoft Word - A6001A.doc 第 3 章 障 害 者 の 配 置 転 換 昇 進 の 現 状 と 課 題 ~ 障 害 者 の 雇 用 管 理 との 関 連 から~ 1 障 害 者 のキャリア 形 成 と 企 業 内 異 動 1.1 配 置 転 換 通 常 人 事 管 理 の 世 界 では 職 務 に 従 業 員 を 配 置 することを 配 置 管 理 といい その 中 には 従 業 員 が 企 業 内 で 異 なる 職 務 や

More information

. 負 担 調 整 措 置 8 (1) 宅 地 等 調 整 固 定 資 産 税 額 宅 地 に 係 る 固 定 資 産 税 額 は 当 該 年 度 分 の 固 定 資 産 税 額 が 前 年 度 課 税 標 準 額 又 は 比 準 課 税 標 準 額 に 当 該 年 度 分 の 価 格 ( 住 宅

. 負 担 調 整 措 置 8 (1) 宅 地 等 調 整 固 定 資 産 税 額 宅 地 に 係 る 固 定 資 産 税 額 は 当 該 年 度 分 の 固 定 資 産 税 額 が 前 年 度 課 税 標 準 額 又 は 比 準 課 税 標 準 額 に 当 該 年 度 分 の 価 格 ( 住 宅 035-8900-1095-15 税 15 第 6 5 回 税 理 士 試 験 固 定 資 産 税 はじめに 第 一 問 については 負 担 調 整 措 置 及 び 情 報 開 示 並 びに 不 服 救 済 制 度 からの 出 題 であった 問 1の 負 担 調 整 措 置 については 解 答 しづらい 部 分 はあったが それ 以 外 の 部 分 は 解 答 しやすい 問 題 であ った

More information

<4D F736F F D2095BD90AC E D738FEE816A939A905C91E D862E646F63>

<4D F736F F D2095BD90AC E D738FEE816A939A905C91E D862E646F63> 諮 問 庁 : 国 税 庁 長 官 諮 問 日 : 平 成 2 1 年 6 月 1 8 日 ( 平 成 2 1 年 ( 行 情 ) 諮 問 第 2 9 5 号 ) 答 申 日 : 平 成 2 2 年 2 月 8 日 ( 平 成 2 1 年 度 ( 行 情 ) 答 申 第 5 1 4 号 ) 事 件 名 : 法 人 課 税 部 門 における 消 費 税 還 付 申 告 に 係 る 事 務 処 理 手

More information

スライド 1

スライド 1 本 資 料 は 学 会 代 議 員 との 意 見 交 換 を 踏 まえて 多 数 意 見 をまとめたものです しかし 学 術 団 体 として 多 様 な 意 見 があります これを 契 機 に 議 論 が 活 性 化 することを 期 待 します マンション 建 替 えに 関 する 意 見 ( 第 2 版 ) 当 日 の 口 頭 説 明 を 一 部 加 筆 千 葉 大 学 小 林 秀 樹 < 一 般

More information

Taro-条文.jtd

Taro-条文.jtd - 1 - 部 正 昭 和 部 正 目 ん 養 涵 養 ロ ん ロ 護 在 面 積 並 削 共 化 委 託 共 化 病 害 虫 駆 除 予 防 他 護 削 3 域 各 掲 げ ほ 全 努 - 2 - む ね 道 開 設 良 安 設 削 他 護 削 委 託 促 進 削 病 害 虫 駆 除 予 防 火 災 予 防 他 護 削 - 3 - 応 じ 6 案 作 学 識 験 意 聴 3 各 掲 げ ほ 掲 げ

More information

スライド 1

スライド 1 公 的 年 金 制 度 の 健 全 性 及 び 信 頼 性 の 確 保 のための 厚 生 年 金 保 険 法 等 の 一 部 を 改 正 する 法 律 について 厚 生 労 働 省 年 金 局 公 的 年 金 制 度 の 健 全 性 及 び 信 頼 性 の 確 保 のための 厚 生 年 金 保 険 法 等 の 一 部 を 改 正 する 法 律 ( 平 成 25 年 法 律 第 63 号 )の 概 要

More information

(5) 給 与 改 定 の 状 況 事 委 員 会 が 無 い た め 記 載 し て お り ま せ ん 1 月 例 給 事 委 員 会 の 勧 告 ( 参 考 ) 区 分 民 間 給 与 A 公 務 員 給 与 B 較 差 A - B 勧 告 ( 改 定 率 ) 給 与 改 定 率 国 の 改

(5) 給 与 改 定 の 状 況 事 委 員 会 が 無 い た め 記 載 し て お り ま せ ん 1 月 例 給 事 委 員 会 の 勧 告 ( 参 考 ) 区 分 民 間 給 与 A 公 務 員 給 与 B 較 差 A - B 勧 告 ( 改 定 率 ) 給 与 改 定 率 国 の 改 別 紙 3 1 総 括 (1) 件 費 の 状 況 ( 普 通 会 計 決 算 ) 芽 室 町 の 給 与 定 員 管 理 等 に つ い て 区 分 住 民 基 本 台 帳 口 (21 年 度 末 ) 歳 出 額 A 21 年 度 1 9, 3 7 6 1 1, 3 4, 9 4 実 質 収 支 件 費 B 件 費 率 B / A 1 6, 3 9 3 9 9 6, 541 8. 8 1 ( 参

More information

平成16年年金制度改正 ~年金の昔・今・未来を考える~

平成16年年金制度改正 ~年金の昔・今・未来を考える~ 第 2 回 社 会 保 険 料 労 働 保 険 料 の 賦 課 対 象 となる 報 酬 等 の 範 囲 に 関 する 検 討 会 平 成 24 年 9 月 20 日 資 料 1 通 勤 手 当 について 1 これまでの 通 勤 に 要 する 費 用 に 関 する 考 え 方 では 通 勤 手 当 の 金 額 が 実 費 弁 償 的 に 算 定 される 場 合 でも それは 通 常 使 用 者 が 負

More information

Taro-H19退職金(修正版).jtd

Taro-H19退職金(修正版).jtd 調 査 結 果 の 概 要 1 退 職 金 制 度 (1) 採 用 状 況 ( 表 1) 集 計 第 1 表 第 2 表 退 職 金 制 度 の 採 用 状 況 をみると 退 職 一 時 金 制 度 のみ 14 社 ( 退 職 金 制 度 採 用 企 業 246 社 の5.7 %) 退 職 年 金 制 度 のみ 27 社 ( 同 11.0%) 退 職 一 時 金 制 度 と 退 職 年 金 制 度

More information

4 教 科 に 関 する 調 査 結 果 の 概 況 校 種 学 年 小 学 校 2 年 生 3 年 生 4 年 生 5 年 生 6 年 生 教 科 平 均 到 達 度 目 標 値 差 達 成 率 国 語 77.8% 68.9% 8.9% 79.3% 算 数 92.0% 76.7% 15.3% 94

4 教 科 に 関 する 調 査 結 果 の 概 況 校 種 学 年 小 学 校 2 年 生 3 年 生 4 年 生 5 年 生 6 年 生 教 科 平 均 到 達 度 目 標 値 差 達 成 率 国 語 77.8% 68.9% 8.9% 79.3% 算 数 92.0% 76.7% 15.3% 94 4 教 科 に 関 する 調 査 結 果 の 概 況 校 種 学 年 小 学 校 2 年 生 3 年 生 4 年 生 5 年 生 6 年 生 教 科 平 均 到 達 度 目 標 値 差 達 成 率 国 語 77.8% 68.9% 8.9% 79.3% 算 数 92.0% 76.7% 15.3% 94.3% 国 語 84.7% 73.9% 10.8% 79.0% 算 数 87.7% 74.3% 13.4%

More information

草 加 都 市 計 画 事 業 新 田 西 部 土 地 区 画 整 理 事 業 土 地 評 価 基 準 ( 目 的 ) 第 1 この 基 準 は 土 地 区 画 整 理 法 ( 昭 和 29 年 法 律 第 119 号 ) 第 3 条 第 4 項 の 規 定 により 草 加 市 が 施 行 する 草

草 加 都 市 計 画 事 業 新 田 西 部 土 地 区 画 整 理 事 業 土 地 評 価 基 準 ( 目 的 ) 第 1 この 基 準 は 土 地 区 画 整 理 法 ( 昭 和 29 年 法 律 第 119 号 ) 第 3 条 第 4 項 の 規 定 により 草 加 市 が 施 行 する 草 草 加 都 市 計 画 事 業 新 田 西 部 土 地 区 画 整 理 事 業 土 地 評 価 基 準 草 加 市 草 加 都 市 計 画 事 業 新 田 西 部 土 地 区 画 整 理 事 業 土 地 評 価 基 準 ( 目 的 ) 第 1 この 基 準 は 土 地 区 画 整 理 法 ( 昭 和 29 年 法 律 第 119 号 ) 第 3 条 第 4 項 の 規 定 により 草 加 市 が 施

More information

<4D F736F F D F8D828D5A939982CC8EF68BC697BF96B38F9E89BB82CC8A6791E52E646F63>

<4D F736F F D F8D828D5A939982CC8EF68BC697BF96B38F9E89BB82CC8A6791E52E646F63> 平 成 22 年 11 月 9 日 高 校 等 の 授 業 料 無 償 化 の 拡 大 検 討 案 以 下 は 大 阪 府 の 検 討 案 の 概 要 であり 最 終 的 には 平 成 23 年 2 月 議 会 での 予 算 の 議 決 を 経 て 方 針 を 確 定 する 予 定 です Ⅰ. 検 討 案 の 骨 子 平 成 23 年 度 から 大 阪 の 子 どもたちが 中 学 校 卒 業 時 の

More information

Taro-01 議案概要.jtd

Taro-01 議案概要.jtd 資 料 1 平 成 28 年 第 1 回 志 木 市 議 会 定 例 会 市 長 提 出 議 案 等 概 要 1 2 第 1 号 議 案 企 画 部 政 策 推 進 課 志 木 市 将 来 ビジョン( 第 五 次 志 木 市 総 合 振 興 計 画 将 来 構 想 )の 策 定 について ( 政 策 推 進 課 ) 1 将 来 ビジョンとは? 2 志 木 市 がおかれている 状 況 3 まちづくりの

More information

4 松 山 市 暴 力 団 排 除 条 の 一 部 風 俗 営 業 等 の 規 制 及 び 業 務 の 適 正 化 等 に 関 する 法 律 等 の 改 正 に 伴 い, 公 共 工 事 から 排 除 する 対 象 者 の 拡 大 等 を 図 るものです 第 30 号 H27.12.18 H28.1

4 松 山 市 暴 力 団 排 除 条 の 一 部 風 俗 営 業 等 の 規 制 及 び 業 務 の 適 正 化 等 に 関 する 法 律 等 の 改 正 に 伴 い, 公 共 工 事 から 排 除 する 対 象 者 の 拡 大 等 を 図 るものです 第 30 号 H27.12.18 H28.1 松 山 市 条 制 定 時 の 市 民 意 見 聴 取 経 過 表 ( 3 月 市 議 会 提 出 分 ) 総 務 部 文 書 法 制 作 成 条 名 条 の 概 要 提 出 日 番 号 手 続 の 種 別 実 施 日 ( 期 間 ) 実 施 した 聴 取 手 続 の 内 容 を 実 施 しない 場 合 はその 理 由 担 当 1 松 山 市 職 員 の 分 限 に 関 する 条 等 の 一 部 を

More information

(4) ラスパイレス 指 数 の 状 況 11. 15. 1. 95. H.4.1 94.6 H5.4.1 15.1 H5.4.1 ( 参 考 値 ) 97.1 H5.7.1 14.9 H.4.1 97.1 H5.4.1 14.5 H5.4.1 H5.7.1 13. 1. H5.4.1 ( 参 考

(4) ラスパイレス 指 数 の 状 況 11. 15. 1. 95. H.4.1 94.6 H5.4.1 15.1 H5.4.1 ( 参 考 値 ) 97.1 H5.7.1 14.9 H.4.1 97.1 H5.4.1 14.5 H5.4.1 H5.7.1 13. 1. H5.4.1 ( 参 考 石 井 町 の 給 与 定 員 管 理 等 について 1 総 括 (1) 件 費 の 状 況 ( 普 通 会 計 決 算 ) 住 民 基 本 台 帳 口 歳 出 額 実 質 収 支 件 費 件 費 率 ( 参 考 ) (4 年 度 末 ) A B B/A 3 年 度 の 件 費 率 4 年 度 6,69 8,136,675 373,713 1,54,11 18.95 19.18 () 職 員 給 与

More information

する ( 評 定 の 時 期 ) 第 条 成 績 評 定 の 時 期 は 第 3 次 評 定 者 にあっては 完 成 検 査 及 び 部 分 引 渡 しに 伴 う 検 査 の 時 とし 第 次 評 定 者 及 び 第 次 評 定 者 にあっては 工 事 の 完 成 の 時 とする ( 成 績 評 定

する ( 評 定 の 時 期 ) 第 条 成 績 評 定 の 時 期 は 第 3 次 評 定 者 にあっては 完 成 検 査 及 び 部 分 引 渡 しに 伴 う 検 査 の 時 とし 第 次 評 定 者 及 び 第 次 評 定 者 にあっては 工 事 の 完 成 の 時 とする ( 成 績 評 定 射 水 市 建 設 工 事 施 行 に 関 する 工 事 成 績 評 定 要 領 平 成 8 年 3 月 7 告 示 第 44 号 ( 目 的 ) 第 条 この 要 領 は 射 水 市 が 所 掌 する 工 事 の 成 績 評 定 ( 以 下 評 定 という )に 必 要 な 事 項 を 定 め 公 正 かつ 的 確 な 評 定 を 行 うことにより もって 請 負 業 者 の 選 定 及 び 指

More information

Microsoft Word - ★HP版平成27年度検査の結果

Microsoft Word - ★HP版平成27年度検査の結果 平 成 7 年 度 検 査 結 果 について () 検 査 体 制 等 農 政 部 農 地 整 備 課 の 検 査 員 名 以 上 により 土 地 改 良 区 等 あたり 日 間 から 日 間 実 施 しました 農 業 振 興 事 務 所 の 土 地 改 良 区 指 導 担 当 職 員 及 び 関 係 市 町 職 員 が 立 会 いました () 検 査 件 数 定 期 検 査 8( 土 地 改 良

More information

Taro-学校だより学力調査号.jtd

Taro-学校だより学力調査号.jtd 第 5 号 ( H2 7. 1 1. 1 7 ) 舞 鶴 小 学 校 ま い づ る 発 行 人 大 澤 正 史 本 校 の 学 習 状 況 に つ い て ( 今 年 度 6 年 生 が 実 施 し た 全 国 学 力 学 習 状 況 調 査 の 結 果 ) 今 年 度 の 全 国 学 A1 2007 年 よ り 日 本 全 国 の 小 中 学 校 の 最 高 学 年 ( 小 学 6 年 力 学

More information

表紙

表紙 現 況 の 指 定 容 積 率 をすべて 使 い 切 った 場 合 に 現 況 容 積 率 の 2.25 倍 以 上 になるかどうかを 確 認 する 現 況 の 街 区 面 積 は 3,569,759m2 延 べ 床 面 積 は 3,569,759m2であるから 目 標 とする 延 べ 床 面 積 はその 2.25 倍 の 8,031,958m2である 一 方 指 定 容 積 率 をすべて 使 い

More information

(6) Qualification for participating in the tendering procedu

(6) Qualification for participating in the tendering procedu 入札公告 次 の と お り 一 般 競 争 入 札 に 付 し ま す 平 成 3 0 年 1 0 月 3 日 経 理 責 任 者 独 立 行 政 法 人 国 立 病 院 機 構 下 志 津 病 院 長 石 毛 尚 起 調 達 機 関 番 号 5 9 7 所 在 地 番 号 1 2 第 0 3 7 0 3 号 ( N o. 0 3 7 0 3 ) 1 調 達 内 容 ( 1 ) 品 目 分 類 番

More information

●電力自由化推進法案

●電力自由化推進法案 第 一 八 五 回 参 第 二 号 電 力 自 由 化 推 進 法 案 目 次 第 一 章 総 則 ( 第 一 条 - 第 三 条 ) 第 二 章 電 力 自 由 化 の 基 本 方 針 ( 第 四 条 - 第 九 条 ) 第 三 章 電 力 自 由 化 推 進 本 部 ( 第 十 条 - 第 十 九 条 ) 附 則 第 一 章 総 則 ( 目 的 ) 第 一 条 この 法 律 は 平 成 二 十

More information

Microsoft Word - 070219役員選挙規程.doc

Microsoft Word - 070219役員選挙規程.doc 役 員 選 挙 規 程 昭 和 55 年 10 月 21 日 制 定 昭 和 57 年 11 月 16 日 改 正 昭 和 61 年 5 月 27 日 改 正 昭 和 62 年 2 月 23 日 改 正 昭 和 63 年 3 月 7 日 改 正 平 成 2 年 5 月 14 日 改 正 平 成 6 年 5 月 24 日 改 正 平 成 8 年 2 月 27 日 改 正 平 成 11 年 2 月 23

More information

Microsoft Word - 佐野市生活排水処理構想(案).doc

Microsoft Word - 佐野市生活排水処理構想(案).doc 佐 野 市 生 活 排 水 処 理 構 想 ( 案 ) 平 成 27 年 12 月 佐 野 市 目 次 1. 生 活 排 水 処 理 構 想 について 1.1 生 活 排 水 処 理 構 想 とは P.1 1.2 生 活 排 水 処 理 施 設 の 種 類 P.1 2. 佐 野 市 の 現 状 と 課 題 2.1 整 備 状 況 P.2 2.2 主 な 汚 水 処 理 施 設 P.2 2.3 生 活

More information

高松市緊急輸送道路沿道建築物耐震改修等事業補助金交付要綱(案)

高松市緊急輸送道路沿道建築物耐震改修等事業補助金交付要綱(案) 高 松 市 民 間 建 築 物 耐 震 改 修 等 事 業 補 助 金 交 付 要 綱 ( 目 的 ) 第 1 条 この 要 綱 は 耐 震 改 修 等 事 業 を 実 施 す る 要 緊 急 安 全 確 認 大 規 模 建 築 物 又 は 要 安 全 確 認 計 画 記 載 建 築 物 の 所 有 者 ( 以 下 所 有 者 という )に 対 し 予 算 の 範 囲 内 に お い て 高 松 市

More information

2 一 般 行 政 職 給 料 表 の 状 況 ( 平 成 23 年 4 月 1 日 現 在 ) 1 号 給 の 給 料 月 額 最 高 号 給 の 給 料 月 額 1 級 2 級 3 級 4 級 5 級 ( 単 位 : ) 6 級 7 級 8 級 135,600 185,800 222,900 2

2 一 般 行 政 職 給 料 表 の 状 況 ( 平 成 23 年 4 月 1 日 現 在 ) 1 号 給 の 給 料 月 額 最 高 号 給 の 給 料 月 額 1 級 2 級 3 級 4 級 5 級 ( 単 位 : ) 6 級 7 級 8 級 135,600 185,800 222,900 2 日 田 市 の 給 与 定 員 管 理 等 について 1 総 括 (1) 人 件 費 の 状 況 ( 普 通 会 計 決 算 ) 区 分 住 民 基 本 台 帳 人 口 歳 出 額 実 質 収 支 人 件 費 人 件 費 率 ( 参 考 ) 年 度 (22 年 度 末 ) A B B/A 21 年 度 の 人 件 費 率 22 71,889 39,061,738 人 % % 1,444,329 6,050,275

More information

Microsoft Word - 目次.doc

Microsoft Word - 目次.doc 長 寿 医 療 制 度 と 国 民 健 康 保 険 一 体 化 に 関 する 舛 添 大 臣 私 案 イメージ < 現 行 > < 見 直 し 後 > 75 歳 長 寿 医 療 制 度 ( 県 単 位 広 域 連 合 ) 長 寿 医 療 ( 都 道 府 県 ) 1 両 者 を 一 体 化 し 都 道 府 県 が 運 営 75 歳 65 歳 被 用 者 保 険 から 財 政 調 整 国 保 国 保 被

More information

(2) 広 島 国 際 学 院 大 学 ( 以 下 大 学 という ) (3) 広 島 国 際 学 院 大 学 自 動 車 短 期 大 学 部 ( 以 下 短 大 という ) (4) 広 島 国 際 学 院 高 等 学 校 ( 以 下 高 校 という ) ( 学 納 金 の 種 類 ) 第 3 条

(2) 広 島 国 際 学 院 大 学 ( 以 下 大 学 という ) (3) 広 島 国 際 学 院 大 学 自 動 車 短 期 大 学 部 ( 以 下 短 大 という ) (4) 広 島 国 際 学 院 高 等 学 校 ( 以 下 高 校 という ) ( 学 納 金 の 種 類 ) 第 3 条 学 生 生 徒 等 の 納 入 金 に 関 する 規 則 平 成 15 年 12 月 16 日 規 則 第 19 号 沿 革 1 平 成 17 年 5 月 17 日 改 正 2 平 成 17 年 10 月 3 日 改 正 3 平 成 18 年 1 月 25 日 改 正 5 平 成 21 年 9 月 16 日 改 正 7 平 成 22 年 2 月 12 日 改 正 9 平 成 23 年 12 月 6

More information

Taro-07-1提言概要.jtd

Taro-07-1提言概要.jtd 新 たな 在 留 管 理 制 度 に 関 する 提 言 の 概 要 について 資 料 7 1 在 留 管 理 制 度 見 直 しのねらい 法 務 大 臣 が 外 国 人 の 在 留 管 理 に 必 要 な 情 報 を 一 元 的, 正 確 かつ 継 続 的 に 把 握 する 制 度 を 構 築 し, 的 確 な 在 留 管 理 を 行 う一 方 で, 市 区 町 村 において 整 備 される 予 定

More information

私立大学等研究設備整備費等補助金(私立大学等

私立大学等研究設備整備費等補助金(私立大学等 私 立 大 学 等 研 究 設 備 整 備 費 等 補 助 金 ( 私 立 大 学 等 研 究 設 備 等 整 備 費 ) 交 付 要 綱 目 次 第 1 章 通 則 ( 第 1 条 - 第 4 条 ) 第 2 章 私 立 大 学 等 ( 第 5 条 - 第 15 条 ) 第 3 章 専 修 学 校 ( 第 16 条 - 第 25 条 ) 第 4 章 補 助 金 の 返 還 ( 第 26 条 ) 第

More information

調査結果の概要

調査結果の概要 調 査 結 果 の 概 要 調 査 の 概 要 1 調 査 対 象 (1) 事 業 所 調 査 都 内 の 常 用 従 業 者 規 模 30 人 以 上 の 3,000 事 業 所 1 調 査 対 象 (2) 契 約 社 員 調 査 事 業 所 調 査 の 結 果 から 協 力 を 得 られた 事 業 所 の 従 業 員 2,000 人 2 調 査 時 点 方 法 (1) 事 業 所 調 査 平 成

More information

第1章 総則

第1章 総則 第 8 節 市 街 化 調 整 区 域 内 の 建 築 許 可 の 手 続 き 8-1 法 第 43 条 に 基 づく 建 築 許 可 の 手 続 き 8-1-1 建 築 許 可 等 の 手 続 きフロー 市 街 化 調 整 区 域 における 建 築 許 可 に 関 する 標 準 的 な 手 続 きについては 次 のフローのと おりとなります 建 築 主 地 目 が 農 地 の 場 合 建 築 許

More information

b) 参 加 表 明 書 の 提 出 時 において 東 北 地 方 整 備 局 ( 港 湾 空 港 関 係 を 除 く) における 平 成 27 28 年 度 土 木 関 係 建 設 コンサルタント 業 務 に 係 る 一 般 競 争 ( 指 名 競 争 ) 参 加 資 格 の 認 定 を 受 けて

b) 参 加 表 明 書 の 提 出 時 において 東 北 地 方 整 備 局 ( 港 湾 空 港 関 係 を 除 く) における 平 成 27 28 年 度 土 木 関 係 建 設 コンサルタント 業 務 に 係 る 一 般 競 争 ( 指 名 競 争 ) 参 加 資 格 の 認 定 を 受 けて 簡 易 公 募 型 競 争 入 札 方 式 ( 総 合 評 価 落 札 方 式 )に 係 る 手 続 き 開 始 の 公 示 次 のとおり 指 名 競 争 入 札 参 加 者 の 選 定 の 手 続 を 開 始 します 平 成 28 年 9 月 27 日 分 任 支 出 負 担 行 為 担 当 官 東 北 地 方 整 備 局 三 陸 国 道 事 務 所 長 永 井 浩 泰 1. 業 務 概 要 (1)

More information

は 共 有 名 義 )で 所 有 権 保 存 登 記 又 は 所 有 権 移 転 登 記 を された も の で あ る こと (3) 居 室 便 所 台 所 及 び 風 呂 を 備 え 居 住 の ために 使 用 す る 部 分 の 延 べ 床 面 積 が 5 0 平 方 メ ー ト ル 以 上

は 共 有 名 義 )で 所 有 権 保 存 登 記 又 は 所 有 権 移 転 登 記 を された も の で あ る こと (3) 居 室 便 所 台 所 及 び 風 呂 を 備 え 居 住 の ために 使 用 す る 部 分 の 延 べ 床 面 積 が 5 0 平 方 メ ー ト ル 以 上 蕨 市 三 世 代 ふれあい 家 族 住 宅 取 得 補 助 金 交 付 要 綱 ( 目 的 ) 第 1 条 この 要 綱 は 子 育 て 中 の 子 世 帯 及 びその 親 世 帯 の 同 居 又 は 近 居 ( 以 下 同 居 等 と い う ) を 促 進 す る た め 住 宅 の 取 得 に 係 る 費 用 の 一 部 を 補 助 す る こ と に よ り 三 世 代 の 市 内 定 住

More information

2 県 公 立 高 校 の 合 格 者 は このように 決 まる (1) 選 抜 の 仕 組 み 選 抜 の 資 料 選 抜 の 資 料 は 主 に 下 記 の3つがあり 全 高 校 で 使 用 する 共 通 の ものと 高 校 ごとに 決 めるものとがあります 1 学 力 検 査 ( 国 語 数

2 県 公 立 高 校 の 合 格 者 は このように 決 まる (1) 選 抜 の 仕 組 み 選 抜 の 資 料 選 抜 の 資 料 は 主 に 下 記 の3つがあり 全 高 校 で 使 用 する 共 通 の ものと 高 校 ごとに 決 めるものとがあります 1 学 力 検 査 ( 国 語 数 2 県 公 立 高 校 の 合 格 者 は このように 決 まる (1) 選 抜 の 仕 組 み 選 抜 の 資 料 選 抜 の 資 料 は 主 に 下 記 の3つがあり 全 高 校 で 使 用 する 共 通 の ものと 高 校 ごとに 決 めるものとがあります 1 学 力 検 査 ( 国 語 数 学 社 会 理 科 英 語 の5 教 科 ) すべての 高 校 で 資 料 とする 2 調 査 書 (

More information

スライド 1

スライド 1 平 成 28 年 度 市 県 民 税 の 計 算 方 法 ( 鳥 取 市 ) まず 計 算 の 全 体 の 流 れを 示 すと 以 下 のようになります 総 所 得 金 - 所 得 控 除 = ( 千 円 未 満 切 り 捨 て ) 課 税 標 準 所 得 割 の 税 率 6% 所 得 割 の 税 率 4% 算 出 調 整 税 控 均 等 割 所 得 割 - - + 控 除 除 = 算 出 調 整

More information

Microsoft Word - 101 第1章 定款.doc

Microsoft Word - 101 第1章 定款.doc 第 1 章 定 款 規 約 山 梨 県 土 地 改 良 事 業 団 体 連 合 会 定 款 昭 和 33 年 8 月 1 日 制 定 昭 和 33 年 10 月 9 日 認 可 第 1 章 総 則 ( 目 的 ) 第 1 条 この 会 は 土 地 改 良 事 業 を 行 う 者 ( 国 県 及 び 土 地 改 良 法 第 95 条 第 1 項 の 規 定 により 土 地 改 良 事 業 を 行 う

More information

<947A957A8E9197BF8253817C8250816082532E786C73>

<947A957A8E9197BF8253817C8250816082532E786C73> 資 料 1 資 料 2 資 料 3 資 料 4 資 料 5 資 料 6 保 護 観 察 新 規 受 理 人 員 の 推 移 資 料 7 ( 千 人 ) ( 昭 和 24 年 ~ 平 成 17 年 ) 80 70 60 保 護 観 察 処 分 少 年 50 40 30 20 10 保 護 観 察 付 執 行 猶 予 者 仮 釈 放 者 0 少 年 院 仮 退 院 者 24 年 30 35 40 45

More information

<4D F736F F D F5A91EE8BC F368C8E3393FA8DC48D F C8E323893FA916493C B95AA8D CE3816A>

<4D F736F F D F5A91EE8BC F368C8E3393FA8DC48D F C8E323893FA916493C B95AA8D CE3816A> 平 成 25 年 度 国 土 交 通 省 税 制 改 正 事 項 ( 住 宅 関 係 抜 粋 ) 平 成 25 年 5 月 国 土 交 通 省 住 宅 局 平 成 25 年 度 住 宅 関 連 税 制 の 改 正 概 要 ( 主 要 事 項 目 次 ) 1. 消 費 税 率 引 上 げを 踏 まえた 住 宅 取 得 対 策 P2 1 住 宅 ローン 減 税 P2 2 投 資 型 減 税 ( 現 金

More information

(5) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 き 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている

(5) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 き 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている 清 瀬 市 の 給 与 定 員 管 理 等 について 1 総 括 (1) 件 費 の 状 況 ( 普 通 会 計 決 算 ) 住 民 基 本 台 帳 口 歳 出 額 実 質 収 支 件 費 件 費 率 ( 参 考 ) (25 年 度 末 ) 25 年 度 千 74,247 27,195,534 A 768,602 千 4,616,550 B 千 17.0 B/A 昨 年 度 の 件 費 率 17.3

More information

6 構 造 等 コンクリートブロック 造 平 屋 建 て4 戸 長 屋 16 棟 64 戸 建 築 年 1 戸 当 床 面 積 棟 数 住 戸 改 善 後 床 面 積 昭 和 42 年 36.00m2 4 50.40m2 昭 和 43 年 36.50m2 3 50.90m2 昭 和 44 年 36.

6 構 造 等 コンクリートブロック 造 平 屋 建 て4 戸 長 屋 16 棟 64 戸 建 築 年 1 戸 当 床 面 積 棟 数 住 戸 改 善 後 床 面 積 昭 和 42 年 36.00m2 4 50.40m2 昭 和 43 年 36.50m2 3 50.90m2 昭 和 44 年 36. 市 営 住 宅 建 替 えPFI 等 導 入 可 能 性 調 査 業 務 委 託 仕 様 書 1. 適 用 範 囲 本 仕 様 書 は 十 和 田 市 ( 以 下 発 注 者 という )が 実 施 する 市 営 住 宅 建 替 えPFI 等 導 入 可 能 性 調 査 業 務 委 託 ( 以 下 本 業 務 委 託 という )に 適 用 するものとする 2. 業 務 目 的 十 和 田 市 営 住

More information

別紙3

別紙3 別 紙 3 1 総 括 平 成 26 年 度 栃 木 市 の 給 与 定 員 管 理 等 に つ い て (1) 件 費 の 状 況 ( 普 通 会 計 決 算 ) 区 分 住 民 基 本 台 帳 口 歳 出 額 実 質 収 支 件 費 件 費 率 ( 参 考 ) (26 年 1 月 1 日 ) A B B / A 24 年 度 の 件 費 率 % % 25 年 度 146,544 56,331,297

More information

[2] 控 除 限 度 額 繰 越 欠 損 金 を 有 する 法 人 において 欠 損 金 発 生 事 業 年 度 の 翌 事 業 年 度 以 後 の 欠 損 金 の 繰 越 控 除 にあ たっては 平 成 27 年 度 税 制 改 正 により 次 ページ 以 降 で 解 説 する の 特 例 (

[2] 控 除 限 度 額 繰 越 欠 損 金 を 有 する 法 人 において 欠 損 金 発 生 事 業 年 度 の 翌 事 業 年 度 以 後 の 欠 損 金 の 繰 越 控 除 にあ たっては 平 成 27 年 度 税 制 改 正 により 次 ページ 以 降 で 解 説 する の 特 例 ( 相 談 ~ 改 正 に 伴 い 改 めて 整 理 しておきたい~ 法 人 税 における 繰 越 欠 損 金 制 度 米 澤 潤 平 部 東 京 室 平 成 27 年 度 および28 年 度 の 税 制 改 正 による 法 人 税 率 引 き 下 げに 伴 う 課 税 ベース 拡 大 の 一 環 として 繰 越 欠 損 金 制 度 についても 大 改 正 が 行 われました 今 回 は 繰 越 欠 損

More information

波佐見町の給与・定員管理等について

波佐見町の給与・定員管理等について 波 佐 見 町 の 給 与 定 員 管 理 等 について 1 総 括 (1) 人 件 費 の 状 況 ( 普 通 会 計 決 算 ) 住 民 基 本 台 帳 人 口 歳 出 額 実 質 収 支 人 件 費 人 件 費 率 ( 参 考 ) (24 年 度 末 ) A B B/A 23 年 度 の 人 件 費 24 年 度 15,253 人 5,698,68 113,830 46,156 13.1 %

More information

有 料 老 ホーム ( ) ( 主 として 要 介 護 状 態 にある を 入 居 させるも のに 限 る ) 第 29 条 ( 届 出 等 ) 第 二 十 九 条 有 料 老 ホーム( 老 を 入 居 させ 入 浴 排 せつ 若 しくは 食 事 の 介 護 食 事 の 提 供 又 はその 他 の

有 料 老 ホーム ( ) ( 主 として 要 介 護 状 態 にある を 入 居 させるも のに 限 る ) 第 29 条 ( 届 出 等 ) 第 二 十 九 条 有 料 老 ホーム( 老 を 入 居 させ 入 浴 排 せつ 若 しくは 食 事 の 介 護 食 事 の 提 供 又 はその 他 の 消 防 法 施 行 令 別 表 第 1(6) 項 ロに 掲 げる 施 設 の 概 要 ( 細 目 欄 の 印 は275m2 未 満 の 施 設 が 想 定 されるものを 示 す ) 細 目 根 拠 法 令 規 定 規 模 要 件 根 拠 規 定 構 造 要 件 根 拠 規 定 参 考 資 料 10 老 短 期 入 所 施 設 ( ) (ショートステイ) 第 20 条 の3 ( 老 短 期 入 所 施

More information

2 一 般 行 政 職 給 料 表 の 状 況 ( 平 成 23 年 4 月 1 日 現 在 ) ( 単 位 : ) 1 級 2 級 3 級 4 級 5 級 6 級 7 級 8 級 1 号 給 の 給 料 月 額 135,6 161,7 222,9 261,9 289,2 32,6 366,2 41

2 一 般 行 政 職 給 料 表 の 状 況 ( 平 成 23 年 4 月 1 日 現 在 ) ( 単 位 : ) 1 級 2 級 3 級 4 級 5 級 6 級 7 級 8 級 1 号 給 の 給 料 月 額 135,6 161,7 222,9 261,9 289,2 32,6 366,2 41 の 給 与 定 員 管 理 等 について 1 総 括 (1) 件 費 の 状 況 ( 普 通 会 計 決 算 ) 住 民 基 本 台 帳 口 歳 出 額 実 質 収 支 件 費 件 費 率 ( 参 考 ) (22 年 度 末 ) A B B/A 21 年 度 の 件 費 率 22 年 度 158,172 44,66,25 1,13,136 7,281,69 16.3 16.7 (2) 職 員 給 与

More information

1 変更の許可等(都市計画法第35条の2)

1 変更の許可等(都市計画法第35条の2) 第 11 章 建 築 物 の 建 ぺい 率 等 の 指 定 ( 都 市 計 画 法 第 41 条 ) 建 築 物 の 建 ぺい 率 等 の 指 定 ( 都 市 計 画 法 第 41 条 ) 法 律 ( 建 築 物 の 建 ぺい 率 等 の 指 定 ) 第 四 十 一 条 都 道 府 県 知 事 は 用 途 地 域 の 定 められていない 土 地 の 区 域 における 開 発 行 為 につい て 開

More information

01.活性化計画(上大久保)

01.活性化計画(上大久保) 別 記 様 式 第 1 号 ( 第 四 関 係 ) か み お お く ぼ 上 大 久 保 ち く 地 区 か っ せ い か 活 性 化 け い か く 計 画 栃 木 県 鹿 沼 市 平 成 26 年 2 月 1 活 性 化 計 画 の 目 標 及 び 計 画 期 間 計 画 の 名 称 上 大 久 保 地 区 活 性 化 計 画 都 道 府 県 名 栃 木 県 市 町 村 名 鹿 沼 市 地

More information

弁護士報酬規定(抜粋)

弁護士報酬規定(抜粋) はなみずき 法 律 事 務 所 弁 護 士 報 酬 規 定 ( 抜 粋 ) 2008 年 10 月 改 訂 2014 年 4 月 * 以 下 の 弁 護 士 報 酬 は いずれも 税 込 です ただし D E L の2の 表 に 基 づき 算 出 さ れた 金 額 については 消 費 税 を 上 乗 せした 額 を 弁 護 士 報 酬 とします 目 次 A 法 律 相 談 料 B 顧 問 料 C 手

More information

の と す る (1) 防 犯 カ メ ラ を 購 入 し 設 置 ( 新 設 又 は 増 設 に 限 る ) す る こ と (2) 設 置 す る 防 犯 カ メ ラ は 新 設 又 は 既 設 の 録 画 機 と 接 続 す る こ と た だ し 録 画 機 能 付 防 犯 カ メ ラ は

の と す る (1) 防 犯 カ メ ラ を 購 入 し 設 置 ( 新 設 又 は 増 設 に 限 る ) す る こ と (2) 設 置 す る 防 犯 カ メ ラ は 新 設 又 は 既 設 の 録 画 機 と 接 続 す る こ と た だ し 録 画 機 能 付 防 犯 カ メ ラ は 小 牧 市 地 域 防 犯 カ メ ラ 等 設 置 補 助 金 交 付 要 綱 平 成 2 8 年 3 月 2 2 日 2 7 小 市 安 第 7 5 7 号 ( 通 則 ) 第 1 条 小 牧 市 地 域 防 犯 カ メ ラ 等 設 置 補 助 金 ( 以 下 補 助 金 と い う )の 交 付 に つ い て は 市 費 補 助 金 等 の 予 算 執 行 に 関 す る 規 則 ( 昭 和

More information

Microsoft PowerPoint - 経営事項審査.ppt

Microsoft PowerPoint - 経営事項審査.ppt 経 営 事 項 審 査 建 設 業 を 取 り 巻 く 環 境 工 事 不 足 は 深 刻 化 しており 建 設 業 者 の 統 廃 合 も 活 発 化 している 中 選 ばれる 企 業 となる 事 が 生 き 残 りをかけた 最 重 要 課 題 といえる 選 ばれる 企 業 の 指 標 となるものが 経 営 事 項 審 査 であり この 評 点 はインターネット 等 にて 公 開 されている 事

More information