コーパスに 基 づく 言 語 学 教 育 研 究 報 告.9 (2012) スワヒリ 語 における 動 詞 複 合 体 の 形 態 素 解 析 の 試 み 佐 藤 大 和 ( 東 京 外 国 語 大 学 グローバル COE 特 任 教 授 ) 要 旨 本 論 文 は,スワヒリ 語 口 語 コーパスを 用 いたスワヒリ 語 研 究 のためのツールとして の 形 態 素 解 析 に 関 して 述 べたものである 特 に,スワヒリ 語 動 詞 複 合 体 を 構 成 する 動 詞 語 幹 と, 主 語 接 辞, 時 制 標 識, 目 的 語 接 辞 等 の 接 頭 辞 類 を 同 定 し,これらを 区 分 化 する 手 法 に 関 して 報 告 する 1. はじめに 東 京 外 国 語 大 学 グローバルCOEプロジェクトでは, 世 界 の 各 種 言 語 の 研 究 の 一 環 として, スワヒリ 語 の 口 語 コーパスを 構 築 し,これに 基 づいたスワヒリ 語 研 究 を 進 めている 従 来 スワヒリ 語 の 研 究 は, 主 として 所 謂 文 語 を 対 象 としてなされてきたが, 言 語 研 究 としては 実 際 の 言 語 運 用 の 実 態 に 基 づいた 研 究 が 求 められる そのため, 本 プロジェクト では,インタビュアーによる 対 話 形 式 の 音 声 を 収 録 し,これをテキストに 書 き 起 こすこと によって,より 口 語 的 な 資 料 としてのスワヒリ 語 コーパスを 作 成 した( 詳 細 は 稗 田 (2011)) コーパスに 基 づく 言 語 研 究 では, 形 態 素 などの 言 語 要 素 への 区 分 化 とタグ 付 け 等 の 作 業 が 必 要 になる これらの 作 業 を 人 手 によって 行 うのは, 大 量 の 言 語 資 料 を 対 象 とする 場 合 には 作 業 量 が 極 めて 多 くなり 能 率 的 ではない 形 態 素 解 析 ツールなどによって 自 動 的 に 分 節 化 したりタグ 付 けをする 手 法 が 必 要 になってくる 英 語 などのように, 語 と 語 がスペー スによって 区 分 化 されているテキストを 扱 う 場 合 には 問 題 は 少 ないが, 日 本 語 やスワヒリ 語 のように 接 辞 や 造 語 成 分 が 複 合 膠 着 した 形 態 を 扱 う 場 合 には, 特 に 形 態 素 解 析 の 手 段 が 必 要 になる 本 プロジェクトにおけるスワヒリ 語 研 究 では, 動 詞 複 合 体 を 構 成 する 目 的 語 接 辞 の 役 割 に 焦 点 を 当 てて 研 究 が 進 められてきた( 稗 田 (2010, 2011) ) 本 報 告 は,こうしたスワヒリ 語 研 究 に 役 立 てるため,スワヒリ 語 テキスト コーパスから 動 詞 複 合 体 を 検 出 し,それを 構 成 する 形 態 素 ( 各 種 接 頭 辞 )と 動 詞 要 素 を 分 離 抽 出 する 手 法 とツールに 関 して 述 べたも のである -129-
2. スワヒリ 語 形 態 素 解 析 の 方 法 2.1. 動 詞 複 合 体 スワヒリ 語 では, 動 詞 語 幹 に 種 々の 接 辞 が 付 加 されて 動 詞 複 合 体 を 構 成 する 動 詞 複 合 体 は, 以 下 に 示 された 要 素 とその 順 序 によって 構 成 される 動 詞 複 合 体 :SP-TM-(RM)-(OP)-VERB-(ES)-FV ここで, SP: 主 語 接 辞 (Subject Prefix) TM: 時 制 標 識 (Tense Marker) RM: 関 係 節 標 識 (Relative Marker) OP: 目 的 語 接 辞 (Object Prefix) VERB: 動 詞 語 幹 ES: 拡 張 接 尾 辞 (Extension Suffix) FV: 終 母 音 (Final Vowel) 括 弧 で 括 られた 関 係 節 標 識 (RM), 目 的 語 接 辞 (OP), 拡 張 接 尾 辞 (ES)は, 必 須 要 素 ではな い なお, 主 語 接 辞 (SP)は, 命 令 形 のときは 省 略 される すべての 要 素 が 付 加 された 動 詞 複 合 体 の 例 を 以 下 に 示 す kitabu ni-li-cho-m-som-esh-a mtoto ( the book which I made a child to read ) book SP-TM-RM-OP-read-ES-FV child 上 記 の 動 詞 複 合 体 ni-li-cho-m-som-esh-a は 以 下 の 形 態 素 から 形 成 されている som 動 詞 語 幹 ( 読 む ) ni- 主 語 接 辞 (1 人 称 単 数 ) li- 時 制 標 識 ( 過 去 時 制 ) cho- 関 係 節 標 識 ( 物 のクラス 単 数 ) m- 目 的 語 接 辞 (3 人 称 単 数, 人 間 のクラス) -esh 拡 張 接 尾 辞 ( 使 役 ) -a 終 母 音 今 回 の 形 態 素 解 析 ツールでは, 動 詞 複 合 体 の 接 頭 辞 類 の 役 割 を 明 らかにする 目 的 である ことから,( 動 詞 語 幹 )-( 拡 張 接 尾 辞 )-( 終 母 音 )の 連 接 は, 新 たに 一 つの( 動 詞 :VERB) という 単 位 として 扱 うこととした すなわち, 動 詞 は 拡 張 接 尾 辞 と 終 母 音 を 含 む 単 位 とし て 辞 書 に 登 録 される こうすることにより, 動 詞 複 合 体 の 構 成 は 以 下 のようになる 動 詞 複 合 体 :SP-TM-(RM)-(OP)-VERB -130-
これにより 前 記 の 動 詞 複 合 体 の 例 の 場 合 は, 以 下 のような 要 素 の 連 接 となる 動 詞 複 合 体 の 例 :ni-li-cho-m-somesha 2.2. 形 態 素 解 析 上 の 考 慮 すべき 点 スワヒリ 語 動 詞 複 合 体 の 形 態 素 解 析 は,まず 動 詞 辞 書 を 用 い, 後 方 一 致 によって 入 力 テ キストから 動 詞 の 検 出 を 行 う 動 詞 が 検 出 された 単 位 は, 接 辞 類 の 辞 書 を 用 いて 各 接 辞 の 区 分 化 を 行 う その 際, 留 意 すべき 点 を 以 下 に 示 す (1) 動 詞 辞 書 中 の 動 詞 は, 多 くは 語 尾 が a で 終 わる 形 式 ( 不 定 形 )で 表 現 されている テキスト 上, 語 尾 は e( 命 令 形 )や i( 否 定 形 )に 変 化 している 場 合 があるので, 動 詞 辞 書 とのマッチングは,このような 変 形 を 考 慮 しなければならない (2) 動 詞 の 中 にはもともと i で 終 わる 動 詞 も 存 在 する 例 えば, 住 む を 意 味 する ishi という 動 詞 は, 終 える を 意 味 する isha の 否 定 形 と 同 形 となる しかし, 動 詞 が 否 定 形 の 場 合 には, 主 語 接 辞 は 否 定 の 接 頭 辞 が 用 いられるので, 主 語 接 辞 を 肯 定 型 と 否 定 形 の 接 辞 に 分 け, 否 定 の 主 語 接 辞 と 動 詞 の 否 定 形 の 共 起 性 を 考 慮 して 処 理 しなけ ればならない (3) スワヒリ 語 のテキスト コーパスは, 音 声 言 語 を 文 字 表 記 した 口 語 コーパスであ る 口 語 の 特 徴 として, 語 を 強 調 したい 時 など 母 音 部 を 伸 長 して 発 音 することが 考 えられ,その 場 合 伸 長 部 分 を 長 音 化 ( 母 音 の 重 ね 書 き,aa など)して 表 記 するこ とが 予 想 される 一 方,もともと 長 母 音 を 含 む 動 詞 も 存 在 するところから, 動 詞 辞 書 を, 長 母 音 を 含 む 動 詞 辞 書 と 含 まない 動 詞 辞 書 に 分 割 し,テキスト 中 の 動 詞 が 長 母 音 を 含 む 場 合 には,それが 長 母 音 動 詞 辞 書 に 含 まれる 動 詞 であるかどうかをチェックす る 処 理 が 必 要 になる 3. 形 態 素 解 析 ツール 3.1. 入 力 テキスト 入 力 となるスワヒリ 語 コーパス(テキスト)は, 以 下 に 示 すようにスペースやピリオドなど の 区 切 り 記 号 で 区 分 化 された 語 および 形 態 素 の 複 合 体 の 系 列 である mwishoni mwa wiki kama leo ama kesho, wakazi wengi wa mijini hujipumzisha jioni kwa kuangalia michezo mbali mbali. katika michezo hiyo hakuna unaopendwa sana kama mpira, na ukienda kwenye viwanja utakuta makundi makubwa ya wafanya kazi, akina mama na watoto wanaangalia mchuano kati ya timu mbali mbali wakishangilia kwa furaha sana. lakini katika miezi michache iliyopita, na hasa katika wiki chache hizi za karibuni, kumezuka hali ambayo inaweza kuwa na hatari sana katika viwanja vya michezo ikiwa wanaohusika hawatachukua hatua kali. -131-
( 訳 :In weekend like today or tomorrow, many workers in town relax in the evening by watching various games, in these games there is no other game that is favored very much like football, and if you go to a stadium you will meet big groups of workers and groups of mothers and children watching games among various teams with making rejoicings shout with joy. But in last few months, and especially in these recent few weeks, it started up that it was very dangerous to be in stadiums when audiences became fierce in progress. ) 3.2. 辞 書 類 のファイル 形 態 素 解 析 に 用 いられる 辞 書 類 ファイルは, 動 詞 辞 書 と 接 辞 辞 書 類 から 成 っており,す べて CSV 形 式 のテキストファイルである 辞 書 中,#で 始 まる 行 はコメント 行 であり,そ の 行 は 読 み 飛 ばす 以 下 に 辞 書 ファイルの 内 容 を 示 す (1) 動 詞 辞 書 動 詞 辞 書 は,swahiri_Verb1.txt と swahiri_verb2.txt の 二 つの 辞 書 ファイルに 分 かれている swahiri_pre_verb1.txt には 連 続 母 音 を 内 部 に 有 する 動 詞 が,swahiri_pre_Verb2.txt には 連 続 母 音 を 含 まない 動 詞 が 登 録 されている 入 力 テキストに 対 して, 検 索 対 象 に 連 続 母 音 を 含 む 場 合 には, 最 初 に Verb1 を 用 いて 連 続 母 音 を 含 む 動 詞 の 検 索 を 行 い, 検 索 されなかった 場 合 は, 連 続 母 音 を 単 母 音 に 縮 約 して Verb2 を 用 いた 動 詞 の 検 索 を 行 う (swahiri_verb1.txt の 例 ( 部 分 )) 順 に, 表 記, 品 詞, 付 加 カテゴリ, 文 字 数,を 示 す staajabisha, v, v,11 ( make wonder ) staajabiwa, v, v pas,10 ( be astonished ) chuchumaa, v, v,9 ( squat on the haunches ) shajisha, v, v,8 ( incite ) dhoofisha, v, v,9 ( weaken ) maanisha, v, v caus,8 ( denote ) (swahiri_verb2.txt の 例 ( 部 分 )) pambanisha, v, v,10 ( make to contest ) rakibishwa, v, v,10 ( be ridden ) randaranda, v, v,10 ( loiter ) rekebishwa, v, v,10 ( be adjusted ) sababishwa, v, v,10 ( be caused ) sahaulisha, v, v,10 ( make to forget ) sahihisha, v, v,10 ( correct ) -132-
(2) 主 語 接 辞 辞 書 主 語 接 辞 辞 書 は,swahiri_pre_SP1.txt と swahiri_pre_sp2.txt の 二 つの 辞 書 からなっている 前 者 は, 動 詞 に 肯 定 の 接 尾 辞 を 伴 う 場 合 の 主 語 接 辞 類 であり, 後 者 は 動 詞 に 否 定 の 接 尾 辞 i を 伴 う 場 合 の 主 語 接 辞 類 である (awahiri_pre_sp1.txt の 例 ( 部 分 )) 肯 定 の 主 語 接 辞 表 記, 結 合 手 付 表 記,を 表 す( 以 下 の 接 辞 辞 書 も 同 じ) ni, ni- (1 人 称 単 数 ) u, u- (2 人 称 単 数 ) a, a- (3 人 称 単 数 ) tu, tu- (1 人 称 複 数 ) m, m- / mw, mw- (2 人 称 複 数 ) wa, wa- (3 人 称 複 数 ) (awahiri_pre_sp2.txt の 例 ( 部 分 )) 否 定 の 主 語 接 辞 si, si- (1 人 称 単 数 ) hu, hu- (2 人 称 単 数 ) ha, ha- (3 人 称 単 数 ) hatu, ha-tu- (1 人 称 複 数 ) ham, ha-m- (2 人 称 複 数 ) hawa, ha-wa- (3 人 称 複 数 ) (3) 目 的 語 接 辞 辞 書 (swahiri_pre_op.txt) 目 的 語 接 辞 類 の 辞 書 である ( 例 ( 部 分 )) ni, ni- (1 人 称 単 数 ) ku, ku- (2 人 称 単 数 ) m, m- / mw, mw- (3 人 称 単 数 ) tu, tu- (1 人 称 複 数 ) wa, wa- (2 人 称 複 数,3 人 称 複 数 ) (4) 時 制 標 識 辞 書 (swahiri_pre_t.txt) 時 制 標 識 接 辞 類 の 辞 書 である ( 例 ( 部 分 )) na, na- ( 現 在 ) ta, ta- ( 未 来 ) li, li- ( 過 去 ) me, me- ( 完 了 ) ku, ku- ( 否 定 過 去 ) -133-
(5) 関 係 節 標 識 辞 書 (swahiri_pre_rel.txt) 関 係 節 標 識 接 辞 類 の 辞 書 である ( 例 ( 部 分 )) ye, ye- ( 人 のクラス 3 人 称 単 数 ) o, o- ( 人 のクラス 3 人 称 複 数, 植 物 のクラス 単 数, 長 くて 薄 い 物 のクラス 単 数 ) yo, yo- ( 植 物 のクラス 複 数, 果 物 のクラス 複 数, 動 物 のクラス 単 数 ) cho, cho- ( 物 のクラス 単 数 ) vyo, vyo- ( 物 のクラス 複 数 ) 3.3. プログラムの 起 動 形 態 素 解 析 プログラム( swh_splitter.rb )は Ruby スクリプトであり,Windows のコマンド プロンプトから 以 下 のように 起 動 する ruby swh_splitter.rb [option] <input filename>... ここで, <input filename> : スワヒリ 語 のテキストファイル 複 数 指 定 可 ( 指 定 順 に 順 次 処 理 する) [option] : オプション 指 定 -v 分 析 結 果 の 詳 細 情 報 を 表 示 (このオプションがない 場 合 は, 出 力 は 原 テキストに 接 辞 境 界 記 号 が 挿 入 された 形 式 となる) -w 辞 書 にない 接 辞 が 見 つかった 場 合 警 告 を 表 示 -u 辞 書 にない 接 辞 が 見 つかった 場 合 原 文 のテキストを 表 示 -h ヘルプ 画 面 表 示 --version バージョン 番 号 を 表 示 分 析 結 果 は 標 準 出 力 に 表 示 される 結 果 をファイルに 出 力 したい 場 合 は, 以 下 のように リダイレクトする ruby swh_splitter.rb [option] <input filename>...>output_filename.txt 以 下 に 解 析 結 果 の 例 を 示 す C: >ruby swh_splitter.rb swh_test.txt ( 詳 細 分 析 のオプションのない 場 合 ) mwishoni mwa wiki kama leo ama kesho, wakazi wengi wa mijini h-u-ji-pumzisha jioni kwa ku-angalia michezo m-bali m-bali. katika michezo hiyo h-a-kuna u-na-o-pendwa sana kama mpira, na u-ki-enda kw-enye vi-wa-n-ja u-ta-kuta makundi m-a-kubwa ya wa-fanya kazi, akina m-ama na -134-
watoto wa-na-angalia mchuano kati ya timu m-bali m-bali wa-ki-shangilia kwa furaha sana. lakini katika miezi m-i-chache i-li-yo-pita, na h-asa katika wiki chache hizi za ka-ri-buni, ku-me-zuka h-a-li ambayo i-na-weza kuwa na hatari sana katika vi-wa-n-ja vya michezo ikiwa wa-na-o-husika ha-wa-ta-chukua h-atua kali... C: >ruby swh_splitter.rb -v swh_test.txt ( 詳 細 分 析 のオプション 指 定 の 場 合 ) ( 動 詞 複 合 体 として 検 出 されたもののみ 以 下 に 示 す ) hujipumzisha [SP ] hu [OP ] ji [VERB] pumzisha ---> h-u-ji-pumzisha unaopendwa [SP ] u [T ] na [REL ] o [VERB] pendwa ---> u-na-o-pendwa ukienda [SP ] u [T ] ki [VERB] enda ---> u-ki-enda wanaangalia [SP ] wa [T ] na [VERB] angalia ---> wa-na-angalia iliyopita [SP ] i [T ] li [REL ] yo [VERB] pita ---> i-li-yo-pita -135-
kumezuka [SP ] ku [T ] me [VERB] zuka ---> ku-me-zuka wanaohusika [SP ] wa [T ] na [REL ] o [VERB] husika ---> wa-na-o-husika hawatachukua [SP ] hawa [T ] ta [VERB] chukua ---> ha-wa-ta-chukua ukichunguza [SP ] u [T ] ki [VERB] chunguza ---> u-ki-chunguza atatokea [SP ] a [T ] ta [VERB] tokea ---> a-ta-tokea atakayejidai [SP ] a [T ] taka [REL ] ye [OP ] ji [VERB] dai ---> a-taka-ye-ji-dai atawakagomesha [SP ] a [T ] ta [OP ] wa -136-
[VERB] kagomesha ---> a-ta-wa-kagomesha スワヒリ 語 動 詞 複 合 体 の 形 態 素 解 析 の 処 理 フローを 図 1~ 図 5 に 示 す 図 1 は, 解 析 処 理 のメインフローである 図 2 は,テキストからの 1 単 位 の 読 込 み 処 理, 図 3 は, 切 り 出 さ れた 単 語 の 処 理 フローである 図 4 は, 動 詞 の 辞 書 検 索, 図 5 は, 接 辞 類 の 検 索 と 境 界 記 号 挿 入 処 理 フローを 示 す メイン 単 語 読 み 込 みループ 1 単 位 読 み 込 み ( 単 語 / 境 界 記 号 / 終 端 ) 入 力 ファイル (スワヒリ 語 テキスト) 終 端 読 み 込 んだ 種 類 別 の 処 理 単 語 境 界 記 号 1 単 語 の 処 理 そのまま 出 力 区 切 り 文 字 の 挿 入 結 果 を 出 力 単 語 読 み 込 みループ 終 了 図 1:スワヒリ 語 動 詞 複 合 体 の 形 態 素 解 析 メインフロー -137-
1 単 位 読 み 込 み 境 界 記 号 文 字 タブ CR LF スペース! ( ) カンマ - ピリオド / 0~9 ; ; =? 境 界 記 号 文 字 を 読 み 込 む (1 文 字 以 上 の 連 続 ) 入 力 ファイル (スワヒリ 語 テキスト) 1 文 字 以 上 読 み 込 んだ? 境 界 記 号 を 返 す [ ]で 囲 まれた 文 字 列 を 読 み 込 む [ ]を 読 み 込 んだ? 境 界 記 号 を 返 す 境 界 記 号 文 字 以 外 を 読 み 込 む (1 文 字 以 上 の 連 続 ) 1 文 字 以 上 読 み 込 んだ? 単 語 を 返 す 終 端 を 返 す 図 2:スワヒリ 語 テキストからの 1 単 位 読 込 み 処 理 -138-
1 単 語 の 処 理 否 定 の 接 尾 辞 をチェック swahiri_pre_sp2.txt から 読 み 込 んだ 内 容 swahiri_pre_verb1.txt から 読 み 込 んだ 内 容 ( 連 続 母 音 を 含 む 動 詞 ) 動 詞 類 辞 書 の 検 索 ( 連 続 母 音 あり) マッチしたもの がある? swahiri_pre_verb2.txt から 読 み 込 んだ 内 容 ( 連 続 母 音 を 含 まない 動 詞 ) 動 詞 類 辞 書 の 検 索 ( 連 続 母 音 なし) 連 続 母 音 は1つの 母 音 として 比 較 する マッチしたもの がある? 接 辞 検 索 区 切 り 文 字 挿 入 元 の 文 字 列 を 返 す 区 切 り 文 字 を 挿 入 した テキストを 返 す 終 了 図 3:1 単 語 の 処 理 フロー -139-
動 詞 類 辞 書 の 検 索 辞 書 から 検 索 候 補 を 絞 る 検 索 の 高 速 化 のため 同 じ 子 音 を 持 つものの みを 検 索 対 象 とする 検 索 ループ 語 尾 変 化 がないものとして 検 索 ( 検 索 結 果 1) 動 詞 かつ 否 定 の 接 尾 辞 がある? 語 尾 変 化 があるものとして 検 索 ( 検 索 結 果 2) 動 詞 で かつ 語 尾 がa の 場 合 語 尾 がeまた はiも 一 致 とみなす 1または2の 一 方 だけある 検 索 結 果 が ある? 1と2の 両 方 ある 1も2もない 検 索 ループ マッチした 部 分 が 長 い 方 を 採 用 終 了 図 4: 動 詞 辞 書 の 検 索 処 理 -140-
接 辞 検 索 区 切 り 文 字 挿 入 動 詞 類 辞 書 にマッチした 部 分 を 取 り 除 く swahiri_pre_sp1.txtと swahiri_presp2.txtから 読 み 込 んだ 内 容 SP 辞 書 を 検 索 する swahiri_pre_t.txt から 読 み 込 んだ 内 容 swahiri_pre_rel.txt から 読 み 込 んだ 内 容 T 辞 書 を 検 索 する REL 辞 書 を 検 索 する 各 接 辞 辞 書 と 順 にマッチングし 一 致 すればその 部 分 を 区 切 り 付 き 接 辞 に 置 き 換 える swahiri_pre_op.txt から 読 み 込 んだ 内 容 OP 辞 書 を 検 索 する まだ 文 字 が 残 っている? 区 切 り 付 き 接 辞 + 区 切 り 付 き 動 詞 を 返 す WARNINGの 表 示 -vまたは-wが 指 定 されて いるときのみ -uオプション あり? 読 み 込 んだ 単 語 を そのまま 返 す 区 切 り 付 き 接 辞 - 不 明 語 - 区 切 り 付 き 動 詞 を 返 す 終 了 図 5: 接 辞 類 の 検 索 と 境 界 記 号 処 理 -141-
4. おわりに スワヒリ 語 における 動 詞 複 合 体 の 形 態 素 解 析 の 試 みに 関 して 報 告 した ここでの 手 法 は 辞 書 を 追 加 するなどすれば,そのまま 形 容 詞 複 合 体 など 他 の 言 語 要 素 の 形 態 素 解 析 へも 容 易 に 拡 張 が 可 能 である 本 ソフトは 作 成 途 上 のものであって, 分 析 精 度 はまだ 十 分 なもの ではない 今 後 辞 書 類 の 拡 張 を 図 るとともに,スワヒリ 語 研 究 の 進 展 によって 接 辞 間,あ るいは 接 辞 と 動 詞 語 幹 との 共 起 関 係 などがより 明 らかになれば,その 成 果 を 導 入 するなど して 解 析 の 精 度 をより 向 上 させていきたいと 考 えている 謝 辞 本 研 究 は, 東 京 外 国 語 大 学 アジア アフリカ 言 語 文 化 研 究 所 の 稗 田 乃 教 授 の 協 力 のもと になされたものである 本 文 執 筆 においても,スワヒリ 語 テキストの 訳 や 内 容 の 校 閲 をお 願 いした ここに 記 して 厚 くお 礼 申 し 上 げる また 本 ソフトウェア ツール 作 成 に 尽 力 い ただいた 杉 浦 功 一 氏 に 深 謝 する 参 考 文 献 稗 田 乃 (2010) Swahili Grammar, スワヒリ 語 文 法, 東 京 :アジア アフリカ 言 語 文 化 研 究 所 稗 田 乃 (2011) スワヒリ 語 の 目 的 語 接 辞 の 働 き-スワヒリ 語 口 語 コーパスを 用 いた 研 究 の 試 み-,コーパスに 基 づく 言 語 学 教 育 研 究 報 告,.7, pp.153-169 -142-