コーパスに基づく言語学教育研究報告 9



Similar documents
SXF 仕 様 実 装 規 約 版 ( 幾 何 検 定 編 ) 新 旧 対 照 表 2013/3/26 文 言 変 更 p.12(1. 基 本 事 項 ) (5)SXF 入 出 力 バージョン Ver.2 形 式 と Ver.3.0 形 式 および Ver.3.1 形 式 の 入 出 力 機 能 を

<4D F736F F D2090C389AA8CA72D92F18F6F2D D F ED28CFC82AF91808DEC837D836A B E838B A815B816A2E646F6378>

Microsoft PowerPoint - 報告書(概要).ppt

弁護士報酬規定(抜粋)

1 書 誌 作 成 機 能 (NACSIS-CAT)の 軽 量 化 合 理 化 電 子 情 報 資 源 への 適 切 な 対 応 のための 資 源 ( 人 的 資 源,システム 資 源, 経 費 を 含 む) の 確 保 のために, 書 誌 作 成 と 書 誌 管 理 作 業 の 軽 量 化 を 図

1.2. ご 利 用 環 境 推 奨 ブラウザ Internet Explorer Google Chrome(バージョン 32 時 点 で 動 作 確 認 済 み) Mozilla Firefox(バージョン 26 時 点 で 動 作 確 認 済 み) Safari 7

Ver 改 訂 日 付 改 訂 内 容 1

Microsoft Word - 09-  研究計画 シラバス 英語科

01_07_01 データのインポート_エクスポート_1

( 別 紙 ) 以 下 法 とあるのは 改 正 法 第 5 条 の 規 定 による 改 正 後 の 健 康 保 険 法 を 指 す ( 施 行 期 日 は 平 成 28 年 4 月 1 日 ) 1. 標 準 報 酬 月 額 の 等 級 区 分 の 追 加 について 問 1 法 改 正 により 追 加

スライド 1

平成19年9月改定

H28記入説明書(納付金・調整金)8

2. データを 検 索 する なごやコレクションのデータを 検 索 するための 方 法 として キーワード 検 索 詳 細 検 索 の 二 通 りの 検 索 方 法 が あります 2.1. キーワードから 探 す キーワードを 入 力 する トップページの 入 力 ボックスに 検 索

<4D F736F F F696E74202D C90BF8F CC8DEC90AC97E181698A4F8D E8816A5F56322E707074>

R4財務対応障害一覧

図 2 エクスポートによるシェープファイルの 新 規 保 存 新 規 保 存 するファイルは,より 分 かりやすい 名 前 をつけて 適 切 なフォルダ(shape フォル ダにまとめておくのがよい) 上 に 保 存 しておく 2 / 10

<4D F736F F D B796EC8CA7835C F815B E646F63>

財団法人○○会における最初の評議員の選任方法(案)

施 工 P お 気 に 入 り データを 活 用 するための 準 備 施 工 パッケージデータをお 気 に 入 りに 登 録 し 単 価 を 閲 覧 するための 方 法 を 説 明 します 1. 施 工 パッケージデータをダウンロードする 施 工 パッケージデータのダウンロードは 下 記 から 行

Taro-2220(修正).jtd

接続試験実施要領【障害者総合支援法(平成27年4月報酬改定)対応】

1. アクセスする 2. 簡 易 検 索 画 面 (fig. 1) アクセスすると 最 初 に 出 る 画 面 です 検 索 語 入 力 ボックスにキーワードを 入 力 して 論 文 検 索 ボタンをクリックし ます 3. ボックス 下 部 のチェック 項

2016 年 度 情 報 リテラシー 三 科 目 合 計 の 算 出 関 数 を 用 いて 各 教 科 の 平 均 点 と 最 高 点 を 求 めることにする この2つの 計 算 は [ホーム]タブのコマ ンドにも 用 意 されているが 今 回 は 関 数 として 作 成 する まず 表 に 三 科

<4D F736F F F696E74202D B E E88E68C9A90DD8BC65F E DC58F4994C52E >

目 次 機 能 概 要 配 信 管 理 1. メールの 配 信 履 歴 と 予 約 を 確 認 する

参加表明書・企画提案書様式

4 承 認 コミュニティ 組 織 は 市 長 若 しくはその 委 任 を 受 けた 者 又 は 監 査 委 員 の 監 査 に 応 じなければ ならない ( 状 況 報 告 ) 第 7 条 承 認 コミュニティ 組 織 は 市 長 が 必 要 と 認 めるときは 交 付 金 事 業 の 遂 行 の

- 1 - 総 控 負 傷 疾 病 療 養 産 産 女 性 責 帰 べ 由 試 ~ 8 契 約 契 約 完 了 ほ 契 約 超 締 結 専 門 的 知 識 技 術 験 専 門 的 知 識 高 大 臣 専 門 的 知 識 高 専 門 的 知 識 締 結 契 約 満 歳 締 結 契 約 契 約 係 始

PowerPoint プレゼンテーション

財政再計算結果_色変更.indd

(Microsoft PowerPoint - Ver12\203o\201[\203W\203\207\203\223\203A\203b\203v\216\221\227\277.ppt)

Microsoft Word 第1章 定款.doc

Microsoft PowerPoint - INIS_Collection_Srh_Quickmamual(Japanese)

(1) 言 語 資 料 の 収 集 ( 看 護 師 国 家 試 験 ) (2) 言 語 資 料 の 調 査 基 準 に 沿 った 単 位 への 分 割 (3) データベースとしての 年 度 別 付 加 情 報 付 単 位 語 表 の 作 成 例 : 1 単 位 語 2 見 出 し 語 3 読 み 4

異 議 申 立 人 が 主 張 する 異 議 申 立 ての 理 由 は 異 議 申 立 書 の 記 載 によると おおむね 次 のとおりである 1 処 分 庁 の 名 称 の 非 公 開 について 本 件 審 査 請 求 書 等 について 処 分 庁 を 非 公 開 とする 処 分 は 秋 田 県

平成16年年金制度改正 ~年金の昔・今・未来を考える~

<4D F736F F D E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A C98AD682B782E993C195CA915B C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

1 林 地 台 帳 整 備 マニュアル( 案 )について 林 地 台 帳 整 備 マニュアル( 案 )の 構 成 構 成 記 載 内 容 第 1 章 はじめに 本 マニュアルの 目 的 記 載 内 容 について 説 明 しています 第 2 章 第 3 章 第 4 章 第 5 章 第 6 章 林 地

Microsoft Word - 全国エリアマネジメントネットワーク規約.docx

< F2D A C5817A C495B6817A>

2016 年 度 情 報 リテラシー 次 に Excel のメニューから[ 挿 入 ]タブをクリックし 表 示 されたメニュー 内 の[グラフ]にある[ 折 れ 線 グラフ]のボタンをクリックする するとサブメニューが 表 示 されるので 左 上 の[ 折 れ 線 ]を 選 択 する [ 挿 入 ]

入 札 参 加 者 は 入 札 の 執 行 完 了 に 至 るまではいつでも 入 札 を 辞 退 することができ これを 理 由 として 以 降 の 指 名 等 において 不 利 益 な 取 扱 いを 受 けることはない 12 入 札 保 証 金 免 除 13 契 約 保 証 金 免 除 14 入

(Microsoft PowerPoint \213\306\213\226\211\302\215X\220V\220\340\226\276\211\357\201i3\201j)

Microsoft PowerPoint - 経営事項審査.ppt

KINGSOFT Office 2016 動 作 環 境 対 応 日 本 語 版 版 共 通 利 用 上 記 動 作 以 上 以 上 空 容 量 以 上 他 接 続 環 境 推 奨 必 要 2

(1)1オールゼロ 記 録 ケース 厚 生 年 金 期 間 A B 及 びCに 係 る 旧 厚 生 年 金 保 険 法 の 老 齢 年 金 ( 以 下 旧 厚 老 という )の 受 給 者 に 時 効 特 例 法 施 行 後 厚 生 年 金 期 間 Dが 判 明 した Bは 事 業 所 記 号 が

別記

<4D F736F F D C93FA967B91E5906B8DD082D682CC91CE899E2E646F6378>

DN6(R04).vin

< C8EAE81698B4C93FC8FE382CC97AF88D38E968D CA8E86816A2E786C73>

Taro-1-14A記載例.jtd

スライド 1

PowerPoint プレゼンテーション

POWER EGG V2.01 ユーザーズマニュアル ファイル管理編

募集新株予約権(有償ストック・オプション)の発行に関するお知らせ

調査結果の概要

3. 選 任 固 定 資 産 評 価 員 は 固 定 資 産 の 評 価 に 関 する 知 識 及 び 経 験 を 有 する 者 のうちから 市 町 村 長 が 当 該 市 町 村 の 議 会 の 同 意 を 得 て 選 任 する 二 以 上 の 市 町 村 の 長 は 当 該 市 町 村 の 議

PowerPoint プレゼンテーション

Taro-データ公安委員会相互協力事

私立大学等研究設備整備費等補助金(私立大学等

特 別 研 究 学 生 月 額 29,700 円 3 大 学 院 学 則 第 79 条 第 4 項 の 法 人 規 程 で 定 める 学 修 料 は 月 額 2,330 円 とする ただ し 当 初 の 受 入 れである 場 合 は 身 分 証 明 書 発 行 費 として860 円 を 学 修 料

設定フロー ★印は必須の設定です

第4回税制調査会 総4-1

(5) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 き 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている

Microsoft Word - 第3章.doc

PowerPoint プレゼンテーション

<4D F736F F D AC90D1955D92E CC82CC895E DD8C D2816A2E646F63>

<4D F736F F D D3188C091538AC7979D8B4B92F F292B98CF092CA81698A94816A2E646F63>

Microsoft Word - 修正_作業手順書.docx

<4D F736F F D205F F32332E31318CC2906C8CA48F AE89E6947A904D5F82CC88C493E02E646F6378>

本 校 の 沿 革 昭 和 21 年 昭 和 49 年 昭 和 54 年 昭 和 60 年 平 成 9 年 平 成 11 年 平 成 18 年 北 海 道 庁 立 農 業 講 習 所 として 発 足 北 海 道 立 農 業 大 学 校 に 改 組 修 業 年 限 を1 年 制 から2 年 制 に 改

(2)大学・学部・研究科等の理念・目的が、大学構成員(教職員および学生)に周知され、社会に公表されているか

Microsoft Word - 不正アクセス行為の禁止等に関する法律等に基づく公安

03_主要処理画面.xlsx

検 討 検 討 の 進 め 方 検 討 状 況 簡 易 収 支 の 世 帯 からサンプリング 世 帯 名 作 成 事 務 の 廃 止 4 5 必 要 な 世 帯 数 の 確 保 が 可 能 か 簡 易 収 支 を 実 施 している 民 間 事 業 者 との 連 絡 等 に 伴 う 事 務 の 複 雑


目 次 1. 積 算 内 訳 書 に 関 する 留 意 事 項 1 ページ 2. 積 算 内 訳 書 のダウンロード 3 ページ 3. 積 算 内 訳 書 の 作 成 (Excel 2003の 場 合 ) 6 ページ 4. 積 算 内 訳 書 の 作 成 (Excel 2007の 場 合 ) 13

TIPS - 棚 割 りを 開 始 するまで Liteを 起 動 し 企 業 情 報 の 追 加 を 行 い 棚 割 を 行 う 企 業 の 追 加 をして 下 さい 企 業 情 報 の 追 加 時 に エラーメッセージが 表 示 された 場 合 別 途 TIPS トラブルが 発 生 した 場 合

頸 がん 予 防 措 置 の 実 施 の 推 進 のために 講 ずる 具 体 的 な 施 策 等 について 定 めることにより 子 宮 頸 がんの 確 実 な 予 防 を 図 ることを 目 的 とする ( 定 義 ) 第 二 条 この 法 律 において 子 宮 頸 がん 予 防 措 置 とは 子 宮

様式(補助金)

6-1 第 6 章 ストック オプション 会 計 設 例 1 基 本 的 処 理 Check! 1. 費 用 の 計 上 ( 1 年 度 ) 2. 費 用 の 計 上 ( 2 年 度 )- 権 利 不 確 定 による 失 効 見 積 数 の 変 動 - 3. 費 用 の 計 上 ( 3 年 度 )-

Microsoft Word - 佐野市生活排水処理構想(案).doc

<4D F736F F D2091E F18CB48D C481698E7B90DD8F9590AC89DB816A2E646F63>

一般競争入札について

Microsoft Word - 通達(参考).doc

6. 共 有 等 に 係 る 固 定 資 産 の 判 定 3 共 有 に 係 る 固 定 資 産 については それぞれの 共 有 者 が 他 に 固 定 資 産 を 所 有 している 場 合 であっても その 資 産 とは 別 個 に 共 有 されている 固 定 資 産 を 別 の 人 格 が 所

職 員 の 平 均 給 与 月 額 初 任 給 等 の 状 況 (1) 職 員 の 平 均 年 齢 平 均 給 料 月 額 及 び 平 均 給 与 月 額 の 状 況 ( 平 成 年 月 1 日 現 在 ) 1 一 般 行 政 職 福 岡 県 技 能 労 務 職 歳 1,19,98 9,9 歳 8,

2 出 願 資 格 審 査 前 記 1の 出 願 資 格 (5) 又 は(6) により 出 願 を 希 望 する 者 には, 出 願 に 先 立 ち 出 願 資 格 審 査 を 行 いますので, 次 の 書 類 を 以 下 の 期 間 に 岡 山 大 学 大 学 院 自 然 科 学 研 究 科 等

(4) 給 与 制 度 の 総 合 的 見 直 しの 実 施 状 況 について 概 要 国 の 給 与 制 度 の 総 合 的 見 直 しにおいては 俸 給 表 の 水 準 の 平 均 2の 引 下 げ 及 び 地 域 手 当 の 支 給 割 合 の 見 直 し 等 に 取 り 組 むとされている.

2 一 般 行 政 職 給 料 表 の 状 況 (24 年 4 月 1 日 現 在 ) 1 号 級 の 給 料 月 額 最 高 号 級 の 給 料 月 額 1 級 ( 単 位 : ) 2 級 3 級 4 級 5 級 6 級 7 級 8 級 9 級 1 級 135,6 185,8 222,9 261,

Microsoft Word - 00表紙(管理・運営編).doc

<4D F736F F D20819C486F70658F6F93588ED297708AC7979D89E696CA837D836A B E A2E646F63>

預 金 を 確 保 しつつ 資 金 調 達 手 段 も 確 保 する 収 益 性 を 示 す 指 標 として 営 業 利 益 率 を 採 用 し 営 業 利 益 率 の 目 安 となる 数 値 を 公 表 する 株 主 の 皆 様 への 還 元 については 持 続 的 な 成 長 による 配 当 可

一 括 登 録 方 法 一 括 登 録 をするには 予 め 専 用 の CSV ファイルを 作 成 する 必 要 があります 普 段 エクセルファイルで 管 理 をされている 方 は, 以 下 の 3 列 のみのデータとなるようにデータを 加 工 して CSV ファイルとして 保 存 して 下 さ

<4D F736F F D208EC096B18AEE8F D CF8D5882C882B5816A2E646F63>

. 負 担 調 整 措 置 8 (1) 宅 地 等 調 整 固 定 資 産 税 額 宅 地 に 係 る 固 定 資 産 税 額 は 当 該 年 度 分 の 固 定 資 産 税 額 が 前 年 度 課 税 標 準 額 又 は 比 準 課 税 標 準 額 に 当 該 年 度 分 の 価 格 ( 住 宅

職務発明等の申請に関する手続要領について(通達)

d_cj01

4 調 査 の 対 話 内 容 (1) 調 査 対 象 財 産 の 土 地 建 物 等 を 活 用 して 展 開 できる 事 業 のアイディアをお 聞 かせく ださい 事 業 アイディアには, 次 の 可 能 性 も 含 めて 提 案 をお 願 いします ア 地 域 の 活 性 化 と 様 々な 世

Transcription:

コーパスに 基 づく 言 語 学 教 育 研 究 報 告.9 (2012) スワヒリ 語 における 動 詞 複 合 体 の 形 態 素 解 析 の 試 み 佐 藤 大 和 ( 東 京 外 国 語 大 学 グローバル COE 特 任 教 授 ) 要 旨 本 論 文 は,スワヒリ 語 口 語 コーパスを 用 いたスワヒリ 語 研 究 のためのツールとして の 形 態 素 解 析 に 関 して 述 べたものである 特 に,スワヒリ 語 動 詞 複 合 体 を 構 成 する 動 詞 語 幹 と, 主 語 接 辞, 時 制 標 識, 目 的 語 接 辞 等 の 接 頭 辞 類 を 同 定 し,これらを 区 分 化 する 手 法 に 関 して 報 告 する 1. はじめに 東 京 外 国 語 大 学 グローバルCOEプロジェクトでは, 世 界 の 各 種 言 語 の 研 究 の 一 環 として, スワヒリ 語 の 口 語 コーパスを 構 築 し,これに 基 づいたスワヒリ 語 研 究 を 進 めている 従 来 スワヒリ 語 の 研 究 は, 主 として 所 謂 文 語 を 対 象 としてなされてきたが, 言 語 研 究 としては 実 際 の 言 語 運 用 の 実 態 に 基 づいた 研 究 が 求 められる そのため, 本 プロジェクト では,インタビュアーによる 対 話 形 式 の 音 声 を 収 録 し,これをテキストに 書 き 起 こすこと によって,より 口 語 的 な 資 料 としてのスワヒリ 語 コーパスを 作 成 した( 詳 細 は 稗 田 (2011)) コーパスに 基 づく 言 語 研 究 では, 形 態 素 などの 言 語 要 素 への 区 分 化 とタグ 付 け 等 の 作 業 が 必 要 になる これらの 作 業 を 人 手 によって 行 うのは, 大 量 の 言 語 資 料 を 対 象 とする 場 合 には 作 業 量 が 極 めて 多 くなり 能 率 的 ではない 形 態 素 解 析 ツールなどによって 自 動 的 に 分 節 化 したりタグ 付 けをする 手 法 が 必 要 になってくる 英 語 などのように, 語 と 語 がスペー スによって 区 分 化 されているテキストを 扱 う 場 合 には 問 題 は 少 ないが, 日 本 語 やスワヒリ 語 のように 接 辞 や 造 語 成 分 が 複 合 膠 着 した 形 態 を 扱 う 場 合 には, 特 に 形 態 素 解 析 の 手 段 が 必 要 になる 本 プロジェクトにおけるスワヒリ 語 研 究 では, 動 詞 複 合 体 を 構 成 する 目 的 語 接 辞 の 役 割 に 焦 点 を 当 てて 研 究 が 進 められてきた( 稗 田 (2010, 2011) ) 本 報 告 は,こうしたスワヒリ 語 研 究 に 役 立 てるため,スワヒリ 語 テキスト コーパスから 動 詞 複 合 体 を 検 出 し,それを 構 成 する 形 態 素 ( 各 種 接 頭 辞 )と 動 詞 要 素 を 分 離 抽 出 する 手 法 とツールに 関 して 述 べたも のである -129-

2. スワヒリ 語 形 態 素 解 析 の 方 法 2.1. 動 詞 複 合 体 スワヒリ 語 では, 動 詞 語 幹 に 種 々の 接 辞 が 付 加 されて 動 詞 複 合 体 を 構 成 する 動 詞 複 合 体 は, 以 下 に 示 された 要 素 とその 順 序 によって 構 成 される 動 詞 複 合 体 :SP-TM-(RM)-(OP)-VERB-(ES)-FV ここで, SP: 主 語 接 辞 (Subject Prefix) TM: 時 制 標 識 (Tense Marker) RM: 関 係 節 標 識 (Relative Marker) OP: 目 的 語 接 辞 (Object Prefix) VERB: 動 詞 語 幹 ES: 拡 張 接 尾 辞 (Extension Suffix) FV: 終 母 音 (Final Vowel) 括 弧 で 括 られた 関 係 節 標 識 (RM), 目 的 語 接 辞 (OP), 拡 張 接 尾 辞 (ES)は, 必 須 要 素 ではな い なお, 主 語 接 辞 (SP)は, 命 令 形 のときは 省 略 される すべての 要 素 が 付 加 された 動 詞 複 合 体 の 例 を 以 下 に 示 す kitabu ni-li-cho-m-som-esh-a mtoto ( the book which I made a child to read ) book SP-TM-RM-OP-read-ES-FV child 上 記 の 動 詞 複 合 体 ni-li-cho-m-som-esh-a は 以 下 の 形 態 素 から 形 成 されている som 動 詞 語 幹 ( 読 む ) ni- 主 語 接 辞 (1 人 称 単 数 ) li- 時 制 標 識 ( 過 去 時 制 ) cho- 関 係 節 標 識 ( 物 のクラス 単 数 ) m- 目 的 語 接 辞 (3 人 称 単 数, 人 間 のクラス) -esh 拡 張 接 尾 辞 ( 使 役 ) -a 終 母 音 今 回 の 形 態 素 解 析 ツールでは, 動 詞 複 合 体 の 接 頭 辞 類 の 役 割 を 明 らかにする 目 的 である ことから,( 動 詞 語 幹 )-( 拡 張 接 尾 辞 )-( 終 母 音 )の 連 接 は, 新 たに 一 つの( 動 詞 :VERB) という 単 位 として 扱 うこととした すなわち, 動 詞 は 拡 張 接 尾 辞 と 終 母 音 を 含 む 単 位 とし て 辞 書 に 登 録 される こうすることにより, 動 詞 複 合 体 の 構 成 は 以 下 のようになる 動 詞 複 合 体 :SP-TM-(RM)-(OP)-VERB -130-

これにより 前 記 の 動 詞 複 合 体 の 例 の 場 合 は, 以 下 のような 要 素 の 連 接 となる 動 詞 複 合 体 の 例 :ni-li-cho-m-somesha 2.2. 形 態 素 解 析 上 の 考 慮 すべき 点 スワヒリ 語 動 詞 複 合 体 の 形 態 素 解 析 は,まず 動 詞 辞 書 を 用 い, 後 方 一 致 によって 入 力 テ キストから 動 詞 の 検 出 を 行 う 動 詞 が 検 出 された 単 位 は, 接 辞 類 の 辞 書 を 用 いて 各 接 辞 の 区 分 化 を 行 う その 際, 留 意 すべき 点 を 以 下 に 示 す (1) 動 詞 辞 書 中 の 動 詞 は, 多 くは 語 尾 が a で 終 わる 形 式 ( 不 定 形 )で 表 現 されている テキスト 上, 語 尾 は e( 命 令 形 )や i( 否 定 形 )に 変 化 している 場 合 があるので, 動 詞 辞 書 とのマッチングは,このような 変 形 を 考 慮 しなければならない (2) 動 詞 の 中 にはもともと i で 終 わる 動 詞 も 存 在 する 例 えば, 住 む を 意 味 する ishi という 動 詞 は, 終 える を 意 味 する isha の 否 定 形 と 同 形 となる しかし, 動 詞 が 否 定 形 の 場 合 には, 主 語 接 辞 は 否 定 の 接 頭 辞 が 用 いられるので, 主 語 接 辞 を 肯 定 型 と 否 定 形 の 接 辞 に 分 け, 否 定 の 主 語 接 辞 と 動 詞 の 否 定 形 の 共 起 性 を 考 慮 して 処 理 しなけ ればならない (3) スワヒリ 語 のテキスト コーパスは, 音 声 言 語 を 文 字 表 記 した 口 語 コーパスであ る 口 語 の 特 徴 として, 語 を 強 調 したい 時 など 母 音 部 を 伸 長 して 発 音 することが 考 えられ,その 場 合 伸 長 部 分 を 長 音 化 ( 母 音 の 重 ね 書 き,aa など)して 表 記 するこ とが 予 想 される 一 方,もともと 長 母 音 を 含 む 動 詞 も 存 在 するところから, 動 詞 辞 書 を, 長 母 音 を 含 む 動 詞 辞 書 と 含 まない 動 詞 辞 書 に 分 割 し,テキスト 中 の 動 詞 が 長 母 音 を 含 む 場 合 には,それが 長 母 音 動 詞 辞 書 に 含 まれる 動 詞 であるかどうかをチェックす る 処 理 が 必 要 になる 3. 形 態 素 解 析 ツール 3.1. 入 力 テキスト 入 力 となるスワヒリ 語 コーパス(テキスト)は, 以 下 に 示 すようにスペースやピリオドなど の 区 切 り 記 号 で 区 分 化 された 語 および 形 態 素 の 複 合 体 の 系 列 である mwishoni mwa wiki kama leo ama kesho, wakazi wengi wa mijini hujipumzisha jioni kwa kuangalia michezo mbali mbali. katika michezo hiyo hakuna unaopendwa sana kama mpira, na ukienda kwenye viwanja utakuta makundi makubwa ya wafanya kazi, akina mama na watoto wanaangalia mchuano kati ya timu mbali mbali wakishangilia kwa furaha sana. lakini katika miezi michache iliyopita, na hasa katika wiki chache hizi za karibuni, kumezuka hali ambayo inaweza kuwa na hatari sana katika viwanja vya michezo ikiwa wanaohusika hawatachukua hatua kali. -131-

( 訳 :In weekend like today or tomorrow, many workers in town relax in the evening by watching various games, in these games there is no other game that is favored very much like football, and if you go to a stadium you will meet big groups of workers and groups of mothers and children watching games among various teams with making rejoicings shout with joy. But in last few months, and especially in these recent few weeks, it started up that it was very dangerous to be in stadiums when audiences became fierce in progress. ) 3.2. 辞 書 類 のファイル 形 態 素 解 析 に 用 いられる 辞 書 類 ファイルは, 動 詞 辞 書 と 接 辞 辞 書 類 から 成 っており,す べて CSV 形 式 のテキストファイルである 辞 書 中,#で 始 まる 行 はコメント 行 であり,そ の 行 は 読 み 飛 ばす 以 下 に 辞 書 ファイルの 内 容 を 示 す (1) 動 詞 辞 書 動 詞 辞 書 は,swahiri_Verb1.txt と swahiri_verb2.txt の 二 つの 辞 書 ファイルに 分 かれている swahiri_pre_verb1.txt には 連 続 母 音 を 内 部 に 有 する 動 詞 が,swahiri_pre_Verb2.txt には 連 続 母 音 を 含 まない 動 詞 が 登 録 されている 入 力 テキストに 対 して, 検 索 対 象 に 連 続 母 音 を 含 む 場 合 には, 最 初 に Verb1 を 用 いて 連 続 母 音 を 含 む 動 詞 の 検 索 を 行 い, 検 索 されなかった 場 合 は, 連 続 母 音 を 単 母 音 に 縮 約 して Verb2 を 用 いた 動 詞 の 検 索 を 行 う (swahiri_verb1.txt の 例 ( 部 分 )) 順 に, 表 記, 品 詞, 付 加 カテゴリ, 文 字 数,を 示 す staajabisha, v, v,11 ( make wonder ) staajabiwa, v, v pas,10 ( be astonished ) chuchumaa, v, v,9 ( squat on the haunches ) shajisha, v, v,8 ( incite ) dhoofisha, v, v,9 ( weaken ) maanisha, v, v caus,8 ( denote ) (swahiri_verb2.txt の 例 ( 部 分 )) pambanisha, v, v,10 ( make to contest ) rakibishwa, v, v,10 ( be ridden ) randaranda, v, v,10 ( loiter ) rekebishwa, v, v,10 ( be adjusted ) sababishwa, v, v,10 ( be caused ) sahaulisha, v, v,10 ( make to forget ) sahihisha, v, v,10 ( correct ) -132-

(2) 主 語 接 辞 辞 書 主 語 接 辞 辞 書 は,swahiri_pre_SP1.txt と swahiri_pre_sp2.txt の 二 つの 辞 書 からなっている 前 者 は, 動 詞 に 肯 定 の 接 尾 辞 を 伴 う 場 合 の 主 語 接 辞 類 であり, 後 者 は 動 詞 に 否 定 の 接 尾 辞 i を 伴 う 場 合 の 主 語 接 辞 類 である (awahiri_pre_sp1.txt の 例 ( 部 分 )) 肯 定 の 主 語 接 辞 表 記, 結 合 手 付 表 記,を 表 す( 以 下 の 接 辞 辞 書 も 同 じ) ni, ni- (1 人 称 単 数 ) u, u- (2 人 称 単 数 ) a, a- (3 人 称 単 数 ) tu, tu- (1 人 称 複 数 ) m, m- / mw, mw- (2 人 称 複 数 ) wa, wa- (3 人 称 複 数 ) (awahiri_pre_sp2.txt の 例 ( 部 分 )) 否 定 の 主 語 接 辞 si, si- (1 人 称 単 数 ) hu, hu- (2 人 称 単 数 ) ha, ha- (3 人 称 単 数 ) hatu, ha-tu- (1 人 称 複 数 ) ham, ha-m- (2 人 称 複 数 ) hawa, ha-wa- (3 人 称 複 数 ) (3) 目 的 語 接 辞 辞 書 (swahiri_pre_op.txt) 目 的 語 接 辞 類 の 辞 書 である ( 例 ( 部 分 )) ni, ni- (1 人 称 単 数 ) ku, ku- (2 人 称 単 数 ) m, m- / mw, mw- (3 人 称 単 数 ) tu, tu- (1 人 称 複 数 ) wa, wa- (2 人 称 複 数,3 人 称 複 数 ) (4) 時 制 標 識 辞 書 (swahiri_pre_t.txt) 時 制 標 識 接 辞 類 の 辞 書 である ( 例 ( 部 分 )) na, na- ( 現 在 ) ta, ta- ( 未 来 ) li, li- ( 過 去 ) me, me- ( 完 了 ) ku, ku- ( 否 定 過 去 ) -133-

(5) 関 係 節 標 識 辞 書 (swahiri_pre_rel.txt) 関 係 節 標 識 接 辞 類 の 辞 書 である ( 例 ( 部 分 )) ye, ye- ( 人 のクラス 3 人 称 単 数 ) o, o- ( 人 のクラス 3 人 称 複 数, 植 物 のクラス 単 数, 長 くて 薄 い 物 のクラス 単 数 ) yo, yo- ( 植 物 のクラス 複 数, 果 物 のクラス 複 数, 動 物 のクラス 単 数 ) cho, cho- ( 物 のクラス 単 数 ) vyo, vyo- ( 物 のクラス 複 数 ) 3.3. プログラムの 起 動 形 態 素 解 析 プログラム( swh_splitter.rb )は Ruby スクリプトであり,Windows のコマンド プロンプトから 以 下 のように 起 動 する ruby swh_splitter.rb [option] <input filename>... ここで, <input filename> : スワヒリ 語 のテキストファイル 複 数 指 定 可 ( 指 定 順 に 順 次 処 理 する) [option] : オプション 指 定 -v 分 析 結 果 の 詳 細 情 報 を 表 示 (このオプションがない 場 合 は, 出 力 は 原 テキストに 接 辞 境 界 記 号 が 挿 入 された 形 式 となる) -w 辞 書 にない 接 辞 が 見 つかった 場 合 警 告 を 表 示 -u 辞 書 にない 接 辞 が 見 つかった 場 合 原 文 のテキストを 表 示 -h ヘルプ 画 面 表 示 --version バージョン 番 号 を 表 示 分 析 結 果 は 標 準 出 力 に 表 示 される 結 果 をファイルに 出 力 したい 場 合 は, 以 下 のように リダイレクトする ruby swh_splitter.rb [option] <input filename>...>output_filename.txt 以 下 に 解 析 結 果 の 例 を 示 す C: >ruby swh_splitter.rb swh_test.txt ( 詳 細 分 析 のオプションのない 場 合 ) mwishoni mwa wiki kama leo ama kesho, wakazi wengi wa mijini h-u-ji-pumzisha jioni kwa ku-angalia michezo m-bali m-bali. katika michezo hiyo h-a-kuna u-na-o-pendwa sana kama mpira, na u-ki-enda kw-enye vi-wa-n-ja u-ta-kuta makundi m-a-kubwa ya wa-fanya kazi, akina m-ama na -134-

watoto wa-na-angalia mchuano kati ya timu m-bali m-bali wa-ki-shangilia kwa furaha sana. lakini katika miezi m-i-chache i-li-yo-pita, na h-asa katika wiki chache hizi za ka-ri-buni, ku-me-zuka h-a-li ambayo i-na-weza kuwa na hatari sana katika vi-wa-n-ja vya michezo ikiwa wa-na-o-husika ha-wa-ta-chukua h-atua kali... C: >ruby swh_splitter.rb -v swh_test.txt ( 詳 細 分 析 のオプション 指 定 の 場 合 ) ( 動 詞 複 合 体 として 検 出 されたもののみ 以 下 に 示 す ) hujipumzisha [SP ] hu [OP ] ji [VERB] pumzisha ---> h-u-ji-pumzisha unaopendwa [SP ] u [T ] na [REL ] o [VERB] pendwa ---> u-na-o-pendwa ukienda [SP ] u [T ] ki [VERB] enda ---> u-ki-enda wanaangalia [SP ] wa [T ] na [VERB] angalia ---> wa-na-angalia iliyopita [SP ] i [T ] li [REL ] yo [VERB] pita ---> i-li-yo-pita -135-

kumezuka [SP ] ku [T ] me [VERB] zuka ---> ku-me-zuka wanaohusika [SP ] wa [T ] na [REL ] o [VERB] husika ---> wa-na-o-husika hawatachukua [SP ] hawa [T ] ta [VERB] chukua ---> ha-wa-ta-chukua ukichunguza [SP ] u [T ] ki [VERB] chunguza ---> u-ki-chunguza atatokea [SP ] a [T ] ta [VERB] tokea ---> a-ta-tokea atakayejidai [SP ] a [T ] taka [REL ] ye [OP ] ji [VERB] dai ---> a-taka-ye-ji-dai atawakagomesha [SP ] a [T ] ta [OP ] wa -136-

[VERB] kagomesha ---> a-ta-wa-kagomesha スワヒリ 語 動 詞 複 合 体 の 形 態 素 解 析 の 処 理 フローを 図 1~ 図 5 に 示 す 図 1 は, 解 析 処 理 のメインフローである 図 2 は,テキストからの 1 単 位 の 読 込 み 処 理, 図 3 は, 切 り 出 さ れた 単 語 の 処 理 フローである 図 4 は, 動 詞 の 辞 書 検 索, 図 5 は, 接 辞 類 の 検 索 と 境 界 記 号 挿 入 処 理 フローを 示 す メイン 単 語 読 み 込 みループ 1 単 位 読 み 込 み ( 単 語 / 境 界 記 号 / 終 端 ) 入 力 ファイル (スワヒリ 語 テキスト) 終 端 読 み 込 んだ 種 類 別 の 処 理 単 語 境 界 記 号 1 単 語 の 処 理 そのまま 出 力 区 切 り 文 字 の 挿 入 結 果 を 出 力 単 語 読 み 込 みループ 終 了 図 1:スワヒリ 語 動 詞 複 合 体 の 形 態 素 解 析 メインフロー -137-

1 単 位 読 み 込 み 境 界 記 号 文 字 タブ CR LF スペース! ( ) カンマ - ピリオド / 0~9 ; ; =? 境 界 記 号 文 字 を 読 み 込 む (1 文 字 以 上 の 連 続 ) 入 力 ファイル (スワヒリ 語 テキスト) 1 文 字 以 上 読 み 込 んだ? 境 界 記 号 を 返 す [ ]で 囲 まれた 文 字 列 を 読 み 込 む [ ]を 読 み 込 んだ? 境 界 記 号 を 返 す 境 界 記 号 文 字 以 外 を 読 み 込 む (1 文 字 以 上 の 連 続 ) 1 文 字 以 上 読 み 込 んだ? 単 語 を 返 す 終 端 を 返 す 図 2:スワヒリ 語 テキストからの 1 単 位 読 込 み 処 理 -138-

1 単 語 の 処 理 否 定 の 接 尾 辞 をチェック swahiri_pre_sp2.txt から 読 み 込 んだ 内 容 swahiri_pre_verb1.txt から 読 み 込 んだ 内 容 ( 連 続 母 音 を 含 む 動 詞 ) 動 詞 類 辞 書 の 検 索 ( 連 続 母 音 あり) マッチしたもの がある? swahiri_pre_verb2.txt から 読 み 込 んだ 内 容 ( 連 続 母 音 を 含 まない 動 詞 ) 動 詞 類 辞 書 の 検 索 ( 連 続 母 音 なし) 連 続 母 音 は1つの 母 音 として 比 較 する マッチしたもの がある? 接 辞 検 索 区 切 り 文 字 挿 入 元 の 文 字 列 を 返 す 区 切 り 文 字 を 挿 入 した テキストを 返 す 終 了 図 3:1 単 語 の 処 理 フロー -139-

動 詞 類 辞 書 の 検 索 辞 書 から 検 索 候 補 を 絞 る 検 索 の 高 速 化 のため 同 じ 子 音 を 持 つものの みを 検 索 対 象 とする 検 索 ループ 語 尾 変 化 がないものとして 検 索 ( 検 索 結 果 1) 動 詞 かつ 否 定 の 接 尾 辞 がある? 語 尾 変 化 があるものとして 検 索 ( 検 索 結 果 2) 動 詞 で かつ 語 尾 がa の 場 合 語 尾 がeまた はiも 一 致 とみなす 1または2の 一 方 だけある 検 索 結 果 が ある? 1と2の 両 方 ある 1も2もない 検 索 ループ マッチした 部 分 が 長 い 方 を 採 用 終 了 図 4: 動 詞 辞 書 の 検 索 処 理 -140-

接 辞 検 索 区 切 り 文 字 挿 入 動 詞 類 辞 書 にマッチした 部 分 を 取 り 除 く swahiri_pre_sp1.txtと swahiri_presp2.txtから 読 み 込 んだ 内 容 SP 辞 書 を 検 索 する swahiri_pre_t.txt から 読 み 込 んだ 内 容 swahiri_pre_rel.txt から 読 み 込 んだ 内 容 T 辞 書 を 検 索 する REL 辞 書 を 検 索 する 各 接 辞 辞 書 と 順 にマッチングし 一 致 すればその 部 分 を 区 切 り 付 き 接 辞 に 置 き 換 える swahiri_pre_op.txt から 読 み 込 んだ 内 容 OP 辞 書 を 検 索 する まだ 文 字 が 残 っている? 区 切 り 付 き 接 辞 + 区 切 り 付 き 動 詞 を 返 す WARNINGの 表 示 -vまたは-wが 指 定 されて いるときのみ -uオプション あり? 読 み 込 んだ 単 語 を そのまま 返 す 区 切 り 付 き 接 辞 - 不 明 語 - 区 切 り 付 き 動 詞 を 返 す 終 了 図 5: 接 辞 類 の 検 索 と 境 界 記 号 処 理 -141-

4. おわりに スワヒリ 語 における 動 詞 複 合 体 の 形 態 素 解 析 の 試 みに 関 して 報 告 した ここでの 手 法 は 辞 書 を 追 加 するなどすれば,そのまま 形 容 詞 複 合 体 など 他 の 言 語 要 素 の 形 態 素 解 析 へも 容 易 に 拡 張 が 可 能 である 本 ソフトは 作 成 途 上 のものであって, 分 析 精 度 はまだ 十 分 なもの ではない 今 後 辞 書 類 の 拡 張 を 図 るとともに,スワヒリ 語 研 究 の 進 展 によって 接 辞 間,あ るいは 接 辞 と 動 詞 語 幹 との 共 起 関 係 などがより 明 らかになれば,その 成 果 を 導 入 するなど して 解 析 の 精 度 をより 向 上 させていきたいと 考 えている 謝 辞 本 研 究 は, 東 京 外 国 語 大 学 アジア アフリカ 言 語 文 化 研 究 所 の 稗 田 乃 教 授 の 協 力 のもと になされたものである 本 文 執 筆 においても,スワヒリ 語 テキストの 訳 や 内 容 の 校 閲 をお 願 いした ここに 記 して 厚 くお 礼 申 し 上 げる また 本 ソフトウェア ツール 作 成 に 尽 力 い ただいた 杉 浦 功 一 氏 に 深 謝 する 参 考 文 献 稗 田 乃 (2010) Swahili Grammar, スワヒリ 語 文 法, 東 京 :アジア アフリカ 言 語 文 化 研 究 所 稗 田 乃 (2011) スワヒリ 語 の 目 的 語 接 辞 の 働 き-スワヒリ 語 口 語 コーパスを 用 いた 研 究 の 試 み-,コーパスに 基 づく 言 語 学 教 育 研 究 報 告,.7, pp.153-169 -142-