日 中 パテントファミリーを 利 用 した 専 門 用 語 訳 語 推 定 フレーズテーブルおよび 対 訳 文 対 を 利 用 する 方 式 Estimating Translation of Technical Terms utilizing Japanese-Chinese Patent Families : an Approach based on Phrase Translation Tables and Parallel Sentences 筑 波 大 学 システム 情 報 系 知 能 機 能 工 学 域 教 授 宇 津 呂 武 仁 199 年 京 都 大 学 大 学 院 工 学 研 究 科 電 気 工 学 第 二 専 攻 博 士 課 程 修 了 博 士 ( 工 学 ) 京 都 大 学 等 を 経 て 2012 年 より 筑 波 大 学 システム 情 報 系 知 能 機 能 工 学 域 教 授 自 然 言 語 処 理 機 械 翻 訳 ウェブマイニングの 研 究 に 従 事 筑 波 大 学 大 学 院 システム 情 報 工 学 研 究 科 知 能 機 能 システム 専 攻 董 麗 娟 2012 年 大 連 理 工 大 学 ソフトウェア 工 学 学 院 卒 業 現 在 筑 波 大 学 大 学 院 システム 情 報 工 学 研 究 科 博 士 前 期 課 程 在 学 中 機 械 翻 訳 の 研 究 に 従 事 筑 波 大 学 大 学 院 システム 情 報 工 学 研 究 科 知 能 機 能 システム 専 攻 龍 梓 2010 年 北 京 航 空 航 天 大 学 ソフトウェア 学 院 卒 業 2013 年 北 京 航 空 航 天 大 学 大 学 院 ソフトウェア 工 学 専 攻 修 了 現 在 筑 波 大 学 大 学 院 システム 情 報 工 学 研 究 科 博 士 前 期 課 程 在 学 中 機 械 翻 訳 の 研 究 に 従 事 筑 波 大 学 大 学 院 システム 情 報 工 学 研 究 科 コンピュータサイエンス 専 攻 教 授 山 本 幹 雄 1986 年 豊 橋 技 術 科 学 大 学 大 学 院 情 報 工 学 系 修 士 課 程 修 了 豊 橋 技 術 科 学 大 学 等 を 経 て 2008 年 より 筑 波 大 学 大 学 院 システ ム 情 報 工 学 研 究 科 コンピュータサイエンス 専 攻 教 授 博 士 ( 工 学 ) 自 然 言 語 処 理 機 械 翻 訳 の 研 究 に 従 事 1 はじめに 近 年 中 国 国 内 における 特 許 出 願 は 大 幅 な 伸 びを 見 せ ている それに 伴 い 中 国 語 特 許 文 書 の 言 語 横 断 検 索 等 のサービスの 必 要 性 が 高 まっている これらのことを 背 景 として 中 国 語 の 特 許 を 日 本 語 に 翻 訳 するサービスの 重 要 性 が 次 第 に 高 まっている ここで 機 械 翻 訳 あるい は 人 手 によって 翻 訳 を 行 う 場 合 高 い 質 を 保 つためには 大 規 模 で 正 確 な 対 訳 辞 書 が 不 可 欠 である しかし 各 国 では 年 々 新 しい 技 術 開 発 が 行 われ 新 しい 専 門 用 語 が 作 られ 特 許 が 申 請 されている 一 方 人 手 によって 対 訳 辞 書 を 作 成 するためには 膨 大 な 時 間 と 労 力 を 要 する ため 自 動 もしくは 半 自 動 的 に 日 中 専 門 用 語 対 訳 辞 書 を 構 築 する 手 法 が 必 要 である このような 背 景 のもとで これまでに 日 英 対 訳 特 許 文 を 情 報 源 として 専 門 用 語 対 訳 対 を 自 動 獲 得 す る 手 法 の 研 究 が 行 われてきた 例 えば 文 献 [] では NTCIR-7 特 許 翻 訳 タスク [1] において 配 布 された 日 英 180 万 件 の 対 訳 特 許 文 を 用 いて 対 訳 特 許 文 からの 専 門 用 語 対 訳 対 獲 得 を 行 った この 研 究 では 句 に 基 づく 統 計 的 機 械 翻 訳 モデル [2] に 基 づき 対 訳 特 許 文 から 学 習 されたフレーズテーブルを 用 いることによって 専 門 用 語 対 訳 対 獲 得 を 行 った ここで 上 述 の 日 英 180 万 件 の 対 訳 特 許 文 は 文 献 [8] の 手 法 により 日 米 パテン トファミリーの 対 応 特 許 文 書 中 において 背 景 およ び 実 施 例 の 部 分 の 日 英 対 訳 文 対 を 対 応 付 けたもので ある 以 上 の 背 景 をふまえて 本 稿 では 文 献 [8] の 手 法 を 適 用 することによって 日 中 パテントファミリーから 抽 出 した 360 万 件 の 日 中 対 訳 特 許 文 を 言 語 資 源 として 句 に 基 づく 統 計 的 機 械 翻 訳 モデルにより 学 習 されるフレー 236
ズテーブルを 用 いて 対 訳 専 門 用 語 を 獲 得 する 手 法 を 提 案 する 具 体 的 には まず 専 門 用 語 対 訳 辞 書 獲 得 の 情 報 源 として 用 いる 日 中 対 訳 文 対 に 対 して 句 に 基 づく 統 計 的 機 械 翻 訳 モデルを 適 用 することよりフレーズテーブ ルを 学 習 する 次 に このフレーズテーブル および 一 組 の 日 中 対 訳 文 を 用 いて 日 本 語 専 門 用 語 の 中 国 語 訳 語 推 定 を 行 う 本 稿 の 評 価 実 験 においては 形 態 素 単 位 の 日 本 語 文 一 文 に 対 して 形 態 素 単 位 の 中 国 語 文 および 文 字 単 位 [6] の 中 国 語 文 の2 種 類 を 用 意 した 対 訳 文 を 対 象 とした いずれの 場 合 も 97% 程 度 の 適 合 率 および F 値 を 達 成 することができた 2 日 中 対 訳 特 許 文 本 稿 では フレーズテーブルの 訓 練 用 データとして 約 360 万 件 の 日 中 対 訳 特 許 文 を 用 いた この 日 中 対 訳 特 許 文 は 200-2012 年 発 行 の 日 本 公 開 特 許 広 報 全 文 と 2005-2010 年 中 国 特 許 全 文 に 対 して 以 下 の 手 順 によって 得 られたものである 1. 文 献 [8] の 手 法 によって 日 中 間 で 文 対 応 を 付 ける 2.スコア 降 順 で 上 位 の 360 万 文 対 を 抽 出 する の 句 の 組 を 作 成 する (5) 文 対 応 データにおける 日 中 の 句 の 対 応 数 に 基 づ いて 各 句 の 対 応 に 翻 訳 確 率 等 のパラメータを 付 与 する 本 稿 では フレーズテーブルを 用 いて 得 られる 中 国 語 訳 語 候 補 のスコアとして 句 対 応 の 日 中 翻 訳 確 率 P(p C p J )(ただし p C を 中 国 語 句 p J を 日 本 語 句 とする)を 用 いた 更 に 日 本 語 句 の 見 出 し 語 ごとに 中 国 語 句 を スコアの 降 順 に 順 位 付 けした ここで 手 順 (1)の 対 訳 文 は 形 態 素 解 析 された 形 態 素 単 位 の 日 本 語 文 一 文 に 対 して Chinese Penn Treebank を 用 いた Stanford Word Segment [7] によって 形 態 1 素 解 析 された 形 態 素 単 位 の 中 国 語 文 および 文 字 単 位 の 中 国 語 文 の2 種 類 を 用 意 し 作 成 した この2 種 類 の 対 訳 文 に 対 して 独 立 に Moses を 適 用 することより 形 態 素 単 位 フレーズテーブルおよび 文 字 単 位 フレーズ テーブルをそれぞれ 作 成 した.1 手 順 対 訳 文 およびフレーズテーブルを 用 いた 訳 語 推 定 全 対 訳 文 360 万 件 から 無 作 為 に 抽 出 した 516 件 を 寄 稿 集 機 械 翻 訳 技 術 の 向 上 3 統 計 的 機 械 翻 訳 モデルのフレーズ テーブル 評 価 用 対 訳 文 とした 日 中 対 訳 文 から 辞 書 に 登 録 すべき 日 中 対 訳 専 門 用 語 を 獲 得 するために 用 いた 手 順 を 図 1に 示 す 句 に 基 づく 統 計 的 機 械 翻 訳 モデルのツールキットであ る Moses [2] を 用 いて 前 節 で 述 べた 文 対 応 データから 日 中 の 句 の 組 及 び 日 中 の 句 の 組 が 対 応 する 確 率 を 示 した フレーズテーブルを 作 成 する Moses がフレーズテー ブルを 作 成 する 過 程 を 以 下 に 示 す (1) 文 対 応 データに 対 する 前 処 理 として 単 語 の 数 値 化 単 語 のクラスタリング 共 起 単 語 表 の 作 成 な どを 行 う (2)IBM モデルにより 文 対 応 データから 単 語 対 応 を 生 成 するツールである GIZA++ [5] を 用 いて 中 日 日 中 の 両 方 向 で 最 尤 な 単 語 対 応 を 得 る (3) 中 日 日 中 両 方 向 の 単 語 対 応 から ヒューリスティ クスを 用 いて 対 称 な 単 語 対 応 を 得 る () 対 称 な 単 語 対 応 を 用 いて 可 能 なすべての 日 中 1. 全 対 訳 文 データ 360 万 件 中 516 件 の 日 本 語 文 を 形 態 素 解 析 し 日 中 対 訳 文 S J, S C 中 の 日 本 語 文 S J 中 の 日 本 語 名 詞 句 を 得 る さらに その 中 に 含 まれる 専 門 用 語 t J を 人 手 で 抽 出 する 2. 得 られた 日 本 語 専 門 用 語 t J に 対 し 統 計 的 機 械 翻 訳 モデルのフレーズテーブルを 用 いて 訳 語 推 定 を 行 い 中 国 訳 語 候 補 を 得 る 3. 得 られた 中 国 語 訳 語 候 補 のうち 対 訳 文 S J, S C 中 の 中 国 語 文 S C に 出 現 する 訳 語 候 補 を 抽 出 す る 抽 出 された 訳 語 候 補 のうち フレーズテーブル において 日 本 語 専 門 用 語 t J に 対 する 翻 訳 確 率 が 最 大 となる 訳 語 候 補 を 生 成 し 評 価 対 象 とした 1 連 続 する 数 字 とアルファベットは 一 個 のトークンとして 扱 う YEAR BOOK 2O1 237
図 1 対 訳 文 およびフレーズテーブルを 用 いた 対 訳 専 門 用 語 獲 得 の 流 れ.2 評 価 対 象 日 本 語 専 門 用 語 前 節 の 手 順 の 後 全 対 訳 文 データ 中 の 日 本 語 文 を 形 態 素 解 析 し 日 本 語 名 詞 句 を 選 択 する 際 以 下 に 該 当 する 日 本 語 名 詞 句 は 評 価 対 象 外 とした (a) 語 頭 または 語 尾 が 不 適 切 である 日 本 語 名 詞 句 具 体 的 には 上 記 下 記 当 該 該 各 が 語 頭 または 等 毎 が 語 尾 である 日 本 語 名 詞 句 (b) 訳 語 推 定 において 用 いる 日 中 対 訳 文 の 日 本 語 側 において 他 の 日 本 語 名 詞 句 の 部 分 文 字 列 となる 日 本 語 名 詞 句 例 えば 三 角 波 生 成 回 路 という 日 本 語 名 詞 句 の 部 分 文 字 列 である 生 成 回 路 の 部 分 が 抽 出 された 場 合 (c) 語 尾 が 記 号 である 日 本 語 名 詞 句 例 えば メタ ンガス 濃 縮 装 置 M1 のように 語 尾 が 記 号 M1 である 日 本 語 名 詞 句.3 評 価 結 果 表 1 評 価 結 果 を 示 す 中 国 語 側 が 形 態 素 単 位 のフレー ズテーブルを 用 いた 場 合 適 合 率 は 97.8% F 値 は 97.0% となった 一 方 中 国 語 側 が 文 字 単 位 のフレー ズテーブルを 用 いた 場 合 適 合 率 は 96.9% F 値 は 96.% となった 両 者 はほぼ 同 等 の 性 能 を 達 成 したが 誤 りの 傾 向 は 異 なっている 表 1 スコア 一 位 の 訳 語 候 補 の 再 現 率 適 合 率 F 値 (%) 中 国 語 側 の 区 切 り 単 位 形 態 素 文 字 再 現 率 96.3 (97/516) 95.9 (95/516) 適 合 率 97.8 (97/508) 96.9 (95/511) F 値 97.0 96. 表 2に これらの 両 方 の 場 合 を 対 象 として 中 国 語 訳 語 推 定 の 成 功 例 を 示 す 中 国 語 側 が 形 態 素 単 位 の 場 合 も 文 字 単 位 の 場 合 も 同 一 の 訳 語 候 補 が 出 力 され 参 照 用 中 国 語 訳 語 と 同 一 となった 表 3に 中 国 語 側 が 形 態 素 単 位 のフレーズテーブルを 用 いた 場 合 の 中 国 語 訳 語 推 定 の 誤 り 例 を 示 す 日 本 語 専 門 用 語 が 動 的 / 後 退 / 接 触 / 角 の 場 合 参 照 用 中 国 語 訳 語 / 后 退 / 接 触 / 角 は 中 国 語 側 が 形 態 素 単 位 の 場 合 のフレーズテーブルに 含 まれてはいるが 中 238
表 2 中 国 語 訳 語 推 定 の 成 功 例 寄 稿 集 表 3 中 国 語 側 が 形 態 素 単 位 のフレーズテーブルを 用 いた 場 合 の 誤 り 例 機 械 翻 訳 技 術 の 向 上 表 中 国 語 側 が 文 字 単 位 のフレーズテーブルを 用 いた 場 合 の 誤 り 例 国 語 文 の 形 態 素 解 析 結 果 在 / 浸 液 部 /12/ 的 / / 后 退 / 接 触 / 角 θ/ において 角 と θ が 分 翻 訳 確 率 が 高 くなり 順 位 1 位 の 訳 語 候 補 として 出 力 さ れた 例 えば 日 本 語 専 門 用 語 複 合 / 構 造 / 物 の 参 割 されなかったため 中 国 語 文 との 照 合 が 成 功 する 訳 語 照 用 中 国 語 訳 語 复 / 合 / 結 / / 物 およびその 部 分 候 補 を 抽 出 することができなかった 一 方 日 本 語 専 門 文 字 列 复 / 合 / 結 / が 中 国 語 文 に 出 現 する 訳 語 候 用 語 が 熱 / 圧 着 の 場 合 参 照 用 中 国 語 訳 語 圧 / 接 補 として 出 力 されたが 部 分 文 字 列 复 / 合 / 結 / は 中 国 語 側 が 形 態 素 単 位 の 場 合 のフレーズテーブルに の 方 が 复 / 合 / 結 / / 物 よりも 翻 訳 確 率 が 高 くな 含 まれていた しかし 中 国 語 文 の 形 態 素 解 析 結 果 り 順 位 1 位 の 訳 語 候 補 として 出 力 されてしまった / 圧 / 接 后 / において 接 と 后 が 分 割 され なかったため 中 国 語 文 との 照 合 が 成 功 する 訳 語 候 補 と しては 圧 を 出 力 してしまい 誤 りとなった 2 表 に 中 国 語 側 が 文 字 単 位 のフレーズテーブルを 用 いた 場 合 の 中 国 語 訳 語 推 定 の 誤 り 例 を 示 す これらの 例 においては 参 照 用 中 国 語 訳 語 はフレーズテーブルに 含 まれてはいるが 参 照 用 中 国 語 訳 語 の 部 分 文 字 列 の 方 が 2 中 国 語 専 門 用 語 の 形 態 素 解 析 結 果 圧 / 接 は 誤 りであり 正 しくは / 圧 接 と 分 割 するべきであるが フレーズ テーブルにおける 順 位 は 圧 / 接 の 方 が 上 位 であるため 本 稿 の 評 価 実 験 においては 圧 / 接 を 参 照 用 中 国 語 訳 語 とした 5 関 連 研 究 訳 語 対 の 自 動 獲 得 において 統 計 的 機 械 翻 訳 モデル により 学 習 されたフレーズテーブルを 用 いたものとし て 文 献 [][10] がある 文 献 [] においては 知 識 源 と して 句 に 基 づく 統 計 的 機 械 翻 訳 モデルのフレーズテー ブルおよび 既 存 の 対 訳 辞 書 を 併 用 して 日 英 間 の 訳 語 推 定 を 行 った 一 方 本 研 究 では 日 中 の 対 訳 特 許 文 を 対 象 として 句 に 基 づく 統 計 的 機 械 翻 訳 モデルのフレーズ YEAR BOOK 2O1 239
テーブルを 用 いて 日 中 間 の 訳 語 推 定 を 行 った また 文 献 [10] においては 日 本 語 漢 字 と 中 国 語 簡 体 字 への 文 字 対 象 情 報 と 既 存 の 統 計 的 機 械 翻 訳 モデルを 用 いて 日 中 特 許 対 訳 コーパスから 対 訳 辞 書 を 段 階 的 に 自 動 構 築 し た フレーズテーブルの 利 用 において 句 に 基 づくフレー ズテーブルおよび 階 層 的 句 に 基 づくフレーズテーブルの 2 種 類 のフレーズテーブルから 共 通 する 訳 語 候 補 を 抽 [10] 出 することより 訳 語 対 を 生 成 する 本 研 究 と 文 献 の 間 の 最 も 大 きな 相 違 点 として 本 研 究 において フレー ズテーブルから 得 られた 訳 語 候 補 のうち 日 中 対 訳 文 対 の 中 国 語 文 に 出 現 する 訳 語 候 補 を 抽 出 することより 訳 語 推 定 を 行 う 点 が 挙 げられる その 他 本 研 究 の 後 段 の 研 究 として 文 献 [3] においては 本 研 究 によって 獲 得 した 日 中 専 門 用 語 対 訳 対 を 利 用 することにより 日 中 対 訳 専 門 用 語 の 同 義 集 合 を 同 定 する 方 式 について 提 案 して and M. Yamamoto : Identifying 参 考 文 献 [1]A. Fujii, M. Utiyama, M. Yamamoto, and. T. Utsuro. Overview of the Patent translation task at the NTCIR-7 Workshop. In Proc. 7th NTCIR Workshop Meeting, pp. 389 00, 2008. [2]P. Koehn, H. Hoang, A. Birch, C. Callison- Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin, and E. Herbst. Moses : Open source toolkit for statistical machine translation. In Proc. 5th ACL, Companion Volume, pp. 177 180, 2007. [3]Z. Long, L. Dong, T. Utsuro, T. Mitsuhashi, Japanese- いる Chinese bilingual synonymous technical terms from patent families, in Proc. 7th 6 おわりに 本 稿 では 日 中 対 訳 特 許 文 に 対 して 句 に 基 づく 統 計 的 機 械 翻 訳 モデルにより 学 習 されるフレーズテーブルを 用 いて 専 門 用 語 の 訳 語 推 定 する 手 法 について 述 べた この 手 法 においては 句 に 基 づく 統 計 的 機 械 翻 訳 モデ ルによって 対 訳 特 許 文 から 学 習 されたフレーズテーブ ルを 用 いることによって 専 門 用 語 対 訳 対 の 獲 得 を 行 っ た 評 価 実 験 においては 97% 程 度 の 適 合 率 および F 値 を 達 成 した 現 在 中 国 語 側 の 区 切 り 単 位 として 形 態 素 および 文 字 の2 種 類 の 単 位 を 併 用 するとともに Support Vector Machines (SVMs) [9] を 用 いること によって フレーズテーブルから 得 られた 訳 語 候 補 を 検 証 し 性 能 を 改 善 する 方 式 について 研 究 を 進 めており この 結 果 については 別 の 機 会 に 報 告 する 予 定 である 謝 辞 本 研 究 においては 日 本 特 許 情 報 機 構 (Japio)より 提 供 して 頂 いた 日 中 パテントファミリーのデータを 利 用 させて 頂 いた 関 係 各 位 に 感 謝 の 意 を 表 す Workshop on Building and Using Comparable Corpora-Resources for Machine Translation Research, pp. 9-5, 201. [] 森 下 洋 平, 梁 冰, 宇 津 呂 武 仁, 山 本 幹 雄.フレーズ テーブルおよび 既 存 対 訳 辞 書 を 用 いた 専 門 用 語 の 訳 語 推 定. 電 子 情 報 通 信 学 会 論 文 誌.Vol. J93 D, No. 11, pp. 2525 2537, 2010. [5]F. J. Och and H. Ney. A systematic comparison of various statistical alignment models. Computational Linguistics, Vol. 29, No. 1, pp. 19 51, 2003. [6]J. Sun and Y. Lepage. Statistical machine translation between unsegmented Japanese and Chinese texts. 言 語 処 理 学 会 第 19 回 年 次 大 会 発 表 論 文 集,pp. 122 125, 2013. [7]H. Tseng, P. Chang, G. Andrew, D. Jurafsky, and C. Manning. A conditional random field word segmenter for SIGHAN bakeoff 2005. In Proc. th SIGHAN Workshop on Chinese Language Processing, pp. 168 171, 2005. [8]M. Utiyama and H. Isahara. A Japanese- English patent parallel corpus. In Proc. MT Summit XI, pp. 75 82, 2007. 20
[9]V. N. Vapnik. Statistical Learning Theory. Wiley-Interscience, 1998. [10]K. Yasuda and E. Sumita. Building a bilingual dictionary from a Japanese-Chinese patent corpus. In Computational Linguistics and Intelligent Text Processing, Vol. 7817 of LNCS, pp. 276 28. Springer, 2013. 寄 稿 集 機 械 翻 訳 技 術 の 向 上 YEAR BOOK 2O1 21