言語グリッド 言語グリッドは 機械翻訳サービスと ユーザが作成した辞書サービスや用例対訳サービスを連携させることができるため 利用現場に応じた 精度の高い翻訳結果が得られます 言語グリッドを実現しているソフトウェアは 独立行政法人情報通信研究機構 (NICT) 言語グリッドプロジェクトによって 2006 年 4 月から研究開発され オープンソースソフトウェアとして公開されています 大学 研究機関 企業 非営利団体はこのソフトウェアを用いて言語グリッドを運営し 多言語環境を構築することができます 実際 公開されたソフトウェアを用いて 京都大学情報学研究科社会情報学専攻が 2007 年 12 月より非営利利用及び研究利用を対象に言語グリッドの運営を行っています 言語グリッドには 3 種のステークホルダー ( 利害関係者 ) が存在します 言語グリッド運営組織 (http://www.langrid.org/operation/) 言語グリッドユーザを管理し 言語資源や計算資源を運用する組織です 言語資源提供者機械翻訳や形態素解析 専門分野の辞書 用例対訳などの言語資源を言語グリッドに提供する組織です 言語サービス利用者言語資源や計算資源を利用する組織や個人です 1
言語グリッドの機能 京都大学が実際に運営している言語グリッドを例にとって説明していきましょう 言語グリッドに参加している研究機関や大学は 言語資源 ( 辞書 用例対訳 機械翻訳など ) を無料で提供しています 言語資源の提供に際しては 言語資源のプロファイルに 著作権情報やライセンス情報を指定できます また 言語資源へのユーザのアクセス制限を設定できます 現在 中国科学院 イタリア国立研究所 ドイツ人工知能研究所 シュツットガルト大学 国立情報学研究所 NTT コミュニケーション科学基礎研究所 アジア防災センターなどが言語資源を提供しています 利用できる言語資源には 機械翻訳 ( 日本語 中国語 韓国語 英語 ドイツ語 スペイン語 フランス語 イタリア語 ポルトガル語 ) や辞書 ( 生命科学 防災 学術 概念辞書 ) 用例対訳 ( 医療 教育 ) などがあります 提供された計算資源を用いて 国内外の教育機関や NPO が中心となり 防災 教育 医療など 様々な分野で言語の壁を越える活動が始まっています つまり 言語グリッドは 世界中の言語資源 計算資源を共有し 国際交流や多文化共生活動を支援する仕組みです 2
言語資源から言語サービスへ これまで辞書や機械翻訳などの言語資源は CD/DVD などの媒体にデータとして格納されていました このため 利用者は言語資源のセットアップやメンテナンスが必要であり 提供者は知財保護の対策が必要でした 言語グリッドは言語資源のユーザビリティやアクセシビリティを向上させるために 言語サービスの共有を可能にしています そのために 言語資源を標準の Web サービスの形に整えます これをラッピングと呼びます Web サービスにすることで Web を閲覧できる環境であれば 世界中のどこでも言語サービスが利用できるようになります 言語資源をサービス化することで 利用者は他の言語サービスと連携させることができるようになります 提供者は言語資源の著作権を保持したままサービスの提供が可能となります 利用者の言語サービスへのアクセスに制限を設けることもできます 例えば 辞書のデータをラッピングし辞書サービスとすることで 利用者は入力した単語の訳語を得ることができます 機械翻訳ソフトウェアをラッピングし機械翻訳サービスとすることで 利用者は入力文を翻訳することができます さらに 翻訳者をラッピングし翻訳者サービスとすることで 機械翻訳サービスよりもより高品質の翻訳結果を得ることができます 3
機械翻訳を使う 言語グリッドでの機械翻訳とインターネットの翻訳サイトとの大きな違いは ユーザによる翻訳品質の改善ができることです まず 登録された用例対訳を用いて翻訳を行えます 例えば 川崎市教育委員会の用例対訳が登録されているとします ユーザが原文を入力すると その入力文に近い登録された用例がいくつか表示されます ユーザの意図した文がその中にあれば 用例対訳を用いた正確な翻訳結果を得ることができます 適当な用例がない場合には 機械翻訳が行われます その場合にも ユーザの登録した辞書を用いて翻訳の改善が行われます 例えば 学校用語の辞書があれば その辞書を用いて機械翻訳の結果が改善されます また 機械翻訳は英語がハブとなることが多いです 例えば日本語からポルトガル語への翻訳は まず日本語から英語へ翻訳し さらにポルトガル語に翻訳されます こうしたマルチホップ翻訳や 折り返し翻訳など 複数の機械翻訳を用いた言語サービスが実現できます これらの特長は 言語グリッドが様々な言語サービスを自由に組み合わせて提供できることによるものです 4
言語グリッドのサービス階層 言語グリッドのサービスは 4 つの階層から成ります P2P グリッド基盤インターネット上の複数のサーバを連携させ 利用者のサービス要求に応えるサービス基盤です 利用者は サーバを P2P グリッド基盤に追加することができます また利用者は 提供したサーバや言語資源の利用状態を言語グリッドサービスマネージャで確認することができます 言語資源多くの言語資源が 標準インタフェースを持つ Web サービスとして提供されます 利用者が言語資源を追加することもできます 言語サービス言語資源をラッピングした Web サービス群を ワークフローを用いて連携させます 折り返し翻訳, 専門翻訳などの言語サービスが用意されています 利用者が言語サービスを追加することもできます 異文化コラボレーションツール多言語環境でコミュニケーションを支援するツール群で 各種の言語サービスを利用して開発されます NICT や大学で開発されたツールや 既存のツールを多言語化したものがあります 5
P2P グリッド基盤 P2P グリッド基盤は 世界各地のサーバをつなぎ インターネット上の言語資源を連携させることを目標としています 言語グリッドは 2 種のサーバ ( コアノードとサービスノード ) から構成されます 言語グリッドコアノード 全ての言語サービスを管理し 言語サービスの検索機能と連携機能を提供するサーバです 言語サービスに対応するワークフローに従って, 構成要素となる他の言語サービスを呼び出します 言語サービスの登録情報を全てのコアノードで共有し アクセスするコアノードに関わらず同等のサービスを提供します また 各言語資源に対するアクセス制御を行います 言語グリッドサービスノード 言語資源を Web サービスとして配備し 単機能のサービス ( 原子サービス ) を提供するサーバです 6
言語資源 言語グリッドを構築するためには インターネット上の様々な言語資源, 言語処理機能を Web サービス化 ( ラッピング ) する必要があります そのためには機械翻訳や辞書などのインタフェースを標準化する言語サービスオントロジーが必要です 言語グリッドプロジェクトは ドイツ DFKI イタリア CNR と共同でその開発を進めています 言語グリッドアソシエーション (http://www.langrid.org/association/) では 言語サービスオントロジーに基づくラッピングマニュアルを用意しています 現在 利用できる言語資源は下記の通りです. 機械翻訳 :( 日本語, 中国語 )( 日本語, 韓国語 )( 日本語, 英語 )( 英語, ドイツ語 )( 英語, スペイン語 ), ( 英語, フランス語 )( 英語, イタリア語 )( 英語, ポルトガル語 ) 形態素解析 : 日本語, 中国語, 韓国語, 英語, ドイツ語, スペイン語, フランス語, イタリア語, オランダ語, ロシア語, ブルガリア語 対訳辞書 : 生命科学 ( 日本語, 英語 ), 防災 ( 日本語, 中国語, 韓国語, 英語, フランス語, スペイン語 ), 学術全般 ( 日本語, 英語 ) 7
言語サービス 言語グリッドで利用できる言語サービスは以下の通りです 原子サービスは言語資源に対応する Web サービスです 対訳辞書 用例対訳 機械翻訳 形態素解析など 複合サービスは高度な機能を提供するためのもので 原子サービスを連携させるワークフローで記述されます 専門翻訳 折り返し翻訳など 言語グリッドは 異文化コラボレーションツールのための多言語サービスを提供します 例えば 専門用語を含む文章の翻訳は 複合サービスとして実現できます 実際には 機械翻訳 形態素解析 専門用語辞書などの複数の原子サービスを組み合わせて実現します 言語グリッドでは ワークフローの記述に BPEL4WS を用います ワークフローは BPEL エンジンによって解釈実行され ワークフローを構成する Web サービスを順次呼び出します 8
異文化コラボレーションツール 異文化コラボレーションツールとして NICT では言語グリッド Toolbox を開発しています 言語グリッド Toolbox は Web ブラウザからご利用いただけます ( お試しサイト : http://langrid.org/tools/toolbox/) また サービスグリッドオープンソースプロジェクトで開発が進められており コミュニティサイト (http://servicegrid.net/ossproject/) では 誰でも要望を挙げたりソースコードを入手して開発に参加することができます 言語グリッド Toolbox では 言語グリッドを用いた多言語コミュニティを支援するための各種のツールを提供しています 代表的な機能に 以下があります テキスト翻訳入力されたテキストを翻訳します 折り返し翻訳機能により 翻訳結果を再度入力言語に翻訳し直すことで 翻訳の品質を推定できます また 対応する文章はハイライトされます 多言語掲示板投稿した文章が多言語に翻訳されます ユーザは自分の母言語で投稿を読むことができます また 機械翻訳の結果をコミュニティのユーザで相互に修正し よりよい翻訳結果を蓄積していくことができます 多言語対訳辞書コミュニティ専用の多言語対訳辞書を作成し 機械翻訳と連携することで翻訳品質を改善できます 辞書以外にも用例対訳 Q&A 用語集を作成できます 9
言語グリッドのアジア展開 2011 年 1 月より タイ国立研究所 (NECTEC) がバンコクオペレーションセンターを開設し 東南アジアでの運営を開始しました また これに伴い 京都オペレーションセンターはバンコクと言語グリッドの連邦制運営を開始しました 連邦制運営により 京都に登録されている 51 言語 106 サービスと バンコクに登録されている 13 言語 20 サービスが共有され 相互に利用可能となりました バンコクオペレーションセンターには 多様なアジア言語のサービス ( 概念辞書 ( インドネシア語 韓国語 スーダン語 シンハラ語 タイ語 ネパール語 日本語 ヒンディ語 ベトナム語 ベンガル語 ミャンマー語 モンゴル語 ラオス語 ) 機械翻訳 ( 英語 - タイ語 タイ語 - ラオス語 ) 形態素解析 ( タイ語 ) 音声合成 ( タイ語 )) が登録されています 言語グリッドの基盤ソフトウェアはオープンソースソフトウェアとして公開されており また覚書も言語グリッドが運営される国の法令に準拠するため 連邦制運営の国際展開が容易です 今後は 多様なアジア言語のサービスを登録していくとともに EU や米国の NSF (National Science Foundation) の言語資源プロジェクトと連携し 言語グリッドの世界展開を計っていきます 10