第14回情報プロフェッショナルシンポジウム予稿集

Similar documents
INFOPRO2017tabataA32

言語切替 KW 検討用 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象 調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 自社で以下の技術を開発した 中

( 空白 )

言語切替 KW 検討用 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象 調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 以下の技術を開発した 中国にお

項目同士の掛け合わせなどの複雑な検索を行う場合は 下記の Click here! For advanced search の表記をクリックすると 各種検索項目が出現する 今回は複数の検索項目を設定できるこの advanced search を使った事例を紹介する pg. 2

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および対象企業を設定した 調査目的 : 韓国において ある企業の出願動向を確認する調査

2015JPO1

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 欧州における参入企業や技

Microsoft PowerPoint - 商品・役務表示に関する各種データベースの特徴及び検索方法等について [互換モード]

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 中国における参入企業や技

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する pg. 2

みらい翻訳_MiraiTranslator発表_ _1

新興国におけるIPC付与の実態:

Microsoft Word - 【6.5.4】特許スコア情報の活用

1. はじめに 2

Microsoft PowerPoint - パンフレット pptx

第13回情報プロフェッショナルシンポジウム予稿集

中国における特許を対象にした企業動向調査 Q ナイキ (NIKE) 社の出願動向を把握したい 1) 調査ツールの選択中国特許 実用新案は 中華人民共和国国家知識産権局 ( 以下 SIPO) が提供する CNIPR と PSS-System 日本国特許庁( 以下 JPO) が提供する

Shareresearchオンラインマニュアル

1 アルゼンチン産業財産権庁 (INPI) への特許審査ハイウェイ試行プログラム (PPH) 申請に 係る要件及び手続 Ⅰ. 背景 上記組織の代表者は

<4D F736F F F696E74202D E82C582E08F6F978882E98AC F82C582CC93C18B968C9F8DF595FB B8CDD8AB B83685D>

Microsoft Word - EDSマニュアル.doc

INFOPRO2017ishikawa

(Microsoft PowerPoint - \222m\223I\215\340\216Y\214\240\214\244\213\206\211\ \225\237\222n.pptx)

CCDC的专利处理

1. データベースへのアクセス 南アフリカ特許を収録したデータベースとしては 無料のものとして下記のような情報源が存在する このミニガイドでは原則無料 かつ数年間にわたり安定運用されている南アフリカ知的財産庁のデータベースと Espacenet および Patentscope の検索方法を紹介する

マルチエージェントシステムグループの研究計画

<4D F736F F D20967C96F382C996F097A782C E815B836C C9F8DF595D281742E646F63>

実践編 まず Search term(s) に EP と入力し Search ボタンをクリックすると以下のような 画面が表示される この About this file の画面では欧州特許の権利状況や書誌事項についての情報を得ることができる が 最初に確認すべき項目は Status の

Microsoft Word - 01.表紙、要約、目次

16年度第一回JACB品質技術委員会

DicLand 辞書 DicLand 辞書は 調べたい単語 ( 語句 ) を直接入力して検索したり メールなど の文章から単語 ( 語句 ) を取り込んで検索することができる電子辞書です DicLand 辞書には エクシード英和辞典 エクシード和英辞典 デイリーコ ンサイス国語辞典 キーワードで引く

日本語マニュアルの制作 日本人ビジネスマンのためのビジネス文章ライティング日本語マニュアル 言葉の仕組を学び 外国語との対照を通じて日本語スキルを磨く 制作グループ : 日本語マニュアルの会横井俊夫 (Japio 特許情報研究所顧問 東京工科大学名誉教授 ) 石崎俊 ( 慶応大学名誉教授 一般財団法

インドネシアにおける意匠を対象にした無効資料調査 Q 自社製品に近いインドネシア意匠を発見した この意匠を回避す ることも選択肢ではあるが できれば無効化したい 1) 調査ツールの選択インドネシアにおける意匠は インドネシア知的財産総局 ( 以下 DGIP) が提供する e-sta


2012INFOPRO_中国実案予稿

スライド 1

PowerPoint プレゼンテーション

目次 1. はじめに 2. 出願前 3.PCT 国際出願 4. 国際調査 5. 国際予備審査 6. 国内段階移行 7. まとめ Creating IP Vision for the World



インストール方法 同封の インストールの方法 ( 頻度のヒント ).pdf をご覧ください 体験版のパスワードの取得 [ 頻度のヒント ] ボタンをクリックすると 以下のダイアログボックスが表示されます 体験版パスワードの入力ダイアログボックス [ 体験版パスワードの取得 ] ボタンをクリックすると

1. データベースへのアクセス イギリス特許 ( 以下 英国特許 ) を調査するにあたっては 英国特許庁への出願( 以下 各国ルートとする ) と 欧州特許出願に基づくもの( 以下 EPルートとする ) 両方を確認する事が必要となる 英国特許庁でも特許データベースが提供されているが その検索機能や収

奈良県明日香村稲渕彼岸花祭り PATENTSCOPE( パテントスコープ ) は 国連の専門機関である世界知的所有権機関 (WIPO ワイポ ) が無償で提供する世界の特許情報のデータベースです インターネット接続ができれば PATENTSCOPE で世界の特許情報を検索できるし 特許情報の自動翻訳

PowerPoint プレゼンテーション

untitled

Slide 1

1. データベースへのアクセス ブラジル特許を収録したデータベース (DB) としては 無料 有料 ( 商用 ) を含めて非常に多くの情報源が存在する このミニガイドでは原則無料 かつ過去数年間にわたり安定運用されているDBを列挙する ブラジル国家産業財産権庁が運用する DB 1.1. Consul

23_ogawa.qxd

インドネシアにおける意匠を対象にした出願前調査 Q 自社製品の意匠権をインドネシアで取得したい 出願する前にや っておいた方が良いことはあるか? 1) 調査ツールの選択インドネシアにおける意匠は インドネシア知的財産総局 ( 以下 DGIP) が提供する e-status Kekay

研究者のお助けツールScopusで,

Microsoft Word - MTransㇹㇿㅼㅋ㇬㇤ㅛ+丕苬ㅦㅼㇶㅼ咂ㆂ;_ver1.7_original.docx



スライド 1

6回目

1. 欧州連合における意匠検索 ( 調査 ) の必要性 1.1 欧州連合における意匠制度欧州共同体意匠制度とは 欧州連合知的財産庁に 1の出願 登録を行うことで 欧州連合加盟国全部をカバーする意匠権を得ることが出来る制度です 欧州連合は 下の地図のうち 水色及び薄緑色の国が加盟し成立しています スイ

日本外傷歯学会認定医(平成24年11月30日付) H

作成日 :2006 年 10 月 1 日 世界知的所有権機関 World Intellectual Property Organization (WIPO) 所在地 :34 chemin des Colombettes, 1211 GENEVE 20, Switzerland Tel : (41 2

機械学習を用いた効率的な特許調査ニューラルネットワークの特許調査への応用 安藤俊幸 1), 桐山勉 2) 花王株式会社 1), はやぶさ国際特許事務所 2) 東京都墨田区文花 Tel: FAX: and

ベトナムにおける意匠を対象にした出願前調査 Q 自社製品の意匠権をベトナムで取得したい 出願する前にやって おいた方が良いことはあるか? 1) 調査ツールの選択ベトナムの意匠は ベトナム国家知的財産庁 ( 以下 NOIP) が提供する IP Lib または 欧州連合知的財産庁 ( 以

Microsoft PowerPoint _総合マニュアル.ppt [互換モード]

A23「タイ特許調査方法の検討」

PowerPoint プレゼンテーション

日本語入力システムの概要 日本語入力システムはインプットメソッド (Input Metho d) のうち 特にパソコンやワープロ 携帯電話などに日本語を入力するためのものを指す 通常はキー入力をソフトウェアで制御して実現する パソコンにおいて 英文の入力は一般のキーボードでタイプライター同様にタイプ

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

2017 特許 情報フェア & コンファレンス 特許情報普及に関する わが国特許庁の取組 平成 29 年 11 月 9 日 特許庁総務部総務課特許情報室長山本英一

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

Water Sunshine

簡易ガイド1)書誌情報から整理番号を特定する(J-GLOBAL活用例)

Microsoft Word - JSQC-Std 目次.doc

<4D F736F F F696E74202D E82C582E08F6F978882E98AC FA967B93C18B9692A182C582CC93C18B9692B28DB895FB B8CDD8AB B83685D>

各国特許審査に関する情報の一括提供サービス ( ワン ポータル ドシエ (OPD) 照会 ) グローバルな IT システム連携によるユーザーサービスの実現 Global Dossier Information Reference Service for the Public Users 特許庁総務部

外国語論文の探し方 ( 図書館情報学 ) 今回の講習会で取り上げるデータベースの概要 LISA(Library and Information Science Abstracts) は図書館学および情報学関係の抄録データベースです 1969 年以降の 68 ヵ国以上 20 以上の言語の 440 点を



DX-PC55_−ç(0)-A


( ) ver.2015_01 2

PowerPoint Presentation

人工知能による物流改革_損保ジャパン日本興亜

AI AI Artificial Intelligence AI Strategy& Foresight AI AI AI AI 1 AI AI AI AI AI AI AI AI AI AI AI AI AI 2 AI 1 AI AI 3 AI 3 20 AI AI AI AI AI

1.4操作マニュアル+ユニット解説

0.3% 10% 4% 0.8% 5% 5% 23% 53%


1

URL :



新築_PDF用

untitled

表紙a


表紙.PDF

untitled

AFASパンフ表.ai

.....w...j...[.X55..

cover_jinzai_21

fukushi-yotsukaido113

untitled

Transcription:

ニューラル翻訳を用いた中国特許機械翻訳精度の検証 : 中国特許の日本語及び英語への機械翻訳精度の検証 田畑文也 1) 富士フイルム ( 株 ) 1) 421-0396 静岡県榛原郡吉田町川尻 4000 E-mail: fumiya.tabata@fujifilm.com Study of Neural Machine Translation accuracy of Chinese Patents: Study of Machine Translation accuracy of Chinese Patents to Japanese and English TABATA Fumiya 1) FUJIFILM Corporation 1) 4000, Kawashiri, Yoshida-cho, Haibara-gun, Shizuoka, 421-0396 Japan E-mail: fumiya.tabata@fujifilm.com 発表概要 AI( 人工知能 ) の急速な進歩に伴い 自然言語処理技術が急速に進化を遂げている これにより 機械翻訳のアルゴリズムについても ニューラル翻訳 (NMT) が登場した また特許調査については 中国特許の急激な増大により 中国語で書かれた特許を査読する頻度も多くなり その際には まず日本語または英語に機械翻訳したもので 内容を理解しようとするのが通常である しかし 現状では中国特許の機械翻訳の精度は高くないことも多い 中国特許について NMT を用いて翻訳した場合 その翻訳精度を調べた ただし 本稿を記した時点 (2017 年 9 月 ) では 中国語から日本語への NMT に対応したものは少なく 中国語から英語への NMT システムも合わせて調べることにより 翻訳精度を評価した 評価した結果 従来のルールベース翻訳や 統計翻訳と NMT を比べると NMT の方が 単語レベルでの翻訳精度では必ずしも高いとは限らず むしろ翻訳精度が低下する場合もあることが分かった しかし 文としての意味を理解する上では NMT の方が文の構成を理解し易い傾向があり これについては発表までに詳しくまとめる予定である また 中国語から日本語への翻訳より 中国語から英語への翻訳のレベルの方が高く 翻訳精度を求めるならば 日本語より 英語で見る方の効果の方が現時点では大きいことが分かった キーワード 機械翻訳, ニューラルネットワーク, ニューラル翻訳,NMT, 中国特許 - 89 -

1. はじめに 近年 AI( 人工知能 ) の急速な進歩に伴い 自然言語処理技術が急速に進化を遂げている これにより 機械翻訳のアルゴリズムについても 設定したルールに基づいて翻訳するルールベース翻訳 (RBMT) から 統計的な解析を用いた統計翻訳 (SMT) そして機械学習を用いたディープニューラルネットを使用したニューラル翻訳 (NMT) とトレンドとしては移行している ( 表 1) 表 1. 機械翻訳のアルゴリズム 翻訳方法名ルールベース翻訳 (RBMT) 統計翻訳 (SMT) ニューラル翻訳 (NMT) 翻訳のアルゴリズムルールに基いて翻訳する方法大量の対訳データを解析し その統計結果から適した訳し方を割り出す翻訳方法機械学習を用いたディープニューラルネットを使用し 単語の意味だけでなく接頭辞や語幹 単語の位置なども考慮し 自然な文の流れを分析して翻訳する方法 ここで 知財実務では 原文が英文で書かれた特許よりも 莫大な件数が出願されている中国語特許の調査および査読に膨大な労力がかかっている場合があるのも現状である しかし 現状の中国特許の機械翻訳の精度は高くなく この問題に対処する必要がある 機械翻訳については 2016 年頃より Google 翻訳が 英語から日本語への翻訳アルゴリズムを NMT に切り替えるなど 徐々に NMT に対応は進み始めているが 本稿執筆時点 (2017 年 9 月 ) では まだ NMT に対応したものは少なく かつ中国語から日本語へ対応したものはさらに少ない このように 現在は過渡期であるが 中国特許の日本語および 英 語への機械翻訳の精度を検証し どのような機械翻訳システムの翻訳精度が高いかを調べたので報告する ただし 予稿集の時点ではデータとしては 単語レベルの評価とし 本発表にて さらに文としての評価についても述べる予定である 2. 評価方法 2.1 評価に用いた翻訳システム 現時点では中国語から日本語への機械翻訳システムで NMT に対応しているのは 筆者の知る限り Google 翻訳 MS( マイクロソフト ) 翻訳のみで これにレファレンスとして 日本特許庁が提供する JPO 中韓文献翻訳 検索システム ( 以下 JPO 中韓文献 ) をあわせて評価した ( 表 2 図 1~ 図 3) なお Google 翻訳は 2017 年 8 月下旬に 中国語から日本語への翻訳アルゴリズムが SMT から NMT( 推定 ) に切り替えられたが 評価したデータのうち SMT のデータも一部残っており SMT の結果も併記した 表 2. 今回評価した中国語から日本語への機械翻訳システム システム Google 翻訳 MS 翻訳 URL 中国語 日本語翻訳アルゴリズム https://translate.google.co.jp/ NMT( 推定 ) https://translator.microsoft.c NMTおよびSMT om/neural JPO 中韓文献 http://www.ckgs.jpo.go.jp/ RBMT 図 1.Google 翻訳 第 14 回情報プロフェッショナルシンポジウム - 90 - 予稿集

図 2. MS 翻訳 図 4 WIPO 翻訳 図 3. JPO 中韓文献翻訳 検索システム また 中国語から英語への機械翻訳については Google 翻訳 MS 翻訳の他に WIPO( 世界知的所有権機関 ) が提供する WIPO 翻訳 および中国の百度 (Baidu) 社が提供する百度翻訳についても合わせて評価した ( 表 3 および図 4 図 5) 表 3. 今回評価した中国語から英語への機械翻訳システム システム Google 翻訳 MS 翻訳 WIPO 翻訳 百度翻訳 URL 中国語 英語翻訳アルゴリズム https://translate.go NMT ogle.co.jp/ https://translator.m NMTおよびSMT icrosoft.com/neural https://patentscope.wipo.int/translate/t NMTおよび ranslate.jsf?interfac 従来型 ( 非公表 ) elanguage=en https://fanyi.baidu.c NMT( 推定 ) om/ 図 5 百度翻訳 2.2 評価に用いた技術用語 表 4 に示す計 3 種の技術用語について 中国特許 実案の発明の名称で各 10 件ずつ調べ評価した 表 4. 今回評価した技術用語 日本語中国語意図 ポリエチレンテレフタレート (PET) 聚对苯二甲酸乙二酯 確立された汎用用語 シェールガス页岩气比較的新しい用語 クラッシュボックス ( 衝撃吸収ボックス ) 碰撞吸能盒 2.3 翻訳精度評価基準 業界専門用語的で あまり一般用語ではないもの 日本特許庁の特許文献機械翻訳の品質評価手順 1) を参考に 技術用語を表 5 に示す基準で 原文の中国語を理解できるもの (N=1 人 ) が 独自に点数評価し 各 N=10 の結果を平均化したもので評価した - 91 -

表 5. 技術用語の翻訳精度基準 ランク レベル 点数 人手翻訳に照らし 技術的 A( 適訳語 ) に同義かつ一般的に用いられる訳語である 2 B( 可訳語 ) 技術用語として一般的に用いられる訳語ではないが 1 意味はおおむね正しい C( 誤訳語 ) 誤訳である 0 D( 不訳語 ) 未知語 訳漏れである 0 3. 結果 3.1 中国語から日本語への機械翻訳 3 種 ( 各 N=10 平均 ) の技術用語について 中国語から日本語への単語としての機械翻訳の精度を評価した結果を図 6 に示す 同様に中国語から英語への翻訳精度を評価した結果を図 7 に示す 単語翻訳スコア 2.5 2.0 1.5 1.0 0.5 0.0 MS 翻訳 (SMT) MS 翻訳 (NMT) 英語への機械翻訳評価 Google 翻訳 (NMT) WIPO 翻訳 ( 従来型 ) システム - 用語 WIPO 翻訳 (NMT) PET シェールガスクラッシュボックス 百度翻訳 (NMT) 図 7 中国語から英語への翻訳精度評価 2.5 2.0 日本語への機械翻訳評価 PET シェールガス クラッシュボックス 中国語から英語への機械翻訳は 全体的に日本語への機械翻訳よりレベルが高く 翻訳アルゴリズムの差より システムの差の方が顕著である 単語翻訳スコア 1.5 1.0 0.5 0.0 MS 翻訳 (SMT) MS 翻訳 (NNT) Google 翻訳 (SMT) Google 翻訳 (NNT) システム - 用語 JPO 中韓文献 (RBMT) 図 6 中国語から日本語への翻訳精度評価 翻訳アルゴリズムが RBMT の JPO 中韓文献が 最も翻訳精度良く 従来の翻訳アルゴリズムのものより むしろ NMT 方が翻訳精度悪い結果である 3.2 中国語から英語への機械翻訳 4. 考察 中国語から日本語への翻訳については 翻訳アルゴリズムが RBMT の JPO 中韓文献が 最も翻訳精度良く 同じシステム同士の SMT-NMT アルゴリズム比較でも NMT が必ずしも高い訳ではなく むしろ今回の評価では平均値として SMT に劣る これは 翻訳アルゴリズムの影響で NMT より RBMT や SMT の方が 技術用語の訳を定義した場合 それが反映されやすいためと考える また 技術用語による差もあり やはり一般的に確立されている PET などの用語の方が 翻訳精度が高い傾向にある 英語についても 同じシステム同士の比較では NMT が必ずしも高い結果を示すわけではないが 全体として 日本 第 14 回情報プロフェッショナルシンポジウム - 92 - 予稿集

語よりも英語の翻訳精度が高く 翻訳アルゴリズムで比較するより 日本語ではなく英語に翻訳させる方が SMT NMT とも翻訳精度向上への寄与は高いことが分かった ただし 単語の翻訳精度としての評価は本報告の通りであるが 評価の過程で文として見る場合 NMT の方が 文の意味が分かり易い傾向にあり これについては 本発表までに評価を進め 発表する予定である また 現時点では NMT は過渡期であり 以前評価した結果と 現時点で評価した結果が異なる場合もあり 急速に進化している模様である 5. おわりに 最後に 本報告は 2017 年度の アジア特許情報研究会 のワーキングの一環として報告するものであり 会のメンバーの皆様には様々な協力をしていただきました ここに改めて感謝申し上げます 6. 参考文献 [1] 日本特許庁情報技術統括室, 特許文献機械翻訳の品質評価手順 Ver1.0 ( 平成 26 年 6 月 ), http://www.jpo.go.jp/shiryou/toushin /chousa/pdf/tokkyohonyaku_hyouka/ 01.pdf (accessed 2017-09-12) - 93 -