機械学習を用いた効率的な特許調査ニューラルネットワークの特許調査への応用 安藤俊幸 1), 桐山勉 2) 花王株式会社 1), はやぶさ国際特許事務所 2) 東京都墨田区文花 Tel: FAX: and

Similar documents
ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は 最強囲碁 AI アルファ碁解体新書深層学習 モンテカルロ木探索 強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

nlp1-12.key

Japio YEARBOOK2016 寄稿論文と INFOPRO2016 発表内容の全体像 Japio YEARBOOK2016 寄稿論文機械学習を用いた効率的な特許調査方法 1 技術動向調査対象 : 人工知能 (G06N)/IP

第14回情報プロフェッショナルシンポジウム予稿集

Microsoft Word - 【6.5.4】特許スコア情報の活用

1. はじめに 2

A23「タイ特許調査方法の検討」

(Microsoft PowerPoint - \222m\223I\215\340\216Y\214\240\214\244\213\206\211\ \225\237\222n.pptx)

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

Shareresearchオンラインマニュアル

特許検索サービスに関する打ち合わせ資料

CCDC的专利处理

項目同士の掛け合わせなどの複雑な検索を行う場合は 下記の Click here! For advanced search の表記をクリックすると 各種検索項目が出現する 今回は複数の検索項目を設定できるこの advanced search を使った事例を紹介する pg. 2

Twitter Twitter [5] ANPI NLP 5 [6] Lee [7] Lee [8] Twitter Flickr FreeWiFi FreeWiFi Flickr FreeWiFi 2. 2 Mikolov [9] [10] word2vec word2vec word2vec k

<4D F736F F F696E74202D E82C582E08F6F978882E98AC F82C582CC93C18B968C9F8DF595FB B8CDD8AB B83685D>

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

ThemeGallery Power Template

DEIM Forum 2019 C3-5 tweet

Microsoft PowerPoint - NC12-2.pptx

1. 主な機能追加項目 以下の検索項目をサポートしました 書誌 全文検索コマンド検索 国内 査定日 最新の査定日 ( 登録査定日または拒絶査定日 ) を検索します 査定種別 最新の登録 拒絶査定 または査定なしを検索します 審査最終処分日 最新の審査最終処分日を検索します 審査最終処分種別 最新の審

言語切替 KW 検討用 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象 調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 以下の技術を開発した 中国にお

_314I01BM浅谷2.indd

概要 単語の分散表現に基づく統計的機械翻訳の素性を提案 既存手法の FFNNLM に CNN と Gate を追加 dependency- to- string デコーダにおいて既存手法を上回る翻訳精度を達成

米国における意匠を対象にした侵害防止調査 Q 自社で開発した商品を米国で販売したい 意匠侵害で訴えられ ることは避けたいが どうしたら良いか? 1) 調査ツールの選択米国における意匠は 米国特許商標庁 ( 以下 USPTO) に直接出願するルートとハーグ協定を経由するルートが存在する

スライド 1

言語切替 KW 検討用 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象 調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 自社で以下の技術を開発した 中

2. 項目検索 (1) 日本語による検索 発明の名称 要約 クレーム及び詳細な説明について 基本的に 2 文字単位で作成され た ( バイグラム (bi gram)) インデックスに対して検索を行います 1 1 文字での検索を行い たい場合は * ワイルドカード指定は不要です を用いて前方一致検索と

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

AI AI Artificial Intelligence AI Strategy& Foresight AI AI AI AI 1 AI AI AI AI AI AI AI AI AI AI AI AI AI 2 AI 1 AI AI 3 AI 3 20 AI AI AI AI AI

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する pg. 2

1 人間と同様の知能とは実際どの様な事か! 人間だからこそ可能と思われている事象から * 判断する * 予測する * 診断する * 推測する 人間が行っていること 多くの判断材料からある種の結論を導き出す事 技術的には 多くのデータから特徴を見出し結論を導き出す事 研究開発や工場では人間だからこそで

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

Jupyter Notebook を活用したプログラムライブラリ構築の検討 吹谷芳博 1, 藤澤正樹 1 ( 1 あすか製薬株式会社 ) Examination of the program library construction using Jupyter Notebook ASKA Pharm

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 中国における参入企業や技

言語資源活用ワークショップ 2019 発表論文集 半教師あり語義曖昧性解消における各ジャンルの語義なし用例文の利用 谷田部梨恵 ( 茨城大学大学院理工学研究科 ) 佐々木稔 ( 茨城大学工学部情報工学科 ) Semi-Supervised Word Sense Disambiguation Usin

米国における意匠を対象にした出願前調査 Q 自社製品の意匠権を米国で取得したい 出願する前にやってお いた方が良いことはあるか? 1) 調査ツールの選択米国における意匠は 米国特許商標庁 ( 以下 USPTO) に直接出願するルートとハーグ協定を経由するルートが存在する 上記いずれの

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および対象企業を設定した 調査目的 : 韓国において ある企業の出願動向を確認する調査

JP-NETを活用した特許マップ 作成マニュアル【基礎編】


Microsoft PowerPoint - H17-5時限(パターン認識).ppt

スライド 1

PowerPoint プレゼンテーション

(Microsoft PowerPoint - \216\251\223]\216\324\224F\216\257\202\314\223\256\214\374.pptx)

Microsoft PowerPoint - pr_12_template-bs.pptx

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 欧州における参入企業や技

Microsoft Word - MTransㇹㇿㅼㅋ㇬㇤ㅛ+丕苬ㅦㅼㇶㅼ咂ㆂ;_ver1.7_original.docx

自己紹介 名前 : 竹田卓也 年齢 : 20 歳 ( 大学生 ) 経歴 : 人工知能歴 1ヶ月プログラミング歴 5 年くらい 言語 : PythonとかJavaとかGoとか 趣味 : オンライン オフラインゲーム 2

1. データベースへのアクセス 米国商標を収録したデータベース (DB) としては 無料のサービス 有料 ( 商用 ) のサービスがある このミニガイドでは原則無料の情報源を紹介する 無料の情報源は米国特許商標局 (USPTO) の運営するDBが中心で 情報の種類別にアクセス先が細分化されている 米

Microsoft Word - 卒論レジュメ_最終_.doc

高合格率目標達成のためのノウハウを満載! 情報処理試験合格へのパスポートシリーズ ポイント 1 他社テキストにはない重要用語の穴埋め方式 流れ図の穴埋めを採用している他社テキストはあるが, シリーズとして重要用語の穴埋めの採 用 ( 問題集は除く ) はパスポートシリーズだけです なぜ, 重要用語の

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

コーパスを用いた中国語ネット語の判定システム 竇梓瑜 ( 東京農工大学工学府情報工学専攻 ) 古宮嘉那子 ( 東京農工大学工学研究院先端情報科学部門 ) 小谷善行 ( 東京農工大学工学研究院先端情報科学部門 ) A Detection System of Chinese Netspeak Using

DEIM Forum 2019 H Web 1 Tripadvisor

演習 レシピテキストの係り受け解析

Slide 1

新興国におけるIPC付与の実態:

財団法人日本科学技術連盟 2021 年 2 月 24 日 SQiP 研究会特別講演 人工知能による欠陥分類の次の挑戦 バグの自動修復技術の実用化に向け (2016 年度 SQiP 研究会発表論文 ) 数理科学アプローチを用いた客観的欠陥弁別法 ~ 外因欠陥の弁別方法とその効果 意義 ~ 2/17


1. データベースへのアクセス トルコ特許を収録したデータベースとしては 無料のものとして下記のような情報源が存在する このミニガイドでは原則無料 かつ数年間にわたり安定運用されているトルコ特許庁のデータベースと Espacenet の検索方法を紹介する * トルコ特許制度の詳細については 世界の産

顔文字に着目した TwitterのP/N値に基づく映画の見どころ検索

スライド 1

寄稿集対応付け対象文として抽出し 特許請求項と対応付けを DP マッチング 行っている しかし 本研究では 詳細説明内の全ての節に対して対応付けを行っているため 新森らの手法と異なる 2.2 文書間の類似性尺度 圧縮距離相澤 2 は Ziv_Merhav crossparsi

スライド 1

機械学習 ハンズオン-チュートリアル

O-27567

tokyo_t3.pdf

スライド 1

Microsoft Word - 簡易分析ツールヘルプ_ doc

業務 システム最適化と最新検索技術環境技術が創る未来 現在では 特許管理システム (ATMS/PM2000) 特許検索サービス (ATMS/IR.net) 特許出願支援ソフト (ATMS/PPW) に 特許分析システム (ATMS/ Analyzer) を加え 知財に必要な業務パッケージを ATMS

INFOPRO2017ishikawa

1. データベースへのアクセス イギリス特許 ( 以下 英国特許 ) を調査するにあたっては 英国特許庁への出願( 以下 各国ルートとする ) と 欧州特許出願に基づくもの( 以下 EPルートとする ) 両方を確認する事が必要となる 英国特許庁でも特許データベースが提供されているが その検索機能や収

スライド 1

スライド 1

スライド 1

研究レビューミーティング プレゼン資料 テンプレート

WBT [6] [7] [8] [9] Web [1] WBT [2] [3] ipad PC ipad ipad ipad [4] QR QR [5] IC IC PDA IC PDA US-ASCII 4,296 QR IC IC IC QR QR QR A BB A A CC

特許情報サービスにおける画像検索 株式会社リコー研究開発本部先端技術研究センター 伊東秀夫 1. はじめに リコーは長年にわたりテキストや画像を対象とする情報検索の研究開発を進めて参りました その成果がリコーテクノシステムズ株式会社による特許情報サービス RIPWAY (tm) に活かされています

Rの基本操作

23_ogawa.qxd

情報処理学会研究報告 IPSJ SIG Technical Report 検索式生成機能を有する特許公報検索システムの精度検証とその展望 柳堀恭子 平塚三好 谷川英和 特許出願に必要な先行調査に, 専門的な知識に頼らず機械的に調査できる Patent Search Assistant(PSA) を利

Poincaré Embedding による 分散表現の獲得 M1 橋本隼人 森信介 京都大学情報学研究科 / 学術情報メディアセンター森研究室 1

人工知能(AI)の学習用データに関する知的財産の保護

トレーサビリティとインパクト分析 2011 年 7 月 13 日 海谷治彦 1

研究報告書レイアウト例(当該年度が最終年度ではない研究班の場合)

Microsoft PowerPoint _Part 2_scopus_training2018

画像類似度測定の初歩的な手法の検証

2 目次 1 はじめに 2 システム 3 ユーザインタフェース 4 評価 5 まとめと課題 参考文献

Progress report

PowerPoint プレゼンテーション

<4D F736F F F696E74202D20352D D E83678FD089EE F815B B490858E81292E707074>

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt


dlshogiアピール文章

実践編 まず Search term(s) に EP と入力し Search ボタンをクリックすると以下のような 画面が表示される この About this file の画面では欧州特許の権利状況や書誌事項についての情報を得ることができる が 最初に確認すべき項目は Status の

Microsoft Word - 01.表紙、要約、目次

スライド 1

1. 欧州連合における意匠検索 ( 調査 ) の必要性 1.1 欧州連合における意匠制度欧州共同体意匠制度とは 欧州連合知的財産庁に 1の出願 登録を行うことで 欧州連合加盟国全部をカバーする意匠権を得ることが出来る制度です 欧州連合は 下の地図のうち 水色及び薄緑色の国が加盟し成立しています スイ

Transcription:

機械学習を用いた効率的な特許調査ニューラルネットワークの特許調査への応用 安藤俊幸 1), 桐山勉 2) 花王株式会社 1), はやぶさ国際特許事務所 2) 131-8501 東京都墨田区文花 2-1-3 Tel: 03-5630-9538 FAX: 03-5630-9712 E-mail: ando.t@kao.co.jp Effective patent search methods using Machine Learning: Application of neural network to patent search ANDO Toshiyuki 1), KIRIYAMA Tsutomu 2) Kao Corporation 1), HAYABUSA INTERNATIONAL PATENT OFFICE 2) 2-1-3, Bunka, Sumida-ku, Tokyo 131-8501 Japan Phone: +81-3-5630-9538 Fax: +81-3-5630-9712 E-mail: ando.t@kao.co.jp 発表概要 ニューラルネットワークを利用した機械学習を用いて効率的な特許調査方法を検討した 特に先行技術調査を念頭に特許検索競技大会 2016 の化学 医薬分野の問 2 ( ガスバリア性包装用フィルム ) を例題として選択しデータセットを作成して前半ではスクリーニング過程の再現率曲線に影響を与える要因を実験的に検討した 後半はニューラルネットワークの機械学習を用いて単語の分散表現で文書の固定長ベクトルが得られる doc2vec の学習モデルを使用して公報の類似度を計算する手法を検討した その結果単語の出現頻度と出現順序を考慮したモデル PV-DM を使用すると非常によい類似度計算ができることがわかった 公報の類似度計算精度が向上すると特許調査において効率的なスクリーニングが可能となる 本報で検討した分散表現ベクトル (doc2vec の出力ベクトル ) を使用して各特許公報間の関係の可視化もできるので精度の高い動向調査に応用可能である 特許調査の精度を上げるには前処理の形態素解析による 分かち書き が重要になる キーワード ニューラルネットワーク, 機械学習, 分散表現,doc2vec,word2vec, 類似度, 特許調査, 先行技術調査, 特許情報解析, 可視化

1. はじめに近年ニューラルネットワークを用いた機械学習が特に画像認識において成功をおさめディープラーニングへと発展し様々な分野で応用がなされている 1) 特許情報の分野においても 情報の科学と技術 2017 年 7 月号 (67 巻 7 号 ) で. 特許情報と人工知能 (AI) の特集が組まれている 2) 日本特許庁においても人工知能 (AI) 技術の活用に向けたアクション プランが公表されており各種の実証試験が試行されている 本報では特許調査の実務に実際に自分の手を動かして試して効果を実感できる特許調査の効率化手法を検討した 例題として特許検索競技大会 2016 の化学 医薬分野の問 2( ガスバリア性包装用フィルム ) を選択し機械学習の先行技術調査への適用可能性を検討した 2. 目的機械学習の特許調査への応用の目的として下記 2 種類の特許調査をベースに目的を設定した 1 先行技術調査機械学習の観点では教師データが少なくても効率的に学習して再現率と精度を両立可能な調査手法 特許検索の観点では検索漏れを少なくするように網羅性を重視した検索母集団を作成し精度を重視したスクリーニングを行い調査目的に適合したスコア付けを行う調査手法を目的とする 更に適合した部分を例えば段落単位で提示する 2 技術動向調査膨大な特許情報から技術動向を効率的に把握する 全体像が直感的に把握できて関心がある特許公報にインタラクティブ ( 対話的 ) にアクセスできるような俯瞰 可視化とインタラクティブ操作ができる手法が理想的である 日本語 英語 中国語で解析可能であること 3. 検討方法図 1 に機械学習の特許調査への適用の基礎検討概要を示す 単語の One hot ベクトル表現とは文書に出現するすべての単語に固有の その単語の有無 を表すベクトルを割り当てて表現する 単語の出現 ( 種類 ) 数の次元を要する 単語の出現数が増えると数万次元におよぶこともある 単語 の分かち書き方法は形態素 専門用語 N グラム等がある 図 1. 機械学習の基礎検討の概要 下記 1~3 に本研究で使用したデータベースとツール類を記す 1 商用特許データベースの類似検索とデータセット作成類似 ( 概念 ) 検索の類似度 ( スコア ) 検討のため商用特許データベースとして日立の特許情報提供サービス Shareresearch 発明通信社 HYPAT-i2 NRI サイバーパテントデスク 2 を使用した データセット作成には NRI サイバーパテントデスク 2 のタイトル 要約 請求項を csv 形式でダウンロードして使用した 2 機械学習機械学習は Python3.6 で機械学習ライブラリ (scikit-learn 3) と gensim 4) ) を使用した python 環境構築は Anaconda を使用して行った 単語の分散表現 :

Distributed Representation あるいは単語埋め込み :word embedding と呼ばれる手法を用いて単語を比較的低次元 (50 ~500) の実数ベクトル化して利用する研究は様々な分野で行われている 5) に新規性で拒絶理由に採用した文献の類似度を比べると乖離が大きいことが課題であった そこで実際の審査過程を考慮して問題が作成され 正解 公報とその先行技術調査プロセスの模範解答が示される特許検索競技大会に着目した 図 3. 特許検索競技大会の問題 図 3 に特許検索競技大会 2016 の化学 医薬分野の問 2 を示す 請求項 1 を使用して商用データベースの類似検索を行い再現率で比較したグラフを図 4 に示す 再現率 = 正解数 / 全正解数である 図 2.doc2vec によるベクトル化処理 図 2 に doc2vec による文書のベクトル化処理の概要を示す word2vec による単語の分散表現学習も同様に行った 4. 検討 分析結果 4-1. One hot ベクトル表現検討機械学習の先行技術調査過程への適用例として調査範囲の確定 検索キー ( 特許分類 検索キーワード ) の抽出 スクリーニング支援 ( 要査読かノイズの仕分け等 2 値分類 査読の優先順位をレコメンドするスコアリング ) 等が考えられる 機械学習適応のメインターゲットとしてスクリーニング支援用に査読の優先順位を推薦するスコアリングを想定した 筆者のこれまでの検討で調査対象文書と調査対象集合の各特許公報の各種類似度 ( スコア ) を求めても審査官が実際 図 4. 類似 ( 概念 ) 検索の再現率比較 確認数 :300 全正解数 :49 DB:A DB:B DB:C 精度 4.7% 5.3% 0.7% 計算例再現率 28.6% 32.7% 4.1% 2/49 F 値 0.08 0.09 0.01 表 1. 確認数 300 の精度 再現率 F 値 図 4 の横軸は類似検索結果をスコアの

高い順に確認した場合の確認数である 確認数 300 時点の精度 再現率 F 値を表 1 に示す F 値は精度と再現率の調和平均である 正解公報が理想的に確認できた場合の理想再現率と理想精度 ( 破線 ) を示す 以降の検討結果はグラフの見やすさの点から再現率でプロットしているが精度 ( 調査効率 ) 重視の観点からはグラフの立ち上がりが急峻な方が良い 以降の検討では理想再現率と DB:A の再現率を比較のベースラインとしてプロットする 図 5. データセット集合の相互関係 性格の異なるデータベース DB:A と DB:C の概念検索各々上位 376 件と正解 49 件の和集合 746 件を各種検討用のデータセットとした C は上位 10000 件確認し正解 3 件であった 図 5 にデータセット集合 746 件の相互関係を示す 作成したデータセットを用いて類似度計算に影響する要素 ( アルゴリズムや各種パラメータ等 ) を実験的に検討した 図 6 に形態素と専門用語による分かち書きと TF TF IDF による重み付けの再現率への影響を示す 確認数が少ない立ち上がりでは形態素 TF IDF が良くその後は専門用語 TF TDF が良いが DB:A には及ばない 図 6. 分かち書きと重み付けの影響 新規性を考慮した評価関数として検索競技大会の模範解答の構成要素分析例を参考に F タームと類似度による評価関数を設計した 図 7 上部の表部分は構成要素に該当する F タームがマッチングした時に重み 1 を加算し更に形態素の TF による類似度を加算した単純な合成関数を示している 構成要素 a( 熱可塑性樹脂フィルム基材層 ) 要素 e( 他の層を介してまたは介さずにこの順に積層 ) は該当する F タームが存在しない 公報確認数を横軸に評価関数を縦軸にプロットしたものが図 7 のグラフである 図 7.F タームと類似度による評価関数 図 7 の評価関数を用いた再現率への影響を図 8 に示す シュミレーション実験結果は確認数の大きい後半では DB:A を上回るが前半ではあまり差は無い

図 8. 評価関数とフィルターの影響 形態素 TF がベースラインで 4F100 は F テーマコードでフィルターしたものであり ガスバリアのラインは要素 f のガスバリアに該当する F ターム 4F100JD02 でフィルターしたものである フィルターとはメールのスパムフィルターのように該当 F タームが付与されていない公報を除いている フィルターでは公報に構成要素の F タームが付与されていないと除かれて検索漏れが発生する 実際にガスバリアの再現率曲線は検索漏れが発生している 4-2. 分散表現によるベクトル化検討図 9 に文書の分散表現ベクトルの学習モデルの再現率を示す 非常にスモールサイズのデータセットであり直接比較の対象ではない 本検討はデータベースの検索は適切に行った後のスクリーニング過程を念頭においている PV-DBOW は単語の順序を考慮しないシンプルなモデルで計算効率が良い PV-DBOW では同じデータで 3 回学習を行いそれぞれ再現率曲線を求めた 再現率 1~ 再現率 3 である 学習のつど結果は異なっている 4-3. 可視化検討 図 10.One hot ベクトルによる可視化 図 10 に One hot ベクトルによる公報の可視化結果を示す 図 9. 分散表現ベクトルによる再現率単語の出現頻度と出現順序を考慮したモデル PV-DM はリファレンスとしてきた DB:A の再現率曲線を圧倒している もちろん DB:A は DB 全体 本検討では 図 11. 分散表現ベクトルによる可視化

図 11 に doc2vec を利用して各公報間の類似度から非計量多次元尺度法により可視化したマップを示す 度と出現順序を考慮した学習モデルを使用して公報の類似度を計算すると非常によい再現率が得られることがわかった 公報の類似度計算精度が向上すると特許調査において効率的なスクリーニングが可能となる 公報の類似度計算精度向上は動向調査にも有効である 7. おわりに筆者は 2008 年頃より断続的にテキストマイニングによる効率的な特許調査手法を研究してきた 6) 本稿の前半部分はその結果のまとめに相当する 後半の doc2vec の出力ベクトルの検討はようやく始めたばかりだが素性の良さを実感している 今後の検討が楽しみである 図 12. 正解公報と構成要素の可視化 5. 今後の展望本報で検討した分散表現ベクトルを更に教師データ有りの機械学習の入力データとすることも可能である 更なる精度 再現率向上には教師データ有りの機械学習と組み合わせることが必須と考える 教師データ有りの機械学習としては評価関数を用いて構成要素によって重みを変える F タームと形態素の類似度の寄与率を変える等々いろいろ考えられる 重み付けの調整や識別を利用することで改善の余地は大きいと考える 評価関数をどこまでチューニングできるか興味深い 特許調査の精度を上げるには前処理の形態素解析による 分かち書き が重要になる 知財分野では新語の発生頻度も高く形態素解析用辞書の更新や専門用語辞書の活用も重要である 6. 結論単語の分散表現で文書の固定長ベクトルが得られる doc2vec の単語の出現頻 謝辞 本報告は 2017 年度の アジア特許情報研究会 のワーキングの一環として報告するものです 研究会のメンバーの皆様には様々な協力をしていただきました ここに改めて感謝申し上げます 8. 参考文献 [1] IPA.AI 白書,KADOKAWA,2017 [2] 桐山勉, 安藤俊幸. 特許情報と人工知能 (AI): 総論. 情報の科学と技術. 2017,vol. 67,no. 7,p. 340-349. [3] scikit-learn http://scikit-learn.org/stable/ accessed 2017.09.14 [4] gensim https://radimrehurek.com/gensim/ accessed 2017.09.14 [5] 岡崎直観. 単語の意味をコンピュータに教える, 岩波データサイエンス vol.2,p.47-61 [6] 安藤俊幸.Japio YEAR BOOK 2017 機械学習を用いた効率的な特許調査方法