分散表現学習を利用した効率的な特許調査文書のベクトル化方法と文書分類への応用 安藤俊幸 1), 桐山勉 2) 花王株式会社 1), はやぶさ国際特許事務所 2) 東京都墨田区文花 Tel: FAX: a

Similar documents
機械学習を用いた効率的な特許調査ニューラルネットワークの特許調査への応用 安藤俊幸 1), 桐山勉 2) 花王株式会社 1), はやぶさ国際特許事務所 2) 東京都墨田区文花 Tel: FAX: and

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および対象企業を設定した 調査目的 : 韓国において ある企業の出願動向を確認する調査

Shareresearchオンラインマニュアル

A23「タイ特許調査方法の検討」

CCDC的专利处理

第14回情報プロフェッショナルシンポジウム予稿集


言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 欧州における参入企業や技

スライド 1

項目同士の掛け合わせなどの複雑な検索を行う場合は 下記の Click here! For advanced search の表記をクリックすると 各種検索項目が出現する 今回は複数の検索項目を設定できるこの advanced search を使った事例を紹介する pg. 2

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する pg. 2

1. はじめに 2

nlp1-12.key

DEIM Forum 2019 C3-5 tweet

<4D F736F F F696E74202D E82C582E08F6F978882E98AC F82C582CC93C18B968C9F8DF595FB B8CDD8AB B83685D>

1. 主な機能追加項目 以下の検索項目をサポートしました 書誌 全文検索コマンド検索 国内 査定日 最新の査定日 ( 登録査定日または拒絶査定日 ) を検索します 査定種別 最新の登録 拒絶査定 または査定なしを検索します 審査最終処分日 最新の審査最終処分日を検索します 審査最終処分種別 最新の審

インドネシアにおける意匠を対象にした出願前調査 Q 自社製品の意匠権をインドネシアで取得したい 出願する前にや っておいた方が良いことはあるか? 1) 調査ツールの選択インドネシアにおける意匠は インドネシア知的財産総局 ( 以下 DGIP) が提供する e-status Kekay

言語切替 KW 検討用 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象 調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 自社で以下の技術を開発した 中

JP-NETを活用した特許マップ 作成マニュアル【基礎編】

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 中国における参入企業や技

スライド 1

スライド 1

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

ThemeGallery Power Template

特許検索サービスに関する打ち合わせ資料

米国における意匠を対象にした侵害防止調査 Q 自社で開発した商品を米国で販売したい 意匠侵害で訴えられ ることは避けたいが どうしたら良いか? 1) 調査ツールの選択米国における意匠は 米国特許商標庁 ( 以下 USPTO) に直接出願するルートとハーグ協定を経由するルートが存在する

1. データベースへのアクセス 南アフリカ特許を収録したデータベースとしては 無料のものとして下記のような情報源が存在する このミニガイドでは原則無料 かつ数年間にわたり安定運用されている南アフリカ知的財産庁のデータベースと Espacenet および Patentscope の検索方法を紹介する

_314I01BM浅谷2.indd

PowerPoint プレゼンテーション

Contents 1. 新機能 2. 機能改善 3. その他の改善 Hitachi Systems, Ltd All rights reserved. 1

Jupyter Notebook を活用したプログラムライブラリ構築の検討 吹谷芳博 1, 藤澤正樹 1 ( 1 あすか製薬株式会社 ) Examination of the program library construction using Jupyter Notebook ASKA Pharm

1. データベースへのアクセス イギリス特許 ( 以下 英国特許 ) を調査するにあたっては 英国特許庁への出願( 以下 各国ルートとする ) と 欧州特許出願に基づくもの( 以下 EPルートとする ) 両方を確認する事が必要となる 英国特許庁でも特許データベースが提供されているが その検索機能や収

ベトナムにおける意匠を対象にした出願前調査 Q 自社製品の意匠権をベトナムで取得したい 出願する前にやって おいた方が良いことはあるか? 1) 調査ツールの選択ベトナムの意匠は ベトナム国家知的財産庁 ( 以下 NOIP) が提供する IP Lib または 欧州連合知的財産庁 ( 以

言語切替 KW 検討用 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象 調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 以下の技術を開発した 中国にお

Japio YEARBOOK2016 寄稿論文と INFOPRO2016 発表内容の全体像 Japio YEARBOOK2016 寄稿論文機械学習を用いた効率的な特許調査方法 1 技術動向調査対象 : 人工知能 (G06N)/IP

tokyo_t3.pdf

1. データベースへのアクセス トルコ特許を収録したデータベースとしては 無料のものとして下記のような情報源が存在する このミニガイドでは原則無料 かつ数年間にわたり安定運用されているトルコ特許庁のデータベースと Espacenet の検索方法を紹介する * トルコ特許制度の詳細については 世界の産

A

米国における意匠を対象にした出願前調査 Q 自社製品の意匠権を米国で取得したい 出願する前にやってお いた方が良いことはあるか? 1) 調査ツールの選択米国における意匠は 米国特許商標庁 ( 以下 USPTO) に直接出願するルートとハーグ協定を経由するルートが存在する 上記いずれの

226125_多摩大経営情報研究_no.20_表紙-3校.indd

Microsoft PowerPoint - pr_12_template-bs.pptx

Microsoft Word - EDSマニュアル.doc

インドネシアにおける意匠を対象にした無効資料調査 Q 自社製品に近いインドネシア意匠を発見した この意匠を回避す ることも選択肢ではあるが できれば無効化したい 1) 調査ツールの選択インドネシアにおける意匠は インドネシア知的財産総局 ( 以下 DGIP) が提供する e-sta

コンピュータ応用・演習 情報処理システム

Microsoft Word - MTransㇹㇿㅼㅋ㇬㇤ㅛ+丕苬ㅦㅼㇶㅼ咂ㆂ;_ver1.7_original.docx

(Microsoft PowerPoint - \222m\223I\215\340\216Y\214\240\214\244\213\206\211\ \225\237\222n.pptx)

Microsoft Word - 【6.5.4】特許スコア情報の活用

Slide 1


2 Office 65 Solo Office 65 Solo とは Office 65 Solo とは Office 2 Office 65 Solo Office Windows Mac Office Office 65 Skype Office 1, , W

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

スライド 1

1. データベースへのアクセス 米国商標を収録したデータベース (DB) としては 無料のサービス 有料 ( 商用 ) のサービスがある このミニガイドでは原則無料の情報源を紹介する 無料の情報源は米国特許商標局 (USPTO) の運営するDBが中心で 情報の種類別にアクセス先が細分化されている 米

Poincaré Embedding による 分散表現の獲得 M1 橋本隼人 森信介 京都大学情報学研究科 / 学術情報メディアセンター森研究室 1

財団法人日本科学技術連盟 2021 年 2 月 24 日 SQiP 研究会特別講演 人工知能による欠陥分類の次の挑戦 バグの自動修復技術の実用化に向け (2016 年度 SQiP 研究会発表論文 ) 数理科学アプローチを用いた客観的欠陥弁別法 ~ 外因欠陥の弁別方法とその効果 意義 ~ 2/17

PowerPoint プレゼンテーション

PAT-LIST-GLS V3.0 新機能のご紹介 ここでは PAT-LIST-GLS Ver2.1.1.X からの機能アップについて説明しています 特に 新しい TPL ファイル 2.0 は従来のバージョンの GLS ではお使いになれませんので 必ず本書 をお読みになり ご利用をお願い致します 1

業務 システム最適化と最新検索技術環境技術が創る未来 現在では 特許管理システム (ATMS/PM2000) 特許検索サービス (ATMS/IR.net) 特許出願支援ソフト (ATMS/PPW) に 特許分析システム (ATMS/ Analyzer) を加え 知財に必要な業務パッケージを ATMS

Presentation Title

ProQuest PPT Styles

Microsoft Word - 簡易分析ツールヘルプ_ doc

画像類似度測定の初歩的な手法の検証

 

Basic descriptive statistics

DataWare-NETご利用ガイド

中国における特許を対象にした企業動向調査 Q ナイキ (NIKE) 社の出願動向を把握したい 1) 調査ツールの選択中国特許 実用新案は 中華人民共和国国家知識産権局 ( 以下 SIPO) が提供する CNIPR と PSS-System 日本国特許庁( 以下 JPO) が提供する

スライド 1

PowerPoint プレゼンテーション

Microsoft PowerPoint _Part 2_scopus_training2018

ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は 最強囲碁 AI アルファ碁解体新書深層学習 モンテカルロ木探索 強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

メタデータ管理システム

スライド 1

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

Rの基本操作

実践編 まず Search term(s) に EP と入力し Search ボタンをクリックすると以下のような 画面が表示される この About this file の画面では欧州特許の権利状況や書誌事項についての情報を得ることができる が 最初に確認すべき項目は Status の

Anaconda x86_64 版バージョン の インストールとパッケージの追加 最終更新 : 2018 年 2 月 10 日 URL: Anaconda は,Py

DEIM Forum 2010 A Web Abstract Classification Method for Revie

7-Zip で作成する暗号化 ZIP ファイルの各種設定 Windows OS の標準機能で復号できるようにするには 次のように特定の設定をする必要がある (4) 作成する暗号化 ZIP ファイルの保存先とファイル名を指定する (5) アーカイブ形式として zip を選ぶ その他のアーカイブ形式を選

V-CUBE One

1. データベースへのアクセス ドイツ特許を調査するにあたっては ドイツ特許庁への出願( 以下 各国ルートとする ) と 欧州特許出願に基づくもの ( 以下 EPルートとする ) 両方を確認する事が必要となる このミニガイドではドイツ特許庁への出願 ( 各国ルート ) の解説を中心とし 必要に応じて

Microsoft PowerPoint _札幌医科大学様_ENX7_原沢(改訂).pptx

Copyright 2014 NTT DATA Corporation 2 INDEX 1. 一括請求 Assist とは 1-1. でんさいに係るサービスの関係性 1-2. 一括請求 Assist の必要性 1-3. 一括請求 Assist の特長 2. 機能紹介 2-1. 一括請求 Assist

8-1 システム解説

Microsoft Word - ModelAnalys操作マニュアル_

ProQuest PPT Styles

<4D F736F F F696E74202D E82C582E08F6F978882E98AC FA967B93C18B9692A182C582CC93C18B9692B28DB895FB B8CDD8AB B83685D>

PowerPoint プレゼンテーション

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

Data Explorerの使い方|国立教育政策研究所 National Institute for Educational Policy Research

AI技術の紹介とセンサーデータ解析への応用

InfiniDB最小推奨仕様ガイド

Microsoft Word - RefWorksコース doc

研究レビューミーティング プレゼン資料 テンプレート

RaQuest MindManager

参考資料 分析ツールからダウンロードするデータについて < 行為明細 > 行為明細データを使いましょう (EVE をお使いの場合は ヘルプの行為明細ダウンロードを参照 ) 各分析ツールのマニュアルを参考にしてください

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

IBM Cloud Social Visual Guidelines

第13回情報プロフェッショナルシンポジウム予稿集

Transcription:

分散表現学習を利用した効率的な特許調査文書のベクトル化方法と文書分類への応用 安藤俊幸 1), 桐山勉 2) 花王株式会社 1), はやぶさ国際特許事務所 2) 131-8501 東京都墨田区文花 2-1-3 Tel: 03-5630-9538 FAX: 03-5630-9712 E-mail: ando.t@kao.co.jp Effective patent search method using Distributed representations Document Vectorization Method and Application to Document Classification ANDO Toshiyuki 1) Kao Corporation 1), HAYABUSA INTERNATIONAL PATENT OFFICE 2) 2-1-3, Bunka, Sumida-ku, Tokyo 131-8501 Japan Phone: +81-3-5630-9538 Fax: +81-3-5630-9712 E-mail: ando.t@kao.com 発表概要 ニューラルネットワークを利用した単語 文書の分散表現学習を用いて効率的な特許調査方法を検討した 特に SDI 調査を念頭に約 3000 件のインクジェット関連特許を人手で分類付与した実験用データセットを作成して文書のベクトル化方法とその用途として次元圧縮による文書の俯瞰可視化 文書分類への応用 類義語の抽出支援を検討した 文書のベクトル化手法として OneHot ベクトルの Bag of Word(BoW) モデル TF IDF モデル 分散表現ベクトルのモデルとして Ave-word2vec doc2vec SCDV(Sparse Composite Document Vectors) 4) Ave-fastText fasttext-scdv を検討した 機械学習による文書分類の手法としては Boosting と Random Forests を組み合わせて集団学習させる Python 用 XGBoost(eXtreme Gradient Boosting) パッケージを利用した XGBoost の他に 7 種類の文書分類アルゴリズムを検討した 各モデルを交差検証した結果 SCDV による文書ベクトルを用いて XGBoost による文書分類モデルが一番良かった これは調査目的や調査の活用シーンに合わせて使えば十分特許調査実務に応用可能である 機械学習を用いて公報を文書分類する場合 教師データ ( 作成 ) を考慮した分類体系の設計が重要である キーワード 分散表現,doc2vec,word2vec,fastText, 機械学習, 文書分類, 次元圧縮, 特許調査, 先行技術調査, 特許情報解析, 可視化

1. はじめに最近では AI の中心技術である各種機械学習のオープンソースライブラリが容易に入手可能である 特許調査担当者の実務的な観点から機械学習を用いた効率的な特許調査の可能性について検討してきた 1) 近年 word2vec のような単語の分散表現手法やそれを文書のベクトル化に拡張した doc2vec 等の有用性が注目されている 本報では文書のベクトル化方法とそのベクトルを用いた機械学習による文書分類と特許調査への応用を検討した 文書分類の検討にはインクジェットインク特許約 3000 件に人手でカテゴリーを付与した教師データセットを作成して検討した 2. 目的機械学習の特許調査への応用の目的として下記の三つの目的を設定した 1SDI 調査予め人手で付与した社内分類等を教師データとして学習させておき定期的に発生する新規公報に対してどの程度の精度で分類できるか確認する 2 技術動向調査文書 単語ベクトルを次元圧縮して全体像を直感的に把握して関心がある特許公報にインタラクティブ ( 対話的 ) にアクセスできるような俯瞰 可視化マップを検討する 3 類義語の抽出支援ツール注目語の類義語の抽出を支援するツールとして使用できるか検討する 日本語 英語 中国語で使用可能であることが望ましい 3. 検討方法単語の One hot ベクトル表現とは文書に出現するすべての単語に固有の そ の単語の有無 を表すベクトルを割り当てて表現する 単語の出現 ( 種類 ) 数の次元を要する 単語の出現数が増えると数万次元におよぶこともある 単語 の分かち書き方法は形態素 専門用語 N グラム等がある 下記 1~3 に本研究で使用したデータベースと関連ツール類を記す 1 商用特許データベース Questel 社 Orbit.com を日本語 英語 中国語による原語検索 ファミリーデータ 英語化学物質名 ID(MLID) 英語コンセプト ( テクニカルターム :KEYW) 等各種データをダウンロードして使用した NRI サイバーパテントデスク社 CyberPatent Desk を日本特許のタイトル 要約 請求項 FI F タームのデータソースとして csv 形式でダウンロードして使用した 2 機械学習機械学習のオープンソースライブラリとして scikit-learn 0.20.3 2) gensim3.4.0 技術 3) XGBoost を使用した Python3.7 環境構築は Anaconda を使用して行った 商用の単語の分散表現作成ツールとして NTT データ数理システムの Text Mining Studio 類義語アドオンツール 5) を試用した 3 パテントマップ作製 解析ツール商用のパテントマップ作製ツールとしてインパテック社のパテントマップ EXZ 特許情報の解析ツールとして Questel 社 Orbit.com のオプションの分析モジュールを使用した 単語の分散表現 :Distributed Representation あるいは単語埋め込み : word embedding と呼ばれる手法を用いて単語を比較的低次元 (50~500) の実数ベクトル化して利用する研究は様々な分野で行われている

Orbit の分析モジュールを使用して解析手法に対する現状の課題と自分で機械学習を利用して解析する場合の改善ポイント 目的を抽出した 図 2 にテクニカルドメインによる技術概要を示す 各ヘキサゴン (6 角形 ) は IPC で定義された技術領域である 特許全分野を 5 7= 35 個の 6 角形で表している インクジェットインク関連特許は Basic materials chemistry に 2575 ファミリー Textile and paper machines に 2210 ファミリーが一部重複して属している 全特許が予め定義された 35 分野に振り分けられるので技術分野の粒度が大き過ぎるのが課題である また自分で定義したユーザー分類が使えると良い 図 1. 分散表現学習によるベクトル化 図 1 に分散表現学習による文書のベクトル化処理の概要を示す word2vec による単語の分散表現学習も同様に行った 4. 検討 分析結果 4-1. 予備検討 ( 目的 課題抽出 ) SDI 調査 技術動向調査を念頭に Orbit でファミリー単位のデータベース FAMPAT を使用して下記検索式の検索結果 2584 ファミリーを母集団として現状の一般的な特許情報の解析手法やパテントマップ作成時の課題等を検討 抽出した 検索母集団 :(4J039GA24)/FTM AND (CN)/PN ここで 4J039GA24 はインクジェットインクの F ターム (CN)/PN は発行国として中国が含まれるファミリーである 結果的に F タームを使用していることで日本と中国のファミリーがある集合 2584 ファミリーが得られる このファミリーから日本公報 3098 件を抽出し機械学習の検討用母集団とした 図 2. テクニカルドメインによる技術概要 図 3 にコンセプトクラスターを示す この図は英語のコンセプト ( テクニカルターム ) を用いて教師なし機械学習であるクラスタリングを行っている この課題は特許件数が増加あるいは減少するとクラスタリング結果が場合により大幅に異なる また各多角形に表示されるラベルのカテゴリーが 物 であったり 耐光性 耐オゾン性のような 効果 であったりして一定しないことである また各多角形がクラスターになっておりクリックすると公報リストを表示するのだがラベルが適切に選ばれているとは言い難く中身のリストを見ないとクラスターが何を表しているか分からないことである

文書のベクトル化手法として表 1 の 7 種類を検討した 図 3. コンセプトクラスター また公報が複数のクラスターに属することを許すソフトクラスタリングになっており重複がかなり多いが表面上は分かり辛い このツールのメリットとしては気付き ( セレンディビティ ) が得られる 注目したクラスターの公報リストを表示するのはインタラクティブ性に優れ非常に良い等々メリットも多い 図 4. テクノロジークラスター 図 4 にテクノロジークラスター ( ランドスケープマップ ) を示す このマップは英語のコンセプトを用いて各公報をベクトル化して次元圧縮して 2 次元にマッピングしている 各公報の色とラベルの色はクラスタリング結果を基にして決めていると推定される クラスタリングアルゴリズムを使用しているため図 3 のコンセプトクラスターと同様のデメリットを有している 本検討では次元圧縮による公報の俯瞰可視化と文書分類を組み合わせてクラスタリングのデメリットを解消できないか検討する 4-2. 文書のベクトル化検討 表 1. 文書ベクトル化方法 BoW モデルは古典的な非常にシンプルなモデルで出現単語に ID を付け文書の各単語の有無だけを集計する 単語の出現順や頻度は考慮しない One hot ベクトルである TF IDF モデルは単語頻度と単語が出現する文書頻度を考慮して重み付けする Ave-word2vec モデルは文書に含まれる単語の分散表現ベクトルの平均値を使う doc2vec モデルは word2vec を文書に拡張したものである SCDV は word2vec の単語ベクトルを基に idf 値を計算し GMM クラスタリングする 一つ一つの単語ベクトルが各クラスタに属する予測確率を単語ベクトルにかけて 単語ベクトル数 クラスタ数に次元を広げて 文書ベクトルとする クラスタ数 K=60 とした Ave-fastText は word2vec の代わりに fasttext を使用した 表 1 の 3~7 が分散表現による文書ベクトルモデルである word2vec doc2vec fasttext のベクトルの次元数 ( サイズ ) は 300 分かち書きした単語を取り込む Window 幅は 5 取り込み最小単語数は 1 とした doc2vec の取り込みモデルを選択するパラメータ dm=1 で単語の語順を考慮するモデルである SCDV は word2vec の 300 次元かけるクラスタ数 K=60 なので 300 60=18000 次元になる 公報文書の分散表現ベクトルのデータソースとしてはタ

イトル 要約 請求項とした One hot ベクトルによる文書ベクトルとして Orbit の英語化学物質名 ID(MLID) 英語コンセプト ( テクニカルターム :KEYW) CyberPatent Desk の FI F タームによる文書ベクトルも補助的に検討した 各文書ベクトルを用いて文書分類精度への影響 次元圧縮による各文書の俯瞰可視化マップも検討した 4-3. 文書分類検討機械学習による文書分類の手法として表 2 の 8 種類の分類アルゴリズムを検討した 表 3に日本公報 3098 件の筆頭 FI ラン キング上位 10 位を示す 筆頭 FI 内容 件数 C09D 11/00 インク 923 B41M 5/00 A 記録方法 175 C09D 11/30 インクジェットインク 150 C09D 11/322 顔料インク 99 C09D 11/38 非高分子添加剤 76 C09D 17/00 顔料ペースト 64 C09D 11/326 顔料分散剤 51 C09D 11/328 染料 45 G02B 5/20 101 カラーフィルター 39 C09D 11/34 ホットメルト 38 表 3. 筆頭 FI ランキング上位 10 位 表 4 にカテゴリー別の doc2vec ベクトルモデルの XGB による分類結果を示す 表 4. カテゴリー別分類結果 (8 分割交差検証 ) 表 2. 文書分類手法 XGBoost は Boosting と Random Forests を組み合わせて集団学習させるもので Python 用 XGBoost パッケージを使用した 他は scikit-learn の実装を利用した 文書分類精度は XGBoost が良かった 文書分類検討にあたり下記 3 種類の分類の粒度での検討を計画した 1 発明の主題レベル ( 筆頭 FI) 2 発明の構成要素レベル (F ターム ) 3 明細書の文言記載レベル以下 1 発明の主題について述べる 一番抽象的と考えられる大きな粒度で大分類を想定している 図 5. 文書分類 XGB の 8 分割交差検証 図 5 に XGB で分類した 7 種類の文書ベクトル ( 縦軸 ) の 8 分割交差検証結果を示す 横軸は validation accuracy である SCDV が良いが発明の主題に関してはあまりうまく文書分類されていない

等で改善の余地は大きいと考える 図 6.BoW 文書ベクトルの次元圧縮 図 6 に BoW 文書ベクトルの次元圧縮結果を示す 次元圧縮は t-sne で行った カラーマッピングは教師データのカテゴリーを使用している 図 7.SCDV 文書ベクトルの次元圧縮 図 7 に SCDV 文書ベクトルの次元圧縮結果を示す BoW モデルと比べて同じカテゴリーの公報がまとまっている 2 発明の構成要素レベル (F ターム ) 3 明細書の文言記載レベルの文書分類については発表時に報告する 5. 今後の展望本報では文書の BoW TF IDF ベクトル 分散表現ベクトルを更に教師データ有りの機械学習の入力データとして文書分類を検討した 各学習モデルのパラメータチューニングはほとんど行っておらずデフォルト値を使用している パラメータチューニング 教師データの分類体系の設計 BoW モデルに特許分類を入力 6. 結論文書の分散表現ベクトルと教師ありの文書分類を組み合わせることで SDI 調査や動向調査の効率化の可能性を示せた 文書分類に関してはパラメータチューニング 教師データの分類体系の設計等が必要である 7. おわりに筆者は 2008 年頃より断続的にテキストマイニングによる効率的な特許調査手法を研究してきた 最近は機械学習を用いて効率的な特許調査に取り組んでいる まだまだ改善の余地は大きいと考えている 今後の検討が楽しみである 謝辞 本報告は 2019 年の アジア特許情報研究会 のワーキングの一環として報告するものです 研究会のメンバーの皆様には様々な協力をしていただきました ここに改めて感謝申し上げます 8. 参考文献 [1] 桐山勉, 安藤俊幸. 特許情報と人工知能 (AI): 総論. 情報の科学と技術. 2017,vol. 67,no. 7,p. 340-349. [2] scikit-learn http://scikit-learn.org/stable/ accessed 2019.03.25 [3] gensim https://radimrehurek.com/gensim/ accessed 2019.03.25 [4] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations https://arxiv.org/pdf/1612.06778.pdf [5]Text Mining Studio 類義語アドオン https://www.msi.co.jp/tmstudio/tmssy nonymaddon.pdf