Japio YEARBOOK2016 寄稿論文と INFOPRO2016 発表内容の全体像 Japio YEARBOOK2016 寄稿論文機械学習を用いた効率的な特許調査方法 1 技術動向調査対象 : 人工知能 (G06N)/IP

Similar documents
機械学習を用いた効率的な特許調査ニューラルネットワークの特許調査への応用 安藤俊幸 1), 桐山勉 2) 花王株式会社 1), はやぶさ国際特許事務所 2) 東京都墨田区文花 Tel: FAX: and

ルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意 NFL 定理に関係して AI 分野におけるアルゴリズムの重要性は 最強囲碁 AI アルファ碁解体新書深層学習 モンテカルロ木探索 強化学習から見たその仕組み 5) ではアルゴリズムの特徴を生かして組み合わせておりその考え方が参考

nlp1-12.key

CCDC的专利处理

Microsoft PowerPoint - pr_12_template-bs.pptx

言語切替 KW 検討用 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象 調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 自社で以下の技術を開発した 中

6回目

A23「タイ特許調査方法の検討」

項目同士の掛け合わせなどの複雑な検索を行う場合は 下記の Click here! For advanced search の表記をクリックすると 各種検索項目が出現する 今回は複数の検索項目を設定できるこの advanced search を使った事例を紹介する pg. 2

(Microsoft PowerPoint - \216\251\223]\216\324\224F\216\257\202\314\223\256\214\374.pptx)

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

スライド 1

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 中国における参入企業や技

Contents 1. 新機能 2. 機能改善 3. その他の改善 Hitachi Systems, Ltd All rights reserved. 1

財団法人日本科学技術連盟 2021 年 2 月 24 日 SQiP 研究会特別講演 人工知能による欠陥分類の次の挑戦 バグの自動修復技術の実用化に向け (2016 年度 SQiP 研究会発表論文 ) 数理科学アプローチを用いた客観的欠陥弁別法 ~ 外因欠陥の弁別方法とその効果 意義 ~ 2/17

言語切替 KW 検討用 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象 調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 以下の技術を開発した 中国にお

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および対象企業を設定した 調査目的 : 韓国において ある企業の出願動向を確認する調査

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する pg. 2

スライド 1

スライド 1

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 欧州における参入企業や技

2. 項目検索 (1) 日本語による検索 発明の名称 要約 クレーム及び詳細な説明について 基本的に 2 文字単位で作成され た ( バイグラム (bi gram)) インデックスに対して検索を行います 1 1 文字での検索を行い たい場合は * ワイルドカード指定は不要です を用いて前方一致検索と

スライド 1

1. はじめに 2

(Microsoft PowerPoint - \222m\223I\215\340\216Y\214\240\214\244\213\206\211\ \225\237\222n.pptx)

スライド 1

スライド 1

Shareresearchオンラインマニュアル

スライド 1

業務 システム最適化と最新検索技術環境技術が創る未来 現在では 特許管理システム (ATMS/PM2000) 特許検索サービス (ATMS/IR.net) 特許出願支援ソフト (ATMS/PPW) に 特許分析システム (ATMS/ Analyzer) を加え 知財に必要な業務パッケージを ATMS

Microsoft Word - 【6.5.4】特許スコア情報の活用

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

JP-NETを活用した特許マップ 作成マニュアル【基礎編】

スライド 1

Exfront4.1.0リリースノート

特許検索サービスに関する打ち合わせ資料

VUp案内(ACCESS)詳細_180516

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

INFOPRO2013中国語KW解析予稿-修正

PowerPoint プレゼンテーション

中国における特許を対象にした企業動向調査 Q ナイキ (NIKE) 社の出願動向を把握したい 1) 調査ツールの選択中国特許 実用新案は 中華人民共和国国家知識産権局 ( 以下 SIPO) が提供する CNIPR と PSS-System 日本国特許庁( 以下 JPO) が提供する

<4D F736F F F696E74202D E82C582E08F6F978882E98AC F82C582CC93C18B968C9F8DF595FB B8CDD8AB B83685D>

tokyo_t3.pdf

米国における意匠を対象にした侵害防止調査 Q 自社で開発した商品を米国で販売したい 意匠侵害で訴えられ ることは避けたいが どうしたら良いか? 1) 調査ツールの選択米国における意匠は 米国特許商標庁 ( 以下 USPTO) に直接出願するルートとハーグ協定を経由するルートが存在する

メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right

プロジェクトマネジメント知識体系ガイド (PMBOK ガイド ) 第 6 版 訂正表 - 第 3 刷り 注 : 次の正誤表は PMBOK ガイド第 6 版 の第 1 刷りと第 2 刷りに関するものです 本 ( または PDF) の印刷部数を確認するには 著作権ページ ( 通知ページおよび目次の前 )

Microsoft Word - SPSS2007s5.doc

Basic descriptive statistics

テキストマイニングを用いた効率的な特 許調査方法 Effective patent research method using the Text mining 花王株式会社 PROFILE 知的財産センター 安藤 俊幸 1985 年現花王株式会社入社 研究開発に従事 1999 年研究所の特許調査担当

スライド 1

明細書からの用語抽出と明細書間で共通する 用語の出現頻度に基づく類似度算出 用語精査結果の利用 Similarity calculation of patent documents by the evaluation of the frequency of occurrence of common

1. 主な機能追加項目 以下の検索項目をサポートしました 書誌 全文検索コマンド検索 国内 査定日 最新の査定日 ( 登録査定日または拒絶査定日 ) を検索します 査定種別 最新の登録 拒絶査定 または査定なしを検索します 審査最終処分日 最新の審査最終処分日を検索します 審査最終処分種別 最新の審

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

検索方法等についての説明の前に GPG/FX で近傍検索を行う際の注意点につ いて説明します 注意点 GPG/FX では 形態素解析で区切られた語句 1 ( 英語では単語 ) を基準に近傍検索が行われます 特に 以下の2 点に注意してください 注意 1: キーワードは区切られた語句の単位で検索される

Rの基本操作

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

新興国におけるIPC付与の実態:

米国における意匠を対象にした出願前調査 Q 自社製品の意匠権を米国で取得したい 出願する前にやってお いた方が良いことはあるか? 1) 調査ツールの選択米国における意匠は 米国特許商標庁 ( 以下 USPTO) に直接出願するルートとハーグ協定を経由するルートが存在する 上記いずれの

ビッグデータ分析を高速化する 分散処理技術を開発 日本電気株式会社

 

C3 データ可視化とツール

< F2D E682518FCD825290DF D A97B98F4390B396B32E6A7464>

23_ogawa.qxd

NGSデータ解析入門Webセミナー

Web WIX WIX WIX Web Web Web WIX WIX WIX Web 3. Web Index 3. 1 Web Index (WIX), Web. Web, WIX, Web ( WIX ), URL WIX 1 entry wid eid keyword targe

IMI情報共有基盤 「表からデータモデル」 データ変換のみを行う方向け画面説明

第14回情報プロフェッショナルシンポジウム予稿集

PAT-LIST-GLS V3.0 新機能のご紹介 ここでは PAT-LIST-GLS Ver2.1.1.X からの機能アップについて説明しています 特に 新しい TPL ファイル 2.0 は従来のバージョンの GLS ではお使いになれませんので 必ず本書 をお読みになり ご利用をお願い致します 1

コンピュータ応用・演習 情報処理システム

Microsoft Word - MTransㇹㇿㅼㅋ㇬㇤ㅛ+丕苬ㅦㅼㇶㅼ咂ㆂ;_ver1.7_original.docx

Microsoft Word - EDSマニュアル.doc

発表内容 イントロダクション 授業について 授業内容 知識 技能の習得の授業 ( 形態素解析 特徴語抽出 機械学習 ) 問題解決の授業 生徒の質問 考えたこと まとめ

textual datatm : Text Mining TM TDA : Textual Data Analysis word segmentation orthography morpheme tokenization lemmatization, stemmingpart-of-speech

エクセル応用 2016 第 1 章関数の利用 1 作成するブックを確認する 2 関数の概要 3 数値の四捨五入 切り捨て 切り上げを使う 4 順位を求める 5 条件で判断する 6 日付を計算する 7 表から該当データを参照する 第 2 章表作成の活用 1 作成するブックを確認する 2 条件付き書式を

生命情報学

WBT [6] [7] [8] [9] Web [1] WBT [2] [3] ipad PC ipad ipad ipad [4] QR QR [5] IC IC PDA IC PDA US-ASCII 4,296 QR IC IC IC QR QR QR A BB A A CC

は重み付き編集距離単位 ( 主に形態素基本形と品詞 ) 列の編集距離 (Levenshtein Distance) 計算に基づく方式を提案した これにより個々の文や段落など局所的範囲での評価に有効性を確認できた さらに 要約筆記されたテキストどうしの関連性や要約筆記者それぞれのタイプやくせを見つけ出


研究報告書レイアウト例(当該年度が最終年度ではない研究班の場合)

記 1. 適用対象本通知は 製造販売業者等が GPSP 省令第 2 条第 3 項に規定する DB 事業者が提供する同条第 2 項に規定する医療情報データベースを用いて同条第 1 項第 2 号に規定する製造販売後データベース調査を実施し 医薬品の再審査等の申請資料を作成する場合に適用する GPSP 省

2 Word2010 応用 第 1 章書式設定 第 5 章グループ作業で役立つ機能 1.1 文字書式と段落書式 10 分 / 5.1 コメントの活用 15 分 / 1.2 スタイルの登録と利用 15 分 / 5.2 変更履歴の活用 20 分 / 1.3 組み込みスタイルの利用 10 分 / 5.3

A

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

ThemeGallery Power Template

問 2 戦略的な知的財産管理を適切に行っていくためには, 組織体制と同様に知的財産関連予算の取扱も重要である その負担部署としては知的財産部門と事業部門に分けることができる この予算負担部署について述べた (1)~(3) について,( イ ) 内在する課題 ( 問題点 ) があるかないか,( ロ )

PowerPoint プレゼンテーション


第13章  テキストのクラスター分析

<4D F736F F F696E74202D20352D D E83678FD089EE F815B B490858E81292E707074>

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

<4D F736F F F696E74202D E82C582E08F6F978882E98AC FA967B93C18B9692A182C582CC93C18B9692B28DB895FB B8CDD8AB B83685D>

Shareresearchオンラインマニュアル

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

Microsoft Word - japioGAINEN2005文図.doc

PowerPoint プレゼンテーション

スーパー英語アカデミック版Ver.2

演習 レシピテキストの係り受け解析

<4D F736F F D20837D836A B92C795E294C581798AAF945C8E8E8CB189F090CD A2E646F63>

Transcription:

テキストマイニングと機械学習による効率的な特許調査 アジア特許情報研究会 1) 安藤俊幸花王株式会社 目次 INFOPRO2016 発表 1 技術動向調査対象 : 人工知能 2 先行技術調査対象 : 即席麺 YEARBOOK2017 先行技術調査への機械学習適用の基礎検討言語処理における分散表現学習の基礎検討 1) アジア特許情報研究会 http://www.geocities.jp/patentsearch2006/asia-research.html

Japio YEARBOOK2016 寄稿論文と INFOPRO2016 発表内容の全体像 Japio YEARBOOK2016 寄稿論文機械学習を用いた効率的な特許調査方法 http://www.japio.or.jp/00yearbook/ 1 技術動向調査対象 : 人工知能 (G06N)/IPC/CPC AND PD=2006-01-01:2016-06-30 22457 ファミリー ( 出願数ベース 57778 件 ) 言語 : 英語 日本語教師データなしの機械学習を利用したクラスタリング 2 先行技術調査対象 : 即席麺の直近 10 年イントロ教師データありの機械学習 INFOPRO2016 発表機械学習を利用した効率的な特許調査方法動向調査と先行技術への機械学習の応用 1 技術動向調査対象 : 人工知能 (G06N)/IPC/CPC AND (US AND JP AND CN)/PN AND PD=2006-01-01:2016-06-30 1449 ファミリー ( 出願数ベース 12867 件 ) 言語 : 日本語 英語 中国語 ( 可能 ) 教師データなしの機械学習を利用したクラスタリング 2 先行技術調査対象 : 即席麺の直近 10 年評価教師データありの機械学習を応用 商用ツールを用いた解析 http://www.japio.or.jp/00yearbook/files/2016book/16_2_10.pdf 自分で試して結果の解析 / 検証に軸足 https://www.jstage.jst.go.jp/article/infopro/2016/0/2016_139/_article/-char/ja/

Japio YEARBOOK2017 寄稿論文と INFOPRO2017 発表内容の全体像 Japio YEARBOOK2017 寄稿論文機械学習を用いた効率的な特許調査方法 ニューラルネットワークの特許調査への適用に関する基礎検討 ( 基礎編 ) 特許情報フェア 11/8-10 配布予定 先行技術調査への機械学習適用の基礎検討 先行技術調査の流れ データセット作成 ( 特許検索競技大会 2016 の事例 ) 分かち書きと重み付けの再現率への影響 形態素解析 (MeCab) による分かち書き 専門用語による分かち書き 評価関数とフィルターの影響 言語処理における分散表現学習の基礎検討 Doc2vec による文書のベクトル化処理の概要 文書の分散表現ベクトルの学習モデルと再現率 分散表現ベクトルの次元数 (Size) の影響 非計量多次元尺度法による公報群の可視化 doc2vec の類似度による公報群の可視化 word2vec による類似語抽出 Visual Mining Studio(VMS) の自己組織化マップ BayoLink によるベイジアンネットワーク紹介 テキストマイニング / 機械学習の基礎検討 http://www.japio.or.jp/00yearbook/ 12/ 上 Web 公開予定 INFOPRO2017 発表予定 ( 11/30 ~12/1 ) 機械学習を利用した効率的な特許調査方法ニューラルネットワークの特許調査への応用 ( 応用編 ) 1. 単語の One hot ベクトル表現による検討 1 分かち書きの影響 形態素 / 専門用語 /N グラム ( 文字単位 ) 2 重み付けの影響 TF(Term Frequency 単語の出現頻度 ) TF-IDF(Inverse Document Frequency 逆文書頻度 ) 3 新規性を考慮した評価関数 F タームと類似度による評価関数 F タームによるフィルター 2. 単語 / 文書の分散表現ベクトルによる検討 1Doc2Vec による文書の分散表現学習 PV-DM(Paragraph Vector with Distributed Memory) モデル PV-DBOW(Paragraph Vector with Distributed Bag of Words) モデル 2Word2Vec による単語の分散表現学習 3. 可視化検討 1 次元圧縮 PCA:Principal Component Analysis 主成分分析 t-sne:t-stochastic Neighbor Embedding MDS:Multi-Dimensional Scaling 多次元尺度法 nmds:non metric Multi-Dimensional Scaling 非計量多次元尺度法 自分で試して結果の解析 / 検証 応用検討

使用特許データベース日本特許 日立 Shareresearch 発明通信社 HYPAT-i2 NRI サイバーパテントデスク 2 外国特許 Questel 社 Orbit.com 使用データベース / 解析ツール 解析ツール 1 テキストマイニング :Text Mining Studio(TMS) 2 データマイニング :Visual Mining Studio(VMS) 3 特許情報分析ツール :Patent Mining express(pmx) 1~3 は NTT データ数理システム 4Questel 社 Orbit.com の Analysis module 5 自作解析ツール PatAnalyzer 中国語 / 日本語解析ツール (C#2008) SimCalc1 類似度計算プログラム (VB.NET2008) 6R 言語 : 統計解析 可視化 7Cytoscape: ネットワーク分析 8Excel, Excel VBA 9Python 10doc2vec,word2vec 4

テキストの自動分類とクラスタリング 自動分類文書集合 INFOPRO2016 発表資料 軸追加 クラス分類 ( 注 ) カテゴリによる分類表 分類 1 分類 2 分類 3 分類 1 分類 2 分類 3 Y 軸 クラスタリング クラスタ X クラスタ Z クラスタY あらかじめ決めたカテゴリに振り分ける 何らかの類似度で似た文書をまとめる カテゴリ :IPC 特徴語 ( 観点の ) ( 注 ) クラシフィケーション カテゴリゼーション 特徴 5 X 軸

観点によるクラスタリングとは INFOPRO2016 発表資料 特許文書集合を文書間の何らかの類似度に従って いくつかのグループに分ける 観点によりクラスタリング結果が異なる 類似度の設定方法が多様 ( 数値化方法が様々 ) 文書データをn 次元ベクトルで表現 クラスタリングには厳密な正解はない 人が行うデータ分析支援 ( 気付きのためのツール ) ( セレンディピティ ) ( デッタッチメント ) クラスタリング例 1 観点 : 形状 クラスタリング例 2 観点 : サイズ クラスタリング例 3 観点 : カラー 6

IPC による Technology domain のヘキサゴンチャート Orbit.com 予め定められた IPC に基づいて公報をクラス分類 技術領域として Computer technology に集中している 応用特許が幅広い分野に出願されている 各 Technology domain( ヘキサゴン : 六角形 ) の位置は予め決まっており変わることはない ヘキサゴンの下部の数字はそこに属するファミリー数

コンセプトのタグクラウド (Orbit.com) INFOPRO2016 コンセプトとはテキストマイニング的手法で公報より抽出されたテクニカルワード 対象集合全体あるいは個々の公報単位で表示可能 テクニカルワードの頻度に比例して文字サイズを規定 カッコ内の数字はコンセプトの該当公報数

コンセプトのドーナツチャート Orbit.com

コンセプトの Foam Tree Chart Orbit.com

公報間の類似度 ( 距離 ) によるクラスタリング コンセプトによる Landscape map Orbit.com

専門用語による公報間相互類似度計算 /Map 作成フロー 分析対象公報 日本語検索 NRI2 中国語検索 日本版 CNIPR Orbit( 中国語 ) 辞書 抽出処理 PatAnalyzer(C#) 形態素解析 文字列抽出 パターン抽出 抽出パターン辞書 KW 抽出辞書ノイズ除去辞書 文書毎の抽出データ KW1 頻度 1 KW2 頻度 2 INDEX 解析ツール PatAnalyzer 中国語 / 日本語解析ツール ( 自作 ) MeCab: 日本語形態素解析器 2) saezuri lite( 自然言語処理支援ライブラリ IKAnalyzerNet: 中国語分詞ライブラリ SimCalc1 類似度計算プログラム ( 自作 ) R 言語 : 統計解析 5) Cytoscape: ネットワーク分析 6) KH Coder テキストマイニング 類似度計算プログラム SimCalc1(VB.NET) マイニング 全文書間の非類似度 抽出 KW/ 文書番号 ( インバーテッドファイル ) KW1 文書 1, 文書 2 KW2 文書 3, 文書 5, KW 相互間の関係 文書相互間の関係 可視化 / 解析ツール ネットワーク分析 R( 多次元尺度法等 ) Cytoscape

日本語の専門用語による公報間相互類似度計算 Map 各公報より専門用語抽出各公報間の相互類似度 ( 距離 ) 計算非計量多次元尺度法により座標計算 (2D) 50 50 メッシュで公報密度計算公報密度を高さに変換し 3D 表面描画 INFOPRO2016 発表資料

日本語の専門用語による公報間相互類似度計算 Map 各公報より専門用語抽出各公報間の相互類似度 ( 距離 ) 計算非計量多次元尺度法により座標計算 (2D) 50 50 メッシュで公報密度計算公報密度を高さに変換し 3D 表面描画 3D 表面上に公報を球でプロット特定の出願人をカラーマッピング ソニー INFOPRO2016 発表資料マイクロソフトクゥアルコムフィッシャー -ローズマウントシステムズフィリップス IBM 文書間相互類似度計算文書数 :1804 計算時間 :92 秒

Landscape map の出願人別カラーマッピング ソニー マイクロソフトは同様なクラスタリング傾向

INFOPRO2016 発表資料 PMXによる課題と解決手段 Patent Mining express(pmx)

PMXによる技術特徴ネットワークグラフ Patent Mining express(pmx) INFOPRO2016 発表資料

動向調査パートの中間まとめ INFOPRO2016 発表資料 1 動向調査への教師データなし機械学習 ( 特にクラスタリング ) の応用クラスタリングの特徴を理解して従来の解析手法と併用することで実務上十分に有用である 解析に当たっての注意点 解析ツール ( 機能 ) を十分理解して使用することが重要 解析したい内容に応じて各種ツールの特徴を使い分ける 解析ツール例 書誌事項 KW の統計解析 パテントマップ EXZ Patent Mining express(pmx) テキストマイニング有償 : Text Mining Studio(TMS) 無償 :KH Coder データマイニング 機械学習有償 : Visual Mining Studio(VMS) 無償 :R クラスタリングの参考情報 ( 今後検討予定 ) PLSA( 確率的潜在意味解析法 ): 行 ( 文書 ) と列 ( 単語 ) を同時にクラスタリング https://www2.deloitte.com/jp/ja/pages/deloitte-analytics/articles/analytics-plsa.html 二項ソフトクラスタリング (VMS) トピックによるクラスタリング トピックとは文 ( センテンス ) の意味的内容で専門用語より大きなかたまり 係り受け解析を利用して抽出できる

教師データを用いた機械学習の先行技術調査フロー 調査対象公報 826 件 一部をサンプリング学習データ 826 件の公報データ 2 予測 10,100,500 件の 3 水準で検証 事例 : 即席麺 1 機械学習 学習モデル構築 対象文献 :A,T,S 1: 名称 + 要約 + 請求項めん + 麺 2: 名称 + 要約 + 請求項即席 + インスタント 3: 公開 公表日 :20010101:20101231 1*2*3 318 件 318 件をダウンロードして引用文献を抽出して 1993 年以降の公報を追加 計 826 件 各公報の1: 正解 ( 当たり )/0: 不正解 ( 外れ ) フラグ ( ラベル ) 教師データの教師データ当たり ( 正例 ) は本願のみ入力! 外れ ( 負例 ) を3 水準用意 INFOPRO2016 発表資料 学習済モデル 審査官が引用しそうな公報を 0 or 1 で予測 ( 目的変数 ) 0: 引用公報でない ( 外れ ) 1: 引用公報 ( 当たり ) 正解 : 審査官引用と答え合わせ

教師データを用いた機械学習ツールの設定画面 汎用データマイニングシステム :Visual Mining Studio(VMS) 学習データ 対話型モデル 予測 各種学習モデル 説明変数 目的変数 教師データ ( ラベル ) 調査対象 学習データはテキストマイニングによる分かち書き処理を行い入力 テキストマイニングは Text Mining Studio(TMS) を使用

本願 Text Mining Studio(TMS) の分かち書き出力例 INFOPRO2016 発表資料 Text Mining Studio(TMS) のテキストマイニング分かち書き出力例 ( デフォルト設定 ) ファイルID 行 ID 文章 ID 単語 ID 見出し語 原形 置換語 品詞 品詞詳細 係り先 述語属性 関係子 1 2 1 1 請求項 請求項 請求項 名詞 一般 2 なし 限定 1 2 1 2 1 1 1 名詞 数 3 なし 限定 1 2 1 3 炭酸カルシウム 炭酸カルシウム 炭酸カルシウム 名詞 一般 10 なし 状況 1 2 1 4 燐酸カルシウム 燐酸カルシウム 燐酸カルシウム 名詞 一般 10 なし 状況 1 2 1 5 以下 以下 以下 名詞 副詞可能 7 なし 状況 1 2 1 6 カルシウム剤と カルシウム剤 カルシウム剤 名詞 一般 7 なし 現象 1 2 1 7 記す 記す 記す 動詞 自立 4 なし 注釈 1 2 1 8 及び 及び 及び 接続詞 9 なし 状況 1 2 1 9 ドロマイトから ドロマイト ドロマイト 名詞 一般 10 なし 状況 1 2 1 10 なる なる なる 動詞 自立 11 なし 限定 1 2 1 11 群から 群 群 名詞 一般 12 なし 状況 1 2 1 12 選ばれた 選ぶ 選ぶ 動詞 自立 20 なし 限定 1 2 1 13 少なくとも 少なくとも 少なくとも 副詞 一般 20 なし 状況 1 2 1 14 1 種 100 重量 1 種 100 重量 1 種 100 重量 名詞 数 16 なし 限定 1 2 1 15 A A A 名詞 一般 14 なし 注釈 1 2 1 16 部に対し 部 部 名詞 一般 20 なし 限定 1 2 1 17 加工デンプンを 加工デンプン 加工デンプン 名詞 一般 20 なし 現象 1 2 1 18 B B B 名詞 一般 17 なし 注釈 1 2 1 19 0.1~80 重量 0.1~80 重量 0.1~80 重量 名詞 数 20 なし 限定 1 2 1 20 部含有させて 部含有 部含有 名詞 サ変接続 21 なし 状況 1 2 1 21 なることを なる なる 動詞 自立 22 なし 現象 1 2 1 22 特徴とする 特徴 特徴 名詞 一般 23 なし 限定 1 2 1 23 食品添加剤スラリー組成物 食品添加剤スラリー組成物食品添加剤スラリー組成物名詞 サ変接続 -1 なし なし 注目特許 ( 本願 )P2009-258887 特開 2010-29218 請求項 1 炭酸カルシウム 燐酸カルシウム( 以下 カルシウム剤と記す ) 及びドロマイトからなる群から選ばれた少なくとも1 種 (A)100 重量部に対し 加工デンプン (B) を0.1~80 重量部含有させてなることを特徴とする食品添加剤スラリー組成物 分かち書き対象 : 要約 + 請求項行 ID: 公報番号に相当行 ID と置換語を VMS に入力 説明変数として置換語を設定 VMS に入力 機械学習で審査官引用を予測する 目的変数 : 審査官引用を予測 0 : 引用しない 1: 引用する

事例 : 即席麺 対象文献 :A,T,S 1: 名称 + 要約 + 請求項めん + 麺 2: 名称 + 要約 + 請求項即席 + インスタント 3: 公開 公表日 :20010101:20101231 1*2*3 318 件 注目特許 ( 本願 ): 特開 2010-29218 引用文献 : 特開平 7-111879 特開平 6-125741 特開平 6-197736 特開平 6-245720 特開平 11-113532 ( 特開昭 61-242562を除く上記 5 件を正解として機械学習により予測を試みる 予測 0: 外れ 1: 当たり 教師データ数と予測結果 類似検索順位 教師データ数 HYPAT-i NRI 正解行 ID 10 100 500 請求項 1 全請求項 請求項 1 全請求項 特開 2010-29218 2( 本願 ) 1 1 0 1 1 特開平 11-113532 595 1 1 1 - - - - 特開平 7-111879 755 1 0 0 - - - - 特開平 6-245720 773 1 1 1 - - - - 特開平 6-197736 779 1 1 0 8 6 180 - 特開平 6-125741 782 1 1 0 4 14 - - 0 個数 48 516 806 上位 300 位まで確認 上位 1 万位まで確認 当たりと予測 公報単位の機械学習と類似検索の比較結果 1 個数 778 310 20 -: 圏外 計 826 826 826 正解数 6 5 2 正解率 0.8% 1.6% 10.0% 漏れ率 0% 17% 67% INFOPRO2016 発表資料 318 件をダウンロードして引用文献を抽出して 1993 年以降の公報を追加計 826 件 優秀 教師データ数増加により正解率 ( 精度 ) 向上 教師データ数増加により正解数は減少 教師データ数増加により漏れ増加

文 ( センテンス ) 単位の機械学習結果と DB 検索結果 母集団 : 即席麺 826 件 教師データ数と予測結果 ( 文単位 ) 教師データ数 正解行 ID 126 文 1323 文 5797 文 構成要件数構成要件 特開 2010-29218 2 本願 3 2 0 4 カルシウム剤 加工デンプン 食品 スラリー 特開平 11-113532 595 6 5 1 2 カルシウム剤 食品 特開平 7-111879 755 6 1 0 3 カルシウム剤 食品 スラリー 特開平 6-245720 773 5 3 3 3 カルシウム剤 デンプン 食品 スラリー ( 糊状 ) 特開平 6-197736 779 15 6 1 3 カルシウム剤 食品 スラリー 特開平 6-125741 782 5 3 0 3 カルシウム剤 食品 スラリー 0 個数 3786 7603 8663 1 個数 5008 1191 131 計 8794 8794 8794 文の合計 8794 INFOPRO2016 発表資料 DB 検索結果 :7 件 本願特開 2010-29218 特開 2002-186458 特開 2001-186863 特開 2001-178412 引用特開平 7-111879 引用特開平 6-197736 引用特開平 6-125741 正解数 6 6 3 文書単位の概算値 正解率 0.1% 0.5% 2.3% 漏れ率 0% 0% 50% 食品 :A23L 536 件 加工澱粉 11 件 カルシウム剤 21 件 11 件 7 件 8 件 スラリー 14 件 母集団 : 即席麺 826 件各構成要素のブーリアン演算 カルシウム剤炭酸カルシウム燐酸カルシウムリン酸カルシウムドロマイト 4B018MD04 カルシウム加工澱粉加工澱粉加工デンプン加工でんぷんスラリースラリー

PatAnalyzer 画面 INFOPRO2016 発表資料

まとめと考察 INFOPRO2016 発表資料 機械学習を利用した効率的な特許調査方法を実務ベースに重きを置いて 1 動向調査と 2 先行技術調査について検討した まとめ 1 動向調査への教師データなし機械学習の応用書誌事項の統計解析 ( パテントマップソフト等 ) と併用することで実務上十分に有用である 2 先行技術調査への教師データあり機械学習の応用 教師データ ( 正解 ) の準備が課題 教師データを公報 ( 文書 ) 単位とすると審査官引用等があるものは準備は容易だが機械学習の精度は良くない 教師データを文あるいは段落単位とすると機械学習の精度は上がるが教師データの準備自体が課題 スコアリングツール作成を検討 TF-IDF による文書の ( コサイン ) 類似度でなく新規性の観点に適合するように特徴語の重み付けを行うとスコアリング精度が向上すると考えられる 考察特徴語の重みを機械学習により調整して類似度計算を行うとさらにスコアリング精度改善の余地が大きいと考えられる今後の予定 新規性の観点に適合した機械学習を利用した新規性評価関数の最適化検討

ノーフリーランチ定理 (NFL 定理 ) https://ja.wikipedia.org/wiki/ ノーフリーランチ定理 ノーフリーランチ定理 (no-free-lunch theorem NFLT) は 物理学者 David H. Wolpert と William G. Macready が生み出した組合せ最適化の領域の定理である その定義は以下のようになる コスト関数の極値を探索するあらゆるアルゴリズムは 全ての可能なコスト関数に適用した結果を平均すると同じ性能となる Wolpert and Macready 1995 年 この定理は あらゆる問題で性能の良い汎用最適化戦略は理論上不可能であり ある戦略が他の戦略より性能がよいのは 現に解こうとしている特定の問題に対して特殊化 ( 専門化 ) されている場合のみである ということを立証している (Ho and Pepyne 2002 年 ) 工学者や最適化の専門家にとって この定理は 問題領域の知識を可能な限り使用して最適化すべきだということを示しており 領域を限定して特殊な最適化ルーチンを作成すべきであることを示している Wikipedia YEARBOOK2017 図 1. ノーフリーランチ定理の概念図高度に最適化された特殊アルゴリズム ( 赤 ) と汎用アルゴリズム ( 青 ) どちらも平均すれば同程度の性能となることに注意

先行技術調査の流れ ( 進め方 ) YEARBOOK2017 出願したい明細書から構成要素を分析する 明細書を熟読して発明内容を理解し 検索式作成のための構成要素を決定する 特許検索競技大会 2016 フィードバックセミナー資料 p35 予備検索の実行 特許分類 (FI F ターム IPC) キーワードの検討 海外の場合 (IPC,CPC) 検索戦略立案 検索式作成 検索式に使用する特許分類 キーワードの抽出多観点の検索式の検討スクリーニング過程を詳細に検討し 機械学習を応用した支援方法 ( ツール ) 検討 検索実行 スクリーニング優先順位を決め 効率的にスクリーニングを行うスクリーニング結果に応じて 検索戦略を再検討 図 2. 先行技術調査の流れ

先行技術調査の事例検討 YEARBOOK2017 特許検索競技大会 2016 化学 医薬分野出題内容 : 間 2 問題文概要 (2/3) 特許請求の範囲 請求項 1 熱可塑性樹脂フィルム基材層 (A 層 ) 酸化ケイ素蒸着層 (B 層 ) ポリビニルアルコール系樹脂と粘土鉱物を含む塗膜層 (C 層 ) が他の層を介して又は介さずにこの順に積層されてなることを特徴とするガスバリア性包装用フィルム ガスバリア性包装用フィルム (C 層 ) ポリビニルアルコール系樹脂と粘土鉱物を含む塗膜層 (B 層 ) 酸化ケイ素蒸着層 (A 層 ) 熱可塑性樹脂フィルム基材層 図 3. 特許検索競技大会 2016 の化学 医薬分野の問 2

商用データベースの概念 ( 類似 ) 検索の再現率比較 YEARBOOK2017 再現率 DB:C DB:B DB:A 確認数 正解順位 No, A B C 1 10 22 11 2 14 23 170 3 41 51 347 4 43 71 5 47 84 6 53 105 7 59 116 8 76 117 9 81 145 10 95 177 11 129 182 12 134 199 13 140 208 14 213 217 15 309 226 16 322 248 17 342 18 363 確認数 :300 正解数 :49 精度 4.7% 5.3% 0.7% 再現率 28.6% 32.7% 4.1% F 値 0.08 0.09 0.01 図 4. 商用データベースの概念 ( 類似 ) 検索の再現率比較

図 5. データセット集合 746 件の相互関係 実験用データセットの作成 データセット集合 746 件の相互関係 16 49 30 正解 2 1 YEARBOOK2017 A 324 376 34 C 339 376

分かち書きと重み付けの再現率への影響 分かち書き ( 形態素 専門用語 ) と重み付け (TF TF IDF) の再現率への影響 YEARBOOK2017 再現率 理想 専門用語 TF IDF DB:A 確認数 図 6. 分かち書きと重み付けの再現率への影響

形態素と専門用語による分かち書き 熱可塑性樹脂フィルム基材層 酸化ケイ素蒸着層 ポリビニルアルコール系樹脂と粘土鉱物を含む塗膜層が他の層を介して又は介さずにこの順に積層されてなることを特徴とするガスバリア性包装用フィルム YEARBOOK2017 熱名詞, 一般,*,*,*,*, 熱, ネツ, ネツ可塑名詞, 一般,*,*,*,*, 可塑, カソ, カソ性名詞, 接尾, 一般,*,*,*, 性, セイ, セイ樹脂名詞, 一般,*,*,*,*, 樹脂, ジュシ, ジュシフィルム名詞, 一般,*,*,*,*, フィルム, フィルム, フィルム基名詞, 一般,*,*,*,*, 基, モト, モト材名詞, 接尾, 一般,*,*,*, 材, ザイ, ザイ層名詞, 接尾, 一般,*,*,*, 層, ソウ, ソー 記号, 読点,*,*,*,*,,, 図 7. 形態素解析 (MeCab) による分かち書き ( 一部 ) 熱可塑性樹脂フィルム基材層酸化ケイ素蒸着層ポリビニルアルコール系樹脂粘土鉱物塗膜層他層積層特徴ガスバリア性包装用フィルム 図 8. 専門用語による分かち書き

N- グラムの文字数 N と重み付けの影響 N グラムの文字数 N と重み付け (2 値 重み TF) の再現率への影響 YEARBOOK2017 再現率 理想 DB:A N:2 重み TF N:2 重み 2 値 確認数 図 9.N- グラムの文字数 N と重み付けの影響

構成要素分析 ( 検索競技大会の模範解答例 ) 熱可塑性樹脂フィルム基材層 酸化ケイ素蒸着層 ポリビニルアルコール系樹脂と粘土鉱物を含む塗膜層が他の層を介して又は介さずにこの順に積層されてなることを特徴とするガスバリア性包装用フィルム 正解例と解説 : 間 2 (1) 構成要素分析 (1) 調査依頼された請求項 1 に対して 検索すべき技術の構成要素 ( 概念 ) を記述しなさい 記号 a b c d e f g 構成要素 ( 概念 ) 熱可塑性樹脂フィルム基材層酸化ケイ素蒸着層ポリビニルアルコール系樹脂を含む塗膜層塗膜層に粘土鉱物を含む他の層を介してまたは介さずにこの順に積層ガスバリア性包装用フイルム 構成要素の分け方は本例に限定しない 図 10. 構成要素分析 ( 検索競技大会の模範解答例 ) YEARBOOK2017

F タームと形態素 TF 類似度による評価関数 YEARBOOK2017 F ターム利用評価関数各要素の F タームの重み :1+TF による類似度 図 11.F タームと形態素 TF 類似度による評価関数 公報確認数

図 12. 評価関数とフィルターの影響 評価関数とフィルターの影響 理想 YEARBOOK2017 評価関数 評価関数 DB:A DB:A

doc2vec による文書のベクトル化処理の概要 特許公報 形態素解析器 公報番号 ( タグ ) タイトル 要約 請求項 必要に応じて正規表現等によるクレンジング MeCab Janome(Pure Python で書かれた辞書内包の形態素解析器 ) YEARBOOK2017 学習用データ 形態素解析済の単語 ( 名詞 形容詞 動詞 ) とタグ ( 公報番号 ) を保存 学習実行 パラメータを調整可能 図 13.Doc2vec による文書のベクトル化処理の概要 学習済モデル 類似公報 学習したモデルを保存 必要な文書ベクトルを出力 指定文書と最も類似度が高い文書を表示 ( 件数指定可 )

文書の分散表現ベクトルの学習モデルと再現率 YEARBOOK2017 再現率 理想 PV-DM PV-DBOW DB:A 確認数 図 14. 文書の分散表現ベクトルの学習モデルと再現率

文書の分散表現ベクトルの次元数 (Size) の影響 YEARBOOK2017 再現率 理想 500 次元 200 次元 DB:A 確認数 図 15. 分散表現ベクトルの次元数 (Size) の影響

非計量多次元尺度法による各公報の可視化 非計量多次元尺度法 3D 類似度 :TF*IDF 本願 P0 正解 正解 DB:A 正解 DB:C DB:A DB:C YEARBOOK2017 図 16. 非計量多次元尺度法による各公報の可視化

doc2vec の類似度による各公報の可視化 非計量多次元尺度法 3D 類似度計算 : doc2vec 本願 P0 正解 正解 DB:A 正解 DB:C DB:A DB:C YEARBOOK2017 図 17.doc2vec の類似度による各公報の可視化

word2vec による 粘土 の類似語抽出 word2vec 粘土 の類似語 形態素 専門用語抽出 順位類似語 類似度順位 頻度専門用語 順位 頻度 1 スメクタイト 0.774 555 26 スメクタイト 1655 7 4 サポナイト 0.646 2101 4 サポナイト 4655 2 5 ヘクト 0.637 2099 2 ヘクトライト 4656 2 7 スチーブン 0.630 2100 2 スチーブンサイト 4703 2 8 ナイト 0.615 1448 4 カオリナイト 2669 4 9 マイカ 0.614 1449 4 マイカ 3441 3 11 モンモリロナイト 0.599 359 53 モンモリロナイト 246 52 12 カオリ 0.597 1635 3 カオリナイト 2669 4 14 タルク 0.587 1446 4 タルク 2691 4 16 ゼオライト 0.561 1175 7 ゼオライト 1652 7 17 セリ 0.554 2184 4 セリサイト 5112 2 図 18.Word2vec による 粘土 の類似語抽出 専門用語抽出 ( 続き ) 専門用語 順位 頻度 水素型スメクタイト 1657 7 合成スメクタイト 1979 6 スメクタイト族 3864 2 スメクタイト群粘土鉱物 4002 2 スメクタイト粘土鉱物 4740 2 合成マイカ 7890 1 カオリン 7203 1 主な粘土鉱物 (Wikipedia) カオリナイト ( 高陵石 ) スメクタイトモンモリロン石 ( モンモリロナイト ) 絹雲母 ( セリサイト ) イライト海緑石 ( グローコナイト ) 緑泥石 ( クロライト ) 滑石 ( タルク ) 沸石 ( ゼオライト ) https://ja.wikipedia.org/wiki/ 粘土鉱物 YEARBOOK2017 図 19. 専門用語抽出 ( 続き 図 20. 主な粘土鉱物 word2vec を使用すると文脈に 粘土 の記載のない文からも具体的な粘土鉱物を学習しており検索クエリの拡張支援ツールとして有用である

Visual Mining Studio(VMS) の自己組織化マップ 多次元データの自己組織化マップによる可視化 YEARBOOK2017 発明のカテゴリーから 自己組織化マップ (SOM) を生成 図 21.Visual Mining Studio(VMS) の自己組織化マップ

BayoLink によるベイジアンネットワーク YEARBOOK2017 BayoLink による確率モデルの作成 樹脂 精度 [ 精度 ] と [ 樹脂 ] は確率的に影響しあっている 図 22.BayoLink によるベイジアンネットワーク

まとめ 本報では先行技術調査を念頭に特許検索競技大会 2016 の化学 医薬分野の問 2( ガスバリア性包装用フィルム ) を例題として選択しデータセットを作成して前半ではスクリーニング過程の再現率曲線に影響を与える要因を実験的に検討した 後半は教師なし機械学習を用いて単語の分散表現で文書の固定長ベクトルが得られる doc2vec の学習モデルを使用して公報の類似度を計算する手法を検討した その結果単語の出現頻度と出現順序を考慮したモデル PV-DM を使用すると非常によい類似度計算ができることがわかった 公報の類似度計算精度が向上すると特許調査において効率的なスクリーニングが可能となる 可視化や技術動向調査への応用も可能である word2vec のような機械学習のフリーライブラリを用いると単語の分散表現学習は非常に簡単であるが特許調査の精度を上げるには前処理の形態素解析が重要になる 知財分野では新語の発生頻度も高く形態素解析用辞書の更新や専門用語辞書の活用も重要である

謝辞 免責本報告は 2016-2017 年の アジア特許情報研究会 のワーキングの一環として報告するものである 本報の内容は筆者の私見であり所属機関の見解ではない 謝辞最後に大変有用な各種ツールに関し機械学習の初心者である筆者を様々な形でサポートしていただいた NTT データ数理システムの多くの皆様に感謝申し上げます