検索漏れを防ぐワイルドカードの使用について Japio 世界特許情報全文検索サービス (GPG/FX) にてテキスト検索を行う際 ワイルドカード ( ケーション ) を使用し 部分一致検索を行うことで 検索漏れを防ぐことができます 例えば 英語の単数形と複数形 現在形 進行形及び過去形など 語尾変化のある単語をまとめて検索する場合 イギリス英語とアメリカ英語とでスペルが異なる場合 表記揺れがある場合などにおいて有効です 以下に ワイルドカードの使用方法について説明いたします 1. ワイルドカードとはワイルドカード ( トランケーション ) とは 任意の文字を表す特殊記号であり 部分一致 ( 前方一致 後方一致 マスク ) 検索を行う際に用いられます GPG/FX では ワイルドカードとして? ( 文字数指定あり ) や * ( 文字数指定 ( いずれも半角 ) を使用することができます 特に 英語での検索の場合 項目検索 詳細検索のいずれでも単語単位のインデックスに対して検索を行うので 検索漏れを防ぐためにはワイルドカードの使用が有効です?:1 文字の任意の文字列 ( 例 :t?p top, tip, tap 等がヒット ) *:0 文字以上の任意の文字列 ( 例 :cat* cat, cats, category 等がヒッ項両者を比較すると 前者の場合 ノイズは減りますが検索漏れが増え 逆に後者の場合は ノイ ズは増えますが検索漏れが減ります 単語の文字数が分かっている場合には り ) を そうでない場合には * ( 文字数指定なし ) を使うことが有効です? ( 文字数指定あ なお 項目検索 での検索項目 ( 発明の名称 要約 クレーム等 ) や 詳細検索 で用いる 検索コード ( フィールド ) などに応じて ワイルドカード使用の可否が異なります 詳しくは GPG/ マニュアルの 2.3 検索機能 演算子 トランケーション をご覧ください 目検索詳細検索
2. 項目検索 (1) 日本語による検索 発明の名称 要約 クレーム及び詳細な説明について 基本的に 2 文字単位で作成され た ( バイグラム (bi gram)) インデックスに対して検索を行います 1 1 文字での検索を行い たい場合は * ワイルドカード指定は不要です を用いて前方一致検索としてください 2 文字以上の検索式用語であれば ( 例 ) 検索式用語として 車 から 車 * とすると検索結果が大きく増加します ( 国 公報種 別に すべての国 検索項目に 発明の名称 (TI) を選択 ) ( それぞれのヒット件数は文献蓄積状況等によって変わる場合があります ) 1 1 文字検索 (* なし ) 前方一致検索(* あり ) 出願人及び発明者については 前方一致検索となるよう検索式用語末尾にワイルドカード (*) が自動付加されて検索が実行されます ( 例 : 出願人(PA): 特許 と入力すると PA: 特許 * として検索) これに加えて 検索式用語の先頭や中間にワイルドカード(*, を使用することも可能です ( 例 : 出願人(PA):?? 特許 と入力すると PA:?? 特許して検索 ) (2) 英語による検索発明の名称 要約 クレーム 詳細な説明 出願人及び発明者について 単語切り出しにより作成されたインデックスに対して ワイルドカード (*?) を使用した検索が可能です なお出願人及び発明者については 前方一致検索となるよう検索式用語末尾にワイルドカード (*) が自動付加されます ( 日本語による検索の場合と同様です ) 具体例を以下に記載します 検索式用語 ヒットする例 colo*r colour( 英 ), color( 米 ) cent?? centre( 英 ), center( 米 ) machin* machine, machines, machinery, machin attach* attach, attaches, attaching, attache t??th tooth, teeth, truth, tenth 1 PCT( 国際公開 ) 公報の日本語検索は 1 文字単位で作成された ( ユニグラム (uni gram)) インデックスに対 検索を行います
(3) 分類 日付 文献 出願番号の検索分類 (IPC FI F ターム ECLA CPC) 日付( 出願日 公報発行日 優先権主張日 ) 文献番号 出願番号についても ワイルドカード(*?) を使用した検索が可能です なお 前方一致検索となるよう検索式用語末尾にワイルドカード (*) が自動付加されます 3. 詳細検索 (1) 日本語による検索 <バイグラム検索 > 検索コードを指定する詳細検索では 基本的には 項目検索と同様に 2 文字単位で作成された ( バイグラム (bi gram)) インデックスに対して検索を行います そのため 1 文 での検索を行いたい場合は * を用いて前方一致検索としてください 2 文字以上の検索式用語であれば ワイルドカード指定は不要です ( 上記 2.(1) を参照 ) < キーワード検索 > 一方 詳細検索で指定する検索コードのうち AL F ( 全文 ) TI F ( 発明の名 称 ) AB F ( 要約 ) CL F ( クレーム ) DS F ( 詳細な説明 ) については ーワード ( 形態素解析で区切られた語句 2 ) 単位で検索を行いますが ワイルドカード (*?) も使用できます なお キーワード ( 形態素 ) の切出し方により 入力した検索式用語でうまく ヒットしない場合があります その際は 前方一致検索を試してください 検索結果画面の左欄 に表示される キーワード ( 発明の名称 ) は キーワード単位なので どのように形態素解析 されたかを探るヒントとすることもできます ( 下図参照 ) この例では インタフェース インターフェイス のほか グラフィカルユーザインタフェース もキーワードであることが分かります 2 形態素解析とは文を形態素 ( 言語で意味を持つ最小単位 ) と呼ばれる語句に区切る技術です 文がどのような語句 に区切られるかについては 例えば http://www.atilika.com/ja/products/kuromoji を参考にしてくださ い
キーワードをインデックスとする検索コード ( AL F TI F AB F DS F ) についての具体例を以下に記載します 検索式用語 ヒットする例 インタ * フェイス インタフェイス インターフェイス インターフェ? ス インターフェイス インターフェース * インタフェイス インタフェイス グラフィカルユーザインタフェイス ユーザインタフェイス インタ * フェ? ス インタフェイス インターフェイス インタフェース インターフェース <キーワード検索とバイグラム検索の比較 > キーワード検索とバイグラム (N グラム ) 検索を比較すると 以下のようになります ( 詳細は 後述の 6. 参考資料 を参照ください ) キーワード検索 バイグラム検索 検索ノイズ 少ない 多い NOT 演算での絞り込みが有効 検索漏れ 多い ワイルドカード指定が有効 少ない <おすすめは検索漏れを防ぐバイグラム検索 > 検索漏れを防ぐ観点から バイグラム検索を利用することをおすすめします ( 検索コードに F を含まないもの) バイグラム検索では検索ノイズが増えますので NOT 演算を行い 絞り込みをすることが有効です (2) 英語による検索項目検索 ( 上記 2.(2)) の場合とおおむね同様です ( 項目検索とは異なり 出願人及び発明者について前方一致検索とするための検索式用語末尾へのワイルドカード (*) の自動付加はされません ) (3) 分類 日付 文献 出願番号の検索 項目検索 ( 上記 2.(3)) の場合とおおむね同様です ( 項目検索とは異なり 前方 一致検索にするための検索式用語末尾へのワイルドカード (*) の自動付加はされません )
項目検索詳細検索日本語4. 注意 : 近傍検索とワイルドカードの併用 詳細検索では キーワードをインデックスとするフィールドに対して近傍検索が可能ですが 3 システ ム上 日本語 英語ともに 近傍検索とワイルドカードを併用することができません ( 併用した場合 ワイルドカードは無視して検索されます ) そのため 近傍検索を行う際は キーワード( 形態素 ) 語尾変化 表記揺れなどに留意しながら 検索式を作成することが重要です 具体例を以下に記載します 索されます キーワード単位で 旋回 と 車 が近傍にあればヒッしますが キーワードが 車 でなく 車両 や 車体 といった場合 検索クエリ 説明 AL F:" 旋回 車 *" 10 ワイルドカード (*) は無視され AL F:" 旋回 車 ヒットしません AL F:" 旋回 車 " 10 OR AL F:" 旋回 車両 AL F:" 旋回 車体 " 10 など キーワードを意識して OR で ようにしてください AL F:"seal* ワイルドカード rib*" 20 (*) は無視され AL F:"seal rib" 索されます seal と rib が近傍にあればヒットしますが なく sealing seals などの場合 rib でなく にはヒットしません AL F:"seal rib" 20 OR AL F:" AL F:"sealing rib" 20 OR AL F:"s AL F:"seals ribs" 20 OR AL F:"sea 語尾のバリエーションを意識して OR でつなぐようにしてください 5. まとめ ワイルドカードの使用について 大まかには以下のようにまとめることができます バイグラム 1 文字で検索 : * を末尾に付ける 2 文字以上で検索 : ワイルドカード不要キーワード ワイルドカード (*,?) 使用可能英語ワイルドカード (*,?) 使用可能但し 近傍検索との併用は不可 キーワード : AL F ( 全文 ) CL F ( 請求項 ) AB F ( 要約 ) DS F ( 発明の詳細 を検索フィールドとするもの 3 GPG/FX 画面上部にある 検索お役立ち から 検索簡易マニュアル 近傍検索について を参照ください
6. 参考資料 <キーワード検索とバイグラム (N グラム ) 検索について> キーワード検索は 意味のある単語 ( キーワード ) に基づいて検索するため 部分的に文字が一致しているだけの意味のない文字列はヒットしません したがってノイズは少ないと言えます しかし 形態素解析で使用する辞書にはない言葉 ( 未知語 特に 新語, 造語 特殊用語などが考えられます ) については 意味のある単位で適切に語句が切り出されるかどうかは不明 ( 形態素解析のロジックに依存 ) なため 検索漏れが起こる可能性があります したがって キーワード検索は ノイズが少ない利点を考慮して お試し検索 ( どのような分類が付与されているかなどを探る検索 ) など 手軽に検索する用途が考えられます この際に ワイルドカードを使用すれば 一定程度検索漏れを防ぐことができます 例えば 検索語を スキー とした場合 キーワードとして スキー を含むものがヒットします スキー と アルペンスキー が異なるキーワードとされた場合には アルペンスキー が検索となります これを防ぐには ワイルドカードで AL F:* スキー や AL F:???? ス定することが有効です 一方 バイグラム (N グラム ) 検索は それ自体では意味のない文字列や 未知語であっても 文字面通りにヒットするため 検索漏れが少ないと言えます その反面 文字面だけを見て検索するので ノイズが増えます したがって バイグラム (N グラム ) 検索は 無効調査など検索漏れを防ぐための用途が考えられます この際に 絞り込み検索をすれば ノイズを一定程度減らすことができます 例えば 検索語を スキー とした場合 文字列として スキー を含むものがヒットするため スキーム ウイスキー などを含むものもヒットします これらは ノイズとなるため NO して AL: スキー NOT AL: スキーム NOT AL: ウイスキー などと絞り込みをすことが有効です