DEIM Forum 2014 C8-1 WIX Deep Web 223-8522 3-14-1 E-mail: kei@db.ics.keio.ac.jp, toyama@ics.keio.ac.jp Web IndeX (WIX), URL WIX, Web, URL ( )., WIX. URL, WIX., URL. Wikipedia Google Yahoo, Web. Web IndeX Web Web 1. Web, Web IndeX (WIX),. URL XML WIX. WIX, Web, Web URL. Web, Web., Web Web, Web Web, Web. WIX, Web, URL., Web, Web Web., WIX, 2. 1, WIX., Web (Web ) WIX. 2, WIX Deep Web. 1 URL,.., 2. 3 WIX. 4, 5. 6, 7. 2., Web., Web,. Web,.,,., Web, Web IndeX (WIX),. WIX WIX,,., WIX, WIX. Web WIX. WIX, WIX
WIX. URL, WIX. URL,, WIX., Web. id (eid), keyword target. 1 entry wid eid keyword target 1 1 http://ja.wikipedia.org/wiki/ 1 2 http://ja.wikipedia.org/wiki/ 2 3 http://ameblo.jp/tanaka-masahiro/ 3 5 http://www.giants.jp/g/player/prof 2756.html : : : : 3. Web IndeX 3. 1 WIX WIX XML URL., keyword, URL target. header,, WIX. 1. WIX wikipedia Ameba,. 3. 2. 3 Find Find, WIX DB entry. WIX Aho- Corasick,. 3. 3 ( ) WIX, FireFox add-on Chrome Extension [1]. 2 Chrome Extension., Web Find, HTML,.., WIX target URL. 1 WIX ( Wikipedia.wix ) 3. 2 3. 2. 1 WIX WIX, WIX XML,. WIX, WIX, WIX DB. 2 (Chrome Extension) 3. 2. 2 WIX DB WIX DB, WIX, RDB. WIX entry. ( 1). WIX id(wid), 4. WIX 4. 1 WIX. 1
2 WIX File Extractor [2] 3 Web 4 Web 5 1, WIX,. 3 Web HTML,., WIX WIX File Extractor [2]., Web, X Path WIX., WIX. 4 5, WIX. Web WIX., HTML, WIX. 3 JSON., Wikipedia WIX. WIX Web, WIX., Web WIX. 4 Web WIX,.,. 4 4. 2. 1 Web Web WIX, 2. 2 WIX { "wixfilename" : " ", id 1 wixfile name Wikipedia ja update date 2013-Dec-19 12:12:32 2 Wikipedia en 2013-Dec-02 11:07:54 "username" : " ", 3 ameblo 2013-Dec-02 04:30:06 "origin" : " ", : : : } Web HTTP 3 Last-Modified, DB, wixfilename WIX, username.. origin. 2. html : Web origin. webfile : Web 3 WIX localfile : WIX., Web Web. Web WIX WIX. Ameba 4 WIX, DB.
4. 3 keyword 4. 3. 1 WIX. trim, keyword WIX 5 trim.. 3. 3 next next, target url (1)., { "wixfilename" : " ", keyword target WIX. "username" : " ", "origin" : "html", "crawling" : [{ "url" : " ", "selector" : " ", "keyword" : { "val" : " ", "find" : " ", 6. Web, CSS keyword., keyword trim, keyword. 7. "trim" : [" "] }, "next" : { } }] } 5 3 (* ) crawling array url string URL selector string URL CSS keyword string keyword (val, find, trim) val string selector find string selector CSS blank trim array bracket string, next object 6 ( ),., URL CSS.. 1 url, selector URL, HTML. CSS HTML. CSS href target. 2 keyword, keyword. val, find, 7 ( )
4. 3. 2 単語リストファイルを用いた WIX ファイルの作成 Web 上 ローカルに存在する単語リストファイルから WIX ファイルを作成するには, 図 8, 図 9 のような設定ファイルの記 述が必要になる. それぞれ uri, filepath の値として参照す る単語リストファイルの URI またはパスを指定し, format の部分にはファイルの形式を記述する. prefix の値には, 単語 と結合することで URL を形成する文字列を記述する. 図 10 に Web 上の日本語版 Wikipedia の見出し語一覧ファイルを用い た WIX ファイルの生成を行う設定ファイルを例として挙げる. 図 10 日本語版 Wikipedia 単語リストファイルを用いる設定ファイル { "wixfilename" : " ", "username" : " ", その膨大な数のエントリを記述することになってしまい, 作成 "origin" : "webfile", が困難となる. またそれらの中からいくつかを選ぶということ "resource" : [{ になっても, ユーザによってその選定の指標は異なることから, "uri" : " ", 一意に定めることができないといった問題も発生する. (図 11) "format" : " ", "prefix" : " " }] } 図 8 Web 上の単語リストファイルからの WIX ファイルの作成 { "wixfilename" : " ", "username" : " ", 図 11 WIX ファイル化が困難となる例 1 "origin" : "localfile", "resource" : [{ また各コンテンツとそれに対する URL が一覧表示されてい "filepath" : " ", る検索結果ページ自体を WIX ファイル化するとなると, その "format" : " ", URL は入力されうるキーワードの数だけ存在することになり, "prefix" : " " 先と同様に作成は困難となる. 以下の図 12 に Google 検索結果 }] } ページ集合を WIX ファイル化する例を取り上げる. 図 9 ローカルの単語リストファイルからの WIX ファイルの作成 5. Deep Web に対するアタッチ機構 5. 1 背景と概要 従来の WIX システムにおいて, 動画や画像などのコンテン ツやポータルサイトの検索結果ページなどが遷移先となるよう な WIX ファイルは存在しなかった. そのような WIX ファイ ルを作成するとなると, コンテンツが存在する URL や検索結 果ページ内の個々の URL を target 要素, それに対応するキー ワードを keyword 要素として格納した WIX ファイルを生成す ることとなる. しかしそのような URL は膨大に存在するため, WIX ファイル化するとなるとそれぞれのキーワードに対して 図 12 WIX ファイル化が困難となる例 2
しかし検索エンジン結果ページなどの URL は全て共通して クエリパラメータのみが変化し, URL からクエリパラメータを 除いた部分 (以下 prefix と呼ぶ. 表 4 参照) は変化しない. この ように Web 上に存在しているが検索エンジンのクローラーが インデックス化することのできない領域にある文書や Web ペー ジなどのことを Deep Web という. 例えばポータルサイトでの キーワードに関する検索結果ページや, amazon や youtube の ように検索窓にキーワードを入力して得られる結果ページなど である. この特徴を利用し, 固有名詞から成る 1 つの大規模な 単語リストと prefix を結合することで動的 URL を生成する, WIX ファイルを使ったアタッチとは異なる新たなアタッチ機 構を構築した. prefix は以下の表 4 のように格納されている. 表 4 prefix テーブル id name prefix 1 Google http://www.google.co.jp/search?&q= 2 Yahoo http://search.yahoo.co.jp/search?p= 3 amazon http://www.amazon.co.jp/s/ref=nb sb noss 2?field-keywords= 4 youtube http://www.youtube.com/results?search query= : : : 図 13 単語リストを用いたアタッチ 5. 4 形態素解析による新規語の抽出 ベースとなる単語リストに加え, Web ページを形態素解析す ることで上記の単語では網羅しきれない新規語の抽出を行った. 形態素解析には, オープンソースの形態素解析エンジンである 単語リストは Wikipedia の見出し語, Google Yahoo 検索急 MeCab 注 1 を使用した. 上昇ワードなどをベースとし, また Web ページを形態素解析 することで得られる新規語によって構築した. Web ページは, 5. 4. 1 メインコンテンツ部分の抽出 Google ニュースや Yahoo ニュースなどのニュースページを対 Web ページのテキスト部分が解析対象になるが, その全てを 象とした. つまり 1 つの単語リストと prefix との結合を行うこ 解析対象としてしまうとメニューバー, ナビゲーションメニュー, とで動的に URL を生成し, 様々なページに遷移することがで 広告部分といったいわゆるノイズと呼ばれる部分まで含んでし きる新たなアタッチ機構である. まうこととなる. 一般的に, ノイズ部分は Web ページのコンテ ンツの 40 50%を占める. (図 14) 5. 2 単語リスト DB とアタッチ機構 Deep Web に対するアタッチ機構では, 単語リスト DB を用 いてアタッチを行う. 通常の WIX ファイルを用いたアタッチは キーワードに対応する URL との結合処理を行うが, Deep Web に対するアタッチ機構ではツールバーのボタンと単語リスト DB のキーワードを元にアタッチを行い, アタッチされたキー ワードがユーザによってクリックされた際, そのキーワードと 押されていたツールバーのボタンの情報を元に, URL を動的に 生成し, 遷移することができる. 図 13 にその様子の例を示す. 5. 3 ベースとなる単語リストの構築 本研究では日本語 Wikipedia の見出し語から固有名詞を抽出 し, ベースとなる単語リストとした. Wikipedia は世界最大規 図 14 Web ページ上のメインコンテンツとノイズ 模のコンテンツ量を誇る Web 事典であり, 幅広い分野に関する 単語を網羅している. 日本語版の単語総数は 2014 年 1 月時点 本研究では Fei Sun らが提案した手法 [3] を用いて Web ペー において 246 万語にのぼる. 4 章において提案した自動更新型 ジのメインコンテンツ部分の抽出をまず行い, そこから得られ WIX ファイル生成システムを用いて, Wikipedia の見出し語一 るテキストに対して形態素解析を行った. 更に, Web ページの 覧ファイルがアップロードされると, ベース単語リストに用い ヘッダー情報の内, タイトル キーワード ディスクリプション ている Wikipedia の見出し語一覧との差分更新を行う仕様と といったメタ情報に記述されている内容も抽出することで, 新 なっている. Wikipedia の他に, Google Yahoo 検索急上昇ワードから得 られるトレンドワードに着目し, 新規語の追加を行った. 注 1 形態素解析エンジン MeCab, 京都大学情報学研究科および日本電信電 話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクト, http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
. 5. 4. 2. [4] Web, [5].,,,,..,, HTML., MeCab. ( ).. diffp = P(i) P(i + 1 ) diffp,, P(i) P(i + 1 ), t.,., diffp 0, t. 6. 6. 1 WIX 6. 1. 1, 22 WIX,., 100%, 100%.,. = 100 (1) = 100(2) 6. 1. 2 22 1, 100% WIX. 5. 5 21 WIX, 7 URL CSS, ( ) 100% WIX.,, find, 100% WIX. WIX,,,, WIX. 5, 14, HTML WIX. 22 2 100% WIX., Web HTML, CSS,. Web, 100% WIX,. 6. 2 Deep Web 6. 2. 1. Web 6 25, 3. = 100(3) 6. 2. 2 6 Web. 8 Web. 71 80 Web, Web, DB. 81 90 Web, Web 2 http://www.jla.or.jp/,, 2014 1 17.
5 WIX.com 1 - - - 9 552 FC Barcelona 1 - - - 9 26 EXILE HP 1 - - - 9 14 1 - - - 9 100 SKE48 HP 1 - - - 9 67 Ameba 1 - - 16 11774 1 - - 12 73 1 - - 16 83 NMB48 HP 1 - - 12 65 HP 4 - - 24 1136 1 - - 12 94 46 HP 1-13 32 SAMURAI JAPAN 1-13 36 DeNA 5-41 90 1-13 104 2-18 91 1-12 114 SAMURAI BLUE 1-12 23 HP 1-20 1634 1 18 170 21 12 3551 1 18 85,. Wikipedia Google, Yahoo,, HTML.,. 6 Web (%) 0 60 61 70 71 80 81 90 91 99 100 Web ( ) 0 0 1 4 7 13 25 [1],,, ( ) WIX (1),, DEIM2011. 2011. [2], ( ) WIX DB, Vol.11, No.1, pp.7-12, June 2012 [3] Fei Sun, Dandan Song, and Lejian Liao DOM Based Content Extraction via Text Density, SIGIR 11, July 24-28, 2011, Beijing, China. [4], ( ) Web, 14 2008 3 [5],,,,, FIT2009( 8 ) 7. 1 WIX, Web WIX, WIX. 2 Deep Web, 246 Wikipedia, Google Yahoo,,., WIX.