WIX. URL, WIX. URL,, WIX., Web. id (eid), keyword target. 1 entry wid eid keyword target 1 1 1 2



Similar documents
Web WIX WIX WIX Web Web Web WIX WIX WIX Web 3. Web Index 3. 1 Web Index (WIX), Web. Web, WIX, Web ( WIX ), URL WIX 1 entry wid eid keyword targe

4. WIX アタッチエンジン 4. 1 FSDR 処理 システムの Web 資源結合動作であるアタッチ処理について 述べる. アタッチ処理は以下の 4 フェーズに分けられる. この一連の 流れを FSDR 処理とする. Find 処理 Select 処理 Decide 処理 Rewrite 処理

Find Find WIX DB entry WIX Aho- Corasick 1 WIX 2. 2 ( ) WIX, FireFox add-on Chrome Extension [1]. 32 Chrome Extension., Web Find, HTML,.., WIX

Find Find WIX DB entry WIX Aho- Corasick 1 WIX 2. 2 WIX WIX WIX WIX DBFind () WIX, FireFox add-on Chrome Extension [1]. 32 Chrome

/var/lib/sharelatex/data/compiles/5a535643d11f6ba07fbbfa d68ddec3e /output.dvi

,, WIX. 3. Web Index 3. 1 WIX WIX XML URL, 1., keyword, URL target., WIX, header,, WIX. 1 entry keyword 1 target 1 keyword target., entry, 1 1. WIX [2

WBT [6] [7] [8] [9] Web [1] WBT [2] [3] ipad PC ipad ipad ipad [4] QR QR [5] IC IC PDA IC PDA US-ASCII 4,296 QR IC IC IC QR QR QR A BB A A CC

Ducky 1. GUI, Web, Web URL,, 2., CSS ( ), xml, json, csv,,, Web DB HTML id class, class,. com, div unit,, CSS CSS, Web, Web, JavaScript

V.ブラウザの使い方

Ⅴ ブラウザーの使い方 V. ブラウザーの使い方 起動 終了 画面説明 ホームページ移動 リンクを使って移動 アドレスバーからの移動 ボタンでの移動

■デザイン

Microsoft PowerPoint _3a-SEO.pptx

卒論タイトル

Delphi/400を使用したWebサービスアプリケーション

Exfront4.1.0リリースノート

DEIM Forum 2014 P3-3 A Foreseeing System of Search Results based on Query Operations on the Graph Interface

スーパー英語アカデミック版Ver.2

DB STREET 設置マニュアル

PowerPoint プレゼンテーション

クイックマニュアル(利用者編)

Microsoft PowerPoint - Cambridge Books Online ユーザーマニュアル

第 7 回の内容 動的な Web サイト フォーム Web システムの構成

1. ログイン 1-1 管理画面へのログイン 施設の作成 編集 削除や承認 公開には その操作権限を持つアカウントでログイン します アカウントについての詳細は 管理者にお問い合わせください (1) [ ユーザー ID またはメールアドレス ] と [ パスワード ] を入力後 [ ログイン ] を


スライド 1

PowerPoint プレゼンテーション

情報システム設計論II ユーザインタフェース(1)

スライド 1

3. 画 面 説 明 1 アドレスバー/Google 検 索 バー 4 ステータスバー 1 アドレスバー/Google 検 索 バー 現 在 表 示 されているホームページの URL 1 (ホームページアドレス)を 表 示 します URL を 入 力 すると 目 的 のページに 移 動 することがで

extension機能概要マニュアル

■サイトを定義する

ULTRA DRIVE とは インターネット上 ( クラウド ) に大切なデータを保存することができる便利なアプリケ ーション ( オンラインストレージ ) です 本資料について ULTRA DRIVE サービスは マイナーバージョンアップ等もあるため 実際のクライア ントと本資料に差分が発生する場

1. ログイン 1-1 管理画面へのログイン 施設の作成 編集 削除や承認 公開には その操作権限を持つアカウントでログイン します アカウントについての詳細は 管理者にお問い合わせください (1) [ ユーザー ID またはメールアドレス ] と [ パスワード ] を入力後 [ ログイン ] を

無料で多機能な OSS の ETL ツール Kettle を使ってみよう! 情報政策課技術職員金森浩治 1. はじめにデータ処理を行うにあたって非常に便利なツール ETL 本稿では OSS の ETL Kettle の機能とその使用方法を紹介します 2. 用語説明 2.1 OSS とは? OSS と

Blue Asterisk template

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

nlp1-12.key

PowerPoint プレゼンテーション

■コンテンツ

平成17年度大学院 知識システム特論

目次 3 14P Wordpressテンプレートの設定方法 15P 17P livedoorテンプレートの設定方法 18P 21P FC2テンプレートの設定方法

独立行政法人産業技術総合研究所 PMID-Extractor ユーザ利用マニュアル バイオメディシナル情報研究センター 2009/03/09 第 1.0 版

Microsoft Word - 目次.doc

PowerPoint プレゼンテーション

■デザイン

IPSJ SIG Technical Report Vol.2014-HCI-157 No.26 Vol.2014-GN-91 No.26 Vol.2014-EC-31 No /3/15 1,a) 2 3 Web (SERP) ( ) Web (VP) SERP VP VP SERP

Web Web [12] Web HTML HTML Web Web Web Web HTML Web Web Web Web Web Web Web Web Ducky[6][7] Ducky Web Web Ducky GUI GUI GUI Web 2 Ducky 3 GUI

SMILE-BS_人事給与

JIS X :2016 附属書 JB に基づく試験結果表示 ( ウェブページ単位 ) 規格の規格番号及び改正年 JIS X :2016 対象範囲 以下のウェブページ ただし 外の以

PowerPoint プレゼンテーション

タグの設定方法 ユーザグラムのタグは 現時点では Yahoo! タグマネージャーのタグカタログに含まれていません このため スマートカスタムタグ から タグを直接貼り付ける必要があります 手順 1: スマートカスタムタグ からタグを設定する まず サービスタグの選択画面右上に書かれた スマートカスタ

2 COPYRIGHT TempNate. ALL RIGHTS RESERVED.

条件指定をした Yahoo 検索 1 / 8 条件指定をして Yahoo 検索 ウェブでキーワード検索することを ググル といい ウェブでキーワード検索をする のは Google を使うのが当然とされていますが Yahoo!Japan も検索ができます Yahoo!Japan をホームページに設定さ

Microsoft Word - WebClass Ver 9.08f 主な追加機能・修正点.docx


●コンテンツ「FAQ」

勉強会の流れ Google API の概要 デモ curl で実際に体験 Copyright 2010 SRA OSS, Inc. Japan All rights reserved. 2

Web

山田直巳109‐121/109‐128

PowerPoint プレゼンテーション

’¸’_‹ã−w“u“ÀPR-A4-Ł\”ƒ

intra-mart Accel Platform

1.WebClass( ウェブクラス ) とは WebClass を利用される前に 学生の立場で WebClass を利用してみましょう... 4 開始方法... 4 資料を閲覧する 先生の立場で WebClass を利用してみましょう... 8 資料を

■コンテンツ

目次 新規会員登録 P.3 ログイン P.6 管理画面について P.7 研究情報の編集 P.8 お知らせの新規追加 編集 P.10 メディアの新規追加 編集 P.12 会員情報の編集 P.14 2 / 16

ULTRA DRIVE とは インターネット上 ( クラウド ) に大切なデータを保存することが出来る便利なアプリケーション ( オンラインストレージ ) です 本資料について ULTRA DRIVE サービスは マイナーバージョンアップ等もあるため 実際のクライアントと本資料に差分が発生する場合が

ページ閲覧を計測する 手順 1: カスタム HTML タグ からタグを設定する まず タグタイプを選択 の画面で カスタム HTML を選択します タグの設定画面が開くので ユーザグラムで発行されたタグを HTML 欄に直接貼り付けてください document.write をサポートする はオフのま

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

アジェンダ オープンデータについて オープンガバメント セマンティック Web 技術 (RDF,SPARQL) RDF とは RDF の表現形式 : タートル,RDFa, マイクロデータ RDF グラフへの問い合わせ :SPARQL 利用環境 (SPARQL Timeliner,SparqlEPCU

シート一覧 タイプ 名前 その他 表紙 その他 その他 その他 変更履歴 sheet_index_template ER 図 テーブルアートプロジェクトデータテーブルアートプロジェクトに関するデータテーブルである. 内容は未定. テーブル分類名称データテーブル観光地 観光施設, イベント, パンフレ

BizDataBank とはインターネット上のクラウドサーバーを 自分のパソコンのハードディスクのようにご利用いただけるサービスです クラウドに格納したデータはパソコンだけでなく スマートフォンやタブレットでも自在にアクセス可能 さらに 大容量データの送信やメンバー限定のファイル共有など ビジネスや

INDEX 1. はじめに... 2.IE11 の設定 IE11 バージョンの確認方法 IE11 ポップアップの許可設定 IE11 HTML 明細書印刷の設定 IE11 互換表示設定... 3.Chrome の設定 Chrome

06.7 作成.EndNote Basic について -.EndNote Basic とは? EndNote は文献情報を保存 管理するツールです また 保存した文献情報をもとに文献リストを簡単に作成することができます デスクトップ版と EndNote Basic と呼ばれる Web 版があり 信州

目次 1. はじめに 更新履歴 ログイン ログアウト ログイン時の URL とユーザー名 ログイン ログアウト トップ画面 活動一覧画面 活動情報の

目次 新規会員登録 P.3 ログイン P.6 管理画面について P.7 研究情報の編集 P.8 お知らせの新規追加 編集 P.10 メディアの新規追加 編集 P.12 会員情報の編集 P.14 2 / 16

エンカレッジオンラインのご利用について 動作環境 : パソコン(Windows/Mac) ブラウザ :Internet Explorer Google Chrome Firefox Safari の各最新版 回線速度 : 下り 5Mbps 以上の速度を維持できる安定した環境 スマートフォン タブレッ

エンカレッジオンラインのご利用について 動作環境 : パソコン(Windows/Mac) ブラウザ :Internet Explorer Google Chrome Firefox Safari の各最新版 回線速度 : 下り 5Mbps 以上の速度を維持できる安定した環境 スマートフォン タブレッ

INDEX 1. はじめに IE7/8 の設定 IE7/8 バージョン確認 IE7/8 ポップアップの許可設定 IE7/8 HTML 明細書印刷の設定 IE9/10/11 の設定 IE9/10/1

キリしていて メニューのボタンも大きくなっているので マウス操作はもちろん タッチ操作でも使いやすくなっているのが特長です アドレスバー画面上部にあるアドレスバーは インターネット検索も兼ねています ここにキーワードを直接入力して検索を実行できます 現在表示されているタブの右横にある + をクリック

intra-mart Accel Platform — IM-共通マスタ スマートフォン拡張プログラミングガイド   初版  

e10s におけるプロセス間通信の基本 219 HACK #34 Components.manager.removeBootstrappedManifestLocati on() function shutdown(adata, areason) { const IOService =

intra-mart Accel Platform — TableMaintenance ユーザ操作ガイド   第8版  

D5-2_S _003.pptx

SmartBrowser_document_build30_update.pptx

売れる! インターネット活用術 < 第 3 回 > SEO の基礎知識 株式会社スプラム 代表取締役竹内幸次 ( 中小企業診断士 ) SEO で新規顧客を導く 世界一の検索サイト Google で http とだけ入力して検索すると 252 億ページがヒットします ( 見つかります ) 日本語のペー

メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right

intra-mart Accel Platform — IM-BloomMaker プログラミングガイド   初版  

目 次 1. 本文書の目的と対象 EXTENSION 機能一覧 HELLO.JSP( ( 標準 ) BREADCRUMBS.JSP ( 標準 ) CALCULATE.JSP( ( 標準 ) CALEN

vi 目次 画像のサイズ設定 画像の効果 画面の取り込みとトリミング Office の共通基本操作 図形 図形の挿入と削除 図形の編集 図形の背景色の透過 Office

Create!Form V11 - 機能リファレンス - テスト実行

XML基礎

コンテンツ登録の準備作業

PowerPoint Presentation

1 P2 P P3P4 P5P8 P9P10 P11 P12

<4D F736F F F696E74202D208A778F708FEE95F197AC92CA82F08EC08CBB82B782E98B5A8F E97708B5A8F70816A5F94D196EC8D758E742E >

このうち ツールバーが表示されていないときは メニューバーから [ 表示 (V)] [ ツールバー (T)] の [ 標準のボタン (S)] [ アドレスバー (A)] と [ ツールバーを固定する (B)] をクリックしてチェックを付けておくとよい また ツールバーはユーザ ( 利用者 ) が変更

InternetExplore での 検索 (2) 1 InternetExplore のアドレスバーに go または find または? を入力する 2 その後に語句を入力し ENTER キーを押す 3 検索結果が表示される 検索エンジンを使う場合よりも速く検索できる場合もある 検索の上手下手は

Microsoft Word - surfing

i

PowerPoint プレゼンテーション

Transcription:

DEIM Forum 2014 C8-1 WIX Deep Web 223-8522 3-14-1 E-mail: kei@db.ics.keio.ac.jp, toyama@ics.keio.ac.jp Web IndeX (WIX), URL WIX, Web, URL ( )., WIX. URL, WIX., URL. Wikipedia Google Yahoo, Web. Web IndeX Web Web 1. Web, Web IndeX (WIX),. URL XML WIX. WIX, Web, Web URL. Web, Web., Web Web, Web Web, Web. WIX, Web, URL., Web, Web Web., WIX, 2. 1, WIX., Web (Web ) WIX. 2, WIX Deep Web. 1 URL,.., 2. 3 WIX. 4, 5. 6, 7. 2., Web., Web,. Web,.,,., Web, Web IndeX (WIX),. WIX WIX,,., WIX, WIX. Web WIX. WIX, WIX

WIX. URL, WIX. URL,, WIX., Web. id (eid), keyword target. 1 entry wid eid keyword target 1 1 http://ja.wikipedia.org/wiki/ 1 2 http://ja.wikipedia.org/wiki/ 2 3 http://ameblo.jp/tanaka-masahiro/ 3 5 http://www.giants.jp/g/player/prof 2756.html : : : : 3. Web IndeX 3. 1 WIX WIX XML URL., keyword, URL target. header,, WIX. 1. WIX wikipedia Ameba,. 3. 2. 3 Find Find, WIX DB entry. WIX Aho- Corasick,. 3. 3 ( ) WIX, FireFox add-on Chrome Extension [1]. 2 Chrome Extension., Web Find, HTML,.., WIX target URL. 1 WIX ( Wikipedia.wix ) 3. 2 3. 2. 1 WIX WIX, WIX XML,. WIX, WIX, WIX DB. 2 (Chrome Extension) 3. 2. 2 WIX DB WIX DB, WIX, RDB. WIX entry. ( 1). WIX id(wid), 4. WIX 4. 1 WIX. 1

2 WIX File Extractor [2] 3 Web 4 Web 5 1, WIX,. 3 Web HTML,., WIX WIX File Extractor [2]., Web, X Path WIX., WIX. 4 5, WIX. Web WIX., HTML, WIX. 3 JSON., Wikipedia WIX. WIX Web, WIX., Web WIX. 4 Web WIX,.,. 4 4. 2. 1 Web Web WIX, 2. 2 WIX { "wixfilename" : " ", id 1 wixfile name Wikipedia ja update date 2013-Dec-19 12:12:32 2 Wikipedia en 2013-Dec-02 11:07:54 "username" : " ", 3 ameblo 2013-Dec-02 04:30:06 "origin" : " ", : : : } Web HTTP 3 Last-Modified, DB, wixfilename WIX, username.. origin. 2. html : Web origin. webfile : Web 3 WIX localfile : WIX., Web Web. Web WIX WIX. Ameba 4 WIX, DB.

4. 3 keyword 4. 3. 1 WIX. trim, keyword WIX 5 trim.. 3. 3 next next, target url (1)., { "wixfilename" : " ", keyword target WIX. "username" : " ", "origin" : "html", "crawling" : [{ "url" : " ", "selector" : " ", "keyword" : { "val" : " ", "find" : " ", 6. Web, CSS keyword., keyword trim, keyword. 7. "trim" : [" "] }, "next" : { } }] } 5 3 (* ) crawling array url string URL selector string URL CSS keyword string keyword (val, find, trim) val string selector find string selector CSS blank trim array bracket string, next object 6 ( ),., URL CSS.. 1 url, selector URL, HTML. CSS HTML. CSS href target. 2 keyword, keyword. val, find, 7 ( )

4. 3. 2 単語リストファイルを用いた WIX ファイルの作成 Web 上 ローカルに存在する単語リストファイルから WIX ファイルを作成するには, 図 8, 図 9 のような設定ファイルの記 述が必要になる. それぞれ uri, filepath の値として参照す る単語リストファイルの URI またはパスを指定し, format の部分にはファイルの形式を記述する. prefix の値には, 単語 と結合することで URL を形成する文字列を記述する. 図 10 に Web 上の日本語版 Wikipedia の見出し語一覧ファイルを用い た WIX ファイルの生成を行う設定ファイルを例として挙げる. 図 10 日本語版 Wikipedia 単語リストファイルを用いる設定ファイル { "wixfilename" : " ", "username" : " ", その膨大な数のエントリを記述することになってしまい, 作成 "origin" : "webfile", が困難となる. またそれらの中からいくつかを選ぶということ "resource" : [{ になっても, ユーザによってその選定の指標は異なることから, "uri" : " ", 一意に定めることができないといった問題も発生する. (図 11) "format" : " ", "prefix" : " " }] } 図 8 Web 上の単語リストファイルからの WIX ファイルの作成 { "wixfilename" : " ", "username" : " ", 図 11 WIX ファイル化が困難となる例 1 "origin" : "localfile", "resource" : [{ また各コンテンツとそれに対する URL が一覧表示されてい "filepath" : " ", る検索結果ページ自体を WIX ファイル化するとなると, その "format" : " ", URL は入力されうるキーワードの数だけ存在することになり, "prefix" : " " 先と同様に作成は困難となる. 以下の図 12 に Google 検索結果 }] } ページ集合を WIX ファイル化する例を取り上げる. 図 9 ローカルの単語リストファイルからの WIX ファイルの作成 5. Deep Web に対するアタッチ機構 5. 1 背景と概要 従来の WIX システムにおいて, 動画や画像などのコンテン ツやポータルサイトの検索結果ページなどが遷移先となるよう な WIX ファイルは存在しなかった. そのような WIX ファイ ルを作成するとなると, コンテンツが存在する URL や検索結 果ページ内の個々の URL を target 要素, それに対応するキー ワードを keyword 要素として格納した WIX ファイルを生成す ることとなる. しかしそのような URL は膨大に存在するため, WIX ファイル化するとなるとそれぞれのキーワードに対して 図 12 WIX ファイル化が困難となる例 2

しかし検索エンジン結果ページなどの URL は全て共通して クエリパラメータのみが変化し, URL からクエリパラメータを 除いた部分 (以下 prefix と呼ぶ. 表 4 参照) は変化しない. この ように Web 上に存在しているが検索エンジンのクローラーが インデックス化することのできない領域にある文書や Web ペー ジなどのことを Deep Web という. 例えばポータルサイトでの キーワードに関する検索結果ページや, amazon や youtube の ように検索窓にキーワードを入力して得られる結果ページなど である. この特徴を利用し, 固有名詞から成る 1 つの大規模な 単語リストと prefix を結合することで動的 URL を生成する, WIX ファイルを使ったアタッチとは異なる新たなアタッチ機 構を構築した. prefix は以下の表 4 のように格納されている. 表 4 prefix テーブル id name prefix 1 Google http://www.google.co.jp/search?&q= 2 Yahoo http://search.yahoo.co.jp/search?p= 3 amazon http://www.amazon.co.jp/s/ref=nb sb noss 2?field-keywords= 4 youtube http://www.youtube.com/results?search query= : : : 図 13 単語リストを用いたアタッチ 5. 4 形態素解析による新規語の抽出 ベースとなる単語リストに加え, Web ページを形態素解析す ることで上記の単語では網羅しきれない新規語の抽出を行った. 形態素解析には, オープンソースの形態素解析エンジンである 単語リストは Wikipedia の見出し語, Google Yahoo 検索急 MeCab 注 1 を使用した. 上昇ワードなどをベースとし, また Web ページを形態素解析 することで得られる新規語によって構築した. Web ページは, 5. 4. 1 メインコンテンツ部分の抽出 Google ニュースや Yahoo ニュースなどのニュースページを対 Web ページのテキスト部分が解析対象になるが, その全てを 象とした. つまり 1 つの単語リストと prefix との結合を行うこ 解析対象としてしまうとメニューバー, ナビゲーションメニュー, とで動的に URL を生成し, 様々なページに遷移することがで 広告部分といったいわゆるノイズと呼ばれる部分まで含んでし きる新たなアタッチ機構である. まうこととなる. 一般的に, ノイズ部分は Web ページのコンテ ンツの 40 50%を占める. (図 14) 5. 2 単語リスト DB とアタッチ機構 Deep Web に対するアタッチ機構では, 単語リスト DB を用 いてアタッチを行う. 通常の WIX ファイルを用いたアタッチは キーワードに対応する URL との結合処理を行うが, Deep Web に対するアタッチ機構ではツールバーのボタンと単語リスト DB のキーワードを元にアタッチを行い, アタッチされたキー ワードがユーザによってクリックされた際, そのキーワードと 押されていたツールバーのボタンの情報を元に, URL を動的に 生成し, 遷移することができる. 図 13 にその様子の例を示す. 5. 3 ベースとなる単語リストの構築 本研究では日本語 Wikipedia の見出し語から固有名詞を抽出 し, ベースとなる単語リストとした. Wikipedia は世界最大規 図 14 Web ページ上のメインコンテンツとノイズ 模のコンテンツ量を誇る Web 事典であり, 幅広い分野に関する 単語を網羅している. 日本語版の単語総数は 2014 年 1 月時点 本研究では Fei Sun らが提案した手法 [3] を用いて Web ペー において 246 万語にのぼる. 4 章において提案した自動更新型 ジのメインコンテンツ部分の抽出をまず行い, そこから得られ WIX ファイル生成システムを用いて, Wikipedia の見出し語一 るテキストに対して形態素解析を行った. 更に, Web ページの 覧ファイルがアップロードされると, ベース単語リストに用い ヘッダー情報の内, タイトル キーワード ディスクリプション ている Wikipedia の見出し語一覧との差分更新を行う仕様と といったメタ情報に記述されている内容も抽出することで, 新 なっている. Wikipedia の他に, Google Yahoo 検索急上昇ワードから得 られるトレンドワードに着目し, 新規語の追加を行った. 注 1 形態素解析エンジン MeCab, 京都大学情報学研究科および日本電信電 話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクト, http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html

. 5. 4. 2. [4] Web, [5].,,,,..,, HTML., MeCab. ( ).. diffp = P(i) P(i + 1 ) diffp,, P(i) P(i + 1 ), t.,., diffp 0, t. 6. 6. 1 WIX 6. 1. 1, 22 WIX,., 100%, 100%.,. = 100 (1) = 100(2) 6. 1. 2 22 1, 100% WIX. 5. 5 21 WIX, 7 URL CSS, ( ) 100% WIX.,, find, 100% WIX. WIX,,,, WIX. 5, 14, HTML WIX. 22 2 100% WIX., Web HTML, CSS,. Web, 100% WIX,. 6. 2 Deep Web 6. 2. 1. Web 6 25, 3. = 100(3) 6. 2. 2 6 Web. 8 Web. 71 80 Web, Web, DB. 81 90 Web, Web 2 http://www.jla.or.jp/,, 2014 1 17.

5 WIX.com 1 - - - 9 552 FC Barcelona 1 - - - 9 26 EXILE HP 1 - - - 9 14 1 - - - 9 100 SKE48 HP 1 - - - 9 67 Ameba 1 - - 16 11774 1 - - 12 73 1 - - 16 83 NMB48 HP 1 - - 12 65 HP 4 - - 24 1136 1 - - 12 94 46 HP 1-13 32 SAMURAI JAPAN 1-13 36 DeNA 5-41 90 1-13 104 2-18 91 1-12 114 SAMURAI BLUE 1-12 23 HP 1-20 1634 1 18 170 21 12 3551 1 18 85,. Wikipedia Google, Yahoo,, HTML.,. 6 Web (%) 0 60 61 70 71 80 81 90 91 99 100 Web ( ) 0 0 1 4 7 13 25 [1],,, ( ) WIX (1),, DEIM2011. 2011. [2], ( ) WIX DB, Vol.11, No.1, pp.7-12, June 2012 [3] Fei Sun, Dandan Song, and Lejian Liao DOM Based Content Extraction via Text Density, SIGIR 11, July 24-28, 2011, Beijing, China. [4], ( ) Web, 14 2008 3 [5],,,,, FIT2009( 8 ) 7. 1 WIX, Web WIX, WIX. 2 Deep Web, 246 Wikipedia, Google Yahoo,,., WIX.