Microsoft Word - DEIM2009 D7-5



Similar documents
研究成果報告書

SERPWatcher SERPWatcher SERP Watcher SERP Watcher,

売れる! インターネット活用術 < 第 3 回 > SEO の基礎知識 株式会社スプラム 代表取締役竹内幸次 ( 中小企業診断士 ) SEO で新規顧客を導く 世界一の検索サイト Google で http とだけ入力して検索すると 252 億ページがヒットします ( 見つかります ) 日本語のペー

日本感性工学会論文誌

BOK body of knowledge, BOK BOK BOK 1 CC2001 computing curricula 2001 [1] BOK IT BOK 2008 ITBOK [2] social infomatics SI BOK BOK BOK WikiBOK BO

WikiWeb Wiki Web Wiki 2. Wiki 1 STAR WARS [3] Wiki Wiki Wiki 2 3 Wiki 5W1H Wiki Web 2.2 5W1H 5W1H 5W1H 5W1H 5W1H 5W1H 5W1H 2.3 Wiki 2015 Informa

IPSJ SIG Technical Report Vol.2014-IOT-27 No.14 Vol.2014-SPT-11 No /10/10 1,a) 2 zabbix Consideration of a system to support understanding of f

論文9.indd

IPSJ SIG Technical Report Secret Tap Secret Tap Secret Flick 1 An Examination of Icon-based User Authentication Method Using Flick Input for

1 UD Fig. 1 Concept of UD tourist information system. 1 ()KDDI UD 7) ) UD c 2010 Information Processing S

Web WIX WIX WIX Web Web Web WIX WIX WIX Web 3. Web Index 3. 1 Web Index (WIX), Web. Web, WIX, Web ( WIX ), URL WIX 1 entry wid eid keyword targe

IPSJ SIG Technical Report PIN(Personal Identification Number) An Examination of Icon-based User Authentication Method for Mobile Terminals Fum

2 目次 1 はじめに 2 システム 3 ユーザインタフェース 4 評価 5 まとめと課題 参考文献

Web Web [4] Web Web [5] Web 2 Web 3 4 Web Web 2.1 Web Web Web Web Web 2.2 Web Web Web *1 Web * 2*3 Web 3. [6] [7] [8] 4. Web 4.1 Web Web *1 Ama

データベース 【1:データベースシステムとは】

22 Google Trends Estimation of Stock Dealing Timing using Google Trends

Microsoft Word - DEWS2006 1B-i7.doc


3.5 検索で上位に表示させるタイトル付けの奥義

& Vol.5 No (Oct. 2015) TV 1,2,a) , Augmented TV TV AR Augmented Reality 3DCG TV Estimation of TV Screen Position and Ro

IPSJ SIG Technical Report Vol.2014-HCI-157 No.26 Vol.2014-GN-91 No.26 Vol.2014-EC-31 No /3/15 1,a) 2 3 Web (SERP) ( ) Web (VP) SERP VP VP SERP

IP ( ) IP ( ) IP DNS Web Web DNS Web DNS DNS 利用者 1 利用者 2 東京都調布市の天気情報を応答 東京都調布市の天気を問い合わせ 北海道旭川市の天気を問い合わせ 北海道旭川市の天気情報を応答 Fig. 1 1 DNS サーバ 東京都調布市の天気情報 We

月刊SEOレポート 2019年5月版 Vol.109

Web Web Web Web Web, i

IPSJ SIG Technical Report Vol.2009-DBS-149 No /11/ Bow-tie SCC Inter Keyword Navigation based on Degree-constrained Co-Occurrence Graph

DEIM Forum 2010 A Web Abstract Classification Method for Revie

<4D F736F F D FC8E448FEE95F1837C815B835E838B C8F92E88B608F912E646F63>

WWWを用いた情報検索

Microsoft Word - 目次.doc

データマートで動作するリレーショナルデータベースとスプレッドシート データマイニング等の分析ツールからなるプラットフォームで構築された統合的なシステム展開により 業務情報や戦略情報の確実な伝達とリアルタイムな業務処理予測と問題追究 ナレッジの活用とコラボレーションによる業務実践といった 一連のマネジ

月刊SEOレポート 2019年7月版 Vol.111

6回目

1 2. Nippon Cataloging Rules NCR [6] (1) 5 (2) 4 3 (3) 4 (4) 3 (5) ISSN 7 International Standard Serial Number ISSN (6) (7) 7 16 (8) ISBN ISSN I

Microsoft Word - toyoshima-deim2011.doc

スライド 1


1 [1, 2, 3, 4, 5, 8, 9, 10, 12, 15] The Boston Public Schools system, BPS (Deferred Acceptance system, DA) (Top Trading Cycles system, TTC) cf. [13] [

Microsoft Word - CiNiiの使い方.doc

Microsoft PowerPoint - advanced-2-olap.ppt [互換モード]

昭和恐慌期における長野県下農業・農村と産業組合の展開過程

PowerPoint プレゼンテーション

条件指定をした Yahoo 検索 1 / 8 条件指定をして Yahoo 検索 ウェブでキーワード検索することを ググル といい ウェブでキーワード検索をする のは Google を使うのが当然とされていますが Yahoo!Japan も検索ができます Yahoo!Japan をホームページに設定さ

Exfront4.1.0リリースノート

卒論タイトル

2 21, Twitter SNS [8] [5] [7] 2. 2 SNS SNS Cheng [2] Twitter [6] Backstrom [1] Facebook 3 Jurgens

大学における原価計算教育の現状と課題

DEIM Forum 2009 E

3_23.dvi

農研機構 食品総合研究所 研究報告 77号

TF-IDF TDF-IDF TDF-IDF Extracting Impression of Sightseeing Spots from Blogs for Supporting Selection of Spots to Visit in Travel Sat

PowerPoint プレゼンテーション

Microsoft PowerPoint - Cambridge Books Online ユーザーマニュアル

DEIM Forum 2009 B4-6, Str

テーマ :Twitter の現状と展望 酒井健吾 1. 調査の目的本稿は 新たなコミュニケーションツールとして台頭する Twitter の現状と展望に関する動向の概要を調査した上で Twitter が現在抱えている課題とその対策について検討する 2. 調査の概要 Twit

DEIM Forum 2014 P3-3 A Foreseeing System of Search Results based on Query Operations on the Graph Interface

1: 2: 3: 4: 2. 1 Exploratory Search [4] Exploratory Search 2. 1 [7] [8] [9] [10] Exploratory Search

Vol.54 No (July 2013) [9] [10] [11] [12], [13] 1 Fig. 1 Flowchart of the proposed system. c 2013 Information

月刊SEOレポート 2018年10月版 Vol.102

258 5) GPS 1 GPS 6) GPS DP 7) 8) 10) GPS GPS ) GPS Global Positioning System

<4D F736F F D2093C A B8EAE8C6791D1836C E91CE8DF42E646F63>

Microsoft Word - Informaworld_manual.doc

IPSJ SIG Technical Report Vol.2010-SLDM-144 No.50 Vol.2010-EMB-16 No.50 Vol.2010-MBL-53 No.50 Vol.2010-UBI-25 No /3/27 Twitter IME Twitte

Web [1] [2] [3] [4] [5] SupportVectorMachine SVM [6] [7] Google [11] Web

1 Fig. 1 Extraction of motion,.,,, 4,,, 3., 1, 2. 2.,. CHLAC,. 2.1,. (256 ).,., CHLAC. CHLAC, HLAC. 2.3 (HLAC ) r,.,. HLAC. N. 2 HLAC Fig. 2

PowerPoint Presentation

研究開発の概要のイメージ ①画像 音声 映像情報の分析技術 周辺コンテンツや他情報源から収集したテキスト情報の分析 画像特徴量分析による信憑性検証 Web画像の典型度 過不足性 W b画像の典型度 過不足性 整合性の分析 映像 音声の偏り分析や 映像 音声の偏り分析や 視聴者評価情報の分析 Webア

月刊SEOレポート 2018年7月版 Vol.99

Microsoft Word - ③調査仕様書.doc

IPSJ SIG Technical Report Vol.2016-CE-137 No /12/ e β /α α β β / α A judgment method of difficulty of task for a learner using simple

Sharing the Development Database

Studies of Foot Form for Footwear Design (Part 9) : Characteristics of the Foot Form of Young and Elder Women Based on their Sizes of Ball Joint Girth

米国における意匠を対象にした出願前調査 Q 自社製品の意匠権を米国で取得したい 出願する前にやってお いた方が良いことはあるか? 1) 調査ツールの選択米国における意匠は 米国特許商標庁 ( 以下 USPTO) に直接出願するルートとハーグ協定を経由するルートが存在する 上記いずれの

The Journal of the Japan Academy of Nursing Administration and Policies Vol 12, No 1, pp 49 59, 2008 資料 看護師におけるメンタリングとキャリア結果の関連 Relationship between M

untitled

Delphi/400を使用したWebサービスアプリケーション

IPSJ SIG Technical Report Vol.2014-CE-123 No /2/8 Bebras 1,a) Bebras,,, Evaluation and Possibility of the Questions for Bebras Contest Abs

Microsoft Word - deim2011_new-ichinose doc

3. 機関選択画面が表示されます 次のどちらかを行ってください ( 以前 ログインしたことがあれば 鳥取大学 Tottori University のリンクが表示され 以下を省略することができます ) A) Search for your institution and click the name

IPSJ SIG Technical Report Vol.2017-CLE-21 No /3/21 e 1,2 1,2 1 1,2 1 Sakai e e e Sakai e Current Status and Challenges on e-learning T

スライド 1

2 : Open Clip Art Library [4] Microsoft Office PowerPoint Web PowerPoint 2 Yahoo! Web [5] SlideShare Yahoo! Web Yahoo! Web

研究報告用MS-04

未婚者の恋愛行動分析 : なぜ適当な相手にめぐり会わないのか

Powered by TCPDF ( Title 組織のスラック探索に関する包括的モデルの構築と実証研究 Sub Title On the comprehensive model of organizational slack search Author 三橋, 平 (M

<303288C991BD946797C797592E696E6464>

ユーザーガイド SAGE Research Methodsに含まれる書籍 参考書 論文記事 ケーススタディには研究プロジェクトを策定 実施する上で必要なものがすべて用意されています 研究課題に対する実証から 文献レビュー SAGE Research Methodsはプロジェクトを進めていくために必要

Virtual Window System Virtual Window System Virtual Window System Virtual Window System Virtual Window System Virtual Window System Social Networking

kantan_C_1_iro3.indd

PowerPoint プレゼンテーション

Web Web Web Web 1 1,,,,,, Web, Web - i -

Table 1. Assumed performance of a water electrol ysis plant. Fig. 1. Structure of a proposed power generation system utilizing waste heat from factori

説明項目 1. 審査で注目すべき要求事項の変化点 2. 変化点に対応した審査はどうあるべきか 文書化した情報 外部 内部の課題の特定 リスク 機会 利害関係者の特定 QMS 適用範囲 3. ISO 9001:2015への移行 リーダーシップ パフォーマンス 組織の知識 その他 ( 考慮する 必要に応

untitled

1: A/B/C/D Fig. 1 Modeling Based on Difference in Agitation Method artisoc[7] A D 2017 Information Processing

DEIM Forum 2010 A3-3 Web Web Web Web Web. Web Abstract Web-page R

Microsoft PowerPoint _3a-SEO.pptx

‚æ4“ƒ.ren

植物23巻2号

1 4 4 [3] SNS 5 SNS , ,000 [2] c 2013 Information Processing Society of Japan

PowerPoint プレゼンテーション

Transcription:

DEIM2009 D7-5 新しい社会調査法としての検索エンジン結果ページ群の 自動収集 分析装置の開発 -SERP Watcher の設計 - 増永良文 渡辺知恵美 伊藤一成 小山直子 竹内純人 深山鷹一 舘かおる 青山学院大学 229-8558 神奈川県相模原市淵野辺 5-10-1 お茶の水女子大学 112-8610 東京都文京区大塚 2-1-1 E-mail: {masunaga, kaz}@si.aoyama.ac.jp, s_takeuchi@irc.aoyama.ac.jp, d8108008@cc.aoyama.ac.jp {watanabe.chimei, oyama.naoko, tachi.kaoru}@ocha.ac.jp あらまし我々は SERP Watcher を開発している. これは, ウェブの検索エンジン結果ページ (Search Engine Results Page, SERP) に現れるウェブページの順位の変動は, 実世界の社会変動と関係しているのではないかという, 我々のこれまでのウェブマイニング研究のもたらした知見に基づく.SERP Watcher はより正式には,Search Engine Results Page Ranking Change Watcher と称するが, 利用者が指定した検索キーワードに関する SERP の順位変動を時間の経過とともに監視していき, その変動幅や変動パターンがあらかじめ指定された許容範囲を超えるとき, 実世界で何らかの変動が起こっているかもしれないと判断して警告を発し, 利用者に実際に社会調査を促す. つまり,SERP Watcher はこれまで社会科学の分野で知られているアンケート調査, インタビュー調査, あるいは実地調査に代わる新しい社会調査法になりうると考えられる. キーワード SERP Watcher, ウェブマイニング, 検索エンジン,SERP, 社会科学, 社会調査法 Development of an Automatic Collection and Analysis System of SERPs as a New Social Survey Method -Design of SERP Watcher- Yoshifumi MASUNAGA Chiemi WATANABE Kazunari ITO Naoko OYAMA Sumito TAKEUCHI Yoichi MIYAMA and Kaoru TACHI Aoyama Gakuin University 5-10-1 Fuchinobe,Sagamihara-shi, Kanagawa, 229-8558 Japan Ochanomizu University 2-1-1 Otsuka, Bunkyo-ku, Tokyo, 112-8610 Japan E-mail: {masunaga, kaz}@si.aoyama.ac.jp, s_takeuchi@irc.aoyama.ac.jp, d8108008@cc.aoyama.ac.jp {watanabe.chimei, oyama.naoko, tachi.kaoru}@ocha.ac.jp Abstract We are developing SERP Watcher. This is based on the finding of our research on web mining that the change of the ranking of the web pages appeared in the search engine results page (SERP) relates to the social change of the real world. SERP Watcher is actually an abbreviation of SERP Ranking Change Watcher. It judges that some changes might have happened by the real world, and warns the user when the fluctuation band or the change pattern tolerance exceeded specified level. When warning is originated, the user actually surveys the society. In other words, SERP Watcher takes the place of the questionnaire survey, the interview investigation or the field survey known in the field of the social science, and it has been thought to be able to become a new social investigation method. Keyword SERP Watcher, Web Mining, Search Engine, SERP, Social Science, Social Survey Method 1. はじめに 1.1. 研究 開発の目的ウェブには実世界のさまざまな出来事が写し込まれている. 実世界は時間の経過と共に時々刻々と変化しているので, その変化をウェブをマ イニングすることにより摑まえることができるならば, それを手がかりとして, 実世界で一体何が起こっているのかをタイムリーに知ることができるのではないかと考えられる. そこで我々は, 実世界の出来事はそれに関連する検索キーワー

ドによる検索エンジン結果ページ (search engine results page, SERP) のランキングに変動を与えるという知見 [5, 7, 10] に基づき, 利用者 ( 社会科学分野の研究者 ) が指定する検索キーワードに対して, さまざまな検索エンジンの SERP を定期的に収集し,SERP 順位の変動を分析し, その変容により警告を発して, 利用者に調査を促すシステムを開発している. ここではそのシステム開発の現状を報告する. 1.2. 研究 開発の背景 ウェブ (World Wide Web) には様々な主体が情報を発信し実世界での出来事や営為が写し込まれている. ウェブ 2.0 が提唱され, ウェブが有する潜在的可能性がますます顕在化されつつあるなか, 筆者らは, ウェブコミュニティの分析研究 [1~ 10] を通してウェブマイニングが社会科学の新しい研究方法論になりうる可能性を明らかにしてきた. 端的に表現すれば, 社会科学ではこれまで, アンケート調査, インタビュー調査, あるいは実地調査が主たる社会調査法として知られているが, これからはウェブマイニングがそれらに加えて, 有望な研究方法論になりうるのではないか, という知見である. また, その研究過程で, 検索サイト Google の SERP( search engine results page, 検索エンジン結果ページ ) には, その表示順位に Google が公表している順位付けストラテジでは解明しがたい不可解さがあることを発見して, 検索サイトの信用性 ( trustworthiness) に関する研究 [5, 7, 10] も発表してきた. この一連の研究で, 我々が次に行わなければならないとは ウェブマイニングは社会科学の新しい研究方法論 という, これまでの研究を通して得た発見を確たるものとすることである. 我々は, このような研究を進めるには, 単にデータベースエンジニアがウェブマイニングツールを構築して何かを検証しようとしても, ドメイン知識の欠落ゆえに, その真価を問えないことによりそれ以上研究が進捗しないことを認知し, 特に社会学で活発に研究が行われているジェンダー分野に焦点を当てて, ジェンダーに関するドメイン知識を豊富に有する者を研究チームの主要メンバーとして擁して研究を遂行することにより, 理工学の域を超えた研究成果を得ることに成功してきた. 換言すれば, 文理融合した研究体制を整えることにより, 初めてウェブマイニングの分析結果や SERP Ranking の信頼性を的確に判断することが可能となり, 研究が進展する一方, そこで得られた知見をエンジニアにフィードバックすることにより, 真に有用な工学的進展が達成されたのである. 1.3. 関連する研究 開発 SERP の順位はウェブページをデザインしたときに, 一番気になることである. ウェブページをデザインするにあたっては, ヒットしてほしい検索キーワードをソースコードの meta tag 部分で指定するのが普通であるが, その結果, それらのキーワードで検索をかけた場合に SERP での順位が大変気になることとなる. そのために,SEO (Search Engine Optimization) 技術が開発されてきたことはよく知られている. SERP に人々は敏感であるがゆえに, これまでいくつかのツールが開発されてきた. その典型が,SERP Checker 1 や SERP Rank 2 や Search Engine Position Checker 3 などのツールで, そのようなツールを提供するサイトにアクセスして, 以下のようなインタラクションのもと, 結果をうる : SERP Checker などが提供する機能 1. 注目するウェブサイトの URL を指定する. ここに注目するとは, たとえば自分が作成したウェブサイトである. 2. 検索キーワードを指定する. そのサイトがそのキーワードで検索された場合,SERP の何番目に位置するかを知りたい. 3. 着目する検索エンジンを ( 一般には複数個 ) 指定する. 4. それらを入力指定して, チェックを実行させると, 注目するウェブサイトが, 指定した検索キーワードのもと, どの検索エンジンで何位で表示されるか, という結果の一覧が表示される. 上記のツール以外では, 検索エンジンは世界にいくつかあることを念頭に, またそれぞれの検索エンジンの SERP 順位付けのストラテジが異なることを考慮に入れると, 検索キーワードを入力した場合, ひとつの検索エンジンに着目するのではなく, 複数の検索エンジンの SERP に留意した検索結果を得たいとする要求がある. このために, 大別すると次の二つのアプローチのもとツールが作成, 提供されてきた. 1. 統合型メタサーチエンジン 2. 非統合型メタサーチエンジン統合型メタサーチエンジンは指定された検索キーワードによるそれぞれの検索エンジンの SERP 順位を何らかの正規化と重み付けのアルゴリズムで計算し, SERP を合成してそれを検索結果としてユーザに返す. たとえば, 本を検索する場合に, いくつかのインターネット書店を一括して検索してそれらの結果を合成してユーザに返す例が挙げられる. 非統合型メタサーチエンジンは, 検索キーワードに対して, 指定された複数の検索エンジンでの SERP を並列に返すよう機能す 1 http://www.selfseo.com/serp_check.php 2 http://www.serprank.com/ 3 http://www.webmaster-toolkit.com/search-engineposition-checker.shtml 2

る. このような機能は広義にはマッシュアップ ( mushup) と考えられる. 検索エンジンが返す SERP は必ずしも利用者の検索意図に沿ったものではないとの観点から,SERP をできるだけ利用者の検索の意図に沿ったものとするため, 文脈の指定, 検索ログの利用などさまざまなアイディアのもと数多くの研究が行われている. ここでは, それらに一つ一つ言及することはしないが, このような研究も広義には検索エンジンをベースにしたマッシュアップの研究といえよう. 最近,Google 社が Google Trends 4 というサービスを開始した. これは検索キーワード ( 複数でもかまわない ) を指定すると, 過去にさかのぼり, そのキーワードが使われた頻度を時間軸上に表示してくれ, それと同期させる形で,Google ニュースの参照数から検索キーワードの使用頻度とニュースを関連付けてみることができるというサービスである.SERP Watcher と Google Trends は, ある検索キーワードに注目して指標を時系列的に追うところは同じであるが, 次の点で本質的に異なる. 1. Google Trends は検索キーワードが使用された頻度に着目しているのに対して,SERP Watcher は検索キーワードに関して Google を含む主要な検索エンジン毎で SERP 順位の変動に着目している点が異なる. 2. Google Trends は現時点から過去を振り返り検索キーワードの使用頻度変化を見るのに対して, SERP Watcher は指定された検索キーワードについて SERP 順位に変動が起きた時点で利用者に社会調査を喚起する点が異なる. 最近,Google はそのトップページで 急上昇 ( 検索キー ) ワード を 5 個表示するサービスを始めている. その他, 新規ウェブページの立ち上がりやウェブページの更新あるいは移動を監視して報告してくれるサービスを有料で行う会社 5 もある. 以下の議論で明らかになるように,SERP Watcher は上記のいずれの研究ともその目的や手法を異にするものである. ここで, 我々が開発している SERP Watcher と従来開発されてきた SERP Checker, あるいはメタサーチエンジンとの違いをまとめておくことは意味のあることと考えられるので, それを表 1 に示す. 1.4. 各章の内容の概要 以下, 第 2 章で,SERP Watcher の設計を論じる.2.1 節で SERP Watcher の持つべき性質を詳しく規定する. 2.2 節でそのシステム設計の概要を,2.3 節でそのデータベース機能を論じる. リレーショナルデータベース 4 http://www.google.co.jp/trends 5 http://searchenginewatch.com 構成を基本とするものの,OLAP キューブを構成することによる多次元データベース構成が有力な分析機能になることを示す.2.4 節では SERP Watcher のアラーム機能について論じる. 第 3 章では, これまで前実験として収集してきたいくつかのキーワードごとにとられてきた SERP の順位変動を分析して, アラート機能を実現するための考察を行う. 第 4 章は, まとめと今後の課題である. 表 1 関連研究のまとめ 各種ウェブツールの比較 Table 1. Summary of the Related Works -Comparison of Various Web Tools- 2. SERP Watcher その設計 2.1. SERP Watcher とは SERP Watcher とは, 以下に示す事項を考慮して実現される SERP 順位変動監視ツールである. 1. 同じ検索キーワードを入力しても, 検索エンジンが異なると SERP 自体が一般には異なる. これは, 検索エンジンのタイプ ( ロボット型かディレクトリ型か ), 同じ検索エンジンでも異なるアーカイブ (= 収集したウェブページ群 ) にアクセスしたことによるずれ, などが原因である. したがって, ツール構築の我々の目的が 新しい社会調査法 の提供にあるならば, 一つの検索エンジンに固執するのではなくて, 異なる検索エンジンについては皆, その SERP に注目しなければ, 社会の変動を見逃してしまうことにつながりかねず, 原則として全検索エンジンの SERP を監視の対象とする. 2. しかしながら, 本研究では, まずはロボット型検索エンジンを用いた検索サイトの SERP を監視することとする. なぜならば, 社会変動の予兆となるような SERP の変化は, ウェブサイトの登録 を前提とするディレクトリ型検索エンジンが捕捉するよりも時間的に前に, 登録もされていないウェブサイトのウェブページをロボットが拾ってきて,SERP の変動として現れるのではないか, という考えによる. 3

3. ここで, ロボット型検索エンジンの相関関係を考慮しておくことが, 重複したデータを収集しないためにも, また SERP 分析のためにも重要である. 図 1 にαSEO が示す 2008 年 12 月のロボット型検索エンジンの相関図を示す. 6 図 1 ロボット型検索エンジンの相関図 Fig 1. Correlation Diagram of Search Engine Robots 図からわかるように, 独立した検索エンジンを有する検索サイトは,Google, Yahoo! Japan, msn, fresheye, ASK.jp である. ちなみに,Infoseek 楽天は Google から powered by されている. このようにどこかの検索サイトから SERP を提供してもらっている検索サイトは原則として SERP Watcher の対象としなくてもよい. しかしながら, 我々がこれまで行った研究で,Google がその提携サイトに提供した SERP が Google 本体が使用した SERP と異なったものであるとしか結論の仕様がない事例を見つけており [5, 7, 10], Google, Yahoo! Japan, msn, fresheye, ASK.jp に加えて,Infoseek 楽天と excite も監視すべき検索サイトに加える. また, サービスを開始した 百度 も監視の対象とする. 4. 社会の変動は連続して監視される SERP 順位の変動に現れるであろうという知見をもとにツールは開発されねばならない. つまり, 我々のこれまでの研究から, たとえば, 我が国の男女共同参画社会基本法の制定をめぐって, ジェンダー擁護派とジェンダーバッシング派がそれらが擁するウェブサイトの SERP 順位を争って極めてめまぐるしく変動し, ジェンダーバッシング派が勝利した時点からは, その変動がぴたりと治まったという事例に遭遇している. 5. だからこそ,Watcher は指定された検索キーワードのもと, 複数検索エンジンの SERP を定期的に収集し分析して, 何らかの異変を検出したならば直ちに利用者 ( ここでまず想定しているのは, 社会の変動を鋭敏にキャッチしたいと考えている社会科学の研究者 ) にその異変を知らせる. SERP Watcher の提供する機能 6 http://www.alphaseo.jp/seo-report /081210_143352.html より引用 1. 検索キーワードを指定する. 検索キーワードの選定は, このキーワードによる何らかの検索エンジンの SERP が社会変動をキャッチすることがあるのではないか, と利用者が推測して取り上げたということである. 2. SERP Watcher のアラート条件を指定する. 条件としては,default 条件と ( それに優先する ) ユーザ指定の 2 種類を設定可能とする. 3. それらを入力指定して, あとは SERP Watcher の実行に任せると, それは定期的にさまざまな検索エンジンで指定された検索キーワードの SERP を監視し, アラート条件が 真 (true) となった時点で, 利用者に警告を発する. 2.2. SERP Watcher のシステム設計これまでの議論から,SERP Watcher は次の部分機能を有しないといけない. 1. 検索キーワード指定機能 2. アラート条件指定機能 3. SERP データベース構築機能 4. SERP データマイニング機能ここに,4. の SERP データマイニング機能は,3. の機能のもとで格納されていくストリームデータを対象に,2. で指定されたアラート条件が満たされていくかどうかを SERP 収集のタイミングで毎回検証する機能をいう. 図 2 に SERP Watcher の概念図を示す. 図 2 SERP Watcher の概念図 Fig 2. Conceptual Diagram of SERP Watcher 2.3. SERP Watcher のデータベース設計 SERP Watcher が取り扱うデータを一元的に管理するためのデータベースを設計する. 管理しなければならないデータ群は次のとおりである. 1. 利用者データ 2. 検索キーワードデータ 4

3. ( SERP の ) 収集日データ 4. SERP データ 5. ( SERP に現れる ) ウェブページデータ使用者データ, 検索キーワードデータ,SERP の収集日データ, そして SERP データの 4 項組で一つの意味のあるデータとなる. その SERP に現れる各ウェブページについて,URL, タイトル, スニペット, バックリンク ( の数と個々の URL) を収集 格納する必要がある. 図 3 に設計した SERP Watcher データベースのリレーショナルデータベーススキーマを示す. ここで,SERP Watcher データベースの性質について論じておくことは意味がある.2 つの特徴がある. 1. SERP は定期的に収集される. 2. 収集された SERP データは蓄積される一方で, 更新されることはない. つまり,SERP Watcher データベースは一種のストリームデータであり, なおかつ更新されることはないので,OLAP (Online Analytical Processing) 処理を行うことにより, 多次元的な分析が可能となる.OLAP には ROLAP と MOLAP という 2 つの実現方式があるが, SERP Watcher ではデータはリレーショナルデータベースとして組織化されているので, リレーショナルデータベースに格納されたデータを直接検索 集計し 結果をクライアント側で多次元データに構成して視覚化する ROLAP 方式で OLAP を実現することができる. 別の問題としては,SERP データは蓄積される一方なので, どのようなデータを不要と判断し, どのようなデータを捨てていくかという問題も生じる. この問題は, 定期的に収集する SERP データは時系列データであるとみなせば, ストリームデータマイニングで研究されてきたデータ抽象化の方法を導入することも考えられる. 2.4. SERP Watcher のアラーム機能指定された検索キーワードで定期的に SERP を収集していくとき,SERP 順位の時系列的変化にユーザが指定した変化が生じたときに, アラームが鳴る機能を アラーム機能 と呼んでいる.SERP 順位の変動がどのような条件を満たしたときにアラームが鳴るようにするのか, 自由に指定できるようにするために, アラーム記述言語 を策定する必要がある. この際, 考慮すべき点が 2 つある. 1. SERP は一般に複数の検索エンジンで収集されているので, 単一の検索エンジンの SERP 順位の変動だけに注目してアラームを鳴らすのか, そうではなくいくつかの検索エンジンで同時にアラーム条件が 真 となった場合にアラームを鳴らすのか, いずれの場合も条件を利用者が指定できる記述能力を有すること.( 利用者指定条件 ) 2. 利用者が何も指定をしない場合でも, ある種の条件が満たされれば, アラームが鳴るという default 機能を持たすこと.( Default 条件 ) 2.5. SERP Watcher の分析 表示機能アラームが鳴り, 利用者は SERP 順位の変動を確認しつつ, さらにその変動の原因を調査するために, SERP Watcher が有するべき分析と表示機能を論じる. 明らかにこの機能は収集された SERP Watcher データベースがリレーショナルデータベースとしての基本構成であることを前提として論じるのか, そうではなく, ( ROLAP に基づく )OLAP データベースとして論じるのかで使用できる演算子に違いが出るので, その結果機能にも違いを生じる. 端的にいえば, 次の違いである. 1. リレーショナルデータベースの基本構成の場合, リレーショナルデータベース言語 SQL で分析を行う. 2. OLAP の場合, 多次元データベース構成になるので, ダイス (dice), スライス (slice), ドリルダウン (drilldown) といった多次元分析に特有な演算を使える. もう一つ大事な機能として, アラームがなった時点で, 利用者に次の仕事ができるようなインタフェースを備えておくことが大事である. これらの機能は蓄積した SERP データを直接触るものではないが,SERP 順位の変動の原因を理解する上で, 欠かせない機能であると考えられる. 特に 2 つの機能を挙げる. 1. 現時点のウェブページ分析を行える機能 2. 過去に遡り, たとえば新聞記事などを閲覧できる機能 3. SERP Watcher のデータ可視化機能 SERP アーカイブを検索した結果を OLAP に基づいて可視化する機能をシステムに埋め込んだ. これにより社会科学の研究者が発想 分析することを支援する図 4 と図 5 にシステムのスクリーンショットを示す. 検索エンジン, 日付, 登録されている検索キーワードなどの中からどのディメンションを軸に設定するかの選択行為 ( ダイシング ) は画面上部のラジオボタンやプルダウンメニューから指定して組み合わせる. これにより様々な視点や角度からの分析, 集計が可能となる. 例えば, 図 4 では Google での ジェンダー の検索順位が時間とともにどのように推移を示したかを表示している. 一方図 5 では,2008 年 12 月 19 日での ジェンダー の検索順位がそれぞれの検索エンジンで何位であったかを一覧表示している. 他にもスライシング, ドリリングなどの一連の OLAP 操作をサポートしている. 5

また, 図 4 では 2008 年 12 月 19 日を基点とした表示結果, 図 5 では Google を基軸として展開しているが, 別の日付や検索エンジン名をクリックして指定することにより, その日付や検索エンジンで得た順位を帰順点として再読み込するような機能も有する. さらに, 基順点よりも順位が高くなると背景色を赤く, 低くなると青くなるようにし, その順位差に濃淡を付けている. これにより時系列的な推移や他要素との比較判別がより容易になる. この機能は視認性に優れており, 社会科学の研究者にとって優しいユーザインタフェースであると同時に, 強力な分析ツールとなる. なぜなら, 順位の入れ替わりに際しては社会科学的に大変興味深い事象が関連していることが多いからである. 4. まとめと今後の課題検索エンジン技術を用いた社会科学の多角的な調査を支援し, 新たな発見を支援するシステムを開発することで, ウェブマイニングが社会科学の新しい研究方法論になることを実証する目的で, SERP Watcher の構築を論じた. 今後の課題として,SERP Watcher のアラーム機能の分析,ROLAP による SERP 順位変動分析機能の設計, それに基づくユーザインタフェースの実現方式の精査があげられる. 謝辞 本研究は一部, 日本学術振興会平成 20 年度科学研究費補助金 ( 基盤研究 (B)) ( 課題番号 19300025) 社会科学の新しい研究方法論としての統合型ウェブマイニング環境の開発研究 の補助を受けて行われた. 図 4 多次元データの可視化例 ( 横軸 : 日時, 縦軸 : Web ページ, 対象 : 順位 ) Fig 4. A Visualization Example of Multidimensional Data (Horizontal axis: Date, Vertical axis: Web Pages, Subject: Rank) 図 5 多次元データの可視化例 ( 横軸 : 検索エンジン, 縦軸 :Web ページ, 対象 : 順位 ) Fig 5. A Visualization Example of Multidimensional Data (Horizontal axis: Search Engines, Vertical axis: Web Pages, Subject: Rank) 文献 [1] 増永良文, 小山直子 : ジェンダー関連 Web サイトのコミュニティ分析とポータルサイト構築 Web コミュニティの関連性から見たグローバル化, グローバル化とジェンダー規範 に関する研究報告書,pp.101-122, お茶の水女子大学,2002 年 3 月. [2] 小山直子, 増永良文 :Companion-を用いたジェンダー関連 Web コミュニティの詳細分析, 夏のデータベースワークショップ (DBWS2004) 会議録,7A-3, 2004 年 7 月. [3] 増永良文, 小山直子 :Web マイニングツールを用いたジェンダー関連 Web コミュニティの通時的分析, 日本データベース学会 Letters Vol.3, No.3, pp.21-24, 2004 年 12 月. [4] Naoko Oyama, Yoshifumi Masunaga, Kaoru Tachi: A Diachronic Analysis of Gender-related Web Communities using a HITS-based Mining Tool, Frontiers of WWW Research and Development --APWeb2006, LNCS3841, Springer, pp.355-366, January 2006. [5] 小山直子, 増永良文, 舘かおる : ウェブ検索ポータルサイトの信用性と透過性 検索キーワード ジェンダーフリー を通して見るウェブの世界 DEWS2006( 電子情報通信学会 17 回データ工学ワークショップ / 第 4 回日本データベース学会年次大会 ) 会議録, ISSN 1347-4413,1B-i7, 8p., 2006 年 3 月. [6] 小山直子 : 社会現象の分析手法としてのウェブマイニング 日本のデータベース研究最前線第 22 回, 月刊 D Bマガジン 2006 年 6 月号, 翔泳社. [7] 増永良文, 小山直子 : キーワード ジェンダーフリー を通してみる検索サイト Google の信用性と透明性, 日本データベース学会 Letters, Vol.5, No.2, pp.105-108, 2006 年 9 月. [8] 増永良文 : コンピュータサイエンス入門 コンピュータ ウェブ 社会 ( 本 ), 第 14 章ウェブと社会, サイエンス社,2008 年 1 月. [9] 石川沙織, 渡辺知恵美, 小山直子, 舘かおる, 増永良文 : 検索エンジン技術を用いた社会科学の多角的調査支援システムの開発,DEWS2008 A1-5, 2008 年 3 月. 6

[10] Naoko Oyama and Yoshifumi Masunaga: On the Trustworthiness and Transparency of a Web Search Site examined using Gender-equal as a Search Keyword, Proceedings of APWeb2008, LNCS, Springer, April 2008. 次ページに図 3( Fig 3) を掲載 7

図 3 SERP Watcher のデータベーススキーマ Fig 3. Database Schema of SERPWatcher 8