データベースと情報検索

Similar documents
Microsoft PowerPoint _3a-SEO.pptx

[ 演習 3-6AA] ウェブページの検索結果の表示順序 ( 重要 ) 10D H 坂田侑亮 10D F 岩附彰人 10D D 財津宏明 1.1 ページランクとは ページランクとは グーグルが開発した検索エンジンのウェブページの重要度を判定する技術である サーチエ

Microsoft Word - 常盤計画書0706

コンピュータ応用・演習 情報処理システム

Microsoft Word - GISA2007moblog.doc

WWWとブラウザの 過去,現在,未来

WWWを用いた情報検索

Microsoft Word - 目次.doc

リスク分析・シミュレーション

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

ProQuest PPT Styles

【最新版】定期報告タイプなんついWEBマニュアル _pptx

2 目次 1 はじめに 2 システム 3 ユーザインタフェース 4 評価 5 まとめと課題 参考文献

PowerPoint プレゼンテーション

Microsoft PowerPoint kiso.ppt

untitled

<4D F736F F F696E74202D CB4967B2D8F6F93FC8AC48E8B8D9E F8E9E8C9F8DF5817A D C882F182C282A C520837D836A B2E707074>

PowerPoint プレゼンテーション

01.indd

プリズムh1-07

untitled

CONTENTS Vol.65 No.2 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~~

CONTENTS Vol.63 No.3 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~~~~~~ ~~~~~~~~



Vol.33 CONTENTS

untitled

日本消防3月H1-4.三校.indd

CONTENTS Vol.67 No.12

はじめに Microsoft Forms( 以下フォーム ) は 九州産業大学の学生及び教職員が利用できる Office365 の機能の一つです アンケートやクイズ ( テスト ) を簡単な操作で作成することができます 作成したアンケートやクイズは マルチデバイスでの回答が可能で 回答は即時集計され

aichi_1_24_b

soto44_kosei_03.pdf


次 サイト概況 ( 直近 3 ヶ ) 1 流 経路のサマリ 16~17 サイト概況 ( 当 / 前 / 前年同 ) 2 流 経路広告サマリ 18~19 業界 較 サマリ 3 業界 較 流 経路 20 訪問数の推移 ( 別 ) 4 検索エンジンからの流 推移 21~22 新規とリピーター数の推移 (

日歯雑誌(H22・7月号)HP用/p06‐16 クリニカル① 田崎

NewsLetter-No2

スライド 1

Microsoft PowerPoint - 渡邊研B4輪講_加古将規.pptx

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

目次 調査対象企業 P.3 Web サイトのページの数 P.4 アクセス解析ツールの有無 P.5~6 リスティング ( 検索連動型広告 ) 実施の有無 P.7~8 常時 SSL 対応の有無 P.9~10 モバイル対応の有無 P.11~12 企業データ P.13 お問い合わせについて P.14 2

V.ブラウザの使い方

Ⅴ ブラウザーの使い方 V. ブラウザーの使い方 起動 終了 画面説明 ホームページ移動 リンクを使って移動 アドレスバーからの移動 ボタンでの移動

DEIM Forum 2014 P3-3 A Foreseeing System of Search Results based on Query Operations on the Graph Interface

SULMS簡単操作マニュアル

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 0


研究開発の概要のイメージ ①画像 音声 映像情報の分析技術 周辺コンテンツや他情報源から収集したテキスト情報の分析 画像特徴量分析による信憑性検証 Web画像の典型度 過不足性 W b画像の典型度 過不足性 整合性の分析 映像 音声の偏り分析や 映像 音声の偏り分析や 視聴者評価情報の分析 Webア

PowerPoint プレゼンテーション

JOCAR操作マニュアル ネット掲載

PowerPoint プレゼンテーション

13.1 ログイン ID の変更 ログイン ID を変更する手順について説明します 画面 操作概要 トップ (1) グローバルメニュー ログイン ID の変更 を選択 ログイン ID の変更 (2) ログイン ID を変更 ログイン ID の変更 (3) ログイン ID の変更を完了 2

Microsoft PowerPoint - 簡易マニュアル_ver1.1.ppt [互換モード]

A Constructive Approach to Gene Expression Dynamics

SQL インジェクションの脆弱性

Microsoft Word - H1369 インターネット1(IE版)(T)

PowerPoint Presentation

PowerPoint プレゼンテーション

<4D F736F F D E815B836C F898B89914F95D C5816A>

マニュアルの見方 マニュアルの見方 マニュアルの見方について説明します 操作の前提条件です ある場合のみ記載しています 操作の前に確認してほしい重要事項です ある場合のみ記載しています 1 操作手順に対応した操作画面上の操作 箇所です 関連ページがある場合は 参照先の ページ番号を記載しています 操

Microsoft Word - Stattext12.doc

Microsoft PowerPoint - 10.pptx

日心TWS

グーグル検索マクロの使い方

エクセル応用 2016 第 1 章関数の利用 1 作成するブックを確認する 2 関数の概要 3 数値の四捨五入 切り捨て 切り上げを使う 4 順位を求める 5 条件で判断する 6 日付を計算する 7 表から該当データを参照する 第 2 章表作成の活用 1 作成するブックを確認する 2 条件付き書式を

7.1 研究者情報の修正 e-rad に登録している自身の情報を修正する手順について説明します 画面 操作概要 トップ (1) グローバルメニュー 研究者情報の修正 を選択 研究者情報の修正 (2) 研究者の情報を修正 研究者情報の修正 ( 入力内容の確認 ) (3) 修正した研究者の情報を確認 研

2. オプション設定画面で, 必要事項を記入 選択します. 少なくとも, タイトル に課題の見出しとなる文章を入力する他, 種別 を アンケート( 無記名式 ) に設定する必要があります. また, アクセス制限はここでは コースメニューで非表示にする に設定します. その他設定は必要に応じて行って下

目次 1. 履修カルテシステム利用にあたって 動作環境 アクセス URL システムの使い方 教職課程履修カルテ WEB システムへのログイン 各画面共通構造 について 情報一覧

PowerPoint プレゼンテーション

PowerPoint Presentation

CONTENTS マニュアルの表記... S01-13_01 1.DataNature Smart 全体概要図... S01-13_11 2. 基本操作... S01-13_ Web レポートの表示... S01-13_ 画面構成... S01-13_ 集計表 /

1/2

Microsoft PowerPoint - 04_01_text_UML_03-Sequence-Com.ppt

PowerPoint Presentation

目次 1 画像 図表番号 画像を挿入する 挿入した画像を動かす 画像の不要な部分をカット ( トリミング ) する Excel で作成したグラフを挿入する 図表番号を挿入する 引用文献... 9

CloudEdgeあんしんプラス月次レポート解説書(1_0版) _docx

ProQuest PPT Styles

マニュアルの表記 呼称について本マニュアルでは以下の呼称を使用しています DataNature Smart 管理ツール :DN 管理ツール DataNature Smart クライアント :DN クライアント 画面に表示されるコマンド名などの文字コマンド名やダイアログボックス名など 画面上の固有の文

景気指標の新しい動向

ユーザ管理マニュアル ユーザ管理マニュアル改訂履歴 版 日付 頁 内容 第 1.0 版 2013/2/25 全頁 第 1.1 版 2013/11/25 全頁 メールアドレス未登録時の記載を削除 第 1.2 版 2014/07/14 全項 東証ロゴマーク変更 第 1.3 版 2018/07/25 10

Microsoft Word - planck定数.doc

_PressRelease-jp.pages

更新履歴 変更履歴 版数 リリース日 更新内容 第 1 版 2017/5/15 第 1 版発行 第 2 版 2017/7/13 更新履歴 変更内容を追加 (2ページ) 編集の前に を追加(8 ページ ) ブロックエディタ スマートモード エディタモード の説明を追加 (10~12 ページ ) ブロッ

独立行政法人産業技術総合研究所 PMID-Extractor ユーザ利用マニュアル バイオメディシナル情報研究センター 2009/03/09 第 1.0 版

1. ログイン 1-1 管理画面へのログイン 施設の作成 編集 削除や承認 公開には その操作権限を持つアカウントでログイン します アカウントについての詳細は 管理者にお問い合わせください (1) [ ユーザー ID またはメールアドレス ] と [ パスワード ] を入力後 [ ログイン ] を

Microsoft Word - CiNiiの使い方.doc

キャッシュポイズニング攻撃対策

intra-mart Accel Collaboration — アンケート 管理者操作ガイド   第2版  

スライド 1

メール全文検索アプリケーション Sylph-Searcher のご紹介 SRA OSS, Inc. 日本支社技術部チーフエンジニア Sylpheed 開発者 山本博之 Copyright 2007 SRA OSS, Inc. Japan All right

Microsoft Word - rocketcms_manual01

umeda_1118web(2).pptx

Probit , Mixed logit

Web情報検索の新技術と動向

<89C88CA B28DB88C8B89CA955C8F4390B394C E786C73782E786C73>

PowerPoint プレゼンテーション

投影片 1

ソフトウェア基礎 Ⅰ Report#2 提出日 : 2009 年 8 月 11 日 所属 : 工学部情報工学科 学籍番号 : K 氏名 : 當銘孔太

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

目次 1. サイトの構成 画面説明 ログイン画面 環境チェック画面 パスワード確認画面 ユーザー新規登録画面 コンテンツの選択 トップページ画面 トピックス一覧

Transcription:

データベースと情報検索 情報検索 (5) 検索エンジンの仕組み 教員岩村雅一

日程 ( 情報検索 : 担当岩村 ) 12/9 検索エンジンを使ってみる 12/16 メディア検索を使ってみる 12/25 ウェブアプリケーションを使ってみ る 1/9 検索エンジンを用いた演習 1/2 検索エンジンの仕組み 1/27 メディア検索の仕組み 2/3 消費者生成メディアの最近

Web の構造 グラフ構造 ページ ここにリンクがある こっちにもリンク アンカー リンク

Web のサイズ

Web の地図 どんな形? ランダム?

Web の地図 : 蝶ネクタイ理論 Web の直径は? 1 クリックくらい 1 くらい 1 くらい 1 万以上 19 クリック (1999 年 ) コアに到達可 コアから到達不可 コアから到達可 コアに到達不可 強連結な部分 IBM の HP より

Web の利用 ( アンケート ) Web での調べ物 ディレクトリ サービス主体? 検索エンジン主体? 検索エンジンに入れるキーワードの数は? 1 個 2 個 3 個 4 個 5 個 それ以上

検索キーワード数 OneStat.com 調べ (24 年 7 月 ) 1. 2 語 : 3.9% 2. 1 語 : 26.83% 3. 3 語 : 16.6% 4. 4 語 : 14.83% 5. 5 語 : 6.76% 6. 6 語 : 2.81% 7. 7 語 : 1.13%

簡単な検索 キーワードの有無 1 億ものページを 数語で区別可能? 限界あり 別の 何か賢い方法が必要? どのような可能性が考えられるか?

参考文献 Google の秘密 - PageRank 徹底解説馬場肇 http://homepage2.nifty.com/baba_hajime/wais /pagerank.html サーチエンジン Google 山名早人 近藤秀和情報処理, Vol.42, No.8, 21 WWW サーチエンジンの作り方原田昌紀情報処理, Vol.41, No.1, 2

Google Page & Brin により設立された (1998) Stanfordの大学院生 データマイニングを研究 世界最大級の情報を持つ検索エンジン 8 億ページ (25.4 現在 ) クラスタ コンピューティング PC4.5 万台から8 万台 (CPUは倍; 予測値 ) 2 千 ~6 千テラバイト (1テラ=1,,,,=1 兆 )

PC 台数の推移

ソフトウェア構成 収集 アンカーの情報 相対 URL を絶対 URL に変更 アンカー部分のテキスト情報 web ページの相互リンク情報 圧縮 anchor, word, word 位置などの抽出 word から word- ID へのハッシュ doc-id から word-id への索引とその逆 逆向きの索引を作成

Mining= 採鉱 ( 鉱石を採掘すること ) Data Mining データ = 鉱山 埋もれた有益な情報 = 鉱石 Text Mining データがテキストとして与えられたもの IBM の事例が有名 Web Mining Mining の対象が web PageRank は Web Mining の一種

Web Mining Web Contents Mining Web からの情報抽出やテキストマイニング Web Usage Mining ログやクリック履歴を解析してアクセスパターンを分析 Web Structure Mining リンク構造に基づくマイニング PageRank はこの一種

PageRank 基本的な考え方 多くの重要なページからリンクされているページは やはり重要なページである リンク = 投票 ただし 1 ページが 1 票持っているのではない ページの 重要度 に応じた票数

重要度 Google の秘密 - PageRank 徹底解説馬場肇より引用

重要度の意味 被リンク数 リンクされていれば それだけ重要度は大 リンク元の重要度 重要度が高いページからのリンクは高く評価 リンク元のリンク数 選び抜かれたリンクならば重要視 小 大 小 大

PageRank の計算 重要度の初期値を定める 推移確率に従って重要度を伝播 収束した結果をPageRankとする

小規模な例に対する PageRank.61.166 PageRank の値が最大のページは?.45.34.141.179.15 Google の秘密 - PageRank 徹底解説馬場肇より引用

PageRank の評価 順位 PageRank 文書 ID 発リンクID 被リンクID 1.34 1 2,3,4,5,7 2,3,5,6 2.179 5 1,3,4,6 1,4,6,7 3.166 2 1 1,3,4 4.141 3 1,2 1,4,5 5.15 4 2,3,5 1,5 6.61 7 5 1 7.45 6 1,5 5

PageRank の意味と計算 ランダムにリンクを辿るユーザが 一定時間に 各ページを訪問する確率 ちょっと高度な内容 推移確率を行列で表したとき最大固有値に対する固有ベクトルが PageRank となる 詳しいことは Google で PageRank を検索して出てくる Google の秘密 - PageRank 徹底解説 を見て!

リンク構造の表現 隣接行列で表す A= 1 i ページ i から j にリンクがあれば aij=1 j

小規模な例 TO A= 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 F R O M

推移確率行列 推移確率行列 M FROM 1 1 1 1 1 1 1 1 1 1 T A T = 1 1 1 1 1 1 O M = 1 1 1/5 1/5 1/5 1/5 1/5 1 1/2 1/2 1/3 1/3 1/3 1/4 1/4 1/4 1/4 1/2 1/2 1 和が 1

PageRank の計算 重要度の初期値を定める 推移確率行列に従って重要度を伝播 収束した結果をPageRankとする

PageRank の計算 収束したときのPageRankをR( ベクトル ) とすると R cmr これは良く見ると MR R において λ=1/c としたもの

PageRank の計算 要するに M の固有値と固有ベクトルを求めればよい R は 絶対値最大の固有値に対する固有ベクトル ( 優固有ベクトル )

小規模な例に対する PageRank.61.166.45.34.141 R=.34.166.141.15.179.45.61 1 2 3 4 5 6 7.179.15

現実の問題への適用 1. 数学用語 2. 現実世界との相違 3. 数値計算の方法

数学用語 (1) PageRank はマルコフ過程と関連している PageRank が表す量 ランダムにリンクを辿って動くユーザが 一定の時間のうちにそれぞれのページを訪問する定常分布 ただし 推移確率行列が既約であることが条件

数学用語 (2) 再帰 状態 i から出発していつかは i に戻る確率が 1 のとき 状態 i は再帰的という 強連結 任意の頂点から出発して 他の任意の頂点へ到達できること

数学用語 (3) 再帰類 リンクをたどっていける範囲 再帰類 既約 ただ一つの再帰類しかできないこと 強連結なら既約 非再帰類

現実世界との相違 (1): 問題点 理論では既約 ( 強連結 ) を仮定 実際にはこの仮定は成り立たない リンクが出ていないページ リンクされていないページ 推移確率行列が既約でないとどうなるか 優固有ベクトルが複数存在 PageRankが一意に定まらない

現実世界との相違 (2): 解決策 推移確率行列を既約にする M ' M (1 ) 1 N.85 意味 すべての要素が 1/N である N 次正方行列 ユーザは時々 ( 確率 1-μ で ) 全く無関係なページにジャンプする

数値計算の方法 大規模疎行列の計算 メモリの問題は出てこない 優固有ベクトルの計算 固有値をすべて求めるのは計算量が多い べき乗法で求める

PageRank の使い方 PageRank の値 検索質問 ( 入力されるキーワード ) に依存しない 検索質問に対する回答 PageRank でランキングされたページの中から 類似ページを探し出す処理が必要

試してみよう ページランクが分かるページ http://pagerank.bookstudio.com/ ページランクの計算 http://www.webworkshop.net/pagerank_ calculator.php http://www.markhorrell.com/seo/pagera nk.asp など

レポート課題 PageRank を調べてみよ pagerank を調べることができるサイトがある それを使って いくつかサイトのランクを調べる 妥当性を論じる 適当に設定した小規模なグラフに対して PageRank を求めてみよ グラフの構造と値を見比べて考察 妥当な値かどうか