(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

Similar documents
nlp1-12.key

Microsoft PowerPoint - pr_12_template-bs.pptx

1. はじめに 2

2 目次 1 はじめに 2 システム 3 ユーザインタフェース 4 評価 5 まとめと課題 参考文献

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

9 WEB監視

画像類似度測定の初歩的な手法の検証

時空間特徴を用いた Web動画からの特定動作対応ショットの 自動抽出

4. WIX アタッチエンジン 4. 1 FSDR 処理 システムの Web 資源結合動作であるアタッチ処理について 述べる. アタッチ処理は以下の 4 フェーズに分けられる. この一連の 流れを FSDR 処理とする. Find 処理 Select 処理 Decide 処理 Rewrite 処理


二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

Microsoft PowerPoint _3a-SEO.pptx

言語間比較によるWikipediaの補完情報抽出手法の提案

DEIM Forum 2014 P3-3 A Foreseeing System of Search Results based on Query Operations on the Graph Interface

Webプログラミング演習

電子情報通信学会ワードテンプレート (タイトル)

スライド 1

AFP FORUM

Microsoft Word - deim2016再提出.docx

Web WIX WIX WIX Web Web Web WIX WIX WIX Web 3. Web Index 3. 1 Web Index (WIX), Web. Web, WIX, Web ( WIX ), URL WIX 1 entry wid eid keyword targe

Bluemix いつでもWebinarシリーズ 第15回 「Bluemix概説(改訂版)」

コンピュータ応用・演習 情報処理システム

Automatic Collection of Web Video Shots Corresponding to Specific Actions using Web Images

■デザイン

24 Region-Based Image Retrieval using Fuzzy Clustering

Webサイト解析 ログ分析レポート

Microsoft Word - 06.doc

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

R-2 マイページトップ マイページのトップページです メニューバーより機能を選択し 様々な情報を表示します メニューバー [ ブログ ]: ブログ一覧画面を表示します [ ブログ閲覧履歴 ]: ブログの閲覧履歴一覧画面を表示します [ メッセージ ]: メッセージ確認画面を表示します [ 訪問履歴

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション


[ 演習 3-6AA] ウェブページの検索結果の表示順序 ( 重要 ) 10D H 坂田侑亮 10D F 岩附彰人 10D D 財津宏明 1.1 ページランクとは ページランクとは グーグルが開発した検索エンジンのウェブページの重要度を判定する技術である サーチエ

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

Progress report

スーパー英語アカデミック版Ver.2

Microsoft Word MT操作マニュアル(ユーザ編).doc

HOME PAGE RENEWAL PLAN 有限会社マインドアクセス

スライド 1

Microsoft Word - WebClass Ver 9.08f 主な追加機能・修正点.docx

XMLとXSLT

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

untitled

IMI情報共有基盤 「表からデータモデル」 データ変換のみを行う方向け画面説明

<906C8AD482C B835E E815B836C C9F8DF5>

スライド 1

<4D F736F F F696E74202D C8D4891E52089A E690B681698F4390B3816A2E707074>

(Microsoft PowerPoint -

スライド 1

ブログの新規登録 1. ブログの新規登録 ブログを初めて利用するには ブログを新規登録する必要があります JCAN サイドメニューの ブログ をクリックします 既に JCAN ブログを始めている人は ブログの新規登録は不要です ブログ をクリック後は管理画面へ移動するようになります 1-1 ブログ

6回目

<4D F736F F F696E74202D2093B CC8BE68AD B B82CC8AD AF95FB96405F88EA94CA ED28CFC82AF82C995D28F575F826C A6D94462E >

WWWを用いた情報検索

月刊SEOレポート 2019年7月版 Vol.111

Microsoft Word - 目次.doc

untitled

0210研究会

京都立石神井高等学校平成 31 年度教科 ( 外国語 ( 英語 ) ) 科目 ( 英語表現 Ⅱ ) 年間授業計 ( 標準 α) 教 科 : 外国語 ( 英語 ) 科目 : 英語表現 Ⅱ 単位数 : 2 単位 対象学年組 : 第 2 学年 A 組 ~G 組 教科担当者 :(A 組 : 岡本 松井 )(

untitled

生命情報学

intra-mart Accel Platform — イベントナビゲータ 開発ガイド   初版  

PowerPoint プレゼンテーション

DMtoJPGISVer1.0 操作説明書 平成 19 年 3 月 国土交通省国土地理院

メタデータスキーマレジストリ MetaBridge の概要

目 次 1.SNS の概要 1.1 SNS の概要 地域 SNS の起動 地域 SNS の画面構成 自己紹介の設定 2.1 自己紹介の設定 ブログ 3.1 ブログを書く コメントを書く コミュニティ 4.1 コミュニティに

PowerPoint プレゼンテーション

[3] [4] Google [5] [6] [7] [8] [9] [10] [11] [12] Cookpad [1] Cookpad A B C

OpenCms_8_5_1_Taglib_Documentation_ja1_0

PowerPoint プレゼンテーション

[ ]スマートセミナーバージョンアップリリースノート

大域照明計算手法開発のためのレンダリングフレームワーク Lightmetrica: 拡張 検証に特化した研究開発のためレンダラ 図 1: Lightmetrica を用いてレンダリングした画像例 シーンは拡散反射面 光沢面を含み 複数の面光 源を用いて ピンホールカメラを用いてレンダリングを行った

コンテンツセントリックネットワーク技術を用いた ストリームデータ配信システムの設計と実装

スライド 1

Microsoft Word - NEWSマニュアル docx

スライド 1

名称未設定

Exfront4.1.0リリースノート

Delphi/400を使用したWebサービスアプリケーション

図1 ネイルレシピ検索システム概要 ントを取得することによって ユーザの持っている服に似合う コーディネートを検索するシステムを構築することを目的とし ている [7] 本研究では ネイルレシピを対象としており 場 所に対応しているかだけでなく ユーザの好みや腕も考慮して いる 津田らは 爪の反射率の

Microsoft PowerPoint - mp11-06.pptx

chapter1 Web デザインへのアプローチ chapter1 Web デザインへのアプローチ 1-1 本書の構成 Web サイト制作の流れ 本書の構成と内容 1-2 Web サイト制作業界の人材像 Web サイト制作に必要な職掌と役割 各職掌の役

ユーザーのページ

直接 Reports & Statistics タブへの移動も可能です A. Publication Finder の統計を取得する Publication Finder Reports 1 Publication Finder タブが選択されていることをご確認下さい 2 下記項目を入力して下さい

合宿事前講座 Web 開発の基本編その 2 情報研究会モブ 薗田海樹 The. H.30 情報研究会 1

独立行政法人産業技術総合研究所 PMID-Extractor ユーザ利用マニュアル バイオメディシナル情報研究センター 2009/03/09 第 1.0 版

Microsoft Word - EDSマニュアル.doc

実験 5 CGI プログラミング 1 目的 動的にWebページを作成する手法の一つであるCGIについてプログラミングを通じて基本的な仕組みを学ぶ 2 実験 実験 1 Webサーバの設定確認と起動 (1)/etc/httpd/conf にある httpd.conf ファイルの cgi-bin に関する

コンテンツ作成基本編

月刊SEOレポート 2019年1月版 Vol.105

2. メンバー管理 2.1 管理者権限 2.2 組織の登録 2.3 役職の登録 2.4 メンバーの登録 2.5 共有アドレス帳 2.6 グループの管理

extension機能概要マニュアル

ダイアログボックス内内でのパラメータ設定 : las ファイルを例として説明します 他の形式もことわりがない限り同様の操操作です 1 元パス : 変換換対象の点群群データのファイル (*.las) を保存しているフォルダを指指定します las ファイルが 1 つの場合合 直接 las ファイルが所在

エクセル応用 2016 第 1 章関数の利用 1 作成するブックを確認する 2 関数の概要 3 数値の四捨五入 切り捨て 切り上げを使う 4 順位を求める 5 条件で判断する 6 日付を計算する 7 表から該当データを参照する 第 2 章表作成の活用 1 作成するブックを確認する 2 条件付き書式を

Movable Type CMS Movable Type Movable Type 5.2 CMS

NGSデータ解析入門Webセミナー

メタデータ管理システム

スライド 1

Microsoft Word - GISA2007moblog.doc

言語資源活用ワークショップ 2019 発表論文集 半教師あり語義曖昧性解消における各ジャンルの語義なし用例文の利用 谷田部梨恵 ( 茨城大学大学院理工学研究科 ) 佐々木稔 ( 茨城大学工学部情報工学科 ) Semi-Supervised Word Sense Disambiguation Usin

共有辞書を用いた 効率の良い圧縮アルゴリズム

Transcription:

Web ページタイプによるクラスタリングを用いた検索支援システム 折原大内海彰電気通信大学システム工学専攻 はじめに 背景 文書クラスタリングを用いた検索支援システム Clusty(http://clusty.jp/) KartOO(http://www.kartoo.com/) Carrot(http://www.carrot-search.com/) これらはすべてトピックによる分類を行っている 動機 ユーザが望む分類はトピックだけではない ニュースサイト /blog などジャンルによる分類 画像や動画の有無による分類 企業 大学などのオフィシャルサイトかどうかによる分類 008/09/ NLP 若手の会第 回シンポジウム 分類例 例 : カルボナーラのレシピを写真つきで欲しい! レシピ ( 画像つき ) レシピ ( 文字のみ ) 分類例 例 : 年金問題についてのニュース記事 / 個人的な意見が知りたい! ニュースサイト blog サイト 本研究の目的 本研究の目的 HTML タグを用いることで, トピックによる分類ではなく,Web ページの形式 ( ページタイプ ) による分類 用意されたカテゴリへの分類 (classification) ではなく, クラスタリング手法を用い検索結果に応じた動的な分類 (clustering) HTML タグの出現頻度情報を元にした素性の提案 関連研究との比較 - 分類手法 トピックによる分類 予め用意したカテゴリへの静的な分類 (classification) 同義語, 多義語の考慮による文書分類の精度向上 [ 上嶋,0] クラスタリングによる動的な分類 (clustering) 構造的言語処理による大規模ウェブ情報のクラスタリング [ 馬場,07] A Search Result Clustering Method using Informatively Named Entities [Toda,0] ページタイプによる分類 予め用意したカテゴリへの静的な分類 (classification) Learning to Classify Documents According to Genre [Finn,0] Multiple Sets of Features for Automatic Genre Classification of Web Documents [Lim,0] クラスタリングによる動的な分類 (clustering) Unsupervised Non-topical Classification of Documents [Bekkerman,0](note: 新聞記事を対象としている ) 本研究では Web ページタイプによるクラスタリング手法を提案

関連研究との比較 - 素性 関連研究で扱われている素性 語に基づく情報 単語の出現頻度 (Bag-of-Wards, BoW) 品詞の出現頻度 (Part-of-Speech, PoS) 各カテゴリに固有のキーワード 文書に基づく情報 疑問文, 命令文などの文型や, 名詞句や動名詞句などの句の出現頻度 文や段落の平均の長さなどの統計的情報 (Text Statistics) Web 特有の情報 HTML タグの出現頻度 タイトルに関する情報 URL に関する情報 ( 深さ, ドキュメントタイプ (html,pdf など ), ドメインなど ) 本研究では HTML タグの出現頻度を元にした関連研究とは異なる新しい素性を提案 ページタイプによるクラスタリングを用いた検索支援システム. Live Search より検索結果上位 n 件を取得. 各ページの HTML ソースを取得. 次の つの Step でクラスタリングを行う Step- 特徴ベクトルの構成 Step-F HTML タグの頻度に基づく特徴ベクトル Setp-T HTML タグの木構造に基づく特徴ベクトル Step- 類似度の計算 Step- クラスタの生成. 各クラスタの重心に最も近いページをクラスタの代表とし, キャプチャ画像をユーザに提示 7 Step-F 頻度に基づく特徴ベクトル 各 Web ページを HTML タグの頻度に基づく特徴ベクトルで表現. HTML タグを抽出. 分割数 と n-gram による特徴ベクトルの属性を決定. 属性値のカウント方法 と IDF 値の考慮の有無 による属性値を計算. 各特徴ベクトルの長さを に正規化 Step-F. 属性の決定 分割数 タグがどの位置に出現しているかを考慮する要素 抽出されたタグを分割数 m で等分し 各範囲で つの属性とみなす n-gram 連続するタグの組み合わせを考慮する要素 抽出されたタグを連続する n 個の組み合わせで つの属性とみなす 8 9 Step-F. 属性の決定 ( 分割数 ) Step-F. 属性の決定 (n-gram) <H> <H> <H> <H> A B つに分割 分割数がの場合 A B <H> 0 <H> 0 0 <H> <H> <H> <H> <H> n-gram がの場合 <H> <H> <H> 0

Step-F. 属性の決定 Step-F. 属性値の計算 <H> <H> <H> <H> -gram <H> <H> <H> <H> <H> A B 分割数が, かつ, n-gram が の場合 <H> <H> <H> A B 0 0 属性値のカウント方法 一般的な出現回数をカウントする 頻度 その属性が出現したかどうかの 値をとる 有無 IDF 値の考慮の有無 IDF 値の考慮 あり IDF 値の考慮 なし Step-F. 属性値の計算 ( 頻度 有無 ) Step-T 木構造に基づく特徴ベクトル <H> <H> <H> <H> 頻度 と 有無 頻度 有無 <H> <H> <H> 0 0 各 Web ページを HTML タグの木構造に基づく特徴ベクトルで表現. HTML タグの木構造を 分木に置き換える. 分木に対応する Binary Branch を定義する. Binary Branch を用いて Binary Branch Vector を求めこれを特徴ベクトルとする. 各特徴ベクトルの長さを に正規化する Step-T. 分木へ置き換え Step-T. 分木へ置き換え HTML 文書から HTML タグの木構造を取り出し 次の方法で 分木へ置き換える. すべての兄弟のノードをリンクで結ぶ. 各ノードの最初の子ノードとのリンクを除く全てのリンクを削除する 変換後に該当する子ノードがない場合はノード を付加する 7

Step-T. 分木へ置き換え Step-T. 分木へ置き換え. 全ての兄弟ノードをリンクで結ぶ. 最初の子とのリンクを除く全てのリンクを削除 8 9 Step-T. 分木へ置き換え 子ノードがない場合はノード を付加 Step-T. Binary Branch を定義 Step-. で作成された 分木のうち 階層分を取り出したものを Binary Branch とする Binary Branch 0 Step-T. Binary Branch Vector Step-. で求めた Binary Branch を要素とし 各要素の値は頻度とする Binary Branch Vector を求める これを特徴ベクトルをする Binary Branch 特徴ベクトル = (,,,, ) Step- 類似度の計算 Step- クラスタの生成 類似度 多次元ユークリッド空間の距離を利用 クラスタリング手法 クラスタリングアルゴリズム : 階層的手法 クラスタ間の類似度の計算手法 :Ward 法 停止条件 : ページ総数の 割を超えるクラスタが作成される直前

検索支援システム出力例 C# により作成 評価実験 提案する手法を実装し, 有用性を検証 分類精度による評価 データ アンケートにより作成した分類正解データ ( 件 ) 比較手法 単語の分布に基づく手法 (BoW) Bekkerman らの手法 [Bekkerman,0] 検索支援システムとしての評価 データ 名のユーザに試用してもらい, 回答となるページを取得するまでの早さ, 多さを比較 比較手法 Live Search による検索と比較 評価データ - 分類精度 (/) 評価データ - 分類精度 (/) 以下の手順で正解データを作成. 各人が検索エンジンを用いて自由に検索. 得られた検索結果の上位 00 件を全て閲覧 PDF, XML などは対象外とする 分類が難しいページは その他 に分類してもらい 評価データからは対象外とする. 見た目やスタイルが似ているものどうしに分類してください と教示し. で閲覧したページを自由に分類 Data0 Data0 Data0 Data0 Data0 Data0 Data07 Data08 Data09 Data0 Data 表 : アンケートにより作成した評価データのページ数およびグループ数 ページ数 7 9 グループ数 8 9 7 Data Data Data Data Data Data7 Data8 Data9 Data0 Data ページ数 0 7 9 7 99 8 グループ数 8 9 7 評価データ - 分類精度 (/) 正解データ例 Date07 検索クエリ : 最近, 人気, 映画 ユーザが付けた分類グループ名 映画関連のニュースサイト 映画の内容, 人物などの紹介 映画製品 DVD などの紹介 ブログなどの個人の意見, 感想 Data 検索クエリ : ロボット, 学習, 制御 ユーザが付けた分類グループ名 学校機関系 書籍関係 解説系 評価基準 - 分類精度 F 値の考え方をもとに クラスタ群対の F 値を計算 完全 部グラフの重みつき最大マッチング問題を解くことでクラスタ群対の F 値とする システムが出力したクラスタ群 ( 辺の重み )= クラスタ対の F 値 ここではシステムが出力するクラスタ数は正解データのグループ数と同数とする S S S Sc 正解データのクラスタ群 L L L Lc 8 9

評価結果 - 分類精度 (/) 評価結果 - 分類精度 (/) HTML タグの頻度に基づく特徴ベクトルの構築では, 以下のパラメータが最適 分割数 : 比較手法よりも本研究で提案する つの手法において分類精度が向上 n-gram: 表 : 提案手法と既存手法との比較 属性値のカウント方法 : 有無 IDF 値の考慮の有無 : なし タグの木構造木構造に基づくづく特徴特徴ベクトル 平均 F 値 0.78 表 :n-gram による平均 F 値 表 : 分割数による平均 F 値 タグの頻度頻度に基づくづく特徴特徴ベクトル ( 最適なパラメータ ) 0.77 表 : 属性値,IDF の考慮の違いによる平均 F 値 属性値 n-gram -gram 平均 F 値 0.0 分割数 平均 F 値 0.7 Bekkerman らの手法 Bag-of-Words (BoW) 0.9 0. 頻度 有無 -gram 0. 0.0 IDF の考慮 あり なし 0. 0. 0. 0.0 -gram -gram 0.7 0.8 0.77 0. -gram 0. 0. 0 評価結果 検索支援システム 今後の課題 名のユーザに試用してもらった 次のような検索要求において本システムが有用であった 料理のレシピを検索した際に, 画像付きで解説されているページが欲しい 文書クラスタリング手法を検索した際に, 具体的な内容が書かれているページが欲しい 学会のプログラムが書かれているページが分別された 今後, 検索要求タスクを設定し本評価を行う 検索支援システムとしての問題点を改良 検索結果 ( クラスタリング結果 ) 出力までの時間がかかりすぎる 0 件の検索結果をクラスタリングするのに約 0 クラスタリング結果の提示方法 クラスタの代表となるページのキャプチャ画像を提示しているが トピックとページタイプを組み合わせたクラスタリング手法の提案