言語間比較によるWikipediaの補完情報抽出手法の提案

Similar documents
言語間比較に基づくWikipediaの補完情報抽出手法の提案

言語間比較に基づくWikipediaの補完情報抽出手法の提案

日本内科学会雑誌第97巻第7号

日本内科学会雑誌第98巻第4号

PowerPoint プレゼンテーション

Ł\”ƒ-2005

第90回日本感染症学会学術講演会抄録(I)

0210研究会

日本内科学会雑誌第102巻第4号

1 2. Nippon Cataloging Rules NCR [6] (1) 5 (2) 4 3 (3) 4 (4) 3 (5) ISSN 7 International Standard Serial Number ISSN (6) (7) 7 16 (8) ISBN ISSN I

プログラム

放射線専門医認定試験(2009・20回)/HOHS‐05(基礎二次)

untitled


研究テーマ考案 ブログ記事を知識源とした 雑談メタファに基づく情報推薦

O1-1 O1-2 O1-3 O1-4 O1-5 O1-6

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

nlp1-12.key

プログラム

intra-mart Accel Collaboration — アンケート 管理者操作ガイド   第2版  

書籍の感情情報に注目した作者の印象分析

DEIM Forum 2014 P3-3 A Foreseeing System of Search Results based on Query Operations on the Graph Interface

/27 (13 8/24) (9/27) (9/27) / / / /16 12

[ 演習 3-6AA] ウェブページの検索結果の表示順序 ( 重要 ) 10D H 坂田侑亮 10D F 岩附彰人 10D D 財津宏明 1.1 ページランクとは ページランクとは グーグルが開発した検索エンジンのウェブページの重要度を判定する技術である サーチエ

Microsoft Word - CiNiiの使い方.doc

話題と感情の可視化に基づくフォロイー推薦

<4D F736F F D B838B8A7597A3424F DEC837D836A B5F E315F E646F63>

Microsoft Word - WebClass Ver 9.08f 主な追加機能・修正点.docx

DEIM Forum 2014 P Web Web,,, 1. Web Web 1 Web Web Web. 2 3 Web

Web WIX WIX WIX Web Web Web WIX WIX WIX Web 3. Web Index 3. 1 Web Index (WIX), Web. Web, WIX, Web ( WIX ), URL WIX 1 entry wid eid keyword targe

抄録/抄録1    (1)V

研修コーナー

スライド 1

tnbp59-21_Web:P2/ky132379509610002944

4. WIX アタッチエンジン 4. 1 FSDR 処理 システムの Web 資源結合動作であるアタッチ処理について 述べる. アタッチ処理は以下の 4 フェーズに分けられる. この一連の 流れを FSDR 処理とする. Find 処理 Select 処理 Decide 処理 Rewrite 処理

intra-mart Accel Collaboration — ファイルライブラリ 管理者操作ガイド   第6版  

パーキンソン病治療ガイドライン2002

Wisers操作 クイック・リファレンス

Microsoft PowerPoint - Cambridge Books Online ユーザーマニュアル

DEIM Forum 2015 F8-4 Twitter Twitter 1. SNS


目次 LinQ MobileSNS について ログイン メインメニュー 画面設定 売上情報設定 お知らせ閲覧状況確認 サロン日誌閲覧状況確認 スタッフルーム閲覧状況確認 シ

●コンテンツ「掲示板」

_0212_68<5A66><4EBA><79D1>_<6821><4E86><FF08><30C8><30F3><30DC><306A><3057><FF09>.pdf

PowerPoint プレゼンテーション


美味しさモデルと栄養状態を考慮した料理レシピ推薦システム

1-2 4

内容 1 はじめに インストールの手順 起動の手順 Enterprise Architect のプロジェクトファイルを開く 内容を参照する プロジェクトブラウザを利用する ダイアグラムを開く 便利な機能.

迷惑メールフィルタリングコントロールパネル利用者マニュアル

研究開発の概要のイメージ ①画像 音声 映像情報の分析技術 周辺コンテンツや他情報源から収集したテキスト情報の分析 画像特徴量分析による信憑性検証 Web画像の典型度 過不足性 W b画像の典型度 過不足性 整合性の分析 映像 音声の偏り分析や 映像 音声の偏り分析や 視聴者評価情報の分析 Webア

目次 CONTENTS 内容 1. はじめに 使用するシステムについて プロフィールページ編集 公開 ( 依頼 ) ログインする プロフィール編集 公開 ( 依頼 ) 基本的なエディタの使い方

DEIM Forum 2010 A Web Abstract Classification Method for Revie

第86回日本感染症学会総会学術集会後抄録(I)

snkp-14-2/ky347084220200019175

迷惑メールフィルタリングサービス コントロールパネル利用者マニュアル

目次 LinQ MobileSNS について...3 ログイン...4 メインメニュー...6 お知らせ スタッフルーム サロン日誌 プロフィール スタッフ携帯 スケジュール 共通機能

Detecting Suspicious Following Behavior in Multimillion-Node Social Networks

投影片 1

IPSJ SIG Technical Report 1,a) 1,b) N-gram 75.9% 1. Firefox Linux (Open Source Software: OSS) (Mailing List: ML) (Bug Tracking System: BTS) (Version C

PowerPoint プレゼンテーション

携帯電話を登録する 3 携帯電話で教員からのお知らせおよびレポート課題の情 報が得られます. 従来型携帯電話を利用するための情報登 録はパソコンを使って行います. スマートフォンユーザは スマートフォンユ ーザ向けガイド を参照してください. 携帯メールアドレスの登録 授業選択領域にて My Wor

2

03実習2・松井.pptx

米国における意匠を対象にした侵害防止調査 Q 自社で開発した商品を米国で販売したい 意匠侵害で訴えられ ることは避けたいが どうしたら良いか? 1) 調査ツールの選択米国における意匠は 米国特許商標庁 ( 以下 USPTO) に直接出願するルートとハーグ協定を経由するルートが存在する

コンテンツ登録の準備作業

untitled

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

Microsoft PowerPoint - pr_12_template-bs.pptx

ホームページにパスワード認証を設定します 会員限定のページなどに利用できます 設定の手順 を設定するには 以下の手順で行います ユーザ登録 を設定したページにアクセスするためのユーザを登録します の設定 を設定するページ アクセスを許可するユーザを選択し 設定します 設定完了 を設定したページにアク

メタデータ管理システム

言語切替 4 つの検索モードが用意されている 今回は 複数の検索項目を設定でき より目的に近い検索ができることから 構造化検索 モードを選択 した事例を紹介する 調査目的および調査対象調査対象例として下記の調査目的および開発技術を設定した 調査目的 : 下記開発技術について 欧州における参入企業や技

平成20年5月 協会創立50年の歩み 海の安全と環境保全を目指して 友國八郎 海上保安庁 長官 岩崎貞二 日本船主協会 会長 前川弘幸 JF全国漁業協同組合連合会 代表理事会長 服部郁弘 日本船長協会 会長 森本靖之 日本船舶機関士協会 会長 大内博文 航海訓練所 練習船船長 竹本孝弘 第二管区海上保安本部長 梅田宜弘

aphp37-11_プロ1/ky869543540410005590

Œ{Ł¶/1ŒÊ −ªfiª„¾ [ 1…y†[…W ]

日本内科学会雑誌第96巻第11号

本文/扉1

プログラム


Program


Microsoft PowerPoint _3a-SEO.pptx

untitled


コンピュータ応用・演習 情報処理システム

Microsoft Word - CBESNet-It連携ガイドver8.1.doc

スライド 1

Microsoft PowerPoint - (和)SpringerLink Quick Reference(1st ed revised).ppt




n_bead 4_14_NotOut


21



2


No W A K A Y A M A 1 2 Contents


Transcription:

言語間比較による Wikipedia の 補完情報抽出手法の提案 藤原裕也 ( 甲南大学 ) 鈴木優 ( 名古屋大学 ) 小西幸男 ( 甲南大学 ) 灘本明代 ( 甲南大学 )

背景 Wikipedia 特徴 284 以上の多言語版が存在 誰でも記事を編集することが可能 問題 ある話題に対しての情報が不足している記事が多く存在情報補完 他のWebから情報補完する 他の言語版から情報補完する etc 言語版によって書いてある内容が異なる

例 : 日本の文化 検索 Query: たこ焼き 英語版 日本語版 外国人ユーザ 理由 編集者が少ない 十分な知識を持っていない Contents 1 Takoyaki pan 2 See also 3 References 補完 目次 1 概要 2 材料 2.1 生地 2.2 具 2.3 味付け 3 食べ方 4 歴史 5 大阪のたこ焼き 6 器具 6.1 業務用 6.2 家庭用 7 日本国外におけるたこ焼き 7.1 朝鮮文化圏 7.2 中国文化圏 7.3 東南アジア 8 関連事項

目的 閲覧している Wikipedia に不足している情報を他言語 Wikipedia から補完する 英語版 日本語版 外国人ユーザ 理由 編集者が少ない 十分な知識を持っていない Contents 1 Takoyaki pan 2 See also 3 References 補完 比較 目次 1 概要 2 材料 2.1 生地 2.2 具 2.3 味付け 3 食べ方 4 歴史 5 大阪のたこ焼き 6 器具 6.1 業務用 6.2 家庭用 7 日本国外におけるたこ焼き 7.1 朝鮮文化圏 7.2 中国文化圏 7.3 東南アジア 8 関連事項 補完情報を抽出 補完情報を抽出

全体の流れ 1 比較対象記事の決定 閲覧記事 同じタイトルを持つ記事 関連する記事 1 関連する記事 2 ユーザ 比較 関連する記事 n 補完情報抽出 比較対象記事群 2 比較対象領域の決定

1 比較対象 Wikipedia の記事の決定 言語や文化の違いから情報の粒度が異なる 対応する記事が複数にまたがる場合がある Ex: 剣道 英語版 : 二刀流や剣道家の説明が含まれている 日本語版 : 二刀流, 剣道家一覧の記事が各々存在する Kendo -------------- Kendoka -------------- -------------- Nitoryu -------------- 剣道 -------------- 二刀流 -------------- -------------- 剣道家一覧 -------------- 二刀流 剣道家一覧 複数ページと比較して補完情報を抽出する必要がある

1 比較対象 Wikipedia の記事の決定 リンク構造解析 関連している記事同士はリンク関係にある リンクグラフの生成 双 剣道 双 剣道家一覧 0.23 0.3 二刀流 双 0.05 平成 比較 関連度が低い Kendo 強連結 : 関連性が強い 関連度計算 閾値以下を取り除く 片 企業 双方向リンクでない 補完情報抽出 比較対象ページの取得

1 比較対象 Wikipedia の記事の決定 関連度 関連度 双方向リンク注目した記事と記事との関連する度合い アンカー文字列の出現位置 サマリにリンクを張っている記事は関連性が高い アンカー文字列の出現回数 コンテンツの類似性 記事に何度も出現するアンカー文字列は関連性が高い 関連する記事はある程度内容が似ている

1 比較対象 Wikipedia の記事の決定 関連度 一番初めの説明部分 サマリ セグメント セグメント 記事をサマリとセグメントに分割 セグメント セグメント

1 比較対象 Wikipedia の記事の決定 関連度 クエリがタイトルのページ ( 基準ノード ) ( 例 : 剣道 ) アンカー文字列 サマリエリア Title: サマリ 比較 セグメント A セクション 1 セグメント B セクション 2 アンカー文字列 比較 比較対象記事 ( 例 : 剣道家一覧 ) セグメント n セクション R i 比較対象記事のアンカー文字列が基準ノードのサマリ, どのセグメントに出現するかを求める = { α ( TF S ) + ( TF S sum i sum i n k = 1 ik ik )}/ max( R im ) i: 比較対象ノード TFsumi のサマリのアンカー文字列の出現回数 Ssumi のサマリと比較対象記事との類似度 TFik のあるセグメントのアンカー文字列の出現回数 Sik のあるセグメントと比較対象記事との類似度 n: ある l のリンクを張っているセグメントの数 max(rim): 比較対象記事群の Ri の最大値

2 比較対象領域の決定 以前, 我々は関連度を用いて抽出した比較対象記事に対し補完情報の抽出を行った 閲覧記事に関係ない情報が抽出される場合が存在した 例 : 剣道と二刀流の場合 剣道の情報は一部分のみ 西洋剣術の二刀流など 関係のない情報 比較対象領域を決定する必要がある

2 比較対象領域の決定 得られた比較対象記事に対し記事の分類を行う 比較基準記事 包含関係記事 部分一致記事 閲覧記事と同じタイトルを持つ記事例 : Kendo に対する 剣道 比較基準記事と包含関係にある記事例 : 剣道 と 剣道家一覧 の関係 剣道 記事の一部分が比較基準記事と関係する記事例 : 剣道 と 二刀流 の関係 剣道 剣道 剣道家一覧 Kendo 二刀流

2 比較対象領域の決定 得られた比較対象記事に対し記事の分類を行う 比較基準記事 包含関係記事 部分一致記事 閲覧記事と同じタイトルを持つ記事例 : Kendo に対する 剣道 比較基準記事と包含関係にある記事例 : 剣道 と 剣道家一覧の関係 剣道 記事の一部分が比較基準記事と関係する記事例 : 剣道 と 二刀流 の関係 剣道 剣道 剣道家一覧 Kendo 二刀流

比較基準記事 閲覧記事と同じタイトルを持つ記事 例 : Kendo に対する 剣道 抽出方法 閲覧記事に存在する言語間リンクを用いて抽出 他言語へのリンク 剣道 Kendo 英語版 :Kendo

2 比較対象領域の決定 得られた比較対象記事に対し記事の分類を行う 比較基準記事 包含関係記事 部分一致記事 閲覧記事と同じタイトルを持つ記事例 : Kendo に対する 剣道 比較基準記事と包含関係にある記事例 : 剣道 と 剣道家一覧 の関係 剣道 記事の一部分が比較基準記事と関係する記事例 : 剣道 と 二刀流 の関係 剣道 剣道 剣道家一覧 Kendo 二刀流

包含関係記事 比較基準記事と包含関係になっている記事 -> 比較基準記事と is-a 関係になっている記事 抽出方法 例 : 剣道 と 剣道家一覧 の関係 中山らの提案する LSP 法を用いて抽出 剣道 剣道家一覧 記事の冒頭文を重要文とし, その文に比較基準記事のアンカー文字列が 存在する場合に包含関係記事として抽出 比較基準記事への 例 : 剣道家一覧 アンカー文字列 剣道家一覧は 剣道で活躍した人の一覧 参考文献 :Nakayama,K.: Wikipedia Mining for Triple Extraction Enhanced by Co-reference Resolution Proceedings of the 1 St International Workshop on Social Data on the Web (SDoW 08)

2 比較対象領域の決定 得られた比較対象記事に対し記事の分類を行う 比較基準記事 包含関係記事 部分一致記事 閲覧記事と同じタイトルを持つ記事例 : Kendo に対する 剣道 比較基準記事と包含関係にある記事例 : 剣道 と 剣道家一覧 の関係 剣道 記事の一部分が比較基準記事と関係する記事例 : 剣道 と 二刀流 の関係 剣道 剣道 剣道家一覧 Kendo 二刀流

部分一致記事 記事の一部分が比較基準記事と関係する記事 例 : 剣道 と 二刀流 との関係 抽出方法 比較対象記事から比較基準記事と包含関係記事を除いたすべての記事 比較対象記事 包含関係記事 剣道 二刀流 部分一致記事 比較基準記事 包含関係記事

2 比較対象領域の決定 分類 比較基準記事 包含関係記事 部分一致記事 比較領域の決定 比較基準記事 包含関係記事 記事全体を比較 部分一致記事 セクションのタイトルに比較基準記事のアンカー文字列を含む場合 サブセクションのタイトルに比較基準記事のアンカー文字列を含む場合 記事本文中に比較基準記事のアンカー文字列を含む場合

比較対象領域の決定と補完情報抽出 分類ごとに補完情報を抽出するために, 閲覧記事と比較対象となる領域を決定する 比較基準記事 包含関係記事 閲覧記事との関係が強いと考え記事全体を比較対象とする セグメント セグメント セグメント セグメント 閲覧記事の全てのセグメントに対し補完情報類似度が閾値以下 セグメント

比較対象領域の決定と補完情報抽出 部分一致記事 セクションのタイトルに比較基準記事のアンカー文字列を含む場合 セグメント 1 セグメント 2 比較 タイトル セクション サブセクション サブセクションのタイトルに比較基準記事のアンカー文字列を含む場合 セグメント 1 セグメント 2 比較 セクション タイトル サブセクション セグメント n サブセクション セグメント n サブセクション 閲覧記事 部分一致記事 閲覧記事 部分一致記事 記事本文中に比較基準記事のアンカー文字列を含む場合 セグメント 1 セグメント 2 比較 セクション セグメント n 閲覧記事 セクション 部分一致記事

比較対象領域の決定と補完情報抽出 セクションのタイトルに比較基準記事のアンカー文字列を含む場合 サブセクションを含めそのセクション全体を比較対象とする 例 : 剣道 ( 比較基準記事 ) と鍔迫り合い ( 部分一致記事 ) 比較基準記事のアンカー文字列 セグメント 1 セグメント 2 比較 1 剣道における 1.1 歴史 比較領域 セグメント n 1.2 試合 Kendo( 閲覧記事 ) 2 西洋剣術 鍔迫り合い ( 部分一致記事 )

比較対象領域の決定と補完情報抽出 部分一致記事 セクションのタイトルに比較基準記事のアンカー文字列を含む場合 セグメント 1 セグメント 2 比較 タイトル セクション サブセクション サブセクションのタイトルに比較基準記事のアンカー文字列を含む場合 セグメント 1 セグメント 2 比較 セクション タイトル サブセクション セグメント n サブセクション セグメント n サブセクション 閲覧記事 部分一致記事 閲覧記事 部分一致記事 記事本文中に比較基準記事のアンカー文字列を含む場合 セグメント 1 セグメント 2 比較 セクション セグメント n 閲覧記事 セクション 部分一致記事

比較対象領域の決定と補完情報抽出 サブセクションのタイトルに比較基準記事のアンカー文字列を含む場合 親セクションとそのサブセクションを比較対象とする 例 : 剣道 ( 比較基準記事 ) と二刀流 ( 部分一致記事 ) セグメント 1 比較 1 日本 親セクション セグメント 2 1.1 剣術 セグメント n 1.2 剣道 アンカー文字列 Kendo( 閲覧記事 ) 比較領域 1.3 スポーツ 兄弟セクションは比較基準記事と関係が弱いと考え, 比較対象領域としない 二刀流 ( 部分一致記事 )

比較対象領域の決定と補完情報抽出 部分一致記事 セクションのタイトルに比較基準記事のアンカー文字列を含む場合 セグメント 1 セグメント 2 比較 タイトル セクション サブセクション サブセクションのタイトルに比較基準記事のアンカー文字列を含む場合 セグメント 1 セグメント 2 比較 セクション タイトル サブセクション セグメント n サブセクション セグメント n サブセクション 閲覧記事 部分一致記事 閲覧記事 部分一致記事 記事本文中に比較基準記事のアンカー文字列を含む場合 セグメント 1 セグメント 2 比較 セクション セグメント n 閲覧記事 セクション 部分一致記事

比較対象領域の決定と補完情報抽出 記事本文中に比較基準記事のアンカー文字列を含む場合 アンカー文字列の含まれている段落のみを比較対象とする 例 : 剣道 ( 比較基準記事 ) と道場 ( 部分一致記事 ) セグメント 1 比較 比較基準記事のアンカー文字列 比較領域 セグメント 2 セグメント n Kendo( 閲覧記事 ) 道場 ( 部分一致記事 )

プロトタイプシステム クエリと閲覧言語を入力 比較対象記事群

実験 提案手法の有用性を示す実験を行った 実験内容 提案手法と Baseline の比較 Baseline: 比較対象領域の決定を行わない場合 適合率, 再現率,F 値の比較 比較言語版 閲覧言語 : 英語版 比較対象言語 : 日本語版 設定 ( 前実験より ) 関連度の式の α:3.0 関連度の閾値 β:0.2 コンテンツの比較の閾値 γ:0.2 R i = { α ( TF S ) + ( TF S sum i sum i n k = 1 ik ik )}/ max( R im )

実験条件 適合率 = 抽出した補完情報 正解データ 抽出した補完情報 再現率 = 抽出した補完情報 正解データ 正解データ 正解データ : 閲覧記事に対し補完情報となる比較対象記事のセクションまたは段落

1.00 0.80 0.60 0.40 0.20 適合率 結果 1.00 0.80 0.60 0.40 0.20 再現率 0.00 1.00 0.80 0.60 0.40 0.20 0.00 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) クエリ F 値 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) クエリ 0.00 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) クエリ Number クエリ (1) My Neighbor Totoro( となりのトトロ ) (2) Doraemon( ドラえもん ) (3) Iaido( 居合道 ) (4) Manzai( 漫才 ) (5) Yukata( 浴衣 ) (6) Urashima Taro( 浦島太郎 ) (7) Pikachu( ピカチュウ ) (8) Kinkaku-ji( 鹿苑寺 ) (9) Hello_Kitty( ハローキティ ) (10) Kyudo( 弓道 ) 平均 ( 適合率 :0.60->0.86, 再現率 :0.68->0.62,F 値 :0.62->0.71)

結果の良い例 居合道 Baseline 部分一致記事である武道の称号の範士が抽出, しかし柔道や弓道の範士のように居合道に関係のない情報が抽出された 提案手法 範士, その中でも居合道の情報のみが抽出できた となりのトトロ Baseline 部分一致記事である狭山丘陵, 地理情報などとなりのトトロと関係のない情報が抽出された 提案手法 狭山丘陵, となりのトトロの舞台となったという情報が抽出できた

考察 部分一致記事において補完情報と成り得ない情報が抽出される場合が存在した 例 : ドラえもん 部分一致記事として作者の藤子 F 不二雄が抽出 藤子 F 不二雄の記事では多くのセクションでドラえもんのアンカー文字列が出現 ドラえもん以外に多くの漫画を描いており, ドラえもんの補完情報とならない情報が抽出された

考察 比較対象となる領域が正しく決定できない場合が存在 例 : 浦島太郎 部分一致記事として荘内半島が抽出 浦島伝説は浦島太郎の同義語 比較対象 荘内半島

まとめと今後の課題 まとめ Wikipedia の多言語性に着目し, 内容の充実していない記事に対し他言語の Wikipedia を用いて, 情報の補完を行う手法を提案した 提案手法 比較対象記事の決定 比較対象領域の決定 比較基準記事, 包含関係記事, 部分一致記事 コンテンツの比較による補完情報抽出 今後の課題 補完情報の分類 ( 詳細な情報, 新しい情報 etc ) 補完情報の提示のインタフェース 比較領域の決定の際に同義語への対応