Microsoft PowerPoint - Oct1510b_柳沢.pptx

Similar documents

2 研究資源共通化統合検索システムソフトウェア利用者用マニュアル(ゲートウェイシステム) 目次 1. はじめに主な利用の流れ検索検索画面検索画面の設定...

研究テーマ考案ブログ記事を知識源とした雑談メタファに基づく情報推薦

キーワード分析による言語情報の定量化方法

PowerPoint プレゼンテーション

KINGSOFT Office 2016 動作環境対応日本語版版共通利用上記動作以上以上空容量以上他接続環境推奨必要 2

検討検討の進め方検討状況簡易収支の世帯からサンプリング世帯名作成事務の廃止 4 5 必要な世帯数の確保が可能か簡易収支を実施している民間事業者との連絡等に伴う事務の複雑

Microsoft PowerPoint - MVE pptx

( 別途調査様式 1) 減損損失を認識するに至った経緯等 1 列 2 列 3 列 4 列 5 列 6 列 7 列 8 列 9 列 10 列 11 列 12 列 13 列 14 列 15 列 16 列 17 列 18 列 19 列 20 列 21 列 22 列固定

Microsoft Word - 第3章.doc

<4D F736F F D208ED089EF95DB8CAF89C193FC8FF38BB CC8EC091D492B28DB88C8B89CA82C982C282A282C42E646F63>

2016 年度情報リテラシー次に Excel のメニューから[ 挿入 ]タブをクリックし表示されたメニュー内の[グラフ]にある[ 折れ線グラフ]のボタンをクリックするするとサブメニューが表示されるので左上の[ 折れ線 ]を選択する [ 挿入 ]

_ZEI-0329_特集(朝倉)_プ2.indd

4 教科に関する調査結果の概況校種学年小学校 2 年生 3 年生 4 年生 5 年生 6 年生教科平均到達度目標値差達成率国語 77.8% 68.9% 8.9% 79.3% 算数 92.0% 76.7% 15.3% 94

Ｑ　IFRSの特徴について教えてください

(Microsoft Word - \221\346\202P\202U\201@\214i\212\317.doc)

(2) 共通費について第 2 編共通費 2 12 共通費算定に関する数値の取り扱い (1) 積み上げによる算定積み上げによる算定は第 3 編 18に準ずる (2) 率による算定公共建築工事共通費積算

<4D F736F F D204D46834E A6D92E8905C8D905F93B193FC819593FA8E9F95D C5292E646F63>

公文書非公開決定処分に関する諮問について（答申）

Box-Jenkinsの方法

迷惑メールフィルタリングコントロールパネル利用者マニュアル

一覧表 ( 専従者用 ) YES NOチャート( 専従月額単価用 ) (P.4)を参考にしてください < 直接雇用者 > 一覧表 ( 専従者用 )の単価は委託期間中に継続して半年以上当該 AMED 事業

Ⅰ 調査の概要 1 目的義務教育の機会均等その水準の維持向上の観点から的な児童生徒の学力や学習状況を把握分析し教育施策の成果課題を検証しその改善を図るもに学校におけ

<4D F736F F D208EE892CB91BE FDA8DD7816A2E646F63>

4 承認コミュニティ組織は市長若しくはその委任を受けた者又は監査委員の監査に応じなければならない ( 状況報告 ) 第 7 条承認コミュニティ組織は市長が必要と認めるときは交付金事業の遂行の

(1)1オールゼロ記録ケース厚生年金期間 A B 及びCに係る旧厚生年金保険法の老齢年金 ( 以下旧厚老という )の受給者に時効特例法施行後厚生年金期間 Dが判明した Bは事業所記号が

1 書誌作成機能 (NACSIS-CAT)の軽量化合理化電子情報資源への適切な対応のための資源 ( 人的資源,システム資源, 経費を含む) の確保のために, 書誌作成と書誌管理作業の軽量化を図

弁護士報酬規定（抜粋）

１-１　一覧画面からの印刷

. 負担調整措置 8 (1) 宅地等調整固定資産税額宅地に係る固定資産税額は当該年度分の固定資産税額が前年度課税標準額又は比準課税標準額に当該年度分の価格 ( 住宅

国税クレジットカード納付の創設国税のクレジットカード納付についてはマイナンバー制度の活用による年金保険料税に係る利便性向上に関するアクションプログラム( 報告書 ) においてその導入の方向性が示されている

研究者情報データベース

2. データを検索するなごやコレクションのデータを検索するための方法としてキーワード検索詳細検索の二通りの検索方法があります 2.1. キーワードから探すキーワードを入力するトップページの入力ボックスに検索

は固定流動及び繰延に区分することとし減価償却を行うべき固定の取得又は改良に充てるための補助金等の交付を受けた場合においてはその交付を受けた金額に相当する額を長期前受金とし

研究者総覧システム

平成１9年9月改定

リング不能な将来減算一時差異に係る繰延税金資産について回収可能性がないものとする原則的な取扱いに対してスケジューリング不能な将来減算一時差異を回収できることを反証できる場合に原則

■コンテンツ

<4D F736F F F696E74202D208E9197BF322D31208C9A90DD B835E CC8A C982C282A282C4>

改定履歴改訂日改訂理由及び内容承認者確認者改訂者 05/8/7 新版発行 05/0/5 推奨動作環境を追記

<4D F736F F D2091E F18CB48D C481698E7B90DD8F9590AC89DB816A2E646F63>

入札方式別操作

セマンティック HTML/XHTML サンプルページ

鳥取国民年金事案 177 第 1 委員会の結論申立人の昭和 37 年 6 月から 38 年 3 月までの国民年金保険料については納付していたものと認められることから納付記録を訂正することが必要である第 2 申

- もくじ - Ver の変更点 P.3 1 障害者総合支援法概要 P.4 2 平成 25 年度以降地域区分対応 P 地域区分設定方法 P 地域区分について P 地域単価の確

しかし主に欧州の一部の回答者は受託責任について資源配分の意思決定の有用性とは独立の財務報告の目的とすべきであると回答した本 ED に対する ASBJ のコメントレターにおける意見経営者の受

1 林地台帳整備マニュアル( 案 )について林地台帳整備マニュアル( 案 )の構成構成記載内容第 1 章はじめに本マニュアルの目的記載内容について説明しています第 2 章第 3 章第 4 章第 5 章第 6 章林地

R4財務対応障害一覧

「報・連・相」の方法

Microsݯft Word - 91 forܠ2009November.docx

SXF 仕様実装規約版 ( 幾何検定編 ) 新旧対照表 2013/3/26 文言変更 p.12(1. 基本事項 ) (5)SXF 入出力バージョン Ver.2 形式と Ver.3.0 形式および Ver.3.1 形式の入出力機能を

1-1 建築物等保守管理業務業務の実施方針本業務の実施方針等について記載してくださいなお以下の事項については必ず記載してください ( 施設維持管理業務全体で A4 判 180 枚以内で記

5-2 一般ユーザー用 :メール 2 送信者のリンクをクリックすると受信メールの内容を見ることができます受信メール内容画面項目送信者宛先 CC 本文 (テキスト) 本文 (HTML) メールアドレスのリンクをクリックするとアドレス帳へ

注雇促進税制と本制度のどちらかを利する可能性があるがあらかじめどちらの制度を利するか判断できないという場合雇促進税制の事前届出 ( 雇促進計画の提出 )をした上で申告の際にどちらを利するかご

1. アクセスする 2. 簡易検索画面 (fig. 1) アクセスすると最初に出る画面です検索語入力ボックスにキーワードを入力して論文検索ボタンをクリックします 3. ボックス下部のチェック項

<4D F736F F D203193FA8AD45F95CA8E86325F89898F4B315F94F093EF8AA98D AD97DF914F82CC8FEE95F182CC8EFB8F C28E8B89BB2E646F63>

<93798D488E7B8D488AC7979D977697CC5F F96DA8E9F2E786264>

<4D F736F F D2090C389AA8CA72D92F18F6F2D D F ED28CFC82AF91808DEC837D836A B E838B A815B816A2E646F6378>

求職情報誌201505改訂版1.xls

Word 003 スキルブック 06 - オブジェクトの利用 0.Word で作る表 : 行幅を最小値より小さく設定する 3 表の左右のサイズを適宜調整します Word で表を作成するとき, 列幅, 行幅ともに基本的に自由

大田市固定資産台帳整備業務（プロポーザル審査要項）

養老保険の減額払済保険への変更 1. 設例会社が役員を被保険者とし死亡保険金及び満期保険金のいずれも会社を受取人とする養老保険に加入している場合を解説します資金繰りの都

PowerPoint プレゼンテーション

<4D F736F F D D31208EC096B18F438F4B8E7793B1834B FC92F BD896694C5816A2E646F6378>

Microsoft Word - FBE3A91F.doc

<4D F736F F D C B838B91CE8DF491808DEC837D836A B76312E342E646F63>

(5) 人権侵害, 差別又は名誉毀損となるもの, 又はおそれがあるもの (6) 他人を誹謗し, 中傷し, 又は排斥するもの (7) 投機心, 射幸心をあおるもの, 又はそのおそれがあるもの (8) 内容が虚偽誇大であるなど過

(Microsoft Word - \203A \225\345\217W\227v\227\314 .doc)

たものであり必ずしも理屈の面から定められたものではないことから 5 年を超える見積可能期間に係る繰延税金資産の計上金額と計上根拠を開示する理由が乏しいこと結果として企業の分類を開示す

国立研究開発法人土木研究所の役職員の報酬・給与等について

PowerPoint プレゼンテーション

<4D F736F F D E A815B F95F28D73838F C D758DC02093C195CA8D A93AD95DB8CAF82CC8F578C B582A2944E937882AA82CD82B682DC82E9914F82CC8A6D C E646F6

ただし区分は同一の譲渡所得であっても不動産の譲渡損益は不動産の譲渡損益どうしでまた株式等の譲渡損益は株式等の譲渡損益どうしでそれぞれ通算を行うことになっています( 次項の損益通算

所得税と住民税の税率表所得税と住民税の税率は以下の通りです退職所得の場合もこの税率表を使います 1. 平成 19 年 1 月 1 日以降 ( 所法 891) 課税所得所得税率控除額 ~195

<4D F736F F D E718CF68D C768E5A8F9197DE>

<4D F736F F D2095BD90AC E D738FEE816A939A905C91E D862E646F63>

特別徴収封入送付作業について

平成１６年度

<4D F736F F D CF322D33817A95DB8CEC8ED292B28DB881698A6D816A2E646F63>

[2] 控除限度額繰越欠損金を有する法人において欠損金発生事業年度の翌事業年度以後の欠損金の繰越控除にあたっては平成 27 年度税制改正により次ページ以降で解説するの特例 (

Oracle Text 概要

<4D F736F F F696E74202D B E E88E68C9A90DD8BC65F E DC58F4994C52E >

2 活動組織において実測が可能な場合はコンパス測量やGPS 計測等により対象森林の面積 ( 延長 )を実測して下さい GPS 機器の貸し出しについては事務局へご相談下さい活動組織において実測

2 役員の報酬等の支給状況平成 27 年度年間報酬等の総額就任退任の状況役名報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 2,142 ( 地域手当 ) 17,205 11,580 3,311 4 月 1

<4D F736F F D2090BC8BBB959491BA8F5A91EE8A C52E646F63>

Microsoft Word - 19年度（行個）答申第94号.doc

(Microsoft PowerPoint - Ver12\203o\201[\203W\203\207\203\223\203A\203b\203v\216\221\227\277.ppt)

PowerPoint プレゼンテーション

年金払い退職給付制度における年金財政のイメージ積立時給付時給付定基 (1/2) で年金を基準利率で付利給付定基 ( 付与利の ) 有期年金終身年金退職 1 年 2 年 1 月 2 月 ( 終了 )

<4D F736F F D2095BD90AC E D738FEE816A939A905C91E D862E646F63>

新生産管理システムご提案書２００２年１０月１５日ムラテック情報システム株式会社

Microsoft PowerPoint _リビジョンアップ案内_最終.pptx

平成27年度大学改革推進等補助金（大学改革推進事業）交付申請書等作成・提出要領

勤怠項目 6~10の追加 < 概要 > 勤怠項目 6~10を追加しましたそれに伴い下記の箇所が変更になりましたページ場所誤 25 給与奉行へのテキスト書出順勤怠項目 1~ 勤怠項目 5 27 内容勤怠項目

の購入費又は賃借料 (2) 専用ポール等機器の設置工事費 (3) ケーブル設置工事費 (4) 防犯カメラの設置を示す看板等の設置費 (5) その他設置に必要な経費 ( 補助金の額 ) 第 6 条補

第 40 回中央近代化基金補完融資推薦申込み公募要綱 1 公募推薦総枠 30 億円一般物流効率化促進中小企業高度化資金貸付対象事業の合計枠 2 公募期間平成 28 年 6 月 20

Transcription:

Extracting Relevant Snippets from Documents through Language Model based Text Segmentation Web Intelligence, 2009 Qing Li, K. Selcuk Candan, Yan Qi ( Oct.15,2010, 柳沢担当 )

目的言語モデルを用いたSnippetの抽出方法提案文書から適切な文の抽出 RELEVANCE LANGUAGE MODELS 言語モデルの利用 Curvature analysis 曲線からのテキストセグメント

関連研究 TextTiling 法 [Hearst,1997] 領域内における語彙の重なり尺度に基づく類似度により境界を決定

言語モデルを用いたアプローチ RELEVANCE LANGUAGE MODELS 言語モデルによる境界 d P(w M) d w d P(w Mr) w P(w ) w snippet Non snippet

言語モデルを用いたアプローチ RELEVANCE LANGUAGE MODELS d snippet P(w ) Non snippet w collection: 全 document 内の単語の集合 cfw :collection 内のwの出現頻度 coll.size :collection 内の総単語数

言語モデルを用いたアプローチ RELEVANCE LANGUAGE MODELS 仮説 : snippet 内の単語の出現確率はqueryの共起確率と類似 [Lavernko] クエリ q={q1,q2,q3 qk}を用いて P(w Mr)をP(w ( q q1,q2,q3 qk)で q 近似 d Mr P(w Mr) snippet w Mrはクエリによるドキュメントの集合から抽出

言語モデルを用いたアプローチ RELEVANCE LANGUAGE MODELS 手順 1. クエリq で上位ランキングされたページRqを取得 2. 与えられたDocumentの単語出現確率 p(w d)を計算 Pml(w d):ドキュメント内での単語 wの出現確率 Pbg(w):スムージングのため 3. P(w Mr)をP(w Rq)で近似

言語モデルを用いたアプローチ SNIPPET EXTRACTION CUTS[Yan2006] [ ] Blogのトピックセグメンテーション i 日目とi+1 日目のEntry 間の類似度の差に応じてトピックが変わったか判断 Entry : blog ページから一日分の記事

言語モデルを用いたアプローチ SNIPPET EXTRACTION CUTS[Yan2006] [ ] Blogのトピックセグメンテーション» Step1: 各 Entry 内に含まれるキーワード単語の重みづけ» Step2: 各 Entry 間で非類似度 Dを取得今回は時系列 (Straight line)

言語モデルを用いたアプローチ SNIPPET EXTRACTION CUTS[Yan2006] [ ] Blogのトピックセグメンテーション i 日目とi+1 日目のEntry 間の類似度の差に応じてトピックが変わったか判断 Entry : blog ページから一日分の記事連日で同じトピックを書いていると想定?

言語モデルを用いたアプローチ SNIPPET EXTRACTION 今回トピックセグメンテーション» Step1: 文内のキーワード単語の重みづけ» Step2: 文内での非類似度 Dを取得今回は時系列 (Straight line)

言語モデルを用いたアプローチ曲線における変動のセグメンテーション理想

言語モデルを用いたアプローチ曲線における変動のセグメンテーション理想近似値を用いた確率モデル

言語モデルを用いたアプローチ Curvature analysis[y.qi,2006] 曲線の傾きに応じたセグメンテーション Dminated: 比較的水平部分 Drifting: 傾いている部分 (セグメント) Interrupted: 一時的な遮断部分 Case1: 近似による一時的な遮断 Case2:Drifting 部分

言語モデルを用いたアプローチ Curvature analysis[y.qi,2006] 曲線の種類 Dminated: 比較的水平部分 Drifting: 傾いている部分 (セグメント) Interrupted: 一時的な遮断部分 Case1: 近似による一時的な遮断 Case2:Drifting 部分

言語モデルを用いたアプローチ Curvature analysis[y.qi,2006] 一時的な遮断部分とDrifting g 部分の区別 e1からe4 間での傾き方で区別 s1の線について定義

言語モデルを用いたアプローチ Curvature analysis[y.qi,2006] Adaptive curve segmentation[david.g,1987] プログラムコードの効率的に処理するためセグメント端から端まで線において垂線が最大となる点を取得上記で得た点から端まで線を引き同様に点を取得セグメント( 線 ) 間の点が与えられた数 (MinSpan)になるまで同様な作業を繰り返すセグメント( 線 ) 間の点が与えられた数 (MinSpan)になるまで同様な作業を繰り返す ( 上記の例 :MinSpan=1) 最初から点 iと点 i+2で線を引けば一緒?

言語モデルを用いたアプローチ Curvature analysis[y.qi,2006] それぞれの部分を傾きにより識別 k: 傾き(e) λdrifting:パラメタ上記の場合 Interruptの条件に当たるのは h=2

有用性の検証実験 1 正解データとの比較 (preciotion, recall,f measure) 使用データ Internet 上から収集 30 queries 一般によくつかわれる名詞 RM Curve or FS win queries ans 30 queriesに対してのanswers 詳細不明 200 単語ごと上記の手法でセグメントを行い最も多くqueryを含む部分を選択 RM Curve: Curvature analysis FS Win:googleの検索結果テキストデータのSizeを増やしての検証

実験結果正解データとの比較 (preciotion, recall,f measure) 200 単語ごと上記の手法でセグメントを行い最も多くqueryを q y 含む部分を選択 Ls: 正解データの単語の総数 Le: 抽出したSnippetの単語の総数 Lo: 正解データと抽出 Snippetの単語の重複

実験結果有用性の検証正解データとの比較 (preciotion, recall,f measure) answerのサイズ変更 Precision Recall

有用性の検証ノイズを含めた実験実験 2 内容の異なる2つのドキュメントにqueryを挿入 (ノイズ) ズ RM Curve or FS win queries ans queries queries

有用性の検証ノイズを含めた実験実験結果 2 内容の異なる2つのドキュメントにqueryを挿入 (ノイズ) ズ F 値 (Noise 考慮あり)

考察 1 FM Win: Noiseが入ると精度が低い RM Curve: queryに関する文脈上の語を考慮可能 Noiseの適切でないセグメントのフィルタリングが可能

考察 2 文書の件数と精度 (F 値 ) ページRqの理想の数文書は5~40の間が良い特に15 件が一番良い

結論適切なスニペットを抽出するモデルの提案 RM Curve 正解データとの比較 queryに関する文の語を考慮可能 Noiseの適切でないセグメントのフィルタリングが可能

関連研究 LEASED WITH YOUR GOOGLE DESCRIPTION? ( 抜粋 ) Where is Google pulling the snippet description? Snippetの抽出エリア(googleの g 話 ) METAタグ ALTテキスト( 画像説明 ) 文頭テキスト追加 Headタグ追加 Bodyタグ追加 ALTタグナビゲーションバー( 左隅 ) Copyright 情報キーワードのフレーズ

TextTiling 法

クエリとの共起確率共起確率 P(w Q) の例 q1 q2 q3

クエリとの共起確率共起確率 P(w Q) の例 q1 q2 q3

LEASED WITH YOUR GOOGLE DESCRIPTION? Where is Google pulling the snippet description? ( 抜粋 ) 1. META description tag (although Google doesn t use contents to dt determine relevancy). 2. First ALT text found on the page. 3. First text found on the page pg (which may be a heading tag, body text, etc.). 4. Additional heading tags on the page. 5. Additional body text found on the page. 6. Additional ALT text on the page. 7. Navigation bar on the left hand side of the page (which is rarely a relevant description of a site!). 8. Copyright information at the bottom of the page. 9. Wherever the keyword phrase is found.

言語モデルを用いたアプローチ Curvature analysis[y.qi,2006] Adaptive curve segmentation[david.g,1987] 空間内の点をbinary treeのデータとして保持