untitled

Similar documents
untitled

main.dvi

main.dvi

main.dvi

main.dvi

main.dvi

untitled

main.dvi

main.dvi

_314I01BM浅谷2.indd

Twitter Twitter [5] ANPI NLP 5 [6] Lee [7] Lee [8] Twitter Flickr FreeWiFi FreeWiFi Flickr FreeWiFi 2. 2 Mikolov [9] [10] word2vec word2vec word2vec k

Web [1] [2] [3] [4] [5] SupportVectorMachine SVM [6] [7] Google [11] Web


IPSJ SIG Technical Report Vol.2015-SE-187 No /3/12 1,a) 1,b) Mozilla Firefox Eclipse Platform GNU Gcc % 43% 1. [1] Eclipse Mozilla 4 [3


. Yahoo! 1!goo 2 QA..... QA Web Web [1]Web Web Yin [2] Web Web Web. [3] Web Wikipedia 1 2

DEIM Forum 2014 D3-5 DSMS DSMS DSMS 2.13% RTOS Realtime-Aware Efficient Query Processing for Automotiv

untitled

DEIM Forum 2019 C3-5 tweet

1

JAPAN MARKETING JOURNAL 111 Vol.28 No.32008

JAPAN MARKETING JOURNAL 113 Vol.29 No.12009

JAPAN MARKETING JOURNAL 110 Vol.28 No.22008

2 3

2reN-A14.dvi

DEIM Forum 2019 D3-5 Web Yahoo! JAPAN Q&A Web Web

main.dvi

トピックモデルの応用: 関係データ、ネットワークデータ

main.dvi

WII-D 2017 (1) (2) (1) (2) [Tanaka 07] [ 04] [ 10] [ 13, 13], [ 08] [ 13] (1) (2) 2 2 e.g., Wikipedia [ 14] Wikipedia [ 14] Linked Open

Indirect Tweet Indirect Tweet 2. 2 Tweet Simple Tweet Reply Mention Indirect Tweet Tweet Tweet Indirect Tweet Tweet Tweet Indirect Tweet Tweet Tweet 2

第122号.indd

Microsoft Word - toyoshima-deim2011.doc

1 2. Nippon Cataloging Rules NCR [6] (1) 5 (2) 4 3 (3) 4 (4) 3 (5) ISSN 7 International Standard Serial Number ISSN (6) (7) 7 16 (8) ISBN ISSN I

DEIM Forum 2010 A Web Abstract Classification Method for Revie

LDA (Latent Dirichlet Allocation) Wikipediade LDA 2 / 37

2,

DEIM Forum 2012 E Web Extracting Modification of Objec

IPSJ SIG Technical Report Vol.2014-HCI-157 No.26 Vol.2014-GN-91 No.26 Vol.2014-EC-31 No /3/15 1,a) 2 3 Web (SERP) ( ) Web (VP) SERP VP VP SERP

Bleutooth 2009 Bluetooth Ver.3.0 Bluetooth LAN Bluetooth Bluetooth Bluetooth 2. Bluetooth ( Bluetooth) Bluetooth ( Bluetooth) 2. 1 Bluetooth IEEE802.1

JAPAN MARKETING JOURNAL 123 Vol.31 No.32012

JAPAN MARKETING JOURNAL 115 Vol.29 No.32010

JAPAN MARKETING JOURNAL 110 Vol.28 No.22008

main.dvi


DEIM Forum 2016 E3-6 : SERVA

Microsoft Word - deim2011_new-ichinose doc

Q A Q Q Q Q 50

IPSJ SIG Technical Report Vol.2009-DBS-149 No /11/ Bow-tie SCC Inter Keyword Navigation based on Degree-constrained Co-Occurrence Graph

3 2 2 (1) (2) (3) (4) 4 4 AdaBoost 2. [11] Onishi&Yoda [8] Iwashita&Stoica [5] 4 [3] 3. 3 (1) (2) (3)

研修コーナー

DEIM Forum 2019 H Web 1 Tripadvisor

tnbp59-21_Web:P2/ky132379509610002944

中小企業サポ115号.indd

パーキンソン病治療ガイドライン2002

日本内科学会雑誌第97巻第7号

DEIM Forum 2009 B4-6, Str



日本内科学会雑誌第98巻第4号

IPSJ SIG Technical Report Pitman-Yor 1 1 Pitman-Yor n-gram A proposal of the melody generation method using hierarchical pitman-yor language model Aki

_0212_68<5A66><4EBA><79D1>_<6821><4E86><FF08><30C8><30F3><30DC><306A><3057><FF09>.pdf

i

gengo.dvi

Computational Semantics 1 category specificity Warrington (1975); Warrington & Shallice (1979, 1984) 2 basic level superiority 3 super-ordinate catego

楽天事業報告2006_PDF用

表紙入稿

6


JAPAN MARKETING JOURNAL 123 Vol.31 No.32012

IPSJ SIG Technical Report Vol.2014-CE-126 No /10/11 1,a) Kinect Support System for Romaji Learning through Exercise Abstract: Educatio


xx/xx Vol. Jxx A No. xx 1 Fig. 1 PAL(Panoramic Annular Lens) PAL(Panoramic Annular Lens) PAL (2) PAL PAL 2 PAL 3 2 PAL 1 PAL 3 PAL PAL 2. 1 PAL

DEIM Forum 2014 P3-3 A Foreseeing System of Search Results based on Query Operations on the Graph Interface

2. Twitter Twitter 2.1 Twitter Twitter( ) Twitter Twitter ( 1 ) RT ReTweet RT ReTweet RT ( 2 ) URL Twitter Twitter 140 URL URL URL 140 URL URL

snkp-14-2/ky347084220200019175


乳酸菌と発酵 Kin's Vol.7

QA

こどもの救急ガイドブック.indd

WINET情報

97-00


A Japanese Word Dependency Corpus ÆüËܸì¤Îñ¸ì·¸¤ê¼õ¤±¥³¡¼¥Ñ¥¹

(2-3)CyberSpace

表1-表4宅建99.indd

表1-表4宅建98.indd

表1-表4宅建101.indd

表1-表4宅建いわて-表紙.indd

RGR22737_6150.pdf

Vol. 48 No. 3 Mar PM PM PMBOK PM PM PM PM PM A Proposal and Its Demonstration of Developing System for Project Managers through University-Indus

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

21 Pitman-Yor Pitman- Yor [7] n -gram W w n-gram G Pitman-Yor P Y (d, θ, G 0 ) (1) G P Y (d, θ, G 0 ) (1) Pitman-Yor d, θ, G 0 d 0 d 1 θ Pitman-Yor G

,, WIX. 3. Web Index 3. 1 WIX WIX XML URL, 1., keyword, URL target., WIX, header,, WIX. 1 entry keyword 1 target 1 keyword target., entry, 1 1. WIX [2


Vol.55 No (Jan. 2014) saccess 6 saccess 7 saccess 2. [3] p.33 * B (A) (B) (C) (D) (E) (F) *1 [3], [4] Web PDF a m

平成20年度論説

,398 4% 017,

1 AND TFIDF Web DFIWF Wikipedia Web Web AND 5. Wikipedia AND 6. Wikipedia Web Ma [4] Ma URL AND Tian [8] Tian Tian Web Cimiano [3] [

indd

Transcription:

DEIM Forum 2019 C1-2 305-8573 1-1-1 305-8573 1-1-1 () 151-0053 1-3-15 6F QA,,,, Detecting and Analysing Chinese Web Sites for Collecting Know-How Knowledge Wenbin NIU, Yohei OHKAWA,ShutoKAWABATA,ChenZHAO,TianNIE, Takehito UTSURO, and Yasuhide KAWADA Grad. Sch. of Systems and Information Engineering, University of Tsukuba, Tsukuba 305-8573 Japan Faculty of Engineering, Information and Systems, University of Tsukuba, Tsukuba 305-8573 Japan Logworks Co., Ltd. Tokyo 151-0053, Japan 1. [7] [7] ( ) 5 60% 50 20 40% [7] 1 [7] 2 1 doc2vec [3] 2https://www.baidu.com/

1 1 ( 1 ) AND QA

表 1 ノウハウサイト候補のドメインに対する評価基準 ドメインそのものがノウハウ知識を提示する個別ページへのリンクを一覧するページである A群 ドメインのトップからノウハウ知識 ドメインそのもの ノウハウ知識を提示する個別ペー を提示する個別ページへのリンクを がノウハウ知識を ジへのリンクを一覧するページが 一覧するページに容易に辿り着ける 提示する個別ペー 存在する ドメインのトップからノウハウ知識 ジへのリンクを一 を提示する個別ページへのリンクを 覧するページでは 一覧するページには容易に辿り着け ない ない ノウハウ知識を提示する個別ペー ジへのリンクを一覧するページが 存在しない ノウハウ知識を提示する個別ページ が存在する ノウハウ知識を提示する個別ページ が存在しない B群 C群 D群 E群 図 2 中国語検索エンジン 百度 における検索エンジン サジェスト の例 図 4 A 群 ドメインそのものがノウハウ知識を提示する の QA サ イト の例 ( 百度知道 https://zhidao.baidu.com/) 図3 A 群 ドメインそのものがノウハウ知識を提示する の ノウハ ウサイト の例 ( wed114 結婚ネット http://www.wed114. cn/) 図 5 A 群 ドメインそのものがノウハウ知識を提示する の 商用 サイト の例 ( 58 同城 http://www.58.com/) おけるトピック分布を分析する さらに ノウハウを多く掲載 するサイト群に対して 文献 [7] と同等の素性を用いることに より ノウハウを多く掲載する中国語ウェブサイトの自動同定 精度の評価を行う 2. 検索エンジン サジェストを用いたウェブペー ジの収集 2. 1 検索エンジン サジェスト 各検索エンジン会社においては ウェブ利用者による検索ロ グが蓄積されている 多くのウェブ利用者が検索したクエリの うち 特に高い関心が持たれた語を抽出することにより 検索 エンジン サジェストとして提示するサービスを提供している ここで 検索エンジン サジェストとして提示された語は ク エリ フォーカスに対して AND 検索の形で二つ目以降に入 力した語を情報源として抽出したものである 本論文では 検 索エンジン サジェストにはウェブ利用者の関心事項が反映さ れていると考えて 検索エンジン サジェストの収集を行った 特に 中国でよく使用される検索エンジン 百度 を用いて クエリ フォーカス 結婚 を対象に 検索エンジン サジェ ストの収集を行った

3 QA 15 14 16 20 65 6 A (https://wenku.baidu.com/) 2. 2 300 3,000 300 () () 537 ( 2) 2. 3 ( AND AND ) 20 20,478 ( 2) 3. 3. 1 1 (LDA; Latent Dirichlet Allocation) [1] LDA GibbsLDA++ 3 K 10 80 K =60LDA α β GibbsLDA++ 3http://gibbslda.sourceforge.net/ α =60/Kβ =0.1 Gibbs 2,000 3. 2 LDA z n (n = 1,...,K) w P (w z n)(w V ) d z n P (z n d) (n =1,...,K) z n D(z n) { } D(z n)= d D z n = argmax P (z u d) z u (u=1,...,k) 3. 3 [4] [4] 30 1 1 A B C D E A B C D E [4] ( 7) [4] [4] 30 2 1 A E 2 A B C 4.

2 A B C ABC 537 20,478 60 556 21 16 28 65 ( 6) 7 3. 5. 7 1 2 QA 3 4 wed114 ( 3) 4 QA QA ( 4) 5 58 ( 5) 6 4http://www.wed114.cn/ 5https://zhidao.baidu.com/ 6http://www.58.com/ 4 5. 1 4. T T t( T ) t P (t) p( P (t)) S(p) t S(t) S(t) = S(p) p P (t) t S(t) t S(p) p P (t) 7https://wenku.baidu.com/

4 5. 2 t P (t) P (t) 5. 3, p( P (t)) z(p) p z(p) = argmax P (z u p) z u (u=1,...,k) t( T ) t p z(p) z(t) z(t) = p P (t) { z(p) } t z(t) z(t) 5. 4 8 t S(t) 6. 6. 1 2 556 8http://index.baidu.com/ R 2 ABC 65 ( 3 65 ) conf c T (conf > = c) T (conf > = c) R (conf > = c) (conf > = c) (conf > = c)= R T (conf > = c) R (conf > = c)= R T (conf > = c) T (conf > = c) 6. 2 8 () 7. ( K = 60) 28. 1 6 28 5 QA 8. [2]

(a) () (b) () () 8 () [6] [2] [5] LDA [7] [4] SVM 9. [1] D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, Vol.3, pp. 993 1022, 2003. [2],,,,,.. 8 DEIM, 2016. [3] Q. Le and T. Mikolov. Distributed representations of sentences and documents. In Proc. 31st ICML, pp. 1188 1196, 2014. [4],,,,,,.. 9 DEIM, 2017.

5 /A B C / / 1 2 3 4 5 6 A C C B A A ID QA wed114 58 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 [5],,,,,,.. 7 DEIM, 2015. [6] T. Nie, Y. Ding, C. Zhao, Y. Lin, T. Utsuro, and Y. Kawada. Clustering search engine suggests by integrating a topic model and word embeddings. In Proc. 18th SNPD, pp. 581 586, 2017. [7] Y. Ohkawa, S. Kawabata, C. Zhao, W. Niu, Y. Lin, T. Utsuro, and Y. Kawada. Identifying tips Web sites of a specific query based on search engine suggests and the topic distribution. In Proc. 3rd ABCSS, pp. 4347 4353, 2018.