DEIM Forum 2019 C1-2 305-8573 1-1-1 305-8573 1-1-1 () 151-0053 1-3-15 6F QA,,,, Detecting and Analysing Chinese Web Sites for Collecting Know-How Knowledge Wenbin NIU, Yohei OHKAWA,ShutoKAWABATA,ChenZHAO,TianNIE, Takehito UTSURO, and Yasuhide KAWADA Grad. Sch. of Systems and Information Engineering, University of Tsukuba, Tsukuba 305-8573 Japan Faculty of Engineering, Information and Systems, University of Tsukuba, Tsukuba 305-8573 Japan Logworks Co., Ltd. Tokyo 151-0053, Japan 1. [7] [7] ( ) 5 60% 50 20 40% [7] 1 [7] 2 1 doc2vec [3] 2https://www.baidu.com/
1 1 ( 1 ) AND QA
表 1 ノウハウサイト候補のドメインに対する評価基準 ドメインそのものがノウハウ知識を提示する個別ページへのリンクを一覧するページである A群 ドメインのトップからノウハウ知識 ドメインそのもの ノウハウ知識を提示する個別ペー を提示する個別ページへのリンクを がノウハウ知識を ジへのリンクを一覧するページが 一覧するページに容易に辿り着ける 提示する個別ペー 存在する ドメインのトップからノウハウ知識 ジへのリンクを一 を提示する個別ページへのリンクを 覧するページでは 一覧するページには容易に辿り着け ない ない ノウハウ知識を提示する個別ペー ジへのリンクを一覧するページが 存在しない ノウハウ知識を提示する個別ページ が存在する ノウハウ知識を提示する個別ページ が存在しない B群 C群 D群 E群 図 2 中国語検索エンジン 百度 における検索エンジン サジェスト の例 図 4 A 群 ドメインそのものがノウハウ知識を提示する の QA サ イト の例 ( 百度知道 https://zhidao.baidu.com/) 図3 A 群 ドメインそのものがノウハウ知識を提示する の ノウハ ウサイト の例 ( wed114 結婚ネット http://www.wed114. cn/) 図 5 A 群 ドメインそのものがノウハウ知識を提示する の 商用 サイト の例 ( 58 同城 http://www.58.com/) おけるトピック分布を分析する さらに ノウハウを多く掲載 するサイト群に対して 文献 [7] と同等の素性を用いることに より ノウハウを多く掲載する中国語ウェブサイトの自動同定 精度の評価を行う 2. 検索エンジン サジェストを用いたウェブペー ジの収集 2. 1 検索エンジン サジェスト 各検索エンジン会社においては ウェブ利用者による検索ロ グが蓄積されている 多くのウェブ利用者が検索したクエリの うち 特に高い関心が持たれた語を抽出することにより 検索 エンジン サジェストとして提示するサービスを提供している ここで 検索エンジン サジェストとして提示された語は ク エリ フォーカスに対して AND 検索の形で二つ目以降に入 力した語を情報源として抽出したものである 本論文では 検 索エンジン サジェストにはウェブ利用者の関心事項が反映さ れていると考えて 検索エンジン サジェストの収集を行った 特に 中国でよく使用される検索エンジン 百度 を用いて クエリ フォーカス 結婚 を対象に 検索エンジン サジェ ストの収集を行った
3 QA 15 14 16 20 65 6 A (https://wenku.baidu.com/) 2. 2 300 3,000 300 () () 537 ( 2) 2. 3 ( AND AND ) 20 20,478 ( 2) 3. 3. 1 1 (LDA; Latent Dirichlet Allocation) [1] LDA GibbsLDA++ 3 K 10 80 K =60LDA α β GibbsLDA++ 3http://gibbslda.sourceforge.net/ α =60/Kβ =0.1 Gibbs 2,000 3. 2 LDA z n (n = 1,...,K) w P (w z n)(w V ) d z n P (z n d) (n =1,...,K) z n D(z n) { } D(z n)= d D z n = argmax P (z u d) z u (u=1,...,k) 3. 3 [4] [4] 30 1 1 A B C D E A B C D E [4] ( 7) [4] [4] 30 2 1 A E 2 A B C 4.
2 A B C ABC 537 20,478 60 556 21 16 28 65 ( 6) 7 3. 5. 7 1 2 QA 3 4 wed114 ( 3) 4 QA QA ( 4) 5 58 ( 5) 6 4http://www.wed114.cn/ 5https://zhidao.baidu.com/ 6http://www.58.com/ 4 5. 1 4. T T t( T ) t P (t) p( P (t)) S(p) t S(t) S(t) = S(p) p P (t) t S(t) t S(p) p P (t) 7https://wenku.baidu.com/
4 5. 2 t P (t) P (t) 5. 3, p( P (t)) z(p) p z(p) = argmax P (z u p) z u (u=1,...,k) t( T ) t p z(p) z(t) z(t) = p P (t) { z(p) } t z(t) z(t) 5. 4 8 t S(t) 6. 6. 1 2 556 8http://index.baidu.com/ R 2 ABC 65 ( 3 65 ) conf c T (conf > = c) T (conf > = c) R (conf > = c) (conf > = c) (conf > = c)= R T (conf > = c) R (conf > = c)= R T (conf > = c) T (conf > = c) 6. 2 8 () 7. ( K = 60) 28. 1 6 28 5 QA 8. [2]
(a) () (b) () () 8 () [6] [2] [5] LDA [7] [4] SVM 9. [1] D. M. Blei, A. Y. Ng, and M. I. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, Vol.3, pp. 993 1022, 2003. [2],,,,,.. 8 DEIM, 2016. [3] Q. Le and T. Mikolov. Distributed representations of sentences and documents. In Proc. 31st ICML, pp. 1188 1196, 2014. [4],,,,,,.. 9 DEIM, 2017.
5 /A B C / / 1 2 3 4 5 6 A C C B A A ID QA wed114 58 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 [5],,,,,,.. 7 DEIM, 2015. [6] T. Nie, Y. Ding, C. Zhao, Y. Lin, T. Utsuro, and Y. Kawada. Clustering search engine suggests by integrating a topic model and word embeddings. In Proc. 18th SNPD, pp. 581 586, 2017. [7] Y. Ohkawa, S. Kawabata, C. Zhao, W. Niu, Y. Lin, T. Utsuro, and Y. Kawada. Identifying tips Web sites of a specific query based on search engine suggests and the topic distribution. In Proc. 3rd ABCSS, pp. 4347 4353, 2018.