レビューテキストの書き の評価視点に対する評価点の推定 29 3

Similar documents
Copyright 2008 by Tomoyoshi Yamazaki

JAIST Reposi Title KJ 法における作法の研究 Author(s) 三村, 修 Citation Issue Date Type Thesis or Dissertation Text version author URL http


Web

2015 9

2006 3






2015 3


Copyright ' 2001 by Manabu Masuoka i


JAIST Reposi Title 既存曲に合わせて口す さまれる即興歌唱を利用した 音楽創作支援手法に関する研究 Author(s) 柳, 卓知 Citation Issue Date Type Thesis or Dissertation Te


Copyright 2001 by Junichi Sawase

Copyright c 2001 by Shuuhei Takimoto

TRON Copyright C 2002 by KURATA Keiicchi

Copyright c 2000 by Yoshihide Tomiyama






1.

Copyright c 2012 by Kikugawa Mariko

AI

2004 3

2005 3






stud 戸 時 of 血 e~ 田 e 置 'Ch


- 17 -








1 3 [1] [2, 3] WWW 2.1 WWW WWW DjVu 3 ( 1) 2 DjVu DjVu DjVu[2] 16 ( ) http
















2014 3





1,a) 1,b) TUBSTAP TUBSTAP Offering New Benchmark Maps for Turn Based Strategy Game Tomihiro Kimura 1,a) Kokolo Ikeda 1,b) Abstract: Tsume-shogi and Ts




135














93

1


MDA


熊 本 大 学 学 術 リポジトリ Kumamoto University Repositor Title プロスタシンを 中 心 としたNa 再 吸 収 血 圧 調 節 の 分 子 基 盤 の 解 明 Author(s) 脇 田, 直 樹 Citation Issue date









133

Transcription:

JAIST Reposi https://dspace.j Title レヒ ューテキストの書き手の評価視点に対する評価 点の推定 Author(s) 張, 博 Citation Issue Date 2017-03 Type Thesis or Dissertation Text version author URL http://hdl.handle.net/10119/14154 Rights Description Supervisor: 白井清昭, 情報科学研究科, 修士 Japan Advanced Institute of Science and

レビューテキストの書き の評価視点に対する評価点の推定 29 3

レビューテキストの書き の評価視点に対する評価点の推定 1510034 29 2 2

概要 2 1 ( ) 100 2 L2 (1 5 ) 1 6 1 5 6 1 500 F 90% 70% 2 2 1 2 1

(RMSE) 5 6 0.5208 0.0178 RMSE 100 2

次 第 1 章 序論 1 1.1... 1 1.2... 2 1.3... 3 第 2 章 関連研究 4 2.1......................... 4 2.2... 6 2.3................. 7 2.4... 9 第 3 章提案 法 10 3.1....................................... 10 3.2... 11 3.2.1... 11 3.2.2... 12 3.3... 15 第 4 章 評価実験 19 4.1... 19 4.2..................................... 22 4.3..................................... 23 4.3.1... 23 4.3.2................ 27 4.3.3............................ 29 4.4..................................... 31 第 5 章 結論 39 5.1...................................... 39 5.2... 39 謝辞 41 i

第 1 章 序論 1.1 研究の背景 1 PC 1 1 2010 http://www.fujitsu.com/jp/group/fri/report/cyber/report/shopping2010.html 1

A B 1.2 研究の 的 1.1 1.1: 2

1.3 本論 の構成 2 3 4 5 3

第 2 章 関連研究 2.1 2.2 2.3 2.4 2.1 商品属性語抽出に関する研究 PC CPU OS ( ) Yu [4] [7] Twitter 140 Twitter 30% URL 4

CaboCha Wikipedia MeCab - - - -- - - - - - - - - - -- - - - - - - -- (2.1) (2.1) R xi = f xi N x c xi M x (2.1) x: i: N x : x M x : x f xi : x i c xi : x i 5

-- - - -- -- -- - -- - - - - (2.1) 2.2 レビュー の極性判定に関する研究 [5] 2.1 MeCab R n 6

2.1: R C i (2.2) P (C i R) = P (R C i) P (C i ) P (R) (2.2) R: C i : P (R C i ): R C i () P(C i ): C i () (2.2) R = {...T j...} T j (2.3) P (C i ) T j R P (T j C i ) (2.3) 2.3 評価視点からのレビューの分析に関する研究 [9] 7

[10] Distributed Memory model of Paragraph Vectors (PV-DM) PV-DM 2.2 2.2: PV-DM ( [10] ) 2.3 (1 5 ) 0.5021 1% 2% 8

2.3: ( [10] ) Pham least square method [8] 2.4 本研究の特 [5] () [10] Pham [8] 9

第 3 章 提案 法 3.1 概要 1 6 サービス 地 部屋 設備 アメニティ 呂 事 1 5 1 5 1 ( ) 2 1 1 5 1 http://travel.rakuten.co.jp 10

1 3.1 3.1: 3.2 評価視点に対するコメントの抽出 3.2.1 3.2.2 3.2.1 評価視点を 唆するキーワードのリストの作成 1. 11

2. Weblio 2 1 3. 1 2 100 1 2 3 4. A ( ) B A B 1 3 5. [3] (0847) 6. 3 3 4 3.2 3.2.2 評価視点に関するコメントの抽出 ( ) 2 http://thesaurus.weblio.jp/ 3 http://svn.sourceforge.jp/svnroot/slothlib/csharp/version1/slothlib/nlp/filter/ StopWord/word/Japanese.txt 12

図 3.2: キーワードリスト作成の手順 レビューテキストの 分割 まず 事前にレビューテキストを文単位に分割する レビューテキストでは句読点は 様々な記号で表現される レビューテキストを適切に分割するために 句読点の表記揺れ も考慮する必要がある そのため レビューテキストを分割する前に 表 3.1 に示すよう に記号を変換し 句読点を正規化する 表 3.1: 句読点の正規化 元の記号,(半角) (全角).!? 変換した記号 そして 表 3.2 に挙げた 3 つの記号を句点とし これを文末として レビューテキスト を文単位に分割する 表 3.2: 文分割のための句点 句点 13

レビューテキストからのコメントの抽出 2-gram 3-gram + 2 n-gram MeCab 4 n-gram + コメント抽出の例 3.3 JR 3.3: 4 http://taku910.github.io/mecab/ 14

3.3 評価点の推測 (1 5 ) L2 LIBLINEAR[1] L2 1 3.3 3.3: 0.2-0.2-1.0 - - 1.0 5 1 3 + + + ( [6] [2]) 15

+ + 1.0 0.2 語と評価語の抽出 1 MeCab - - - - - -- - - 5 2311 5297 n-gram n =1, 2, 3, 4 n-gram 否定の判定 3.4 3.4 + + + 素性の抽出例 3.5 3.4 3.4 5 http://www.nltk.org/book-jp/ch12.html 16

( ) 3.4: 3.5: 3.4:,,,, 満 - 評価語,,,,, 関係 - 否定,,,,,,,,,,,,, おいしい - 評価語, 満 - 評価語 17

作成した訓練データの例 3.6 - : 3.6: 47-:0.2 16-:0.2 47-:0.2 48- :0.2 59- :0.2 60-:0.2 61- :0.2 19910-- :1.0 58-:0.2 48- :0.2 50- :0.2 90-:0.2 91- :0.2 92- :0.2 93- :0.2 94-:0.2 95- :0.2 19910-- :1.0 347-:0.2 80-:0.2 107-:0.2 111-:0.2 114-:0.2 161-:0.2 167-:0.2 168-:0.2 169- :0.2 170--:0.2 171-:0.2 172-:0.2 173-:0.2 19910-- :1.0 4106-:0.2 112-:0.2 592-:0.2 1011-:0.2 19910-- :1.0 19935- - :1.0 14-:0.2 7-:0.2 25-:0.2 34-:0.2 47-:0.2 84-:0.2 157- :0.2 234-:0.2 385-:0.2 522- :0.2 523-:0.2 19916-- :1.0 54-:0.2 27-:0.2 108-:0.2 153- :0.2 196-:0.2 339-:0.2 341- :0.2 342- :0.2 524- :0.2... 18

第 4 章 評価実験 4.1 4.2 4.3 4.1 実験データ 411,568 6 4.1 3 6 272,665 4.1: 411,568 411,568 411,568 409,132 392,656 279,432 データ取得の概要 Python urllib3 1 beautifulsoup4 2 urllib3 1 http://urllib3.readthedocs.io/en/latest/index.html 2 https://www.crummy.com/software/beautifulsoup/bs4/doc/ 19

HTTP (html ) beautifulsoup4 HTML XML html ホテルのレビューページの URL の取得 ( ) URL http://review.travel.rakuten.co.jp/hotel/voice/11327/?f time= &f keyword= &f age=0&f sex=0&f mem1=0&f mem2=0&f mem3=0 &f mem4=0&f mem 5=0&f teikei=&f static=1&f point=0&f sort=0&f next=0 4.1: 11327 URL 0 20 20

1 20 4.1 URL f next 0 f next レビューテキスト, 評価点の取得 4.1 ( 4.1 ) 4.2 ID 6 4.2: urllib3 beautifulsoup4 csv csv,,,,,,,, 21

cvs 4.3 4.3: csv () 4.2 実験設定 (Root Menu Square Error;RMSE) (4.1, 4.2) A i = R i N i (4.1) A = 6 i=1 R i 6 i=1 N i (4.2) A i i A 6 R i i N i i RMSE (4.3, 4.4) RMSE i = 1 N i (y n ŷ n ) N 2 (4.3) i RMSE = 1 N n=1 N (y n ŷ n ) 2 (4.4) RMSE i i RMSE 6 y n n ŷ n n N i (4.1) i N 6 RMSE i RMSE 3 22 n=1

1. 1 2. 2 1 1 2 1 3. 4.4 4.5 4.5 3.1 1 2 6 4.3 実験結果 4.3.1 評価視点を 唆するキーワードのリストの作成 3.2.1 23

図 4.4: ベースライン手法の概要 図 4.5: 提案手法の概要 (再掲) 24

1. 2. Weblio 3. 100 4. ( ) 5. ( ) 6. 3 4 4.2 4.7 2 4.2: 1 2 () 3(1 ),,,,, 3(2 ),,,,,,, 3(3 ),, 4.3: 1 2, 3(1 ),, 3(2 ),, 3(3 ) JR 3(4 ), 3(5 ), 3(6 ),, 25

4.4: 1 2, 3(1 ) () 3(2 ) () 3(3 ) 4.5: 1,, 2 () 3(1 ) 4(1 ), 3(2 ),,, 4(2 ),,,,, LAN,, 3(3 ),,,,,, 4(3 ), Wi-Fi 4.6: 1, 2,, 3(1 ),,, 3(2 ),,, 3(3 ) () 3(4 ) 26

4.7: 1 2,,,,,,,,, 3(1 ),,, 3(2 ) 3(3 ), 5 4.8 4.8:,,,,,, +,,,,,,, +, +, +, + +, + +,,,,,,,,, JR,,,,,,, +, +, + +,,,,,,,,,,,, Wi-Fi, LAN,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 4.3.2 評価視点に関するコメント抽出の評価 4.3.1 500 6 27

F 4.5 4.8 : P recision = : Recall = (4.5) (4.6) F : F -measure = 2 P recision Recall P recision + Recall (4.7) : Rate = (4.8) F 4.9 4.10 4.9: F 90.20 77.67 83.46 94.34 73.10 82.39 85.17 87.45 86.29 92.42 61.68 73.99 93.48 75.41 83.48 98.19 81.23 88.91 4.10: 101,725 37.3% 80,679 29.6% 125,783 46.1% 56,203 20.6% 100,502 36.9% 166,017 60.9% 28

85% 5 90% 61% 87% 4.10 20% 60% ( 100%) 4.3.3 評価点推測の評価 4.1 5 1 2 3 4.6 4.11 RMSE 4.7 4.12 4.11 4.12 6 RMSE 4.11: BL1 0.5099 0.5021 0.4713 0.4426 0.4618 0.4866 0.4791 BL2 0.5066 0.4973 0.4660 0.4297 0.4563 0.4863 0.5030 0.5524 0.5688 0.4973 0.4054 0.5156 0.5323 0.5208 4.12: RMSE BL1 0.8750 0.8875 0.9306 0.9542 1.0162 0.9677 0.9398 BL2 0.8897 0.8968 0.9407 0.9836 1.0207 0.9723 0.9529 0.9326 0.8558 0.9680 1.0980 1.0041 0.9491 0.9687 = BL1 = BL2 = 29

4.6: 4.7: RMSE 30

5 6 4.10 8 16 5 6 2 2 2 6 1 2 4.12 RMSE 6 3 RMSE 1 2 RMSE RMSE RMSE 4.4 誤り分析 5 1 1 5 50 31

100 5 1 8 1 5 92 4.13 10 4.13 4.13: 1. 5 4 2. 4 8 3. 2 5 4. 3 0 5. 8 3 6. 5 6 7. 5 5 8. 2 3 9. 0 1 10. 16 15 1. 4.14 ( ) 4 32

4.14: OK,,, 2. 1 ( ) 4.15 3. 4.16 33

4.15:,,,,,,,,,,,,, -,,,,, 4.16: ( ) ( ),,,,,,,, 34

4. 4.17 11 4.17:, -,,,,,, -,,,,,,, 5. 3.3 4.18 35

4.18:,,, -,,,,, 6. 4.19 1 4.19:,,, -, 7. 4.20 36

4.20:, 8. 4.21 4.21:,, -,,,, 9. 4.22 37

4.22:,, 38

第 5 章 結論 5.1 まとめ L2 ++ 4 500 F 5 RMSE F 6 73.99% 88.91% 3 RMSE 6 4.33% ( ) 5.2 今後の課題 RMSE 39

(RMSE) 4.4 L2 LIBLINEAR 4 () 6 40

謝辞. 41

参考 献 [1] Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, and Chih-Jen Lin. LIBLINEAR: A library for large linear classification. The Journal of Machine Learning Research, Vol.9,pp.1871 1874,2008. [2],,.. 14, pp.584 587,2008. [3],,,,,,,. CD-ROM., 1999. [4] Yu Jianxing, Zha Zheng-Jun, Wang Meng, and Chua Tat-Seng. Aspect ranking: Identifying important product aspects from online consumer reviews. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pp. 1496 1505, 2011. [5],,,.., Vol. 2013-GN-87,, 2013. [6],,,,.., Vol. 12, No. 3, pp. 203 222, 2005. [7],.. InDEIM Forum, B5-6, 2014. [8] Duc-Hong Pham, Anh-Cuong Le, and Thi-Kim-Chung Le. A least square based model for rating aspects and identifying important aspects on review text data. In Proceedings of the 2nd National Foundation for Science and Technology Development Conference on Information and Computer Science, pp.265 270,2015. [9],,,.. 18, pp.1188 1191,2012. [10],,.. 22, pp.158 161,2016. 42