レビューテキストの書きの評価視点に対する評価点の推定 PDF Free Download

JAIST Reposi https://dspace.j Title レヒューテキストの書き手の評価視点に対する評価点の推定 Author(s) 張, 博 Citation Issue Date 2017-03 Type Thesis or Dissertation Text version author URL http://hdl.handle.net/10119/14154 Rights Description Supervisor: 白井清昭, 情報科学研究科, 修士 Japan Advanced Institute of Science and

レビューテキストの書きの評価視点に対する評価点の推定 29 3

レビューテキストの書きの評価視点に対する評価点の推定 1510034 29 2 2

概要 2 1 ( ) 100 2 L2 (1 5 ) 1 6 1 5 6 1 500 F 90% 70% 2 2 1 2 1

(RMSE) 5 6 0.5208 0.0178 RMSE 100 2

次第 1 章序論 1 1.1... 1 1.2... 2 1.3... 3 第 2 章関連研究 4 2.1......................... 4 2.2... 6 2.3................. 7 2.4... 9 第 3 章提案法 10 3.1....................................... 10 3.2... 11 3.2.1... 11 3.2.2... 12 3.3... 15 第 4 章評価実験 19 4.1... 19 4.2..................................... 22 4.3..................................... 23 4.3.1... 23 4.3.2................ 27 4.3.3............................ 29 4.4..................................... 31 第 5 章結論 39 5.1...................................... 39 5.2... 39 謝辞 41 i

第 1 章序論 1.1 研究の背景 1 PC 1 1 2010 http://www.fujitsu.com/jp/group/fri/report/cyber/report/shopping2010.html 1

A B 1.2 研究の的 1.1 1.1: 2

1.3 本論の構成 2 3 4 5 3

第 2 章関連研究 2.1 2.2 2.3 2.4 2.1 商品属性語抽出に関する研究 PC CPU OS ( ) Yu [4] [7] Twitter 140 Twitter 30% URL 4

CaboCha Wikipedia MeCab - - - -- - - - - - - - - - -- - - - - - - -- (2.1) (2.1) R xi = f xi N x c xi M x (2.1) x: i: N x : x M x : x f xi : x i c xi : x i 5

-- - - -- -- -- - -- - - - - (2.1) 2.2 レビューの極性判定に関する研究 [5] 2.1 MeCab R n 6

2.1: R C i (2.2) P (C i R) = P (R C i) P (C i ) P (R) (2.2) R: C i : P (R C i ): R C i () P(C i ): C i () (2.2) R = {...T j...} T j (2.3) P (C i ) T j R P (T j C i ) (2.3) 2.3 評価視点からのレビューの分析に関する研究 [9] 7

[10] Distributed Memory model of Paragraph Vectors (PV-DM) PV-DM 2.2 2.2: PV-DM ( [10] ) 2.3 (1 5 ) 0.5021 1% 2% 8

2.3: ( [10] ) Pham least square method [8] 2.4 本研究の特 [5] () [10] Pham [8] 9

第 3 章提案法 3.1 概要 1 6 サービス地部屋設備アメニティ呂事 1 5 1 5 1 ( ) 2 1 1 5 1 http://travel.rakuten.co.jp 10

1 3.1 3.1: 3.2 評価視点に対するコメントの抽出 3.2.1 3.2.2 3.2.1 評価視点を唆するキーワードのリストの作成 1. 11

2. Weblio 2 1 3. 1 2 100 1 2 3 4. A ( ) B A B 1 3 5. [3] (0847) 6. 3 3 4 3.2 3.2.2 評価視点に関するコメントの抽出 ( ) 2 http://thesaurus.weblio.jp/ 3 http://svn.sourceforge.jp/svnroot/slothlib/csharp/version1/slothlib/nlp/filter/ StopWord/word/Japanese.txt 12

図 3.2: キーワードリスト作成の手順レビューテキストの分割まず事前にレビューテキストを文単位に分割するレビューテキストでは句読点は様々な記号で表現されるレビューテキストを適切に分割するために句読点の表記揺れも考慮する必要があるそのためレビューテキストを分割する前に表 3.1 に示すように記号を変換し句読点を正規化する表 3.1: 句読点の正規化元の記号,(半角) (全角).!? 変換した記号そして表 3.2 に挙げた 3 つの記号を句点としこれを文末としてレビューテキストを文単位に分割する表 3.2: 文分割のための句点句点 13

レビューテキストからのコメントの抽出 2-gram 3-gram + 2 n-gram MeCab 4 n-gram + コメント抽出の例 3.3 JR 3.3: 4 http://taku910.github.io/mecab/ 14

3.3 評価点の推測 (1 5 ) L2 LIBLINEAR[1] L2 1 3.3 3.3: 0.2-0.2-1.0 - - 1.0 5 1 3 + + + ( [6] [2]) 15

+ + 1.0 0.2 語と評価語の抽出 1 MeCab - - - - - -- - - 5 2311 5297 n-gram n =1, 2, 3, 4 n-gram 否定の判定 3.4 3.4 + + + 素性の抽出例 3.5 3.4 3.4 5 http://www.nltk.org/book-jp/ch12.html 16

( ) 3.4: 3.5: 3.4:,,,, 満 - 評価語,,,,, 関係 - 否定,,,,,,,,,,,,, おいしい - 評価語, 満 - 評価語 17

作成した訓練データの例 3.6 - : 3.6: 47-:0.2 16-:0.2 47-:0.2 48- :0.2 59- :0.2 60-:0.2 61- :0.2 19910-- :1.0 58-:0.2 48- :0.2 50- :0.2 90-:0.2 91- :0.2 92- :0.2 93- :0.2 94-:0.2 95- :0.2 19910-- :1.0 347-:0.2 80-:0.2 107-:0.2 111-:0.2 114-:0.2 161-:0.2 167-:0.2 168-:0.2 169- :0.2 170--:0.2 171-:0.2 172-:0.2 173-:0.2 19910-- :1.0 4106-:0.2 112-:0.2 592-:0.2 1011-:0.2 19910-- :1.0 19935- - :1.0 14-:0.2 7-:0.2 25-:0.2 34-:0.2 47-:0.2 84-:0.2 157- :0.2 234-:0.2 385-:0.2 522- :0.2 523-:0.2 19916-- :1.0 54-:0.2 27-:0.2 108-:0.2 153- :0.2 196-:0.2 339-:0.2 341- :0.2 342- :0.2 524- :0.2... 18

第 4 章評価実験 4.1 4.2 4.3 4.1 実験データ 411,568 6 4.1 3 6 272,665 4.1: 411,568 411,568 411,568 409,132 392,656 279,432 データ取得の概要 Python urllib3 1 beautifulsoup4 2 urllib3 1 http://urllib3.readthedocs.io/en/latest/index.html 2 https://www.crummy.com/software/beautifulsoup/bs4/doc/ 19

HTTP (html ) beautifulsoup4 HTML XML html ホテルのレビューページの URL の取得 ( ) URL http://review.travel.rakuten.co.jp/hotel/voice/11327/?f time= &f keyword= &f age=0&f sex=0&f mem1=0&f mem2=0&f mem3=0 &f mem4=0&f mem 5=0&f teikei=&f static=1&f point=0&f sort=0&f next=0 4.1: 11327 URL 0 20 20

1 20 4.1 URL f next 0 f next レビューテキスト, 評価点の取得 4.1 ( 4.1 ) 4.2 ID 6 4.2: urllib3 beautifulsoup4 csv csv,,,,,,,, 21

cvs 4.3 4.3: csv () 4.2 実験設定 (Root Menu Square Error;RMSE) (4.1, 4.2) A i = R i N i (4.1) A = 6 i=1 R i 6 i=1 N i (4.2) A i i A 6 R i i N i i RMSE (4.3, 4.4) RMSE i = 1 N i (y n ŷ n ) N 2 (4.3) i RMSE = 1 N n=1 N (y n ŷ n ) 2 (4.4) RMSE i i RMSE 6 y n n ŷ n n N i (4.1) i N 6 RMSE i RMSE 3 22 n=1

1. 1 2. 2 1 1 2 1 3. 4.4 4.5 4.5 3.1 1 2 6 4.3 実験結果 4.3.1 評価視点を唆するキーワードのリストの作成 3.2.1 23

図 4.4: ベースライン手法の概要図 4.5: 提案手法の概要 (再掲) 24

1. 2. Weblio 3. 100 4. ( ) 5. ( ) 6. 3 4 4.2 4.7 2 4.2: 1 2 () 3(1 ),,,,, 3(2 ),,,,,,, 3(3 ),, 4.3: 1 2, 3(1 ),, 3(2 ),, 3(3 ) JR 3(4 ), 3(5 ), 3(6 ),, 25

4.4: 1 2, 3(1 ) () 3(2 ) () 3(3 ) 4.5: 1,, 2 () 3(1 ) 4(1 ), 3(2 ),,, 4(2 ),,,,, LAN,, 3(3 ),,,,,, 4(3 ), Wi-Fi 4.6: 1, 2,, 3(1 ),,, 3(2 ),,, 3(3 ) () 3(4 ) 26

4.7: 1 2,,,,,,,,, 3(1 ),,, 3(2 ) 3(3 ), 5 4.8 4.8:,,,,,, +,,,,,,, +, +, +, + +, + +,,,,,,,,, JR,,,,,,, +, +, + +,,,,,,,,,,,, Wi-Fi, LAN,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,, 4.3.2 評価視点に関するコメント抽出の評価 4.3.1 500 6 27

F 4.5 4.8 : P recision = : Recall = (4.5) (4.6) F : F -measure = 2 P recision Recall P recision + Recall (4.7) : Rate = (4.8) F 4.9 4.10 4.9: F 90.20 77.67 83.46 94.34 73.10 82.39 85.17 87.45 86.29 92.42 61.68 73.99 93.48 75.41 83.48 98.19 81.23 88.91 4.10: 101,725 37.3% 80,679 29.6% 125,783 46.1% 56,203 20.6% 100,502 36.9% 166,017 60.9% 28

85% 5 90% 61% 87% 4.10 20% 60% ( 100%) 4.3.3 評価点推測の評価 4.1 5 1 2 3 4.6 4.11 RMSE 4.7 4.12 4.11 4.12 6 RMSE 4.11: BL1 0.5099 0.5021 0.4713 0.4426 0.4618 0.4866 0.4791 BL2 0.5066 0.4973 0.4660 0.4297 0.4563 0.4863 0.5030 0.5524 0.5688 0.4973 0.4054 0.5156 0.5323 0.5208 4.12: RMSE BL1 0.8750 0.8875 0.9306 0.9542 1.0162 0.9677 0.9398 BL2 0.8897 0.8968 0.9407 0.9836 1.0207 0.9723 0.9529 0.9326 0.8558 0.9680 1.0980 1.0041 0.9491 0.9687 = BL1 = BL2 = 29

4.6: 4.7: RMSE 30

5 6 4.10 8 16 5 6 2 2 2 6 1 2 4.12 RMSE 6 3 RMSE 1 2 RMSE RMSE RMSE 4.4 誤り分析 5 1 1 5 50 31

100 5 1 8 1 5 92 4.13 10 4.13 4.13: 1. 5 4 2. 4 8 3. 2 5 4. 3 0 5. 8 3 6. 5 6 7. 5 5 8. 2 3 9. 0 1 10. 16 15 1. 4.14 ( ) 4 32

4.14: OK,,, 2. 1 ( ) 4.15 3. 4.16 33

4.15:,,,,,,,,,,,,, -,,,,, 4.16: ( ) ( ),,,,,,,, 34

4. 4.17 11 4.17:, -,,,,,, -,,,,,,, 5. 3.3 4.18 35

4.18:,,, -,,,,, 6. 4.19 1 4.19:,,, -, 7. 4.20 36

4.20:, 8. 4.21 4.21:,, -,,,, 9. 4.22 37

4.22:,, 38

第 5 章結論 5.1 まとめ L2 ++ 4 500 F 5 RMSE F 6 73.99% 88.91% 3 RMSE 6 4.33% ( ) 5.2 今後の課題 RMSE 39

(RMSE) 4.4 L2 LIBLINEAR 4 () 6 40

謝辞. 41

参考献 [1] Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, and Chih-Jen Lin. LIBLINEAR: A library for large linear classification. The Journal of Machine Learning Research, Vol.9,pp.1871 1874,2008. [2],,.. 14, pp.584 587,2008. [3],,,,,,,. CD-ROM., 1999. [4] Yu Jianxing, Zha Zheng-Jun, Wang Meng, and Chua Tat-Seng. Aspect ranking: Identifying important product aspects from online consumer reviews. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, pp. 1496 1505, 2011. [5],,,.., Vol. 2013-GN-87,, 2013. [6],,,,.., Vol. 12, No. 3, pp. 203 222, 2005. [7],.. InDEIM Forum, B5-6, 2014. [8] Duc-Hong Pham, Anh-Cuong Le, and Thi-Kim-Chung Le. A least square based model for rating aspects and identifying important aspects on review text data. In Proceedings of the 2nd National Foundation for Science and Technology Development Conference on Information and Computer Science, pp.265 270,2015. [9],,,.. 18, pp.1188 1191,2012. [10],,.. 22, pp.158 161,2016. 42

レビューテキストの書き の評価視点に対する評価点の推定 29 3

レビューテキストの書きの評価視点に対する評価点の推定 29 3