DEIM Forum 2019 H Web 1 Tripadvisor

DEIM Forum 2019 H7-2 163 8677 1 24 2 E-mail: em18011@ns.kogakuin.ac.jp, kitayama@cc.kogakuin.ac.jp Web 1 Tripadvisor 1 2 1 1https://www.tripadvisor.com/ 2https://www.jalan.net/kankou/ 1 2 3 4 5 6 7 2 2. 1 [1] Flickr [2] Cheng [3]

1 2 2. 2 [4] () () [5] [6] Gick [7] [8]. 3 [5][9] 3 3. 1 2016 9 [10] 1 Python gensim 3 Distributed Bag-of-Words 300 MeCab [11] mecab-ipadic-neologd 4 () 3. 2 3https://radimrehurek.com/gensim/models/doc2vec.html 4https://github.com/neologd/mecab-ipadic-neologd/

表 1 形態素解析の例リ場所になる傾向がある他の例として京都の寺院の中に金閣寺と清水寺がレビュー文書どよいきれいに清掃などもされていて気分がよ存在する場合を考えるこのとき金閣寺の相対的特徴は金色金箔輝きなどである一方清水寺の相対的特徴は舞台や一望などであるどちらも京都にある寺院であるた園内も広く気分転換に散歩したりするのにちょういです形態素解析園内広い気分転換散歩ちょうどよいきれい清掃気分よいめ京都や寺院に関連する特徴は相対的特徴にならないその代わりにより詳細な特徴が相対的特徴として得られる rstate,i = si average(sstate si ) (1) 相対的特徴ベクトル rstate,i は式 1 として定義される相対的特徴ベクトルはそのスポット自体の特徴ベクトルから他のスポットの特徴ベクトルの平均を引いた値によって得られる Sstate = {s1, s2,..., sn } は既訪問スポット集合や未訪問スポット集合となっている state は f のとき既訪問スポット集合として定義する state は u のとき未訪問スポット集合として定義する si は集合 Sstate 内の観光スポットの特徴ベ図 3 プロトタイプシステムのユーザインターフェースクトルを示している 3. 3 説明スポットの決定 TFIDF 値を求める次に 2 つのスポットの共通する特徴語未訪問エリア内のスポットは既訪問スポットを使って説明するしたがって未訪問スポットと既訪問スポットを既訪問スポット rf,i と未訪問スポット ru,j の相対的特徴ベクトルにのスコアとして TFIDF 値の調和平均を計算する最後にスコアが高い特徴語を説明可能な単語として抽出するスポット内のキーワード特徴量は式 3 で定義する ( よって計算された類似度に基づいて関連付けを行う図 2 類 T F IDF (t, d, state) = T F (t, d) log 似度計算にはコサイン尺度 (式 2) を用いる cos(rf,i, ru,j ) = rf,i ru,j rf,i ru,j (2) 関連付け手順について説明するまず特定のスポットに最も類似度が高いスポットと関連付けるこのとき類似度が閾値 (本研究では 0.125) 以下である場合は関連付けを行わない Sstate DF (t, state) ) (3) T F (t, d) は文書 d においてのキーワード t の数である d はスポットのすべてのレビューを 1 つにまとめた文書である DF (t, state) はキーワード t を含む文書の数である Sstate はスポットの総数である state が f の場合ユーザが入力しまた未訪問スポットと類似度が最も高い既訪問スポットと関た既訪問スポット集合を使用して TFIDF 値を計算する state 連付けられているか既訪問スポットと類似度が最も高い未訪が u の場合ユーザが入力したエリアに含まれている未訪問ス問スポットと関連付けられているかによって結果が異なるポット集合を使用して TFIDF 値を計算する前者の方法ではすべての類似度が閾値を超えるとすべての既訪問スポットに対応するスポットがあるがすべての未訪問スポットに対応するスポットがあるわけではない一方後者の方法ではすべての類似度が閾値を超えるとすべての未 2 つのスポットに共通する特徴語の TFIDF 値の調和平均を用いて関連付けした既訪問スポットと未訪問スポットの説明可能なキーワードを抽出するまず既訪問スポットと未訪問スポットのレビュー文書でよく出現する単語を抽出す訪問スポットに対応するスポットがある本手法では未訪問る次に抽出した単語のスコアは式 4 によって定義するスポットを説明するために後者の方法を採用する T F IDF (t, d, f ) と T F IDF (t, d, u) は同じ単語がそれぞれ既訪問スポットの TFIDF 値と未訪問スポットの TFIDF 値を示し 3. 4 説明スポットの役割語の抽出未訪問スポットと既訪問スポットの関係性を表すキーワードている単語スコアの値が大きいのときその単語は各スポットにおいて重要度が高いことを示しているよって単語スコをユーザに提示するしかし相対的特徴ベクトルから単語のアの上位 N 個の単語が説明情報としてユーザに提示する (図特徴を得ることはできないので他の方法を使って単語を抽出 3) する前提としてすべてのレビューは日本語の形態素解析器 MeCab score(t, d) = 2 T F IDF (t, d, f ) T F IDF (t, d, u) (4) T F IDF (t, d, f ) + T F IDF (t, d, u) によって単語を分割する 3. 1 節の mecab-ipadic-neologd 辞書を利用するしかし助詞助動詞連体詞記号ストップワードを削除する (表 1) 3. 5 未訪問スポットの説明情報の例表 2 はユーザ既訪問スポット集合と未訪問スポットの集合キーワード抽出手順について説明するまず TFIDF 法をの例を示している未訪問スポットは東京都内からランダムに使って対象となる既訪問スポットと未訪問スポットの特徴語と選んだ 5 つのスポットである表 3 は 3 節で提案した方法を

2 (R) 2 2 4 4. 1 3 A B C () A B 3. 1 3. 4 TFIDF A 2 5 score(t, d) = T F IDF (t, d, f) + T F IDF (t, d, u) 2 (5) B 2 6 score(t, d) = T F IDF (t, d, f) T F IDF (t, d, u) (6) 5 6 T F IDF (t, d, f) T F IDF (t, d, u) TFIDF TFIDF N 4. 2 CrowdWorks 5 23 4 10 A C (N < = 5) 5 5 1 1 2 2 3 2 4 2 5 2 4. 3 4 A C 1 5 B 2 B A C 2 3 A C A 5 C 2 3 C 5 5. 1 3 D () E () 5https://crowdworks.jp/

3 4 A B C 1 0.00% 0.00% 0.00% 2 28.28% 31.31% 29.29% 3 35.35% 31.31% 35.35% 4 10.10% 14.14% 12.12% 5 26.26% 23.23% 23.23% 6 D E C 1 0.00% 0.00% 0.00% 2 41.30% 33.85% 29.36% 3 43.48% 47.69% 48.62% 4 2.17% 2.31% 2.75% 5 13.04% 16.15% 19.27% 5 D E C 1 0 0 0 0 2 19 44 32 95 3 20 62 53 135 4 1 3 3 7 5 6 21 21 48 46 130 109 285 C () D 3 1 1 2 1 12 D 3. 4 E 3. 1 3. 4 CrowdWorks 24 4. 2 5. 2 5 DE C 285 D E 6 1 5 D 2 D 7 E& 2 56.82% 43.18% C& 2 71.87% 28.13% E& 3 51.61% 48.39% C& 3 52.83% 47.17% C() 2 3 C 5 2 3 D D 2 3 2 3 2 3 E 3 5 E C 7 2 3 C E

8 a 9 b 6 6. 1 a b () 4 10 2 a b. 2 1 2 6. 2 a b 12 38 8( a) 9( b) a b 10 40 2 b a 2 80% b b 7 3 3 30 (C)( 18K11551) [1] T. Kurashima, T. Iwata, G. Irie and K. Fujimura., Travel route recommendation using geotags in photo sharing sites, CIKM 10 Proceedings of the 19th ACM international conference on Information and knowledge management, pp.579-588, 2010 [2] R. Kitamura and T. Itoh, Tourist Spot Recommmendation Applying Generic Object Recognition with Travel Photos, ITE Tech. Rep., Vol.42, No.12, AIT2018-94, pp.185-188, 2018 [3] A. J. Cheng, Y. Y. Chen, Y. T. Huang and Winston H.

Hsu, Personalized Travel Recommendation by Mining People Attributes from Community-Contributed Photos, MM 11 Proceedings of the 19th ACM international conference on Multimedia, pp.83-92, 2011 [4] K. J. Holyoak and P. Thagard, Mental Leaps: Analogy in Creative Thought, MIT Press, Journal of Japanese Society for Artificial Intelligence, Vol.11, No.3, pp.489, 1996 [5] D. Gentner, Structure-Mapping: A Theoretical Framework for Analogy, Cognitive Science, Vol.7, pp.155170, 1983 [6] M. L. Gick and K. J. Holyoak, Analogical Problem Solving, Cognitive Psychology, Vol.12, pp.306355, 1980 [7] M. L. Gick and K. J. Holyoak, Scheme Induction and Similarity in Analogical Transfer, Cognitive Psychology, Vol.15, pp.138, 1983 [8] Z. Chen and M. W. Daehler, Positive and Negative Transfer in Analogical Problem-solving by 6-years-old Children, Cognitive Development, Vol.4, No.4, pp.327344, 1989 [9] K. J. Holyoak and P. Thagard, Analogical Mapping by Constraint Satisfaction, Cognitive Science, Vol.13, pp.295355, 1989 [10] Quoc V. Le and Tomas Mikolov, Distributed representations of sentences and documents, In Proceedings of the 31th International Conference on Machine Learning, ICML 2014, pp. 11881196, 2014 [11] T. Kudo, K. Yamamoto and Y. Matsumoto, Applying Conditional Random Fields to Japanese Morphological Analysis, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP-2004), pp.230-237, 2004