DEIM Forum 2019 I2-4 305-8573 1-1-1 305-8573 1-1-1 305-8573 1-1-1 ( ) 151-0053 1-3-15 6F 101-8430 2-1-2 CNN LSTM,,,, Measuring Beginner Friendliness / Visiual Intelligibility of Web Pages explaining Academic Concepts by Deep Learning Hayato SHIOKAWA, Shintaro OKADA, Chihiro HIROHANA, Bingcai HAN, Takehito UTSURO, Yasuhide KAWADA, and Noriko KANDO Grad. Sch. of Systems and Information Engineering, University of Tsukuba, Tsukuba, 305-8573, Japan College Eng. Sys., School Sci. and Eng., University of Tsukuba, Tsukuba, 305-8573, Japan Faculty of Engineering, Information and Systems, University of Tsukuba, Tsukuba, 305-8573, Japan Logworks Co., Ltd., Tokyo, 151-0053, Japan National Institute of Informatics, Tokyo 101-8430, Japan 1. 1 ( 2) 3
図 1 ウェブ検索結果 N 位以内の 分かり易い 用語解説ウェブページの割合 図 2 用語解説ウェブエージの分かり易さ 見易さの自動評定システム ジを収集し 2. 3. 1 節 および 2. 3. 2 節で述べる基準に基づ ページの見易さ 文章の分り易さ 全体評定を人手で判定した いて人手で評定を行う 次に 評定を行なったウェブページ集 事例を蓄積する まず 各用語を検索クエリとして検索エンジ 合を 分野毎に訓練用 開発用 評価用に分割する 訓練用の ンによってウェブページを順位付けした検索の結果上位 10 件の ウェブページ集合を用いて 4. 1 節, 3. 1 節に示すモデルを訓 ウェブページを集めた その際 HTML ファイル収集プログラ 練した後 評価用ウェブページ集合を用いて評価を行う ムではアクセスできないページは参照用ページ集合に加えない 2. 参照用学術用語ウェブページ集合の作成 また 用語を収集した全ての学術分野で出現し かつ学術用語 2. 1 対象学術分野および用語 コトバンク 注 2 Weblio 注 3, Yahoo!知恵袋 注 4 の 4 種類のサ 文章の分かり易さ レイアウトの見易さ および 全 イトに含まれるページは全て除外する そして 2. 3. 3 節の基 体評定 の評定基準の傾向が類似している理工系学術分野を対 準に基づき全体評定を人手で行い その判定結果を付与した事 象とし 特に 物理 統計 IT 生物 線形代数 プログラミ 例を蓄積する 以上の手順によって 全体評定が 充足する ング 化学分野を対象分野とした 次に 主に高校 3 年生また と判定された事例を正例 充足しない と判定された事例を は大学レベルの学術用語を対象として選定し 各分野において 負例として 各分野ごとに表 1 に示す数の正例 負例を収集し ウェブページとして相応しくないと判断される Wikipedia 注 1 表 1 に示す学術用語を評価対象とする 2. 2 データセット作成手順 前節で収集した学術用語に対して用語解説ウェブページを収 集し 表 2(a) および 表 2(b) で述べる基準に基づきウェブ 注 1 https://ja.wikipedia.org/ 注 2 https://kotobank.jp/ 注 3 https://ejje.weblio.jp/ 注 4 https://chiebukuro.yahoo.co.jp/
3 7 IT 4 2 2. 3 2. 3. 1 2(a) 2. 3. 2 2(b) 2. 3. 3 2(a) 2(b) 3. 3. 1 LSTM HTML HTML LSTM (Long Short-Term Memory) LSTM RNN (Recurrent Neural Network) RNN RNN LSTM RNN LSTM LSTM ( 7(a)) LSTM 3. 2 3. 2. 1 2. 3. 3 50 50 accuracy 3. 2. 2 8 2 10 LSTM
1 15 48 89 137 ( 15 ) 15 F ( 15 ) 91 51 142 IT 15 API DBMS HTML IP JDBC RDB SDK SQL 72 72 144 Unicode URL 15 15 DNA 37 98 135 RNA ( 15 ) 15 44 84 128 ( 15 ) 15 C Java 60 82 142 ( 15 ) 15 57 86 143 ( 15 ) 105 409 562 971 4. 4. 1 ResNet (CNN) ImageNet ImageNet CNN CNN ResNet-50 [2] ResNet ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2015 [9] (Image Classification) (Object detection) Single-object localization 49 1 1 (1,000 ) ( 7(b)) ResNet-50 ImageNet2015 1,000 Python Pytorch 5 6 ResNet-50 ResNet-50 1,000 2 4. 2 4. 2. 1 2. 3. 3 5 https://pytorch.org/ 6 https://github.com/pytorch/vision/blob/master/torchvision/models/ resnet.py
2 (a) a b c d 6 e (b) f g h i 4 j 5 k i 4 ( [11] ) ResNet-50 50 accuracy
5 ( [11] ) 6 ( [11] ) 4. 2. 2 8 2 10 LSTM 5. [1, 6] HMTL [3, 4] [3, 7]
(a) LSTM (b) ResNet 7 [5, 10] [8] 6. [1] B. Han, H. Shiokawa, K. Kawaguchi, T. Utsuro, and Y. Kawada. Measuring beginner friendliness of Chinese Web pages explaining academic concepts using HTML structures. 32, 2018. [2] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proc. CVPR, pp. 770 778, 2016. [3],,,,,,.., Vol. 2019 IFAT 134/2019 DC 112,, 2019. [4],,,,.. 33, 2019. [5],,,,. QA., Vol. 21, No. 3, pp. 362 382, 2011. [6],,,,. HTML. 10 DEIM, 2018.
(a) (b) 8 [7],,,,,,.. 11 DEIM, 2019. [8],,.. 16 FIT, 3, pp. 45 52, 2017. [9] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. S. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, Vol. 115, No. 3, pp. 211 252, 2015. [10] T. Sakai, D. Ishikawa, N. Kando, Y. Seki, K. Kuriyama, and C.-Y. Lin. Using graded-relevance metrics for evaluating community QA answer selection. In Proc. 4th WSDM, pp. 187 196, 2011. [11],,,,.. 10 DEIM, 2018.