untitled - PDF Free Download

DEIM Forum 2019 I2-4 305-8573 1-1-1 305-8573 1-1-1 305-8573 1-1-1 ( ) 151-0053 1-3-15 6F 101-8430 2-1-2 CNN LSTM,,,, Measuring Beginner Friendliness / Visiual Intelligibility of Web Pages explaining Academic Concepts by Deep Learning Hayato SHIOKAWA, Shintaro OKADA, Chihiro HIROHANA, Bingcai HAN, Takehito UTSURO, Yasuhide KAWADA, and Noriko KANDO Grad. Sch. of Systems and Information Engineering, University of Tsukuba, Tsukuba, 305-8573, Japan College Eng. Sys., School Sci. and Eng., University of Tsukuba, Tsukuba, 305-8573, Japan Faculty of Engineering, Information and Systems, University of Tsukuba, Tsukuba, 305-8573, Japan Logworks Co., Ltd., Tokyo, 151-0053, Japan National Institute of Informatics, Tokyo 101-8430, Japan 1. 1 ( 2) 3

図 1 ウェブ検索結果 N 位以内の分かり易い用語解説ウェブページの割合図 2 用語解説ウェブエージの分かり易さ見易さの自動評定システムジを収集し 2. 3. 1 節および 2. 3. 2 節で述べる基準に基づページの見易さ文章の分り易さ全体評定を人手で判定したいて人手で評定を行う次に評定を行なったウェブページ集事例を蓄積するまず各用語を検索クエリとして検索エンジ合を分野毎に訓練用開発用評価用に分割する訓練用のンによってウェブページを順位付けした検索の結果上位 10 件のウェブページ集合を用いて 4. 1 節, 3. 1 節に示すモデルを訓ウェブページを集めたその際 HTML ファイル収集プログラ練した後評価用ウェブページ集合を用いて評価を行うムではアクセスできないページは参照用ページ集合に加えない 2. 参照用学術用語ウェブページ集合の作成また用語を収集した全ての学術分野で出現しかつ学術用語 2. 1 対象学術分野および用語コトバンク注 2 Weblio 注 3, Yahoo!知恵袋注 4 の 4 種類のサ文章の分かり易さレイアウトの見易さおよび全イトに含まれるページは全て除外するそして 2. 3. 3 節の基体評定の評定基準の傾向が類似している理工系学術分野を対準に基づき全体評定を人手で行いその判定結果を付与した事象とし特に物理統計 IT 生物線形代数プログラミ例を蓄積する以上の手順によって全体評定が充足するング化学分野を対象分野とした次に主に高校 3 年生またと判定された事例を正例充足しないと判定された事例をは大学レベルの学術用語を対象として選定し各分野において負例として各分野ごとに表 1 に示す数の正例負例を収集しウェブページとして相応しくないと判断される Wikipedia 注 1 表 1 に示す学術用語を評価対象とする 2. 2 データセット作成手順前節で収集した学術用語に対して用語解説ウェブページを収集し表 2(a) および表 2(b) で述べる基準に基づきウェブ注 1 https://ja.wikipedia.org/ 注 2 https://kotobank.jp/ 注 3 https://ejje.weblio.jp/ 注 4 https://chiebukuro.yahoo.co.jp/

3 7 IT 4 2 2. 3 2. 3. 1 2(a) 2. 3. 2 2(b) 2. 3. 3 2(a) 2(b) 3. 3. 1 LSTM HTML HTML LSTM (Long Short-Term Memory) LSTM RNN (Recurrent Neural Network) RNN RNN LSTM RNN LSTM LSTM ( 7(a)) LSTM 3. 2 3. 2. 1 2. 3. 3 50 50 accuracy 3. 2. 2 8 2 10 LSTM

1 15 48 89 137 ( 15 ) 15 F ( 15 ) 91 51 142 IT 15 API DBMS HTML IP JDBC RDB SDK SQL 72 72 144 Unicode URL 15 15 DNA 37 98 135 RNA ( 15 ) 15 44 84 128 ( 15 ) 15 C Java 60 82 142 ( 15 ) 15 57 86 143 ( 15 ) 105 409 562 971 4. 4. 1 ResNet (CNN) ImageNet ImageNet CNN CNN ResNet-50 [2] ResNet ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2015 [9] (Image Classification) (Object detection) Single-object localization 49 1 1 (1,000 ) ( 7(b)) ResNet-50 ImageNet2015 1,000 Python Pytorch 5 6 ResNet-50 ResNet-50 1,000 2 4. 2 4. 2. 1 2. 3. 3 5 https://pytorch.org/ 6 https://github.com/pytorch/vision/blob/master/torchvision/models/ resnet.py

2 (a) a b c d 6 e (b) f g h i 4 j 5 k i 4 ( [11] ) ResNet-50 50 accuracy

5 ( [11] ) 6 ( [11] ) 4. 2. 2 8 2 10 LSTM 5. [1, 6] HMTL [3, 4] [3, 7]

(a) LSTM (b) ResNet 7 [5, 10] [8] 6. [1] B. Han, H. Shiokawa, K. Kawaguchi, T. Utsuro, and Y. Kawada. Measuring beginner friendliness of Chinese Web pages explaining academic concepts using HTML structures. 32, 2018. [2] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proc. CVPR, pp. 770 778, 2016. [3],,,,,,.., Vol. 2019 IFAT 134/2019 DC 112,, 2019. [4],,,,.. 33, 2019. [5],,,,. QA., Vol. 21, No. 3, pp. 362 382, 2011. [6],,,,. HTML. 10 DEIM, 2018.

(a) (b) 8 [7],,,,,,.. 11 DEIM, 2019. [8],,.. 16 FIT, 3, pp. 45 52, 2017. [9] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. S. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, Vol. 115, No. 3, pp. 211 252, 2015. [10] T. Sakai, D. Ishikawa, N. Kando, Y. Seki, K. Kuriyama, and C.-Y. Lin. Using graded-relevance metrics for evaluating community QA answer selection. In Proc. 4th WSDM, pp. 187 196, 2011. [11],,,,.. 10 DEIM, 2018.