Vol.23-DPS-56 No. Vol.23-GN-89 No. Vol.23-EIP-6 No. 23/9/,a) 2,,, An Analysis of Video Meta-data and Thier Folksonomy Tags Using Niconico Dataset KUROSE Hiroshi,a) YAMADA Shigeki 2 Abstract: Viode meta-information of Nicovideo has provided by DWANGO Co., Ltd. and National Institute of Informatics (NII). This paper shows the analysis results of the statistical data of the meta-information of the videos and attached folksonomy tags on their video contents. Keywords: Video meta-data, Folksonomies, Tag based routing, Niconico dataset. [] * 8 Academic Foundations Programs, Kanazawa Institute of Technology 2 Principles of Informatics Research Division, National Institute of Informatics a) kurose@neptune.kanazawa-it.ac.jp * http://www.nicovideo.jp 2 3 4 2. 27 3 22 83 2GB 3GB [2] ID ID URL c 23 Information Processing Society of Japan
ID Web SNS (Social Networking Service) 3. 835696 27 3 6 33 22 7 9 22 268 22 python numpy *2 scipy *3 3. 3.2 3.3 3.4 3.5 3.6 3. (item) (samples) (mean) (stdev) (min) (max) (median) (mode) (kurtosis) (skewness). file size (high) file size (low) MB kb data rate (high) data rate (low) length MB kb/s (title length) (description length) (tag length) UTF8 distinct tag attached tag 2 mp4 MPEG-4 555337 swf Small Web Format 35455 flv Flash Video 23978 67:4:29 3.2 2 3. distinct tag 532834 8.95 359332 category tag distinct tag category locked tag lock lock&category. category lock 3 &, >,, < HTML &, >, ", <, 534, 236, 64, 69 3 3.3 2 27 3 7 7 9 22 7 Vol.23-DPS-56 No. Vol.23-GN-89 No. Vol.23-EIP-6 No. 23/9/ days np osted, sp osted [TB] (), (2) *2 www.numpy.org *3 www.scipy.org c 23 Information Processing Society of Japan 2
Vol.23-DPS-56 No. Vol.23-GN-89 No. Vol.23-EIP-6 No. 23/9/ ( =8,35,696) Table statitics of video meta data(number of videos is 8,35,696) item samples mean stdev min max median mode kurtosis skewness length [sec] 83558 666.75 754.739 65535 388 9 447.32 8.37 number of video posted/day 268 46.294 63.387 3 838 424 44 -.46 -.32 amount of posted [TB/day] 268 39.49 86.37 3 37 37 6 -.4.2 number of views 835696 474.734 387. 5454295 529 24 9398.77 82.97 number of comments 835696 297.764 467.464 2283467 2 74575.59 66.95 number of mylists 835696 67.764 85.736 57528 3 396.23 2.2 tags per content 835696 5.5 2.735 2 5 4 -.84.5 title length 835696 25.693.89 22 26 27.32.38 description length 835696 64.89 25.8 543 4 5.76.93 distinct tag length 532834 8.83 4.92 4 8 6.85.5 attached tag length 45773378 6.98 3.68 4 5 3 3.3.43 file size (high) [MB] 835459 35.572 32.36 8.774e-5 53 26 38 -.8.9 file size (low) [MB] 835459 2.4 2.92 3.79e-5 825 4 3 6.66.76 data rate (high) [kb/s] 83528 73.826 98.55 3.74e-6 463 52 38 5565.89 24.78 datarate (low) [kb/s] 6779295 36.398 3.68 2.529e-5 762 38 38 5678.47 7.7 2 Table 2 Tag usage situation(number of tags is 5,328,34) item samples mean stdev min max median mode kurtosis skewness distinct tag 532834 8.59 748.396 359332 339662.39 78.3 category tag 3 6637.466 3429.867 3365363 2 8.7 8.8 locked tag 8693 24.68 483.72 34634 596455.4 73.52 lock&category 3 66369.3 3429.274 3365363 2 8.7 8.8 np osted = 2.455days + 482 () sp osted =.5days 5.354 (2) y 3.4 bins 3 3 6 4 5% 4 25TB 5 length 78 3 9% 6 52627 237 MB 9% 7 5 6 55KB/s MB/s 8 [3] c 23 Information Processing Society of Japan 3
number of videos posted on the day 8 6 4 2 n=268, solidline:simple moving average of 7days. 5 5 2 days since 27-3-6 data size of posted video on the day in TB 4 n=267, solid line: simple moving average of 7days. 35 3 25 2 5 5 Vol.23-DPS-56 No. Vol.23-GN-89 No. Vol.23-EIP-6 No. 23/9/ 5 5 2 days since 27-3-6 Fig. number of video posted on each day Fig. 2 2 total size of posted files on each day...8.6.4.2 n=268, bins=.e+3. 2 3 4 5 6 7 8 number of videos posted on each days.8.6.4.2 n=268, bins=.e+4. 5 5 2 25 3 35 posted data size in TB on the day Fig. 3 3 of posted videos number Fig. 4 4 of posited videos size. n=83558, bins=.e+6.8.6.4.2 - -2-3 file size (low) file size (high). - 2 play time in minute Fig. 5 5 of play time -4 n=835459, bins=.e+6-2 - 2 data size in MB Fig. 6 6 of video file size 9 UTF8 c 23 Information Processing Society of Japan 4
Vol.23-DPS-56 No. Vol.23-GN-89 No. Vol.23-EIP-6 No. 23/9/ 情報処理学会研究報告. n=83528, bins=.e+5.6 data rate (low).4.2 Comment 6 frequency of appearance.8 7 data rate (high) View 5 4 MyList 3 2. 2 data rate in kb/s 3 n=835696, bins=.e+6 2 3 4 count 5 7 6 図 7 データ転送レートの累積確率分布 図 8 再生数 コメント数 マイリスト数の出現頻度分布 Fig. 7 of data rete Fig. 8 appearence of counts of views, comments, mylists ある タグはタグ種類別 (distinct tag) と動画に付与され distinct tag は種類別である たタグ (attached tag) の 2 つを集計している タイトルは 3 字程度が 動画説明文は 4 字以内が多い タグは 種 類別では平均 8.3 字 動画付与では平均 6. 字になってい 表 3 タグ割当状況 (動画数=8,35,696) Table 3 Attached tag(# of videos is 8,35,696) ることから 語句の文字長が短いタグが動画に多く付与さ category lock number of attached distinct tag れている タグ付与第 位は ゲーム でこの場合は 3 字 26,28,93 4,939,8 2,88,86 86,57 38,937,7 5,328,32 222 6,836,39 3 6,836,26 3 画あたりのタグ数は平均 5.5 であった タグが付与されな 5,328,32 4,939,8 い動画は全体の 2%存在した 頻度では 動画に付与され 9,644,225 86,93 45,773,378 5,328,34 である 3.5 タグ情報の出現頻度分布 図 に動画に付与されたタグ数の頻度分布を示す 動 たタグ数は 4 か 5 が多いが両方合わせても全体の約 3%で ある 図 にタグが付与された動画の多い順から並べたタグ ランキングの累積分布を示す カテゴリタグは種類も少な く第 位で 6%を占め上位 2 位まででカテゴリタグが付 与された動画の大多数を網羅する 全タグを対象とした場 合は 第 4 位を超えないとタグが付与された動画の過半 図 2 にカテゴリ指定されたタグの動画への付与数を示 す 横軸は 付与数の多いタグ順に並べている 動画への 付与数は 3 位を超えると急速に減少する カテゴリ指定のタグは 3 種類あるが タグの語句を見 ると VOCALOID と vocaloid のように表記ゆれを同 一とすると 4 種となる さらに 日記 と tagebuch な 数を網羅できない 最小二乗法による指数近似 abx では ランキング順位 k k に対してタグ ロック指定タグ カテゴリ指定タ グの出現数は それぞれ式 (3), (4), (5) である ど意味が同じタグを同一視すると 33 種に集約できる こ のうち動画に付与された数が 2 以上のものは 3 種であっ た なお ニコニコ動画のタグ検索機能では 検索文字の 大文字 小文字を同一視している T ag = 3.723 exp( 3.56e 7 k) (3) 次に あるタグが付与された動画の総再生数とタグの出 T aglock = 3.5 exp( 4.349e 6 k) (4) 現数の関係を見る 図 3 にタグによる再生数ランキング T agcategory =.552e+5 exp(.475 k) (5) 同一タグであってもカテゴリまたはロックが指定されて 分布を示す タグ出現数のランキングを上位 位まので 各タグにおいて そのタグが付与された動画の総再生数を 求め 再生数の多い順に並べ直している いる場合 値が と指定されていない場合があるため 状 同様にタグ出現順位を 位ずつ増やして 8 位までの 況について確認する カテゴリ ロックの値を変えてタグ 分布を描く 第 位までの最低再生総数は 7 程度であ 数を調べた結果を表 3 に示す は値が任意であること るが 第 2 位での最低再生総数は 5 5 程度になる を表す number of attached は動画に付与されたタグで これは 動画に付与される数が多いタグでも再生数が低い c 23 Information Processing Society of Japan 5
frequency of appearance 7 6 5 4 3 2 distinct tag: n=532834 attached tag: n=45773378 title: n=835696 description: n=835696 2 3 text length generation probablity.6.4.2..8.6.4.2. Vol.23-DPS-56 No. Vol.23-GN-89 No. Vol.23-EIP-6 No. 23/9/ n=835696 2.9e-6 2 3 4 5 6 7 8 9 2 number of tags attached to content 9 Fig. 9 appearence of text length Fig. number of tags attached to a content..8.6.4.2 category tag n=3 locked tag n=8693 all tag n=532834. 2 3 4 5 6 7 tag ranking frequency of appearance 7 6 5 4 3 2 n=3 2 4 6 8 tag ranking Fig. of attached tag 2 Fig. 2 number of videos using category tag 6 2 n nv iews nv nt ags tag j (6) n C n,view C n,view = n nv i= j= nv iews j,tag i tag j nv i= nv iews (6) i nt ags i C n,commnet C n,mylist 3.7% 8 2.77% 4 5 3 view 2734554 2 56226 7 385662 comment 96382 2 7465 7 545 mylist 862 2 3346 7 6727. 6 % 3% (7), (8), (9) C 2 5,view =.883 exp(.248e 5 k) (7) C 2 5,comment =.89 exp(.83e 5 k) (8) C 2 5,mylist =.726 exp(.376e 5 k) (9) c 23 Information Processing Society of Japan 6
9 Vol.23-DPS-56 No. Vol.23-GN-89 No. Vol.23-EIP-6 No. 23/9/ resorted view count 9 8 7 6 5 coverage=.7.25.223.237.248.26.269.277 2 3 4 5 6 7 8 set of tag ranking resorted comment count 8 7 6 5 4 coverage=.65.97.26.23.242.253.26.269 2 3 4 5 6 7 8 set of tag ranking 3 Fig. 3 total view count by tag ranking 4 Fig. 4 total comment count by tag ranking 38% 2 5 6 7% 3.6 7 2 258 2 2 8 7 7 - -2 7 4. [4] [5] [6] Web [7]. [8] 3 c 23 Information Processing Society of Japan 7
8 Vol.23-DPS-56 No. Vol.23-GN-89 No. Vol.23-EIP-6 No. 23/9/ 7 resorted mylist count 6 5 4 3 coverage=.66.2.29.234.245.259.267.276 2 3 4 5 6 7 8 set of tag ranking 5 Fig. 5 total mylist count by tag ranking coverage - -2 view comment mylist 2 3 4 5 tag ranking upto topn 6 Fig. 6 coverage the counts by tag ranking number of videos attached 7 6 5 4 3 rank - rank - rank - rank -3 rank 3-6 rank 6- average view count 7 6 5 4 3 rank - rank - rank -2 rank 2-4 rank 4-7 rank 7-2 5 5 2 tag lifetime [days] 2 5 5 2 tag lifetime [days] Fig. 7 7 tags duration vs. number of attached 8 Fig. 8 tags duration vs. average view counts 5. [] http: //www.nii.ac.jp/cscenter/idr/. [2] http://www. nii.ac.jp/cscenter/idr/nico/nico.html. [3] Caldarelli, G., Capocci, A., De Los Rios, P. and Muñoz, M. A.: Scale-Free Networks from Varying Vertex Intrinsic Fitness, Phys. Rev. Lett., Vol. 89, p. 25872 (online), DOI:.3/PhysRevLett.89.25872 (22). [4] Hotho, A., Jäschke, R., Schmitz, C. and Stumme, G.: FolkRank: A ranking algorithm for folksonomies, UNI- VERSITY OF HILDESHEIM, INSTITUTE OF COM- PUTER SCIENCE, pp. 4 (26). [5] BibSonomy: BibSonomy - The blue social bookmark and publication sharing system, http://www.bibsonomy. org/. [6] Rossini, G. and Rossi, D.: Large scale simulation of CCN networks, 4èmes Rencontres Francophones sur les Aspects Algorithmiques des Télécommunications, La Grande Motte : France (22), (online), available from http://hal.archives-ouvertes.fr/hal-688934/ (22). [7] Wetzker, R., Zimmermann, C., Bauckhage, C. and Albayrak, S.: I tag, you tag: translating tags for advanced user models, Proceedings of the third ACM international conference on Web search and data mining, WSDM, New York, NY, USA, ACM, pp. 7 8 (online), DOI:.45/78487.78497 (2). [8] TCR: CGM. B, Vol. 96-B, No. 2, pp. 7 82 (23). c 23 Information Processing Society of Japan 8