京都大学人文科学研究所共同研究プロジェクト: 情報処理技術は漢字文献からどのような情報を 抽出できるか 人文情報学の基礎を築く 文字と非文字のアーカイブズ モデルを使った文献研究 文字資料アーカイブズの現在 特に検索可能性を中心に 岡本 真 動画のテキスト処理 安岡孝一 写真の検索可能性について考える 守岡知彦 ネットワーク分析からみた共観福音書間の比較研究 三宅真紀 異なる文献間の数理的な比較研究をふり返る 師 茂樹 全国共同利用 共同研究拠点 人文学諸領域の複合的共同研究国際拠点 2011.2.18
mokamoto@arg-corp.jp 1. 1.1 2010 Kindle ipad GALAPAGOS Reader 1.2 2 1
2010 1 1 47 7 5 21 i 1 1.3 2010 100 1960 ii iii iv 2. 2
2.1 i) ii) iii) 2 3 10 v Google Google vi 2.2 2010 vii 2010 Linked-Open Data LOD viii 3
3 ix i 2010 3 10 50 72 IT http://www.ipsj.or.jp/10jigyo/taikai/72kai/event/39.html ii 2.0 2010 iii < http://www.ndl.go.jp/jp/aboutus/digitization_fulltext.html > 2010 10 12 Arikaina 4
iv http://www.ndl.go.jp/jp/aboutus/digitization_fulltext.html v NII GETA < http://geta.ex.nii.ac.jp/ > reflexa < http://labs.preferred.jp/reflexa/ > vi NICT Web < http://www.dl.kuis.kyoto-u.ac.jp/i-believe/ > vii http://www.ndl.go.jp/jp/aboutus/roundtable.html viii NII LODAC Projects < http://lod.ac/projects/ > ix 740 2010 1 5
2008 7 1 4inch 16mm 4 1 4 1934 1936 1 1938 2 1938 2 2 1938 4 9 6 15 35 MPEG 1938 4 9 6 19 16mm 35 00:02 00:09 00:15 00:18 01:27 02:18 02:39 02:50 03:25 : 16mm,, 21 (2010 3 ), pp.3-8.
03:40 04:28 05:03 383 05:25 05:28 06:32 07:01 08:54 12:04 12:53 13:04 13:48 17:07 22:41 23:40 24:40 25:26 27:55 28:19 30:05 30:17
31:50 33:16 34:41 35:04 2 3 1 1 ( 1 ) XML :,, No.675 (2008 11 ), pp.37-39.
<sequence><scene> <shot> </shot> <shot> </shot> <shot></shot> </scene></sequence> <sequence><scene> <shot> </shot> </scene> <scene> <shot> 3 </shot> </scene> <scene> <shot> </shot> <shot> </shot> <shot> </shot> <shot> </shot> </scene> <scene> <shot> </shot> </scene></sequence> <sequence><scene> <shot> </shot> </scene> <scene> <shot></shot> <shot></shot> <shot></shot> <shot> HyTime MPEG 3 <shot> 3 </shot> <shot> </shot> <shot> </shot> 3
1 1930 iphoto Chaon [3] 1 1 1
Web 2 ID 2 URI ID ID CHISE ID CHISE Chaon [14] 3 CHISE [2] etc. 2 [17] 3 [1] 2
CHISE 1 5 itunes CPU GPU 4 3 [16] [15] [12] 2ch BBS YouTube [10] SNS Twitter 4 [19] 3
SNS 4 [17] 5 4
5 WWW Cure [11] [8] 5 SNS mixi SNS 6 Cure Cure 7 8 [13] [5] [6] [7] UTAU [9] [4] [18] Cure 5 6 mixi 7 8 5
UTAU [10] pixiv [20] CHISE CHISE *note CHISE YouTube Google Cure CHISE 9 9 Cure mixi API 6
6 Web Web [1] Jacques Derrida. ( )., 1997 12.. [2] (Roland Barthes). La Chambre claire : Note sur la photographie., 19971980. ( ). 7
[3] MORIOKA Tomohiko. CHISE: Character Processing Based on Character Ontology. In Takenobu Tokunaga and Antonio Ortega, editors, Large-Scale Knowledge Resources, Vol. 4938 of LNAI, pp. 148 162. Springer, 2008. [4]. http://kasaneteto.jp/, 2008 4. [5] MEIKO. http://www.crypton.co.jp/mp/do/prod?id=25220, 2004 11. [6] KAITO. http://www.crypton.co.jp/mp/do/prod?id=27720, 2006 2. [7] VOCALOID 2. http://www.crypton.co.jp/ mp/pages/prod/vocaloid/, 2007 8. [8]. http://www.cosp.jp/, 2007. [9]. UTAU. http://utau2008.web.fc2.com/, 2008 3. [10].. http://www.nicovideo.jp/, 2006 12. [11] Cure. http://ja.curecos.com/, 2001. [12].. NTT, 2005 9. [13],. VOCALOID., Vol. 2007, No. 102, pp. 25 28, 2007 11. 2007-MUS-72 (5). [14]..., 2003 2. [15]..,, pp. 55 64. 21 COE, 2007 12. [16]..,. 21 COE, 2007 12. [17]..., 2005 7. [18].. http://www36.atwiki.jp/momonemomo/, 2008 5. [19]. itunes, 25., 2009 4. http://business.nikkeibp.co.jp/article/life/20090403/ 191007/. [20]. pixiv. http://www.pixiv.net/, 2007 9. 8
mmiyake@lang.osaka-u.ac.jp,, 1. WW Gfeller et al. (2005) Dorow, B. et al.(2005) Steyvers & Tenenbaum (2005) 2007 2006 2008 Web 1
2. 2.1. 27 ευαγγελιον (Conzelmann & Lindermann, 1998) (Mk)(Mt) (Lk)(Joh) (Novum Testamentum Graece) 27 (Nestle-Aland, 1993) 4 4 4 17 4 8361 1 28 16 24 21 1068 673 1149 878 17.4 17.0 17.1 17.8 18541 11427 19696 15635 3944 2859 4579 2572 2
2.2. Mt, Mk, Lk 95 58 41 20, 1996 18 Synoptic Gospels 18 Q Q 2.3. (Synopsis) Griesbach (1976) Synopsis Evangeliorum Matthaei, Marci et Lucae Aland 1983 Synopsis 2005 =2005, 2006 3, 11-12 1, 7-8 3,15-18 3
(Mt=Mk=Lk) (Mt=Mk) (Mt=Lk)(Mk=Mk) 2 3: 11-12 1: 7-8 3:16-18 3 Matthew 3, 11-12 Mark 1,7-8 Luke 3,16-18 καὶ ἐκήρυσσεν λέγων ἀπεκρίνατο λέγων πᾶσιν ὁ Ἔρχεται ὁ ἰσχυρότερός μου Ἰωάννης ἐγὼ μὲν ὑμᾶς βαπτίζω ἐν ὀπίσω μου οὗ οὐκ εἰμὶ ἱκανὸς κύψας λῦσαι τὸνἱμάντα τῶν ὑποδημάτων ἐγὼ ἐβάπτισα αὐτοῦ ὑμᾶς ὕδατι Ἐγὼ μὲν ὕδατι βαπτίζω ὑμᾶς: ὕδατι εἰς μετάνοιαν ὁ δὲ ὀπίσω μου ἐρχόμενος ἔρχεται δὲ ἰσχυρότερός μού ἐστιν ὁ ἰσχυρότερός μου οὗ οὐκ εἰμὶ ἱκανὸς οὗ οὐκ εἰμὶ ἱκανὸς λῦσαι τὰ ὑποδήματα βαστάσαι τὸν ἱμάντα τῶν ὑποδημάτων αὐτὸς ὑμᾶς βαπτίσει αὐτὸς δὲ βαπτίσει ὑμᾶς αὐτοῦ: αὐτὸς ὑμᾶς βαπτίσει ἐν πνεύματι ἁγίῳ καὶ πυρί ἐν πνεύματι ἁγίῳ ἐν πνεύματι ἁγίῳ καὶ πυρί: οὗ τὸ πτύον ἐν τῇ χειρὶ αὐτοῦ καὶ διακαθαριεῖ τὴν ἅλωνα αὐτοῦ καὶ συνάξει τὸν σῖτον αὐτοῦ εἰς τὴν ἀποθήκην τὸ δὲ ἄχυρον κατακαύσει πυρὶ ἀσβέστῳ οὗ τὸ πτύον ἐν τῇ χειρὶ αὐτοῦ διακαθᾶραι τὴν ἅλωνα αὐτοῦ καὶ συναγαγεῖν τὸν σῖτον εἰς τὴν ἀποθήκην αὐτοῦ τὸ δὲ ἄχυρον κατακαύσει πυρὶ ἀσβέστῳ 4
4 3:11-12 1:7-8 3:1-5 58 30 58 43 28 49, πυρὶ ὀπίσω μου 3. 3.1. 3.2. Mt=Mk=Lk, Mt=Mk, Mt=Lk, Mk=Lk, Mt, Mk, Lk 1-7 103 50 107 107 5
5 ἁγίῳ_1 πυρί_3 2 ἀπεκρίνατο_7 Ἰωάννης_7 1 ἀπεκρίνατο_7 λέγων_4 1 ἀπεκρίνατο_7 ὁ_7 1 ἀπεκρίνατο_7 πᾶσιν_7 1 ἀποθήκην_3 αὐτοῦ_3 1 αὐτὸς_1 βαπτίσει_1 2 αὐτοῦ_3 ἅλωνα_3 2 Watts Strogatz (1998) 6 3:11-12 1:7-8 3:1-5 () 50 30 53 4.0 3.3 3.9 0.74 0.93 0.77 6
図 1 共 観 表 ネ ッ ト ワ ー ク 図 3.3. ネットワーク描画 文書構造の体系をグラフ図として視覚化することにより 単語や文書の関係性を直 感的に捉えることができる ネットワーク視覚化には 統計解析ソフトウェア R の collonet パッケージを使用した 三宅, 2010 このパッケージは igraph パッケージを言 語データ用にカスタマイズすることを目的として作成したものである 図1に共観表ネ ットワーク図を示す 共観表のカテゴリー分けに従って ノード色を区別した 4つの共 通カテゴリーに加えて 各福音書に独立して表れる単語についても文書別に識別し 文書 特有の使用単語を確認できるようになっている 次数の大きさに比例して ノードの大き さを変化している 単語と単語の結びつけているエッジの太さは 共起単語ペアの頻度数 に比例している 図1から 3福音書共通部分とマタイ ルカ共通部分のクラスターが分 かれていることが読み取れる そのクラスターに派生する形で マルコ ルカ共通部分の ノードの小クラスターが繋がっている部分もあり ネットワーク構造をもとにして 共観 表の並行箇所をさらに細分化することも可能である 4. おわりに 本稿では 共観福音書の3福音書に対して 共観表の並行箇所から単語の共起デー タを抽出しネットワークを構築する手法を提案した 共通カテゴリーの情報が付加され た単語を使用したグラフはクラスター性を高め 文書の共通部分が把握しやすいネット ワーク図として描画された 内容一致を重視したクラスター抽出のための単語の形態素 7
Aland, K. (1985), Synopsis Quattuor Evangeliorum 15th edition, Deutsche Bibelgesellschaft. Conzelmann, H. & Lindermann, A. (1998), Interpreting The New Testament, Hendrickson Publishers. Dorow, B. et al.(2005), Using Curvature and Markov Clustering in Graphs for Lexical Acquisition and Word Sense Discrimination, MEANING. Gfeller, D., et al. (2005), Synonym Dictionary Improvement through Markov Clustering and Clustering Stability, ASMDA, 106-113. Greisbach (1776), Synopis Evangeliorum Matthaei, Marci et Lucae, Helle. Nestle-Aland (1993), Novum Testamentum Graece 27th edition, German Bible Society Stuttgart. Steyvers, M., Tenenbaum, J. (2005), The Large Scale Structure of Semantic Networks: Statistical Analyses and a Model of Semantic Growth, Cognitive Science, 29 (1) pp.41-78. Watts, D. and Strogatz, S. (1998), Collective dynamics of small-world networks, Nature, 393:440-442. (1996),,,, 1996. (2005),,. (2006),, http://www.rikkyo.ne.jp/web/msato/grsynall.pdf. (2007), 17(3), pp.149-163. (2006) -2006 pp.161-165 (2008) -2008 pp.319-324 (2010), R 2009-2010 pp.41-63. 8
s-moro@hanazono.ac.jp