共起頻度は, そのものです. 例えば, 野球 の Dice 係数の上位の単語は, サッカー : 格闘技 : プロ野球 : ゴルフ : テニス : 試合 : 選手 : 高校野球 :0.157

Similar documents
人材育成 に関するご意見 1) 独立行政法人情報通信研究機構富永構成員 1 ページ 2) KDDI 株式会社嶋谷構成員 8 ページ 資料 7-2-1

マルチエージェントシステムグループの研究計画

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>



経済論集 46‐2(よこ)(P)☆/2.三崎

Polycom RealConnect for Microsoft Office 365

INDEX ソフトウェア使用許諾契約書 インストール時に必要なシステム NAVI OFFICE 2のセットアップ お問い合わせ NAVI OFFICE 2 セットアップマニュアル < NAVISTUDIO_EV_7-B >

アーカイブ機能インストールマニュアル

eService

Presentation Arial Narrow 28 pt


nlp1-12.key

NGSデータ解析入門Webセミナー

ビューアページ画像の仕様


内容 Visual Studio サーバーエクスプローラで学ぶ SQL とデータベース操作... 1 サーバーエクスプローラ... 4 データ接続... 4 データベース操作のサブメニューコンテキスト... 5 データベースのプロパティ... 6 SQL Server... 6 Microsoft


Microsoft PowerPoint _Spotfire Installation from Scistore.pptx

資産ファイルのエクスポート(会計王13PRO) 運用ガイド

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

資産ファイルのエクスポート(会計王19シリーズ) 運用ガイド

Oracle SolarisにおけるCPUリソースの制限方法

intra-mart e-Builder ver 5

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

アーカイブ機能インストールマニュアル

MadCap Flare ライセンス認証 MadCap 製品のライセンス認証 Flare インストール前のご注意 インストールする前に是非お読みください [ Flare 2018 の推奨システム要件 ] 推奨メモリサイズ 4096 MB 1.4 GB の空きディスク容量 Intel Pentium

<4D F736F F D208D C8FEE95F18DEC90AC A B D836A B2E646F63>

IBM API Connect 開発者ポータル構成ガイド 1章

セキュリティー機能(TPM)設定ガイド

第1部参考資料

Alfa-Products_installguide

DigiCert SSL/TLS 証明書 Microsoft IIS 8.0/8.5 証明書コピー/サーバー移行手順書

Microsoft Word - BJ-Trans_JW_SXFInstallguide.doc

Webセキュリティサービス

BD&DVD 変換スタジオ 4 DVD 変換スタジオ 4 HOW-TO-COPY 注意 : 本説明はヨドバシカメラ等の家電量販店や ベクター ジェムソフトストア等の日本国内オンライン 販売店 leawo.jp 等でご購入の製品が対象です 目次 1. はじめに 2. Blu-ray DVD Decry

DigiCert EV コード署名証明書 Microsoft Authenticode署名手順書

<4D F736F F D20836F E C C6F6E C EE682E888B582A2837D836A B2E646F63>

OpenLAB Data Store Release Notes

EndNote X7 クイックレファレンスガイド

Microsoft Word - FORMAT.EXE使用説明.doc

RDX へのバックアップ 3 ベアメタル復旧手順書 2014 年 11 月

フォーマットソフト取扱説明書

PowerPoint プレゼンテーション

はじめに SDP Generator は オーバーレイに対応した JVC カメラに画像をインポートするデータファイル (SDP ファイル ) を生成するためのアプリケーションです 本アプリケーションを使用することで スコアボードのチーム名に チームロゴや画像化された多言語の文字をカメラ映像に表示する

変換スタジオ 4 DVD 総合 Box ディスククローン 4 DVD HOW-TO-COPY 注意 : 本説明はヨドバシカメラ等の家電量販店や ベクター ジェムソフトストア等の日本国内オンライン 販売店 leawo.jp 等でご購入の製品が対象です 目次 1. はじめに 2. Blu-ray DVD

インターネットマガジン1996年12月号―INTERNET magazine No.23

2

BricRobo V1.5 インストールマニュアル

Maser - User Operation Manual

POWER EGG V2.01 ユーザーズマニュアル 汎用申請編

PCL6115-EV 取扱説明書

InfoCage FileShell 持出閲覧形式保護ファイルビューアー 利用ガイド

資産ファイルのエクスポート(会計王16シリーズ) 運用ガイド

ウェブデザイン技能検定 1 級実技 平成 28 年度 第 4 回 ウェブデザイン技能検定 1 級 実技試験概要 試験にあたっての注意事項 試験者は本試験の留意事項 注意事項に留意して作業を行うこと ペーパー実技試験は 課題 1 から 5 までの 5 課題を 60 分間で行うこと 作業実技試験は 課題

法人税の達人from減価償却の達人 運用ガイド

IM-FormatCreator

<4D F736F F F696E74202D E48FE A92C789C192CA926D82C982C282A282C45F696E6F75652E >

Bizメール&ウェブ エコノミー Active! mail利用マニュアル

9 WEB監視

ディスク消去ユーティリティ (DiskEraseUtil.exe) 用 WinPE 起動 USB メモリ作成方法 PC を廃棄する際 取り出し困難な内蔵 HDD を消去したい場合 WinPE が起動可能な USB メモリ を作成することで 消去を行うことができます 以下に WinPE 起動 USB

目次 はじめに... 3 仮想化環境上の仮想マシン保護方法... 4 ( 参考 )Agent for Virtual Machines での仮想マシンのバックアップ... 8 まとめ 改訂履歴 2011/04 初版リリース 2012/10 第 2 版リリース このドキュメントに含まれる特

PLESK 操作マニュアル - 目次 - ログイン / ログアウト...3 データ利用状況一覧...5 データ使用量の確認...6 アカウント情報 ( 企業名 担当者 住所 ログインパスワード メールアドレス等 ) の編集...9 コントロールパネルのパスワードを忘れた場合...10 メールユーザー

JAMP MSDSplus 作成マニュアル

Microsoft PowerPoint ppt

各種パスワードについて マイナンバー管理票では 3 種のパスワードを使用します (1) 読み取りパスワード Excel 機能の読み取りパスワードです 任意に設定可能です (2) 管理者パスワード マイナンバー管理表 の管理者のパスワードです 管理者パスワード はパスワードの流出を防ぐ目的で この操作

プロテクト_セットアップマニュアル

intra-mart Accel Platform — ViewCreator ユーザ操作ガイド   第6版  

Transcription:

単語共起頻度データベース (Version 1) 2009/12/24 初版 2010/03/31 2 版 ( ファイル容量の追記 ) 概要 本データベースは, 大量のウェブ文書を用いて, 様々な条件で2つの単語が共に出現する頻度 ( 共起頻度 ) を計算し, 各単語について,3 種の共起スコアの高い順に, 単語とそのスコアを記録したものです. 3 種類の共起スコアとは,Dice 係数, ディスカウンティングファクター有りの相互情報量 [Pantel 04] ( 以降,Dpmi とする ), 共起頻度です. [Pantel 04] P. Pantel and D. Ravichandran: Automatically Labeling Semantic Classes, In Proc. of HLT / NAACL, pp. 321-328 (2004). Dice 係数は,2 つの単語,t2 があった場合, を t1 と t2 の共起頻度, t1) を t1 の出現頻度, を t2 の出現頻度とした場合, Dice( = t1) + となります. Dpmi は, 相互情報量 (Point-wise Mutual Information) が低頻度の単語に正のバイアスがかかることが知られているため, その影響を減らしたスコアです.N は, 頻度の計算対象のデータ総数です. min( t1), ) dpmi( = pmi( + 1 min( t1), ) + 1 pmi( = log N t1) N N

共起頻度は, そのものです. 例えば, 野球 の Dice 係数の上位の単語は, サッカー :0.362974 格闘技 :0.227781 プロ野球 :0.220464 ゴルフ :0.210349 テニス :0.208742 試合 :0.173582 選手 :0.158105 高校野球 :0.157891 バスケットボール :0.144332 競馬 :0.136342 スポーツ :0.135528 バレーボール :0.133510 阪神 :0.12301 巨人 :0.115695 となっています. このように, 関連の深い語が上位に来ています. ただし, 上記はあくまでも1 例で, 全単語について, 上記のように関連の深い語が上位に来ているとは限りません. 詳しくは, 本ドキュメント 利用に関する注意 もご参照ください. 本データベースには, ダウンロード配布の上記データベースの他に, その元となるデータも含まれます. ただし, それらデータは非常にデータ量が多いため, USB の外付け HDD で配布いたします. 基本的には,HDD を送付し, データをコピーして返却いただく形になります. HDD 配布による全データをご希望の方は, 以下の言語資源サイトの 言語資源の入手の手順 の 言語資源取得申請書 に, 必要事項をご記入の上, 高度言語情報融合フォーラム事務局まで送付してください. http://nlpwww.nict.go.jp/corpus/gset/how-to-get.html また, 本データベースを便利に利用するためのツールを公開いたします. ツールは下記からダウンロードできます. 使用法も記載しておりますので, ご参照ください. http://nlpwww.nict.go.jp/sortedfilesearch/ ファイル 本データベースで, ダウンロード配布するデータベースは以下の通りです.1 GB を超えるファイルは ファイル名の右に容量を示しています ダウンロード

配布の全ファイルの記憶には 圧縮前で約 5G 展開後で約 12G のディスク容 量が必要です - 1m-0.1k.100m-docs.dice (gzip 圧縮 : 約 1.1G 展開後 : 約 2.4G) 約 100 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が共に出現する文書の頻度として,dice 係数の上位 100 語とそのスコアを記録. - 1m-0.1k.100m-docs.dpmi (gzip 圧縮 : 約 1.1G 展開後 : 約 2.3G) 約 100 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が共に出現する文書の頻度として,dpmi の上位 100 語とそのスコアを記録. - 1m-0.1k.100m-docs.freq (gzip 圧縮 : 約 0.4G 展開後 : 約 1.2G) 約 100 万語, 約 1 億文書を用いて, を t2 が共に出現する文書の頻度として, 共起頻度の上位 100 語とそのスコアを記録. - 1m.100m-docs.tf 約 100 万語, 約 1 億文書を用いて, 各単語の出現頻度を記録. - 1m.100m-docs.df 約 100 万語, 約 1 億文書を用いて, 各単語の文書頻度を記録. - 500k-0.1k.100m-docs.w4.dice (gzip 圧縮 : 約 0.5G 展開後 : 約 1.2G) 約 50 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が近接 4 文内に共に出現する文書の頻度として,dice 係数の上位 100 語とそのスコアを記録 - 500k-0.1k.100m-docs.w4.dpmi (gzip 圧縮 : 約 0.5G 展開後 : 約 1.1G) 約 50 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が近接 4 文内に共に出現する文書の頻度として,dpmi の上位 100 語とそのスコアを記録 - 500k-0.1k.100m-docs.w4.freq 約 50 万語, 約 1 億文書を用いて, を t2 が近接 4 文内に共に出現する文書の頻度として, 共起頻度の上位 100 語とそのスコアを記録 - 500k-0.1k.100m-docs.w0.dice (gzip 圧縮 : 約 0.4G 展開後 : 約 1.1G) 約 50 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が 1 文内に共に出現する文書の頻度として,dice 係数の上位 100 語とそのスコアを記録 - 500k-0.1k.100m-docs.w0.dpmi (gzip 圧縮 : 約 0.4G 展開後 : 約 1G) 約 50 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が 1 文内に共に出現する文書の頻度とし

て,dpmi の上位 100 語とそのスコアを記録 - 500k-0.1k.100m-docs.w0.freq 約 50 万語, 約 1 億文書を用いて, を t2 が 1 文内に共に出現する文書の頻度として, 共起頻度の上位 100 語とそのスコアを記録 - 500k.100m-docs.tf 約 50 万語, 約 1 億文書を用いて, 各単語の出現頻度を記録. - 500k.100m-docs.df 約 50 万語, 約 1 億文書を用いて, 各単語の文書頻度を記録. HDD 配布では, さらに以下が加わります.HDD 配布の全ファイルの記憶には 圧縮前で約 1.2T 展開後で約 4T のディスク容量が必要です - 1m-1m.100m-docs.data (gzip 圧縮 : 約 750G 展開後 : 約 2.4T) 約 100 万語, 約 1 億文書を用いて, 全ての単語の組み合わせについて, 2 つの単語が共に出現する文書の頻度を記録. - 500k-500k.100m-docs.w4.data (gzip 圧縮 : 約 66G 展開後 : 約 196G) 約 50 万語, 約 1 億文書を用いて, 全ての単語の組み合わせについて,2 つの単語が近接 4 文内に共に出現する文書の頻度を記録 - 500k-500k.100m-docs.w0.data (gzip 圧縮 : 約 19G 展開後 : 約 61G) 約 50 万語, 約 1 億文書を用いて, 全ての単語の組み合わせについて,2 つの単語が 1 文内に共に出現する文書の頻度を記録 - 1m-10k.100m-docs.dice (gzip 圧縮 : 約 91G 展開後 : 約 238G) 約 100 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が共に出現する文書の頻度として,dice 係数の上位 1 万語とそのスコアを記録. - 1m-10k.100m-docs.dpmi (gzip 圧縮 : 約 89G 展開後 : 約 211G) 約 100 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が共に出現する文書の頻度として,dpmi の上位 1 万語とそのスコアを記録. - 1m-10k.100m-docs.freq (gzip 圧縮 : 約 70G 展開後 : 約 200G) 約 100 万語, 約 1 億文書を用いて, を t2 が共に出現する文書の頻度として, 共起頻度の上位 1 万語とそのスコアを記録. - 500k-5k.100m-docs.w4.dice (gzip 圧縮 : 約 20G 展開後 : 約 49G) 約 50 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が近接 4 文内に共に出現する文書の頻度として,dice 係数の上位 5 千語とそのスコアを記録

- 500k-5k.100m-docs.w4.dpmi (gzip 圧縮 : 約 20G 展開後 : 約 43G) 約 50 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が近接 4 文内に共に出現する文書の頻度として,dpmi の上位 5 千語とそのスコアを記録 - 500k-5k.100m-docs.w4.freq (gzip 圧縮 : 約 12G 展開後 : 約 30G) 約 50 万語, 約 1 億文書を用いて, を t2 が近接 4 文内に共に出現する文書の頻度として, 共起頻度の上位 5 千語とそのスコアを記録 - 500k-5k.100m-docs.w0.dice (gzip 圧縮 : 約 13G 展開後 : 約 34G) 約 50 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が 1 文内に共に出現する文書の頻度として,dice 係数の上位 5 千語とそのスコアを記録 - 500k-5k.100m-docs.w0.dpmi (gzip 圧縮 : 約 13G 展開後 : 約 30G) 約 50 万語, 約 1 億文書を用いて,t1), をそれぞれ,t2 の出現文書頻度, を t2 が 1 文内に共に出現する文書の頻度として,dpmi の上位 5 千語とそのスコアを記録 - 500k5k.100m-docs.w0.freq (gzip 圧縮 : 約 7.4G 展開後 : 約 21G) 約 50 万語, 約 1 億文書を用いて, を t2 が 1 文内に共に出現する文書の頻度として, 共起頻度数の上位 5 千語とそのスコアを記録 ファイルフォーマット *.dice,*.dpmi,*.freq のファイルは, 以下のフォーマットとなっています. ただし, ダウンロード配布のファイルは,gzip 圧縮されています. 文字コードが UTF8 で, 正規表現で表すと, 一行が以下のフォーマットで書かれたファイルが生成されます. < 単語 >([::space::]< 単語 >:< スコア >)+ n ここで,< 単語 > は, 任意の単語の文字列,[::space::] は, 空白とします. (< 単語 >:< スコア >) は, 行頭の単語との共起スコアの降順に並んでいます. つまり, 行頭の単語にとって,n 番目の (< 単語 >:< スコア >) は各種共起スコアの n 位の単語とその共起スコアとなります.

*.data のファイルは, 文字コードが UTF8 で, 正規表現で表すと, 一行が以下のフォーマットで書かれています. < 単語 >([::space::]< 単語 >:< 共起頻度 >)+ n 行頭の単語は unix 系 OS の env LC_ALL=C sort のソート順と同じ並びとなっています. また, その単語に対応する各 (< 単語 >:< スコア >) も, 単語について, 同じソート順で並んでいます.2 分探索など, ソート順が関係する探索プログラムを作成する場合に留意してください. *,tf,*.df のファイルは, 文字コードが UTF8 で, 一行が < 単語 >[::space::]< 頻度 > n となっています. 行頭の単語は unix 系 OS で env LC_ALL=C sort のソート順と同じ並びとなっています. 生成方法 本データベースの作成の対象の文書データは,Tsubaki[Shinzato 2008] で収集された日本語の約 1 億ウェブページです. [Shizato 2008]K. Shinzato, T. Shibata, D. Kawahara, C. Hashimoto, and S. Kurohashi, Tsubaki: An open search engine infrastructure for developing new Information access, In proc of the 3 rd IJCNLP, pp. 189-196, 2008. 本データベースの 文 とは,Tsubaki の Standard Format の <S> です. カウント対象の 単語 は,Alagin フォーラムで公開されている 文脈類似語データベース version 1 に準拠しています. つまり, 本データベースの 100 万語,50 万語は, 基本的には, それぞれ以下と同様です. 100 万語 : 1m-2k.s1.data,1m-2k.s1.data, 1m-2k.s2.data,1m-2k.s1+s2.data 1m-rv100k.data 50 万語 : old.500k-2k.data ただし, 文書の解析に用いられた形態素解析 (Juman), 構文解析 (Knp) のバージ

ョン違いや, 単語のフィルタ規則の違いによって,100 万語の方は約 2000 語, 50 万語の方は約 1 万語, それぞれ抽出されなかったため, 必ずしも全単語は含 まれません. 利用条件 本データベースの利用には,( 独 ) 情報通信研究機構と利用許諾契約を結ぶ必要があります. 詳しくは, http://www.alagin.jp を御覧下さい. 利用に関する注意本データベースは, インターネットホームページ等,( 独 ) 情報通信研究機構以外の第三者が作成した文書等のデータから, 語彙の抽出及び統計処理等によって作成されたものです. そのため本データベースの内容は,( 独 ) 情報通信研究機構の主体的な意思決定 判断を示すものではありません. 本データベースの生成は, 電子的な方法又は一様の選別基準による機械的判定によって行われています. そのため本データベースの内容の正確性, 真実性及び相当性は一切保証されません. 以上の理由により,( 独 ) 情報通信研究機構は, 本データベースの内容について, 責任を負いかねます. 本データベースの使用に関連して生ずる損失, 損害等についても, 一切責任を負いかねます. 本データベースには, 意図せず, 第三者への誹謗中傷, 差別用語, 個人情報などが含まれている場合があります. 本データベースを利用の際はこれらによる権利侵害に十分な注意をお願いいたします. 利用者においては, 本データベースの以上の特質をよくご理解の上で, 本データベースをご利用下さい. 本データベースに関する問い合わせ先 独立行政法人情報通信研究機構知識創成コミュニケーション研究センター MASTAR プロジェクト言語基盤グループ Email: alagin-lr@khn.nict.go.jp