JCLWorkshop_No.8



Similar documents
JCLWorkshop_No.8

1 書 誌 作 成 機 能 (NACSIS-CAT)の 軽 量 化 合 理 化 電 子 情 報 資 源 への 適 切 な 対 応 のための 資 源 ( 人 的 資 源,システム 資 源, 経 費 を 含 む) の 確 保 のために, 書 誌 作 成 と 書 誌 管 理 作 業 の 軽 量 化 を 図

intra-mart Accel Platform — ViewCreator ユーザ操作ガイド   第6版  

以 下 に 手 順 の 流 れを 記 載 します 3ページ 以 降 で 各 項 目 の 手 順 を 説 明 します ( をクリックすると 該 当 ページにジャンプします ) また 4ページに 汎 用 データ 受 入 に 関 するよくあるお 問 い 合 わせをご 紹 介 しています Step (3ペー

Microsoft PowerPoint - INIS_Collection_Srh_Quickmamual(Japanese)

目 次 1. 大 学 情 報 データベースシステムの 使 用 方 法 について EXCEL 一 括 登 録 EXCEL ダウンロード 検 索 条 件 の 指 定 プレビュー EXCEL ダウンロード(データ 抽 出 あ

研究者総覧システム

「1 所得税及び復興特別所得税の確定申告書データをお持ちの方」からの更正の請求書・修正申告書作成編

IPSJ SIG Technical Report Vol.2010-NL-199 No /11/ treebank ( ) KWIC /MeCab / Morphological and Dependency Structure Annotated Corp

Microsoft Word - 03accessデータベース演習レジメ.doc

ボタンをクリックします ( 警 告 が 表 示 されない 場 合 もあります ) 9 画 面 に Win SFX32M V と 表 示 されますので 保 存 する 箇 所 を 選 択 し OK をクリックしてください 選 択 した 箇 所 にインストールしたフォルダが 保 存 され

2 研 究 資 源 共 通 化 統 合 検 索 システムソフトウェア 利 用 者 用 マニュアル(ゲートウェイシステム) 目 次 1. はじめに 主 な 利 用 の 流 れ 検 索 検 索 画 面 検 索 画 面 の 設 定...

目 次 1. 本 マニュアルについて D-Case ステンシルの 導 入 概 要 インストール D-Case 編 集 D-Case メニュー ノード リンク..

別冊資料-11

01_07_01 データのインポート_エクスポート_1

以 下 に 手 順 の 流 れを 記 載 します 3ページ 以 降 で 各 項 目 の 手 順 を 説 明 します ( をクリックすると 該 当 ページにジャンプします ) また 15ページに 汎 用 データ 受 入 に 関 する よくあるお 問 い 合 わせをご 紹 介 しています Step1 (

1. アクセスする 2. 簡 易 検 索 画 面 (fig. 1) アクセスすると 最 初 に 出 る 画 面 です 検 索 語 入 力 ボックスにキーワードを 入 力 して 論 文 検 索 ボタンをクリックし ます 3. ボックス 下 部 のチェック 項

研究者情報データベース

(Microsoft PowerPoint - Ver12\203o\201[\203W\203\207\203\223\203A\203b\203v\216\221\227\277.ppt)

Microsoft PowerPoint - webサイト更新マニュアル ppt [互換モード]

Ver 改 訂 日 付 改 訂 内 容 1

C.1 共 有 フォルダ 接 続 操 作 の 概 要 アクセスが 許 可 されている 研 究 データ 交 換 システムの 個 人 用 共 有 フォルダまたは メーリングリストの 共 有 フォルダに 接 続 して フォルダを 作 成 したり ファイル をアップロードまたはダウンロードしたりすることがで

<4D F736F F D C97F195CF8AB DEC90E096BE8F912091E6312E313294C52E646F63>

2016 年 度 情 報 リテラシー 三 科 目 合 計 の 算 出 関 数 を 用 いて 各 教 科 の 平 均 点 と 最 高 点 を 求 めることにする この2つの 計 算 は [ホーム]タブのコマ ンドにも 用 意 されているが 今 回 は 関 数 として 作 成 する まず 表 に 三 科

KINGSOFT Office 2016 動 作 環 境 対 応 日 本 語 版 版 共 通 利 用 上 記 動 作 以 上 以 上 空 容 量 以 上 他 接 続 環 境 推 奨 必 要 2

file:///L|/kajo/_RESOURCE/index.html

一 覧 表 ( 専 従 者 用 ) YES NOチャート( 専 従 月 額 単 価 用 ) (P.4)を 参 考 にしてください < 直 接 雇 用 者 > 一 覧 表 ( 専 従 者 用 )の 単 価 は 委 託 期 間 中 に 継 続 して 半 年 以 上 当 該 AMED 事 業

図 2 エクスポートによるシェープファイルの 新 規 保 存 新 規 保 存 するファイルは,より 分 かりやすい 名 前 をつけて 適 切 なフォルダ(shape フォル ダにまとめておくのがよい) 上 に 保 存 しておく 2 / 10

目 次 1. 積 算 内 訳 書 に 関 する 留 意 事 項 1 ページ 2. 積 算 内 訳 書 のダウンロード 3 ページ 3. 積 算 内 訳 書 の 作 成 (Excel 2003の 場 合 ) 6 ページ 4. 積 算 内 訳 書 の 作 成 (Excel 2007の 場 合 ) 13

贈与税 faq

(Microsoft Word - \221\346\202P\202U\201@\214i\212\317.doc)

変 更 履 歴 版 日 付 区 分 変 更 内 容 変 更 個 所 /11/30 新 規 初 版 作 成 /12/10 修 正 資 料 カバー 画 像 設 定 の 操 作 内 容 を 追 加 資 料 カバー 画 像 設 定 i

< F2D91E A4A94AD8D7388D782CC8B9689C22E6A7464>

1

2 データの 表 示 構 造 を 設 定 するビュー データシートビュー: のアイコンをクリックして 表 示 する データを 設 計 されたモードに 従 って 表 示 する のアイコンをクリックして 表 示 する USB メモリーなど 記 憶 媒 体 を 取 り 出 すことについて データベースソフ

スライド 1

取扱説明書

もくじ 0.はじめに 1 1. 用 紙 をスキャナで 用 紙 を 読 み 込 む 1 2. 書 式 定 義 マークした 部 分 を 個 々のデータとして 取 り 込 む 場 合 ( 複 数 回 答 対 応 ) マークした 部 分 をグループ 化 して 取 り 込 む 場 合

目 次 JAVIS Appli の 基 本 機 能... 3 JAVIS Appli について... 3 音 声 確 認 機 能 JAVIS Appli( 有 償 版 )の 機 能... 4 音 声 で 読 みの 確 認 をする... 4 辞 書 機 能... 5 単 語 を 登 録 する... 5

<4D F736F F D20819C B78AFA95DB91538C7689E68DEC90AC289

スライド 1

12_02_02 帳票設定5

Microsoft Word - 第3章.doc

TIPS - 棚 割 りを 開 始 するまで Liteを 起 動 し 企 業 情 報 の 追 加 を 行 い 棚 割 を 行 う 企 業 の 追 加 をして 下 さい 企 業 情 報 の 追 加 時 に エラーメッセージが 表 示 された 場 合 別 途 TIPS トラブルが 発 生 した 場 合

「給与・年金の方」からの確定申告書作成編

目 次 1. 論 理 関 数 IF IF の 概 要 論 理 式 の 種 類 等 号 不 等 号 具 体 的 な 使 い 方 ネスト 複 数 の 条 件 を 記 述...

目 次 1. Web メールのご 利 用 について Web メール 画 面 のフロー 図 Web メールへのアクセス ログイン 画 面 ログイン 後 (メール 一 覧 画 面 ) 画 面 共 通 項 目

Microsoft PowerPoint - Internet-ASK診断管理者用マニュアル140723

前 書 き 広 域 機 関 システム System for Organization for Cross-regional Coordination of Transmission Operators(OCCTO) 商 標 類 Windows Office Excel Word

第1回

<4D F736F F D A6D92E894C5817A30318F5A91EE838D815B839392CA926D95B62E646F6378>

振込データの作成

縦 計 横 計 をSUM 関 数 で 一 度 に 計 算 する 縦 横 の 合 計 を 表 示 するセルが 計 算 対 象 となる セルと 隣 接 している 場 合 は 一 度 に 合 計 を 求 め ることができます 1 計 算 対 象 となるセル 範 囲 と 合 計 を 表 示 する セル 範

1 変更の許可等(都市計画法第35条の2)

2. 番 号 種 別 の 利 用 方 法 わが 国 の 番 号 方 式 に 照 らして INSネットでの 番 号 種 別 の 具 体 的 な 利 用 方 法 を 記 述 すると 以 下 のようにな ります (1) 番 号 種 別 (TON)= 不 定 電 話 サービスと 同 様 のダイヤル 手 順

タイトルは14ポイント&ボールドMS明朝

はじめに ~アイコン 説 明 1.TOP 画 面 2.カメラTOP 切 替 会 社 選 択 画 面 へ 遷 移 + カメラアプリの 新 規 フォルダーを 作 成 編 集 カメラアプリのフォルダーを 編 集 更 新 設 定 の 変 更 が 反 映 されない 場 合 更 新 をしてください メニュー カ

続 に 基 づく 一 般 競 争 ( 指 名 競 争 ) 参 加 資 格 の 再 認 定 を 受 けていること ) c) 会 社 更 生 法 に 基 づき 更 生 手 続 開 始 の 申 立 てがなされている 者 又 は 民 事 再 生 法 に 基 づき 再 生 手 続 開 始 の 申 立 てがなさ

< 目 次 > 8. 雇 用 保 険 高 年 齢 雇 用 継 続 給 付 27 ( 育 児 休 業 給 付 介 護 休 業 給 付 ) 8.1 高 年 齢 雇 用 継 続 給 付 画 面 のマイナンバー 設 定 高 年 齢 雇 用 継 続 給 付 の 電 子 申 請 高

あいち電子調達共同システム

- 目 次 - 変 更 履 歴... i 1. はじめに 用 語 の 説 明 ツール 機 能 概 要 当 ツール 活 用 時 の 留 意 事 項 および 参 考 資 料 動 作 環 境 とツール 構 成 機 能 と

4.5. < 参 加 表 明 書 を 提 出 する> 調 達 案 件 一 覧 の 表 示 対 象 となる 案 件 を 検 索 し 調 達 案 件 一 覧 に 表 示 させます 参 加 したい 案 件 の 調 達 案 件 名 称 行 - 入 札 参 加 資 格 確 認 申 請 / 技 術 資 料 /

経 理 上 くん db(version 8.001)の 変 更 点 概 要 Ⅰ. 消 費 税 /リバースチャージ 方 式 の 申 告 に 対 応 1 特 定 課 税 仕 入 特 定 課 税 仕 入 返 還 区 分 を 追 加 しました Ⅱ.その 他 の 改 良 修 正 詳 細 は 後 述 を 参 照

<4D F736F F D2093CD8F6F82AA954B977682C88C9A95A882CC94BB926682CC DD5F48508C668DDA E646F63>

POWER EGG V2.01 ユーザーズマニュアル ファイル管理編

TeleOffice 3.0 Lync 2 TO

目 次 1 インストール 手 順 プログラム データファイルのインストール Microsoft Access2013Runtime SP1(32bit) 版 のインストール 基 本 操 作 ログイン メニュー...

(Microsoft Word - [Kiyou]HiroshiUeda_HarumiMurakami_-_NDCSuggest_Modified_06\201c)

Microsoft PowerPoint - c3_op-manual.pdf

機 能 概 要 概 要 平 成 24 年 度 シームレスな 地 域 連 携 医 療 の 実 現 実 証 事 業 に 対 応 するため 地 域 連 携 システム( 能 登 北 部 版 )を 構 築 する 機 能 < 機 能 追 加 変 更 一 覧 > 1. 画 像 連 携 機 能 院 内 で 撮 影

ìäçeãKíˆÅEç◊ë•Åiç≈èIî≈àÛç¸ópÅj

Microsoft Word - 2.doc

目 次 画 面 遷 移 図 1.ログイン 画 面 2. 画 面 構 成 3.メニュー 4.タスク 一 覧 4-1.タスク: 新 規 4-2.タスク: 閲 覧 4-3.タスク: 更 新 5.タスク 検 索 6. 通 知 メール 6-1. 通 知 メール: 新 規 / 修 正 7. 連 絡 事 項 7-

よりメンバーに 配 布 した 第 2 期 は 第 1 期 に 開 発 した 大 気 時 間 値 集 計 解 析 ツールをベースに 機 能 改 良 を 行 った 国 立 環 境 研 究 所 では メンバーから 寄 せられる 要 望 使 い 勝 手 に 関 する 意 見 感 想 不 具 合 発 生 など

スライド 1

ことばを覚える

Microsoft Word - hagakiwriter3free-atenagaki-hou.doc

<4D F736F F F696E74202D C90BF8F CC8DEC90AC97E181698A4F8D E8816A5F56322E707074>

公文書非公開決定処分に関する諮問について(答申)

<4D F736F F D2090BF8B818AC7979D8B40945C91808DEC837D836A B2E646F63>

大田市固定資産台帳整備業務(プロポーザル審査要項)

~ 目 次 ~ 1. 履 修 登 録 のながれ 1 2. 利 用 可 能 な 機 能 について 2 3.Web 履 修 登 録 画 面 へのログイン ログアウト 方 法 3 4. 予 備 登 録 ( 定 員 設 定 科 目 の 履 修 ) (1) 予 備 登 録 5 (2) 予 備 登 録 状 況

■デザイン

労働時間と休日は、労働条件のもっとも基本的なものの一つです

1級 ワンポイント

(Microsoft Word - Excel\211\236\227p2\217\315.docx)

d_cj01

目 次 電 子 申 請 を 使 用 した 申 請 の 流 れ 1ページ 申 請 書 ( 概 算 保 険 料 申 告 書 )の 作 成 2ページ 作 成 した 申 請 書 の 送 信 31ページ 状 況 照 会 電 子 納 付 を 行 う 62ページ 返 送 書 類 の 取 得 75ページ お 問 い

<4D F736F F D2095BD90AC E D738FEE816A939A905C91E D862E646F63>

R4財務対応障害一覧

PATENTBOY/Netバージョンアップ説明書(Ver.1.92)

V-CUBE One

<4D F736F F D F93878CA797708F4390B3816A819A95CA8B4C976C8EAE91E682538B4C8DDA97E12E646F6378>

PowerPoint プレゼンテーション

施 設 維 持 管 理 機 能 一 覧 1. 中 長 期 保 全 計 画 作 成 2. 中 長 期 保 全 計 画 集 計 3. 点 検 記 録 情 報 管 理 4. 修 繕 履 歴 情 報 管 理 2

平成19年9月改定

4 教 科 に 関 する 調 査 結 果 の 概 況 校 種 学 年 小 学 校 2 年 生 3 年 生 4 年 生 5 年 生 6 年 生 教 科 平 均 到 達 度 目 標 値 差 達 成 率 国 語 77.8% 68.9% 8.9% 79.3% 算 数 92.0% 76.7% 15.3% 94

<4D F736F F D2091E F18CB48D C481698E7B90DD8F9590AC89DB816A2E646F63>

DN6(R04).vin

既 存 建 築 物 の 建 替 市 街 化 調 整 区 域 で 許 可 を 不 要 とする 取 扱 いについて 既 存 建 築 物 の 建 替 は 以 下 の1)~3)をすべて 満 たしている 場 合 に 可 能 です 1) 建 替 前 の 建 築 物 ( 以 下 既 存 建 築 物 という )につ

Transcription:

コーパスコンコーダンサ ChaKi.NET の 文 書 - 部 分 構 造 行 列 出 力 機 能 浅 原 正 幸 ( 国 立 国 語 研 究 所 ) 森 田 敏 生 ( 総 和 技 研 ) Document-Substructure Matrix Output Function on ChaKi.NET Masayuki Asahara (NINJAL) Toshio Morita (Sowa Research Co., Ltd.) 要 旨 コーパスを 用 いて 統 計 処 理 を 行 う 上 で 文 書 - 単 語 行 列 を 作 成 をすることが 多 い コーパス コンコーダンサ ChaKi.NET は 従 来 より 形 態 論 情 報 に 基 づくクエリ Tag Search の Wordlist 機 能 を 用 いることにより 文 書 - 単 語 行 列 を 作 成 することが 可 能 であった 今 回 この 機 能 を 拡 張 することにより n-gram データや 係 り 受 け 構 造 上 の 部 分 木 などの 文 書 - 部 分 構 造 行 列 出 力 機 能 を 実 装 した さらに 既 存 の 出 力 形 式 である Excel, CSV に 加 えて R の dataframe 形 式 を 出 力 できるようにした ポスター 発 表 では 当 該 機 能 のデモを 行 う 1. はじめに 複 数 文 書 コーパスを 用 いて 主 成 分 分 析 や 対 応 分 析 などの 統 計 処 理 を 行 う 際 に 文 書 - 単 語 行 列 を 作 成 をすることが 多 い( 浅 原 ほか (2014)) コーパスコンコーダンサ ChaKi.NET (Matsumoto et al. (2006)) (1) は Wordlist 機 能 を 用 いることにより 文 書 - 単 語 行 列 を 容 易 に 生 成 す ることができる (2) 特 徴 量 空 間 として 単 一 の 単 語 表 層 形 や 語 彙 素 のみならず 形 態 素 系 列 ( 浅 原 ほか (2015))や 係 り 受 け 部 分 木 ( 浅 原 加 藤 (2015))などの 部 分 構 造 データを 用 いることに より より 深 い 分 析 が 行 うことができる しかしながら 部 分 構 造 データの 枚 挙 においては 順 列 組 み 合 わせの 枚 挙 といった 煩 雑 な 作 業 が 伴 う プログラミングに 不 得 手 な 研 究 者 にとっ て この 作 業 が 一 つの 障 壁 となっている 今 回 ChaKi.NET の Wordlist 機 能 を 拡 張 して n-gram などの 連 続 部 分 系 列 や 連 続 部 分 木 などを 特 徴 量 空 間 とする 文 書 - 部 分 構 造 行 列 を 出 力 する 機 能 を 追 加 した (3) 既 存 の 出 力 形 式 である Excel 形 式 や CSV 形 式 に 加 えて R の dataframe 形 式 を 出 力 できるようにした 本 稿 で は これらの 新 機 能 を 解 説 するとともに 非 連 続 部 分 構 造 を 枚 挙 する 際 の 注 意 点 について 示 す masayu-a@ninjal.ac.jp (1) http://osdn.jp/projects/chaki/ (2) http://qiita.com/masayu-a/items/66285bcb8d40c6bbb494 (3) ChaKi.NET 3.00β Revision 500 257

2. ChaKi.NET の Wordlist 機 能 最 初 に ChaKi.NET の Wordlist 機 能 を 用 いた 文 書 - 単 語 行 列 作 成 機 能 について 解 説 す る あらかじめ 分 析 対 象 のテキストを 形 態 素 解 析 器 MeCab などで 解 析 して ChaKi.NET 用 の sqlite db ファイルを 作 成 してあることを 前 提 とする 後 に 述 べる 係 り 受 け 部 分 木 に 基 づく 分 析 を 行 う 場 合 には 最 初 から 係 り 受 け 解 析 器 CaboCha などで 解 析 してあることが 望 ましい (4) まず 最 初 にコーパスを ChaKi.NET にコーパスを 読 み 込 ませる sqlite db 化 した 複 数 ファイ ルを Search Conditions パネルの [Corpus/コーパス] タブに 展 開 する Search Conditions パネルに [Tag Search/Tag 検 索 ] タブを 選 択 し 以 下 の 図 のように 1 形 態 素 に 対 して 何 も 指 定 しない 検 索 式 (デフォールトの 状 態 )を 指 定 する 特 徴 量 空 間 として 名 詞 しか 定 義 しない 場 合 には 以 下 の 図 のように [PartOfSpeech] に 名 詞 -* を 選 択 する 検 索 窓 が 赤 字 の 場 合 当 該 検 索 クエリが 正 規 表 現 であることを 表 す この 状 態 で [Wordlist/ワードリスト 開 始 ] ボタンを 押 すと 下 図 のように 文 書 - 単 語 行 列 が 展 開 される 表 中 1 列 目 から 9 列 目 が 形 態 論 情 報 を 表 す 10 列 目 11 列 目 に 選 択 したコーパ (4) 複 数 のテキストファイルをバッチで 係 り 受 け 解 析 を 行 い sqlite db ファイルをに 格 納 する 方 法 については http://qiita.com/masayu-a/items/5e61dcf0ed7068c01f62 を 参 照 すること 258

スの 頻 度 が 示 される 12 列 目 の [All] の 列 に 全 コーパスの 頻 度 が 示 される デフォールトの 設 定 では 形 態 素 表 層 形 のみが 展 開 されている 各 列 のヘッダ 部 を 右 クリッ クすることにより 以 下 の 図 のように 畳 み 込 む [Compact Row Ctrl+C] か 展 開 する [Expand Row Ctrl+E] かが 選 択 できる 各 列 のヘッダ 部 を 左 ダブルクリックすることにより 当 該 列 で 昇 順 降 順 にソートされる 以 下 の 図 は [All] 列 ( 全 コーパス 中 の 頻 度 ) で 降 順 ソートしたものである この 状 態 で [File/ファイル (E)] [Send To Excel/CSV] を 選 択 し [to Excel] を 選 択 するとと 展 開 された 文 書 - 単 語 行 列 を 保 存 することができる 尚 Microsoft Excel がインストール されていない 機 材 の 場 合 はこの 機 能 が 利 用 できない 259

保 存 された Excel ファイルは 以 下 のようになる 前 の 画 面 で [to CSV] を 選 択 すると csv 形 式 のファイルが [to R dataframe] を 選 択 すると R 言 語 の dataframe 形 式 のファイルが 出 力 される 3. 文 書 - 連 続 部 分 系 列 行 列 以 下 では 文 書 - 部 分 系 列 行 列 の 展 開 方 法 について 説 明 する Search Conditions パネルに [Tag Search/Tag 検 索 ] タブを 選 択 し 以 下 の 図 のように 2 形 態 素 に 対 して 何 も 指 定 しない 検 索 式 を 指 定 することにより bigram 特 徴 量 空 間 を 考 慮 した 文 書 - 部 分 系 列 行 列 が 展 開 できる 1 列 目 から 9 列 目 までが 前 件 の 形 態 論 情 報 で 10 列 目 から 18 列 目 が 後 件 の 形 態 論 情 報 であ る 19 列 目 以 降 に 頻 度 情 報 が 格 納 される 260

trigram 以 上 の 特 徴 量 空 間 を 規 定 するためには 以 下 のように 形 態 素 の box を 増 やせばよい 係 り 受 け 解 析 結 果 を 格 納 することにより 文 節 境 界 の 情 報 がデータベースに 格 納 される [Dependency Search/Dependency 検 索 ] 機 能 を 用 いることにより 文 節 を 越 えない 部 分 系 列 の みを 展 開 することができる 以 下 の 図 は 文 節 内 bigram のみを 特 徴 量 とした 文 書 - 部 分 系 列 行 列 を 展 開 するための 式 である 内 側 の 形 態 素 の boxes 間 に - を 入 れることにより 2 形 態 素 が 隣 接 していることを 表 している 4. 文 書 - 非 連 続 部 分 系 列 行 列 作 成 時 の 重 複 枚 挙 の 問 題 4.1 連 続 部 分 系 列 と 非 連 続 部 分 系 列 前 節 では 連 続 部 分 系 列 (n-gram) を 特 徴 量 空 間 にした 場 合 の 文 書 - 部 分 系 列 行 列 を 展 開 す る 方 法 を 述 べた 本 節 では 非 連 続 部 分 系 列 (p-mer) を 特 徴 量 空 間 にした 場 合 の 文 書 - 部 分 系 列 行 列 の 展 開 する 方 法 と 注 意 点 について 述 べる 非 連 続 部 分 系 列 (p-mer) とは 連 続 していないとびとびの 部 分 列 のことである 特 に 言 及 し ない 場 合 非 連 続 部 分 系 列 (p-mer) は 連 続 部 分 系 列 (n-gram) を 含 むものとする n-gram とは 系 列 に 対 する 長 さ n の 連 続 部 分 列 (substring) のことをいい,p-mer とは 系 列 に 対 する 長 さ p の 部 分 列 (subsequence) のことをいう 例 えば ABCDE という 系 列 に 対 して,3-gram は ABC, BCD, CDE の 3 種 類 あり, 3-mer は ABC, AB/D, AB/E, A/CD, A/C/E, A/DE, BCD, BC/E, B/DE, CDE の 10 種 類 あり,それぞれ 頻 度 は 1 である p-mer の / は,そこにギャップがあることを 意 味 している 文 全 体 にわたって 非 連 続 部 分 系 列 を 枚 挙 する 方 法 として 系 列 パターンマイニングアルゴ リズム (Pei et al. (2001)) が 知 られている ChaKi.NET には 検 索 した 文 に 対 して 頻 出 系 列 パ ターンを 枚 挙 する 機 能 が 実 装 されている 261

4.2 既 存 の 非 連 続 部 分 系 列 枚 挙 機 能 1 文 書 に 対 する 非 連 続 部 分 系 列 枚 挙 機 能 は 以 前 から ChaKi.NET に 実 装 されている [Search Condition] パネルから [Collocation/コロケーション] タブを 選 択 し [Type of Statistics] に "Frequent Sequence Mining"を 選 択 することによって 頻 出 系 列 パターンの 枚 挙 が 行 われる 以 下 の 例 では 最 小 頻 度 3 最 小 系 列 長 3 最 大 ギャップ 長 最 大 ギャップ 数 ストップワードを として 表 層 形 により 枚 挙 する 場 合 の 検 索 式 である この 手 法 では 1 文 書 毎 に 同 じ 作 業 を 行 う 必 要 がある 4.3 Wordlist 機 能 を 用 いた 非 連 続 部 分 系 列 枚 挙 以 下 Wordlist 機 能 を 用 いて 非 連 続 部 分 系 列 を 枚 挙 する 方 法 について 述 べる [Tag Search/Tag 検 索 ] では 形 態 素 の box の 上 についている index により 形 態 素 の 隣 接 性 を 規 定 することができる 以 下 の 例 は Windows サイズ 4 までの 隣 接 形 態 素 の 2-mer を 展 開 する 検 索 式 である Window サイズ n を 広 げると 各 形 態 素 位 置 に 対 して n C p の 組 合 せが 展 開 されるので 注 意 す ること Window サイズを 制 限 する 他 の 方 法 として 文 節 境 界 により p-mer の 枚 挙 を 制 限 する 方 法 が ある [Dependency Search/Dependency 検 索 ] で 以 下 の 検 索 式 を 指 定 すると 文 節 内 2-mer を 枚 挙 する 2 形 態 素 boxes 間 の <は 形 態 素 の 順 序 を 規 定 する この 記 号 がない 場 合 は 逆 順 に ついても 枚 挙 してしまうので 注 意 すること 262

5. 文 書 - 部 分 木 行 列 係 り 受 け 部 分 木 を 特 徴 量 空 間 にする 場 合 [Dependency Search/Dependency 検 索 ] を 用 いて Wordlist 機 能 を 用 いればよい 以 下 の 例 では 動 詞 - 自 立 に 係 る 名 詞 を 枚 挙 する しかし 文 節 内 の 形 態 素 の 位 置 を 規 定 していないため 1 文 節 内 に 複 数 の 名 詞 が 存 在 する 場 合 には それぞれ 別 のものとして 枚 挙 される 残 念 ながら 文 節 内 の 形 態 素 位 置 については 先 頭 位 置 か 末 尾 位 置 しか 指 定 することができな い 以 下 の 例 は 各 文 節 内 形 態 素 の 出 現 位 置 を 先 頭 位 置 にしたもの( 左 図 )と 末 尾 位 置 にしたも の( 右 図 )である 6. おわりに 本 発 表 では コーパスコンコーダンサ ChaKi.NET の 文 書 - 部 分 構 造 行 列 出 力 機 能 につい て 紹 介 した ChaKi.NET は 他 にも 様 々な 機 能 がある ( 浅 原 森 田 (2013, 2014, 2015)) ので 組 み 263

合 わせて 利 用 されたい 謝 辞 本 研 究 の 一 部 は 科 研 費 基 盤 (B) 言 語 コーパスに 対 する 読 文 時 間 付 与 とその 利 用 (25284083) 科 研 費 萌 芽 近 代 語 コーパスに 対 する 統 語 情 報 アノテーション 基 準 策 定 (15K12888) 国 語 研 基 幹 型 共 同 研 究 プロジェクト コーパスアノテーションの 基 礎 研 究 および 国 語 研 超 大 規 模 コーパス 構 築 プロジェクト によるものです 参 考 文 献 Matsumoto, Yuji, Masayuki Asahara, Kiyota Hashimoto, Yukio Tono, Akira Otani, and Toshio Morita (2006). An annotated corpus management tool: Chaki. Proc. of LREC-2006, pp. 1418 1421. Pei, Jian, Jiawei Han, Behzad Mortazavi-Asi, Helen Pinto, Qiming Chen, Umeshwar Dayal, and Mei-Chun Hsu (2001). PrefixSpan: Mining Sequential Patterns Efficiently by Prefix- Projected Pattern Growth. Proceedings of the 17th International Conference on Data Engineering, pp. 215 224. 浅 原 正 幸 加 藤 祥 (2015). 文 体 指 標 を 特 徴 づける 係 り 受 け 部 分 木 の 抽 出 第 8 回 コーパス 日 本 語 学 ワークショップ. 浅 原 正 幸 加 藤 祥 立 花 幸 子 柏 野 和 佳 子 (2014). 文 体 指 標 と 語 彙 の 対 応 分 析 第 6 回 コー パス 日 本 語 学 ワークショップ, pp. 11 20. 浅 原 正 幸 加 藤 祥 立 花 幸 子 柏 野 和 佳 子 (2015). 文 体 指 標 と 語 彙 系 列 の 対 応 分 析 第 7 回 コーパス 日 本 語 学 ワークショップ, pp. 7 16. 浅 原 正 幸 森 田 敏 生 (2013). コーパスコンコーダンサ ChaKi.NET の 連 続 値 データ 型 第 4 回 コーパス 日 本 語 学 ワークショップ, pp. 223 232. 浅 原 正 幸 森 田 敏 生 (2014). コーパスコンコーダンサ ChaKi.NET の 連 続 値 データ 型 (2) 読 み 時 間 の 表 示 第 5 回 コーパス 日 本 語 学 ワークショップ, pp. 39 48. 浅 原 正 幸 森 田 敏 生 (2015). コーパスコンコーダンサ ChaKi.NET のプロジェクト 機 能 第 7 回 コーパス 日 本 語 学 ワークショップ, pp. 103 112. 264