CSJ 節 単 位 XML ビューワーの 使 用 法 ver.1.0 高 梨 克 也 山 田 篤 内 元 清 貴 野 畑 周 竹 内 和 広 情 報 通 信 研 究 機 構 京 都 高 度 技 術 研 究 所 0.はじめに CSJ 節 単 位 XML ビューワーは 日 本 語 話 し 言 葉 コーパス CSJ に 付 与 されている 節 単 位, 談 話, 重 要 文, 係 り 受 けの 情 報 を 表 示 し, 各 節 単 位 の 音 声 の 再 生 を 可 能 にしたものです. 表 示 できるファイルはコア( 対 話 再 朗 読 を 除 く)とテストセットの 199 講 演 です. 節 単 位, 重 要 文 選 択, 係 り 受 け の 情 報 はこれらの 199 講 演 のすべてに 付 与 されていますが, 談 話 の 情 報 が 付 与 されているのはそのうちの 40 講 演 で す. 詳 細 は 第 4 節 及 び CUList.txt を 参 照 してください. これらの 199 講 演 について,ベース XML から CSJ 節 単 位 XML ビューワーでの 表 示 用 に 変 換 した 節 単 位 XML を このディスクの /CU/ に 含 めています.また,ベース XML から 節 単 位 XML への 変 換 に 使 用 したスタイルシート mkcuxml4base.xsl も/TOOL/にあります. 以 下 で 参 照 するマニュアル 類 について,cuxml.pdf と CUList.txt は 本 ディスクの/DOC/に,それ 以 外 は volume 1 の /DOC/に 収 められています. 1.スタイルシート ブラウザでの 表 示 目 的 の 場 合 には, 本 節 でのスタイルシートの 説 明 は 飛 ばしていただいて 構 いません. 1.1 構 造 変 換 用 スタイルシート mkcuxml4base.xsl 用 途 :ベース XML(*.xml)を 節 単 位 XML(*_CU.xml)に 変 換 します. ベース XML と 節 単 位 XML の 仕 様 については,それぞれ xml.pdf と cuxml.pdf を 参 照 してください. 変 換 後 の 節 単 位 XML は 本 ディスクの/CU/に 収 められているため, 各 ユーザーがこの 作 業 を 行 う 必 要 はありませんが, mkcuxml4base.xsl を 修 正 することによって,この 節 単 位 XML とは 若 干 構 造 の 異 なる 派 生 ファイルをベース XML から 派 生 させることもできます.ツールの 改 変 については 第 5 節 を 参 照 してください. 1.2 節 単 位 XML 表 示 用 スタイルシート disp4cu.xsl 用 途 : 節 単 位 XML を HTML(*.html) 形 式 で 表 示 または 別 ファイルとして 出 力 します. パラメータ(コマンドラインから 使 用 する 場 合 ): disp_se ( 重 要 文 選 択 表 示 :1, 非 表 示 :0) disp_ds ( 談 話 情 報 表 示 :1, 非 表 示 :0) disp_dep ( 係 り 受 け 構 造 表 示 :1, 非 表 示 :0) *デフォルトはすべて 表 示 audio_file ( 再 生 する 音 声 ファイルを 指 定 ) Windows マシンで Internet Explorer を 使 用 する 場 合 以 外 は 指 定 しないでください. WMP_Version (Windows Media Player のバージョンを 指 定 ) 参 考 :XSLT 処 理 系 に Xalan を 用 いた 場 合 のパラメータの 指 定 方 法 1 java org.apache.xalan.xslt.process -in *_CU.xml -xsl disp4cu2.xsl -param disp_se 1 -param disp_ds 1 -param disp_dep 0 out *.html この 場 合, 重 要 文 選 択 と 談 話 情 報 を 含 み, 係 り 受 け 情 報 を 含 まない *.html というファイルが 出 力 されます. 1 XSLT の 処 理 系 としては Xalan 以 外 にもさまざまなものがあるが,Java 1.4 さえインストールされていれば 動 作 可 能 なので,Xalan を 例 に 挙 げた. 1
2.CSJ 節 単 位 XML ビューワー viewer.html 2.1 動 作 環 境 ブラウザ Internet Explorer 6 以 上 (Internet Explorer 5.5 で, 別 途 MSXML3 をインストールしてもよい) Netscape 7.1 以 上 Mozilla 1.4 以 上 音 声 再 生 (Windows マシンで,ブラウザとして Internet Explorer を 使 用 する 場 合 のみ) Windows Media Player 7, 8, 9 2.2 操 作 (1) viewer.html と disp4cu.xsl が 同 じディレクトリに 置 かれていることを 確 認 してください. (2) viewer.html をブラウザで 開 きます. CSJ 節 単 位 XML ビューワー というページが 開 かれます. (3) 入 力 XML ファイルを 選 択 します. - 表 示 するファイルの 選 択 の 箇 所 の 参 照 をクリックし, 表 示 したい 講 演 の 節 単 位 XML を 選 択 します 2. (4) 表 示 内 容 の 選 択 - 重 要 文, 談 話, 係 り 受 けのそれぞれの 情 報 を 表 示 するか 否 かについて, 選 択 する 方 のチェックボタンにチェックを 入 れます(デフォルトではすべて 表 示 されます). - 各 情 報 の 表 示 方 法 については 第 3 節 を 参 照 してください. (5) 音 声 データ 再 生 の 選 択 -Windows マシンでブラウザとして Internet Explorer を 使 用 する 場 合 のみ, 節 単 位 ごとの 音 声 の 再 生 が 可 能 です. - 音 声 データを 再 生 する 場 合 は 音 声 の 再 生 のチェックボタンで 再 生 する を 選 択 し, 参 照 から 音 声 データ (*.wav)を 指 定 してください. - 音 声 ファイルは volume 3~16 に 収 められている*.wav ファイルのうち, 講 演 ID が 節 単 位 XML と 一 致 するもの を 使 用 してください. (6) 表 示 -(3)~(5)の 選 択 が 済 んだら, 最 後 に 上 記 の 設 定 で 表 示 する をクリックするとレンダリング 結 果 が 表 示 されます. -(5) で 音 声 データを 再 生 する を 選 択 した 場 合 のみ, 節 単 位 毎 に 再 生 ボタンが 表 示 されます. 3. 表 示 内 容 の 見 方 本 節 では 2.2 の 手 順 に 従 って 表 示 された 情 報 の 見 方 について 説 明 します. 表 示 されている 情 報 がベース XML と 節 単 位 XML でどのように 格 納 されているかの 詳 細 については,それぞれ xml.pdf と cuxml.pdf を 参 照 してください.また, 節 単 位, 重 要 文, 談 話, 係 り 受 けなどの 各 情 報 の 認 定 基 準 等 につ いては,それぞれ clause.pdf,summarydata.pdf,discourse.pdf,dependency.pdf を 参 照 してください. (cuxml.pdf 以 外 のマニュアルはすべて volume 1 の/DOC/にあります.) 重 要 文, 談 話, 係 り 受 けの 情 報 をすべて 表 示 し, 音 声 を 再 生 する 場 合, 各 節 単 位 ごとに 以 下 のような 形 式 で 表 示 され ます. 2 節 単 位 XML でなくベース XML を 直 接 読 み 込 んで 表 示 させることも 可 能 ですが, 表 示 にかなりの 時 間 がかかるため, 節 単 位 XML の 方 を 使 用 することをお 勧 めします. 2
[ 図 1] 節 単 位 ごとの 情 報 の 表 示 1 2 3 6 5 2 7 4 以 下, 図 中 の1~7のそれぞれについて, 第 3.1~3.7 節 で 順 に 解 説 します. 3.1 節 単 位 ID ClauseUnitID を 表 示 しています(clause.pdf). 3.2 時 間 情 報 と 音 声 再 生 ベース XML 及 び 節 単 位 XML に PhoneStart/EndTime の 値 がある 講 演 (CUList.txt で core=1 の 177 講 演 )につい てはその 値 を,これがない 講 演 (core=0 の 22 講 演 )には IPUStart/EndTime を 表 示 しています. 各 値 の 定 義 につ いては xml.pdf を 参 照 してください. どちらの 種 類 の 値 についても, 数 値 は 60 進 法 ではなく 秒 を 単 位 とした 10 進 法 で 表 示 されており,また 桁 数 合 わせ のための 0 は 削 除 しています 3. 再 生 ボタンをクリックすると,Windows Media Player が 自 動 的 に 起 動 され, 各 節 単 位 の 音 声 が 再 生 できます. ただし, 転 記 基 本 単 位 IPU の 範 囲 が 節 単 位 の 範 囲 とクロスする 場 合 が 多 いため,IPUStart/EndTime を 用 いている 場 合 には, 音 声 再 生 の 範 囲 が 節 単 位 の 範 囲 とは 正 確 に 一 致 しない 箇 所 があります 4.こうした 場 合, 音 声 再 生 の 範 囲 は 当 該 節 単 位 を 含 むよう 広 めに 設 定 してあります.なお,IPUStart/EndTime を 用 いている 場 合 には, 開 始 終 了 時 間 の 直 後 に * を 付 けています. [ 図 2] IPUStart/EndTime を 用 いた 場 合 の 節 単 位 n の 音 声 再 生 の 範 囲 節 単 位 n IPU ===========0005========= ==========0006=========== =========0007=========== Start End 音 声 再 生 範 囲 3 ベース XML 及 び 節 単 位 XML では,IPUStart/EndTime では IPUStartTime="00001.075"のように 桁 数 を 合 わせるために 0 が 挿 入 されていますが,PhoneStart/EndTime では PhoneStartTime="3.151094"のように, 桁 数 合 わせがありません. 従 って, IPUStart/EndTime については, 表 示 が XML での 格 納 とは 異 なることになります. 4 また,こうした 場 合, 人 名 等 の 個 人 情 報 が 含 まれている 場 合 には,これらの 個 人 情 報 部 分 を 含 む 転 記 基 本 単 位 全 体 の 音 声 がマスキ ングされています. 3
3.3 転 記 基 本 単 位 ID 当 該 の 節 単 位 に 含 まれる 短 単 位 SUW を 含 む 転 記 基 本 単 位 の ID を 表 示 します. 当 該 の 節 単 位 が 複 数 の 転 記 基 本 単 位 にわたるものである 場 合 には,これらの 転 記 基 本 単 位 の ID が 列 挙 されます. 転 記 基 本 単 位 境 界 が 節 単 位 境 界 と 一 致 しない 場 合 には, 図 2と 同 様 に,IPUID は 広 めに 取 られます. 3.4 節 単 位 情 報 ( 本 文 ) 節 単 位 (clause.pdf)の 言 語 情 報 を 表 示 したものです. 節 単 位 は 以 下 の 3.5~3.7 の 情 報 付 与 のための 基 礎 となる 単 位 です. ベース XML 及 び 節 単 位 XML から, 当 該 の 節 単 位 に 含 まれる 短 単 位 SUW の OrthographicTranscription (transcription.pdf)を 獲 得 し, 並 べて 表 示 したものです 5. 当 該 の 短 単 位 SUW が 節 単 位 認 定 についての 情 報 を 持 っている 場 合 には,これらの 情 報 を 以 下 の 順 に 並 べて 表 示 しま す. CU_PreBracket, OrthographicTranscription, ClauseBoundaryLabel, CU_PostBracket, CU_OperationSign 節 単 位 の 途 中 に 転 記 基 本 単 位 の 境 界 がある 場 合 には,その 位 置 に <P> が 挿 入 されています 6. 節 単 位 認 定 についての 情 報 のうち,CU_ObligateComment は, 以 下 のように, 節 単 位 の 末 尾 にまとめて 表 示 されま す. [ 図 3] 節 単 位 情 報 ( 本 文 )の 表 示 例 それから<P>< 接 続 詞 L>(F えー)(D かつ)<P> 各 月 齢 児 群 における<P>((F えー)ちょっと 今 日 は 言 いませんでしたけれども/ 並 列 節 ケレドモ/)+{ 原 型 を<P>(F えー) 有 意 に 聞 いた[ 文 末 ]: 変 形 を 有 意 に 聞 いた}という<トイウ 節 > 人 数 比 を 見 ますと<P>/ 条 件 節 ト/; 挿 入 節 ; 引 用 節 構 造 黒 :OrthographicTranscription, 緑 :ClauseBoundaryLabel, 赤 :CU_Pre/PostBracket, 青 :CU_OperationSign, 紫 :IPUBoundary, 橙 :CU_ObligateComment 3.5 談 話 境 界 情 報 談 話 境 界 情 報 (discourse.pdf)は 談 話 セグメントの 冒 頭 の 節 単 位 に 付 与 され, 当 該 セグメントの 内 容 と 範 囲 を 表 すも のです. 談 話 境 界 認 定 に 関 する 情 報 を DS_Purpose,DS_SubPurpose,DS_Comment,DS_Subject1,DS_Subject2, DS_Subject3 の 順 に,それぞれ 独 立 の 行 として 表 示 します. 談 話 境 界 認 定 に 関 する 情 報 が 付 与 されているのは 第 4 節 の /ds/ (CUList.txt の set=ds)の 40 講 演 です.これらの 40 講 演 以 外 のものについては,2.2 の (3) で 談 話 情 報 の 表 示 非 表 示 のどちらを 選 択 しても 表 示 結 果 は 同 じに なります. また, 以 下 の 箇 所 では DS_Comment が 表 示 されていませんが,このように, 値 が 空 の 場 合 には 属 性 名 の 表 示 も 省 略 されます. DS_Purpose= 練 馬 区 の 町 の 様 子 DS_SubPurpose= 練 馬 区 の 町 の 様 子 DS_Subject1= 練 馬 区 がいかにいいところかの 説 明 DS_Subject2= 自 分 が 住 んでいる 練 馬 区 ののんびりとした 町 の 様 子 DS_Subject3= 練 馬 区 の 特 色 の 紹 介 5 ベース XML と 同 様, 個 人 情 報 は などで 伏 せられています. 6 ただし, 転 記 基 本 単 位 境 界 が 短 単 位 SUW 中 にある 場 合 には,この 短 単 位 が C タグでマークされるため(transcription.pdf),<P> は 挿 入 されていません. 4
3.6 重 要 文 選 択 情 報 重 要 文 選 択 情 報 (summarydata.pdf)は 3 人 の 被 験 者 が 各 節 単 位 の 内 容 の 重 要 度 を 判 断 し,50%もしくは 10%の 節 単 位 を 選 択 した 結 果 を 表 します. 重 要 文 選 択 に 関 する 情 報 を 以 下 のように 1 行 にまとめて 表 示 します. 重 要 文 選 択 : 1_10p, 1_50p, 2_10p, 2_50p, 3_10p, 3_50p 6 種 類 の 値 がすべて 空 の 場 合,この 行 全 体 の 表 示 が 省 略 されます. 3.7 係 り 受 け 構 造 情 報 係 り 受 け 情 報 (dependency.pdf)は 節 単 位 の 範 囲 内 で 文 節 間 の 係 り 受 け 関 係 などを 記 述 したものです. 文 節 は 転 記 ファイル 中 の 転 記 行 に 相 当 します(transcription.pdf,bunsetsu.pdf). 文 節 ID は 各 節 単 位 内 で 0 からの 通 し 番 号 によって 与 えられています. 文 節 ごとに 独 立 の 行 として 表 示 されます. 各 文 節 の 表 示 形 式 は 節 単 位 情 報 の 表 示 (3.4)とほぼ 同 様 の 規 則 に 従 うものですが, 転 記 基 本 単 位 境 界 を 表 す<P>は 表 示 されません. 係 り 受 け 関 係 は 文 節 間 のアークによって 表 現 されます. Dep_Label は 原 則 として 各 アークの 肩 の 位 置 に 表 示 されますが, 表 示 の 都 合 上, 倒 置 を 表 す R ラベルだけは Dep_ObligateComment と 同 じ 位 置 に 表 示 されます. Dep_ObligateComment と Dep_Label の R は 対 応 する 文 節 の 右 方 に 表 示 されます. [ 図 4] 係 り 受 け 情 報 の 表 示 例 Dep_Label (R 以 外 ) Dep_ObligateComment ( 及 び Dep_Label の R) 3.8 表 示 フォントについての 注 意 ブラウザで MSP ゴシックのようなプロポーショナル( 等 幅 )でないフォントが 選 択 されていると, 表 示 がずれる 場 合 があります. Windows 環 境 ではフォントの 大 きさによって 文 字 サイズが 揃 わないことがあるため, 係 り 受 け 表 示 のフォントは 9 ポイントで 固 定 してあります.もしこれを 変 更 したい 場 合 には,viewer.html の 先 頭 にある 以 下 の 部 分 のフォントサ イズを 書 き 換 えてください. <style type="text/css"> <!--tt { font-size: 9pt }--> </style> 5
4.volume 18 のディレクトリ 構 成 /DOC/ cuxml.pdf( 節 単 位 XML 仕 様 ) cu_viewer.pdf( 節 単 位 XML ビューワーマニュアル:この 文 書 ) revision_data.pdf( 文 編 集 データ 仕 様 ) CUList.txt( 節 単 位 XML ファイルリスト) /TOOL/ mkcuxml4base.xsl(ベース XML 節 単 位 版 XML の 変 換 用 XSL) disp4cu.xsl( 節 単 位 版 表 示 用 HTML の 変 換 用 XSL) viewer.html( 節 単 位 XML ビューワー) /SR/( 文 編 集 データ XML:revision_data.pdf 参 照 ) 講 演 ID/ 10PER/ 50PER/ /CU/(ベース XML から 派 生 した 節 単 位 XML:CUList.txt 参 照 ) ds/ (コア& 談 話 情 報 あり:40 講 演 ) A01F0145, A01M0025, A01M0056, A01M0070, A01M0137, A01M0157, A02F0116, A03F0072, A03M0005, A03M0059, A03M0138, A05F0043, A05M0031, A06F0028, A06F0073, S00F0209, S00F0210, S00M0065, S00M0071, S00M0117, S00M0213, S01F0157, S01F0166, S01F0183, S01M0051, S01M0227, S02F0100, S02F0189, S02M0011, S02M0161, S03F0119, S03F0214, S03M0089, S03M0098, S03M0194, S04F0013, S05F1600, S05M0412, S05M0613, S06F1034 core/ (コア& 談 話 情 報 なし:137 講 演 ) A01F0055, A01F0067, A01F0122, A01F0132, A01F0143, A01M0007, A01M0015, A01M0020, A01M0021, A01M0030, A01M0048, A01M0065, A01M0074, A01M0083, A01M0096, A01M0097, A01M0099, A01M0103, A01M0110, A01M0115, A01M0131, A01M0133, A01M0140, A01M0142, A01M0147, A02F0038, A02F0082, A02M0076, A02M0098, A02M0107, A03F0108, A03F0109, A03F0153, A03M0004, A03M0010, A03M0018, A03M0045, A03M0061, A04M0026, A04M0047, A05F0039, A05F0154, A05F0502, A05M0002, A05M0040, A05M0068, A06F0049, A06F0075, A06F0120, A06F0128, A06M0092, A07F0844, A11M0369, A11M0469, A11M0846, S00F0014, S00F0031, S00F0041, S00F0066, S00F0082, S00F0083, S00F0088, S00F0131, S00F0134, S00F0173, S00F0177, S00F0197, S00M0025, S00M0053, S00M0075, S00M0112, S00M0115, S00M0153, S00M0199, S00M0218, S00M0221, S01F0006, S01F0038, S01F0050, S01F0074, S01F0151, S01F1522, S01M0005, S01M0091, S01M0101, S01M0182, S01M0205, S01M0225, S01M0706, S02F0012, S02F0094, S02F0113, S02F0121, S02F0129, S02F0180, S02F0852, S02M0043, S02M0068, S02M0076, S02M0092, S02M0103, S02M0191, S02M0198, S02M0245, S02M1698, S03F0062, S03F0072, S03F0108, S03F0133, S03F0184, S03F0224, S03F0232, S03F0314, S03F0383, S03F1477, S03F1577, S03M0003, S03M0046, S03M0106, S03M0141, S03M0201, S03M0317, S03M0996, S03M1133, S04F1495, S05F0463, S05F1041, S05F1517, S05M1236, S05M1505, S05M1666, S06F0167, S06F1566, S06M0373, S06M0894, S06M0895, S07M0833 TS_A/ ( 非 コア&テストセット& 人 手 形 態 素 あり:11 講 演 ) A01F0001, A01F0034, A01F0063, A01M0141, A03M0106, A03M0112, A05M0011, S00F0148, S00F0152, S00M0008, S00M0070 TS_B/ ( 非 コア&テストセット& 人 手 形 態 素 なし:11 講 演 ) A02M0012, A03M0016, A03M0156, A04M0051, A04M0121, A04M0123, A06F0135, A06M0064, S00F0019, S00M0079, S01F0105 6
5. 著 作 権 mkcuxml4base.xsl,disp4cu.xsl,viewer.html 及 び 関 連 マニュアルの 著 作 権 は Studio ARC と 独 立 行 政 法 人 情 報 通 信 研 究 機 構 にあるものとします. 詳 細 は 下 記 の BSD スタイルのライセンス 規 定 に 従 ってください. その 他 のデータファイルの 著 作 権 については 日 本 語 話 し 言 葉 コーパス に 準 じます. Copyright (c) 2004 Studio ARC, National Institute of Information and Communications Technology (NICT). All rights reserved Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. THIS SOFTWARE IS PROVIDED BY STUDIO ARC AND NICT ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL STUDIO ARC, NICT OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. The views and conclusions contained in the software and documentation are those of the authors and should not be interpreted as representing official policies, either expressed or implied, of Studio ARC or NICT. 7