<43534A2F925A925088CA814592B CA B835E B D836A B202D B B69>

Similar documents
eYACHO 管理者ガイド

目次 1. 変換の対象 砂防指定地 XML 作成メニュー シェープファイルからXMLへ変換 砂防指定地 XMLとシェープファイルの対応.csv 変換処理 CSVファイルによる属性指定... 5

1. はじめに 2

先行研究 pp

中納言 の使い方 凡例 検索例 1 注 検索例 参考情報 注意点 1

BACREX-R 小売標準化テンプレートドキュメント

BACREX小売パターンドキュメント

BACREX小売パターンドキュメント

PowerPoint プレゼンテーション

給水装置データベースシステム

<4D F736F F D E64976C8F E6388E9F81842E646F63>

目次 ( ページ ) 1. はじめに 1 2. 特例債移行申請 CSV ファイルについて 1 3. 文字種 2 4. 文字コード 2 5. 項目の編集方法について 3 6. 入力ファイルについて 4 7. 提出方法 7 8. セキュリティーについて 7

Ver1.2 変更事項 (2004 年 1 月 15 日 ) これまで無償版 AD2000 データ仕様では 団体固有の送付先コードを設定することができませんでした (SG 閲覧先 ID のみの設定を許可していました ) 以下のよう機能拡張をしました データコードに _SOUFU123 というように先

注意事項 データファイル形式データファイルは ヘッダレコード 明細レコード トレーラレコードで構成されます 各レコードは 改行コード (CR+LF) で改行されます データファイル ヘッダ明細 ~ 明細トレーラ データファイル名 送受信 受信 送信 受信 受信ファイルの場合 上記圧縮ファイル名でダウ

PowerPoint プレゼンテーション

<4D F736F F D20837D836A B5F93C192E88C AC888D593FC97CD5F2E646F63>

インターネット受付システム 収納情報ダウンロード 操作説明書 ver 株式会社電算システム EC ソリューション事業本部

1. ユーザー管理 サーバーや特定のサービスにアクセスするためには サーバー上にユーザーアカウントが設定されている必要があります また ユーザーごとに利用環境などを個別に設定することができます また ユーザーの管理の簡便化を図るためにグループが設定できます グループを設定することで ユーザーごとの設

スライド 1

< C5F91978EF3904D B838C EE688F890E68CF68A4A97705F E786C73>

BACREX小売パターンドキュメント

2 116

2 / 18 ページ 第 13 講データの活用とデータマップの作成 13-1 ホームページの保存 ホームページ (Web ページ ) に表示される様々な情報を ファイルとして保存することができます

図 2 エクスポートによるシェープファイルの新規保存 新規保存するファイルは, より分かりやすい名前をつけて適切なフォルダ (shape フォル ダにまとめておくのがよい ) 上に保存しておく 2 / 10

労働局適用徴収業務支援システム 事務組合連携機能 インタフェース仕様書 2012 年 3 月作成 2014 年 3 月改定

<88C993BF E815B836C EF3904D B838C A88EE688F890E6976C91A4816A2E786C73>


BACREX小売パターンドキュメント


変更履歴 変 更 日 項目 変 更 内 容 2011/08/01 初版 2017/07/20 客注納品データファイルレイアウト注文番号とSKUを項目追加 2017/08/30 客注納品データファイルレイアウト注文番号とSKUに対する注意事項を追加 1 / 9

管理番号 内容仮想テーブル設定画面およびマッチング条件設定画面においてコメントを設定した場合 変換エラーが発生する マッピング情報設定画面の出力情報に固定値を選択し区分に 動的バイナリ値 を指定した場合 関数を設定す

テキスト固定長ファイル概要 固定長テキストファイル フォーマット一覧固定長テキストファイルのレコード長およびフォーマットは以下の通りです 項番 ファイル レコード長 (byte) 1 一括記録請求ファイル 一括記録請求結果ファイル 開示結果ファイル 共通フォーマッ

IGESデータの基礎知識

公益社団法人日本産科婦人科学会学術講演会 オンライン演題登録システムマニュアル 登録者用 - 登録にあたっての注意点 1) 必ず筆頭演者が登録してください 2) 筆頭演者 や 発表形式 ( セッション ) は 一度選択するとシステムから途中で変更できません 変更する場合は 登録を一度削除して新規に登

Excel2013 データベース1(テーブル機能と並べ替え)

Microsoft Word - WebClass Ver 9.08f 主な追加機能・修正点.docx

クイックマニュアル(利用者編)

グーグル検索マクロの使い方

タイトルは14ポイント&ボールドMS明朝

FormPat インポート設定ガイド

データファイル形式データファイルは ヘッダレコード 明細レコード トレーラレコードで構成されます 各レコードは 改行コード (CR+LF) で改行されます 注意事項 データファイル ヘッダ明細 ~ 明細トレーラ データファイル名 アップロード ダウンロード データ種別 圧縮ファイル名 ダウンロード

変更履歴 変更日変更箇所変更内容 2014/1/14 初版 2014/7/8 データ作成時の注意点出荷データファイルレイアウト UPCコードのセット方法について追記 2014/7/8 データ作成時の注意点出荷データ ( 手書き ) 作成時 全欠品時の注意点を追記しました 2016/1/17 全データ

BACREX小売パターンドキュメント

POWER EGG V2.01 ユーザーズマニュアル 汎用申請編

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

注意事項 データファイル形式データファイルは ヘッダレコード 明細レコード トレーラレコードで構成されます 各レコードは 改行コード (CR+LF) で改行されます データファイル ヘッダ明細 ~ 明細トレーラ 出荷データにつきましては 上記の構成とは異なります 詳細は 出荷データのレイアウトをご確

立ち読みページ

目次 1. はじめに... 3 本システムご利用の前提について... 3 アカウント申請について... 3 本システムの機能について 基本の操作方法... 4 本システムにログイン / ログアウトする... 4 ファイルをダウンロードする 機能ごとの操作方法... 6

以下のソフトウェアに専用ライセンスを設定することで 変換機能が使えるようになります アプリケーション名バージョン日付 JPGIS-XML ビュー F 7.1.0α 以降 2013/06/27 以降 フリーウェア JPGIS-XML ビュー F のバージョン から XML の 筆 と 図郭

Microsoft Word - コンピュータチェック対象事例ファイル仕様書

_unix_text_command.pptx

目 次 1. 使用する電磁的記録媒体 1 2. ファイル構成, ファイル名及び記録すべき事項 1 3. ファイル形式 1 4. 使用可能文字規定等 1 5. ファイルへの記録方法 2 6. 申請データ仕様 6-1. 登記共通事項ファイル (COMMON.xml) 譲渡人ファイル (JT

新発注システム (WEB-EDI システム ) 送受信ファイル仕様書 2017 年 10 月 株式会社スポット オーエムネットワーク株式会社

添付エクセルデータに関する注記

スクールCOBOL2002

コンビニデザートに対する生活者の意見でわかるブランド評価 テキストマイニングによる 意見 の分析 Contents 1 注目される CGM 2 ネットにひろがる意見 3 意見を 言葉 で分析 4 パネルの解説 5 ご協力いただいた企業様 数理システムユーザーコンファレンス 2007

MPN 納付書 ( 確定延滞金 ) 版数初版第 5.3 版 2016/05/12 最大全角 項目名称フィールド名属性混在補足説明 ( 編集内容 ) 桁数文字 31 通知書番号 String 13 通知書番号の桁数が10 桁に変更となったが定義は変更しない (2015/06/25) 32 納期限 St

処理手順 1) 健康保険組合から受領した 賞与支払届ターンアラウンド CD を パソコンの CD ドライ ブにセットします 2) マイコンピュータ CD ドライブ の順にダブルクリックして オープンしたウィン ドウにある KPFD0006.txt というアイコンをダブルクリックします すると CD

注意事項 1. 使用文字 改行コード :CRLF 文字コード :Shift_JIS 2. 形式詳細 (1) 文字列 ( 半角 ) 半角の文字 (1 文字 =1バイト ) を設定します バイトに示すバイト数に応じて 半角文字を設定して下さい 文字列がバイトに示すバイト数に満たない場合 半角スペースを設

アウトライン 字幕付与と音声認識 字幕作成システム 音声認識の構成 コーパス ( 主に言語モデルについて ) 自動整形 コーパス システムの利用例 リアルタイムの字幕作成 2

■デザイン

<4D F736F F D D28F A82B582F182AB82F C DEC90E096BE8F E C52E646F63>

第4回 国際的動向を踏まえたオープンサイエンスに関する検討会 参考資料5

変更履歴 変更日 版 変更箇所 変更内容 2014/8/13 初版 - 初版 2014/12/12 改版 ー 全メッセージファイルレイアウトのヘッダ項目 [ 伝票区分 ] の備考を修正 2014/12/18 改版 ー 全メッセージファイルレイアウトのヘッダ項目 [ 伝票区分 ] の備考を修正 201

(NICT) ( ) ( ) (NEC) ( )

Word2013基礎 基本操作

概要 ABAP 開発者が SAP システム内の SAP ソースまたは SAP ディクショナリーオブジェクトを変更しようとすると 2 つのアクセスキーを入力するよう求められます 1 特定のユーザーを開発者として登録する開発者キー このキーは一度だけ入力します 2 SAP ソースまたは SAP ディクシ

変更履歴 変更日 版 変更箇所 変更内容 2014/4/9 初版 - 初版 2014/4/16 改版 発注データ 原単価 売単価の開始 終了位置の誤記載があったため修正 2014/5/17 改版 全てのファイルレイアウト 商品コード に備考を記載 2014/7/29 改版 受領データ 備考欄の誤字を

PowerPoint プレゼンテーション

桐9入門マニュアル

第 14 講複数ソフトの組み合わせ テキストファイルを Excel で開く 2 / 17 テキスト形式 (.txt) で保存したファイルを Excel で利用しましょう 第 13 講で保存した west.txt を Excel で開きます 1. Excel を起動します 2. [Off

Microsoft PowerPoint - gijutsuenshu04_061024_2.ppt

タイトルは14ポイント&ボールドMS明朝

1. ログイン 1-1 管理画面へのログイン 施設の作成 編集 削除や承認 公開には その操作権限を持つアカウントでログイン します アカウントについての詳細は 管理者にお問い合わせください (1) [ ユーザー ID またはメールアドレス ] と [ パスワード ] を入力後 [ ログイン ] を

A

Microsoft Word - データ保管サービス操作マニュアル(第二版).docx

J-STAGE 記事登載時の入力データのチェック強化について

新01_今日の講習内容(CSJ・名大)_

地理情報システム論 外部データとのやりとり レイヤのエクスポートによるシェープファイルの作成金沢区を題材とした操作練習では, すでにマップ上に表示されているレイヤを複製することで, 同一のシェープファイルを, 一方は階級区分図に用い, 他方はチャート表示に用いてオーバーレイ表現

prg.indb

目次はじめに 1. プロジェクトの概要 ( 迫田久美子 ) 1-1. 研究目的 2-2. 研究組織 2. C-JAS の概要 ( データ )( 佐々木 ( 木下 ) 藍子 ) 2-1. 学習者の概要 2-2. データの収集時期とデータ数の内訳 2-3. インタビューのテーマ 3. コーパス作成につい

掲示板ガイド1

『<みずほ>でんさいネットサービス』操作マニュアル

スライド 0

改訂履歴 日付バージョン記載ページ改訂内容 V2.1 - 初版を発行しました V3.1 P5 ドキュメントラベルが新規追加された事を追記 P7 P8 新しくなったラベルのツリー表示説明を追記 新しくなったラベルの作成 削除操作を追記 P9 ラベルのグループ

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

日本版WISC-IVテクニカルレポート #6

<mergedsample sampleid=" サンプル ID" type="bccwj MorphXML" version="1.1" NumTrans="true"> M-XML_NT のファイルであっても 対象となる数字列が存在せず NumTrans 処理がなされていないものについてはこの属

目次 1. 事業名 事業概要 納入データ 予定件数 納入データ納入時の提出物 貸与物 納入物の納入 納入場所 納入データの使用の制限 留意事項 担当者...

Microsoft Word - TMFM_Product.doc

簡易版メタデータ

ユーティリティ 管理番号 内容 対象バージョン 157 管理情報バッチ登録コマンド (utliupdt) のメッセージ出力に対し リダイレクトまたはパイプを使用すると メッセージが途中までしか出 力されないことがある 267 転送集計コマンド (utllogcnt) でファイル ID とホスト名の組

MQL4 と外部アプリの連携 ;( その 2) 別稿 2 amenbo the 3rd (C) 2011 amenbo the 3rd 構成要素別プログラム ; 日本語形態素解析プログラム ( 例 ) 本稿では テキスト データを形態素に分解する一番簡単と思われる 手法 を解説

Web型iEDIシステム操作説明書

拡張 DM エディタ説明書 2008/09/06 有限会社ジオ コーチ システムズ 拡張 DM エディタは 作業規定の準則 の 公共測量標準図式数値地形図データファイル仕様 に記述されているフ ォーマットの

Microsoft Office Excel2007(NO4中級後編 エクセルを実務で活用)

MS240 JISⅡ半角カナ文字データを含むカード読み取り設定例

0章_表2-もくじ.indd

Microsoft PowerPoint - CSS(Cascading Style Sheets)の基本.pptx

2 / 25 複数ソフトの組み合わせ テキストファイルを Excel で開く テキスト形式 (.txt) で保存したファイルを Excel で利用しましょう 第 14 講で保存した west.txt を Excel で開きます 1. Excel を起動します 2. [Office ボタ

Transcription:

短単位 長単位データマニュアル ver.1.0 (2004-03-24) 山口昌也, 小椋秀樹, 西川賢哉, 石塚京子, 木村睦子 ( 国立国語研究所 ) 内元清貴 ( 情報通信研究機構 ) 目次 1. はじめに 2. 収録内容 3. データ形式 3.1 ファイル形式とファイル名 3.2 短単位 長単位混合形式概要実例各フィールドの説明 3.3 長単位形式概要実例各フィールドの説明 4. 転記テキストとの関係 4.1 転記情報 フィールド 4.2 非言語音タグ (< 雑音 >,< ベル > など ) の扱い 4.3 R タグの扱い 5. 人手解析データと自動解析データとの相違 1. はじめに 本マニュアルでは, 短単位 長単位データベースについて解説する 短単位 長単位データベースは, 転記テキストを短単位, 長単位に分割し, それらに対して形態論的な情報を付与したものである ここでは, 主として, データ形式の説明を行う 転記テキストの仕様, および, 形態論的情報の分析方法については, 次のマニュアルを参照のこと 短単位 長単位 : 日本語話し言葉コーパス の形態論情報の概要 (pos.pdf) 転記テキスト : 転記テキストの仕様 (transcription.pdf) なお, 本データベースの内容は,XML 形式の 日本語話し言葉コーパス から形態論情報を取り出し,KWIC 付きのタブ区切りテキストに整形したものである 音声関連のデータなど, 本データベースに含まれていないデータと組み合わせて利用したい場合は,XML 形式の 日本語話し言葉コーパス をお使いいただきたい 詳細は, 日本語話し言葉コーパス XML 文書について (xml.pdf) を参照のこと 1 / 7

2. 収録内容 人手解析データ 人手で短単位 長単位解析を行ったデータ品詞体系は, 日本語話し言葉コーパス の形態論情報の概要 に準ずる 自動解析データ 自動で短単位 長単位解析を行い, 部分的に人手修正したデータ品詞体系は, 日本語話し言葉コーパス の形態論情報の概要 の品詞体系に対して, 活用の種類, 活用形が細分化されている 詳細は, 本マニュアル 5 節を参照のこと 3. データ形式 3.1 ファイル形式とファイル名 ファイル形式 ファイル名 タブ区切りのテキストファイル漢字コード : シフト JIS 改行コード : CR + LF ファイル名は, 本体 8 文字, 拡張子 3 文字からなる 同名のファイル名本体を持つ転記テキストと対応する 拡張子 sdb : 短単位 長単位混合形式 ldb : 長単位形式 3.2 短単位 長単位混合形式 概要 1 行が 1 短単位の情報を含む 長単位の情報は, 長単位の先頭を構成する短単位に付随する 先頭以外の短単位には, 長単位の情報は付かず, 空欄となる 次の例は, 日本語の品詞体系 に対して, 短単位と長単位の情報を付与したものである 短単位の情報 長単位の情報 代表表記 [ 短 ] 品詞 [ 短 ] その他の情報 1[ 短 ] 代表表記 [ 長 ] 品詞 [ 長 ] その他の情報 1[ 長 ] 日本名詞固有名詞日本語名詞 語 名詞 の助詞格助詞の助詞格助詞 文法名詞文法体系名詞 体系 名詞 は助詞係助詞は助詞係助詞 実例 音響モデルを に対する情報付与例短単位は 音響 モデル を の三つに, 長単位は 音響モデル を の二つに分割される 実際のデータでは, 各フィールドはタブで区切られるが, 便宜上 / で表記した また,# で始まる行は, 本マニュアルにおけるコメントである 2 / 7

# 音響 00000001/00000002/A01M0065/0017 00041.518-00044.572 L:-005-001/ ました (F え ) 最後にまとめます < 雑音 > (F えー ) 高精度で (F えー ) 頑健な / 音響 / モデルを (F おー ) 目標として (F えー ) 音響モデルの研究行なわれて / 音響 / オンキョウ / 音響 / オンキョー名詞 ////// 名詞 ////// オンキョウモデル / 音響モデル # モデル 00000002/00000003/A01M0065/0017 00041.518-00044.572 L:-005-005/ た (F え ) 最後にまとめます < 雑音 > (F えー ) 高精度で (F えー ) 頑健な音響 / モデル / を (F おー ) 目標として (F えー ) 音響モデルの研究行なわれてい / モデル / モデル / モデル / モデル / 名詞 ////// ////// // # を 00000003/00000004/A01M0065/0018 00045.060-00047.337 L:-001-001/ (F え ) 最後にまとめます < 雑音 > (F えー ) 高精度で (F えー ) 頑健な音響モデル / を / (F おー ) 目標として (F えー ) 音響モデルの研究行なわれています / を / ヲ / を / オ / 助詞 /// 格助詞 /// 助詞 /// 格助詞 /// ヲ / を / 各フィールドの説明 フィールド番号 フィールド名 内容 1 ID 当該短単位の通し番号 (8 桁 ) 2 後続 ID 後続する短単位のID( 後続する短単位が存在しない場合は,00000000) 3 講演 ID 当該短単位が収録されている転記テキストの講演 ID 4 転記情報 当該短単位を含む転記単位のタイムスタンプなど (4.1 節参照 ) 5 前文脈 当該単位に先行する文脈 ( 最大 15 短単位 ) 6 出現形 当該短単位の転記テキスト ( 基本形 ) における出現語形 7 後文脈 当該単位に後続する文脈 ( 最大 15 短単位 ) 8 タグなし出現形 出現形から転記テキストのタグを取り除いたもの 9 代表形 出現形の標準的な語形 ( 国語辞典の見出しに相当 ) 10 代表表記 代表形を漢字, 仮名などで表記したもの 11 発音形 当該短単位の発音形 ( 転記テキストの発音形に相当 ) 12 品詞 当該短単位の品詞 13 活用の種類 当該短単位の活用の種類 ( カ行五段 等) 14 活用形 当該短単位の活用形 ( 連用形 等) 15 その他の情報 1 品詞の下位分類 ( 助詞 の下位分類として 格助詞 等) 16 その他の情報 2 語形の情報 ( 促音便 等) 17 その他の情報 3 言いよどみ メタ 等の補足情報( 複数情報がある場合は, 全角スペースで区切る ) 3 / 7

フィールド番号 フィールド名 内容 18 品詞 [ 長 ] 長単位の品詞 19 活用の種類 [ 長 ] 長単位の活用の種類 20 活用形 [ 長 ] 長単位の活用形 21 その他の情報 1[ 長 ] 長単位のその他の情報 1 22 その他の情報 2[ 長 ] 長単位のその他の情報 2 23 その他の情報 3[ 長 ] 長単位のその他の情報 3 24 代表形 [ 長 ] 長単位の代表形 25 代表表記 [ 長 ] 長単位の代表表記 3.3 長単位形式 概要 1 行が 1 長単位の情報を含む 長単位形式データに含まれる長単位情報は, 短単位 長単位混合形式における長単位情報と同一である 長単位形式は, 主として, 長単位に則した前文脈, 後文脈を参照できるように用意したものである 実例 音響モデルを に対する情報付与例 音響モデル を の二つの長単位に分割される 実際のデータでは, 各フィールドはタブで区切られるが, 便宜上 / で表記した また,# で始まる行は, 本マニュアルにおけるコメントである # 音響モデル 00000001/00000002/A01M0065/0017 00041.518-00044.572 L:-005-001/ 比較しました (F え ) 最後にまとめます < 雑音 > (F えー ) 高精度で (F えー ) 頑健な / 音響モデル / を (F おー ) 目標として (F えー ) 音響モデルの研究行なわれています / 音響モデル / オンキョウモデル / 音響モデル / オンキョーモデル名詞 ////// # を 00000002/00000003/A01M0065/0018 00045.060-00047.337 L:-001-001/ ました (F え ) 最後にまとめます < 雑音 > (F えー ) 高精度で (F えー ) 頑健な音響モデル / を / (F おー ) 目標として (F えー ) 音響モデルの研究行なわれていますが / を / ヲ / を / オ / 助詞 /// 格助詞 /// 各フィールドの説明 フィールド番号 フィールド名 内容 1 ID 当該長単位の通し番号 (8 桁 ) 2 後続 ID 後続する長単位のID( 後続する長単位が存在しない場合は,00000000) 3 講演 ID 当該長単位が収録されている転記テキストの講演 ID 4 転記情報 当該長単位を含む転記単位のタイムスタンプなど (4.1 節参照 ) 5 前文脈 当該単位に先行する文脈 ( 最大 15 短単位 ) 4 / 7

フィールド番号 フィールド名 内容 6 出現形 当該長単位の転記テキスト ( 基本形 ) における出現語形 7 後文脈 当該単位に後続する文脈 ( 最大 15 短単位 ) 8 タグなし出現形 出現形から転記テキストのタグを取り除いたもの 9 代表形 出現形の標準的な語形 ( 国語辞典の見出しに相当 ) 10 代表表記 代表形を漢字, 仮名などで表記したもの 11 発音形 当該長単位の発音形 ( 転記テキストの発音形に相当 ) 12 品詞 当該長単位の品詞 13 活用の種類 当該長単位の活用の種類 ( カ行五段 等) 14 活用形 当該長単位の活用形 ( 連用形 等) 15 その他の情報 1 品詞の下位分類 ( 助詞 の下位分類として 格助詞 等) 16 その他の情報 2 語形の情報 ( 促音便 等) 17 その他の情報 3 言いよどみ メタ 等の補足情報( 複数情報がある場合は, 全角スペースで区切る ) 4. 転記テキストとの関係 4.1 転記情報 フィールド 当該単位と転記テキストは, 講演 ID フィールドと 転記情報 フィールドの組合せで対応づけられる 転記情報 フィールドは, 転記テキストにおけるタイムスタンプに, 短単位の位置情報を付加したものである 形式 発話 ID タイムスタンプ単位位置情報 発話 ID: 当該短 長単位を含む転記基本単位の通し番号タイムスタンプ : その転記基本単位の開始時刻 終了時刻短単位位置情報 : 転記基本単位の先頭からの行数, および, 各行における先頭からのバイト数 ( 転記テキストの基本形を基準とする 文字コードは, シフトJIS) 実例転記テキスト 0017 00051.048-00056.945 L: 日本語の文法は 0018 00057.439-00061.747 L: 従来の & ニホンゴノ & ブンポーワ & ジューライノ 短単位 長単位混合形式 ( 転記情報と出現形 ) 0017 00051.048-00056.945 L:-001-001 日本 0017 00051.048-00056.945 L:-001-005 語 0017 00051.048-00056.945 L:-001-007 の 0017 00051.048-00056.945 L:-002-001 文法 0017 00051.048-00056.945 L:-002-005 は 0018 00057.439-00061.747 L:-001-001 従来 0018 00057.439-00061.747 L:-001-005 の 5 / 7

4.2 非言語音タグ (< 雑音 >,< ベル > など ) の扱い 非言語音タグのうち,< 雑音 >,< ベル > など, 一つの転記単位全体に対して付与されているものは, 便宜上, 一つの短単位として扱う ただし, 出現形, 発音形 フィールドに当該タグが入るだけで, 代表形, 代表表記, 品詞 など, 短単位, 長単位に関する情報は, 付与しない 非転記タグ < 雑音 > の例 転記テキスト 0202 00498.324-00501.003 L: コーパスの & コーパスノ 0203 00501.163-00502.587 L:< 雑音 > 0204 00503.031-00503.812 L: 内容は & ナイヨーワ 短単位 長単位混合形式 転記情報 出現形 発音形 品詞 その他の情報 1 0202 00500.324-00501.003 L:-001-001 コーパス コーパス 名詞 0202 00500.324-00501.003 L:-001-009 の ノ 助詞 格助詞 0203 00501.163-00502.587 L:-001-001 < 雑音 > < 雑音 > 0204 00503.031-00503.812 L:-001-001 内容 ナイヨー 名詞 0204 00503.031-00503.812 L:-001-005 は ワ 助詞 係助詞 4.3 R タグの扱い 個人名, 差別語, 誹謗中傷などにマークアップされる R タグ ( 例 : (R ) さん,(R ) 教授 ) は, 短単位 長単位データベース中では, 次のように扱われる なお,R タグの詳細は, 転記テキストの仕様 (transcription.pdf) のタグ (R) を参照のこと 出現形, 発音形は, 転記テキストに準ずる 出現形に R タグを含む短単位は, 次のフィールドを で伏字する タグなし出現形代表形代表表記 伏字処理をされた短単位を構成要素として持つ長単位は, 代表形, 代表表記を次のように伏字処理する 人手解析データの場合 : 伏字処理されている短単位に該当する部分を で伏字する 自動解析データの場合 : 代表形, 代表表記全体を で伏字する 例 : (R 山田 ) さん の場合 代表形 代表表記 人手解析データ サン さん 自動解析データ 伏字前のデータヤマダサン山田さん 6 / 7

5. 人手解析データと自動解析データとの相違 人手解析データと自動解析データの品詞体系の違いは, 次のとおりである 短単位の活用の種類と活用形 自動解析データにおける, 短単位の活用の種類, 活用形は, 短単位辞書マニュアル 3 節の活用表に従って細分類されている ただし, 上一段活用に関しては, 人手解析データとの違いはない 細分類の内容は, 次のとおりである 後続する短単位により, 未然形, 連用形を細分化した 未然形 1 のように 1~4 の数字で細分化を表示する この数字を除去したものが人手解析データの活用形に対応する 活用型は, カ行五段 1, カ行五段 2 といった形式で, 細分化している 活用形と同様, 末尾の数字を除去したものが人手解析データの活用型に対応する ( なお, 人手解析データでも細分化されている 文語形容詞型 1~3 は除く ) 長単位の R タグの伏字処理 (4.3 節参照 ) 自動解析データでは, 人手修正済データに比べて, 次のような誤りが多い 連体形と終止形の間違い助動詞と助詞の間違い ( 主に, で と に ) 格助詞と準体助詞の間違い ( 主に, の ) F タグで囲まれた短単位の解析誤り ( 主に,F タグ内が複数の短単位から構成される場合 ) D2 タグで囲まれた短単位の解析誤り 自動解析の方法については, 次の文献を参照されたい 内元, 高岡, 野畑, 山田, 関根, 井佐原 : 日本語話し言葉コーパス への形態素情報付与, 第 3 回話し言葉の科学と工学ワークショップ講演予稿集, pp.39-46 (2004) 7 / 7