・本文を閲覧したい場合は?→「プリズム」



Similar documents
預 金 を 確 保 しつつ 資 金 調 達 手 段 も 確 保 する 収 益 性 を 示 す 指 標 として 営 業 利 益 率 を 採 用 し 営 業 利 益 率 の 目 安 となる 数 値 を 公 表 する 株 主 の 皆 様 への 還 元 については 持 続 的 な 成 長 による 配 当 可

Ver 改 訂 日 付 改 訂 内 容 1

<4D F736F F D20819C486F70658F6F93588ED297708AC7979D89E696CA837D836A B E A2E646F63>

Microsoft Word - word_05.docx

<4D F736F F D2090C389AA8CA72D92F18F6F2D D F ED28CFC82AF91808DEC837D836A B E838B A815B816A2E646F6378>

研究者情報データベース

1. アクセスする 2. 簡 易 検 索 画 面 (fig. 1) アクセスすると 最 初 に 出 る 画 面 です 検 索 語 入 力 ボックスにキーワードを 入 力 して 論 文 検 索 ボタンをクリックし ます 3. ボックス 下 部 のチェック 項

Microsoft Word - 養生学研究投稿規定(改)

KINGSOFT Office 2016 動 作 環 境 対 応 日 本 語 版 版 共 通 利 用 上 記 動 作 以 上 以 上 空 容 量 以 上 他 接 続 環 境 推 奨 必 要 2

1.3 利 用 方 法 図 1 国 立 国 会 図 書 館 デジタルコレクション 送 信 サービスの 対 象 資 料 本 文 の 閲 覧 は 図 書 館 サービスカウンター 備 え 付 けの 専 用 パソコン(1 台 )のみでの 利 用 となります 利 用

目 次 1. 大 学 情 報 データベースシステムの 使 用 方 法 について EXCEL 一 括 登 録 EXCEL ダウンロード 検 索 条 件 の 指 定 プレビュー EXCEL ダウンロード(データ 抽 出 あ

1 書 誌 作 成 機 能 (NACSIS-CAT)の 軽 量 化 合 理 化 電 子 情 報 資 源 への 適 切 な 対 応 のための 資 源 ( 人 的 資 源,システム 資 源, 経 費 を 含 む) の 確 保 のために, 書 誌 作 成 と 書 誌 管 理 作 業 の 軽 量 化 を 図

年齢別人数計算ツールマニュアル

<4D F736F F D ED28FDA8DD7837D836A B2E646F6378>

<4D F736F F D AC90D1955D92E CC82CC895E DD8C D2816A2E646F63>

[2] 控 除 限 度 額 繰 越 欠 損 金 を 有 する 法 人 において 欠 損 金 発 生 事 業 年 度 の 翌 事 業 年 度 以 後 の 欠 損 金 の 繰 越 控 除 にあ たっては 平 成 27 年 度 税 制 改 正 により 次 ページ 以 降 で 解 説 する の 特 例 (

Microsoft Word - 第3章.doc

( 別 途 調 査 様 式 1) 減 損 損 失 を 認 識 するに 至 った 経 緯 等 1 列 2 列 3 列 4 列 5 列 6 列 7 列 8 列 9 列 10 列 11 列 12 列 13 列 14 列 15 列 16 列 17 列 18 列 19 列 20 列 21 列 22 列 固 定

01_07_01 データのインポート_エクスポート_1

目 次 1.はじめに 書 式 の 説 明 表 紙 スケジュール 組 入 れ 基 準 併 用 禁 止 薬 併 用 注 意 薬 同 種 同 効 薬 医 師 モニタリング..

治 験 実 施 管 理 システム NMGCP 向 け Excel 形 式 プロトコール 作 成 手 順 書 V4.0.3 対 応 版 第 1 版 株 式 会 社 富 士 通 アドバンストエンジニアリング All Rights Reserved,Copyright 株 式 会 社 富 士 通 アドバン

TIPS - 棚 割 りを 開 始 するまで Liteを 起 動 し 企 業 情 報 の 追 加 を 行 い 棚 割 を 行 う 企 業 の 追 加 をして 下 さい 企 業 情 報 の 追 加 時 に エラーメッセージが 表 示 された 場 合 別 途 TIPS トラブルが 発 生 した 場 合

目 次 JAVIS Appli の 基 本 機 能... 3 JAVIS Appli について... 3 音 声 確 認 機 能 JAVIS Appli( 有 償 版 )の 機 能... 4 音 声 で 読 みの 確 認 をする... 4 辞 書 機 能... 5 単 語 を 登 録 する... 5

<4D F736F F D203193FA8AD45F95CA8E86325F89898F4B315F94F093EF8AA98D AD97DF914F82CC8FEE95F182CC8EFB8F C28E8B89BB2E646F63>

1 林 地 台 帳 整 備 マニュアル( 案 )について 林 地 台 帳 整 備 マニュアル( 案 )の 構 成 構 成 記 載 内 容 第 1 章 はじめに 本 マニュアルの 目 的 記 載 内 容 について 説 明 しています 第 2 章 第 3 章 第 4 章 第 5 章 第 6 章 林 地

4 応 募 者 向 けメニュー 画 面 が 表 示 されます 応 募 者 向 けメニュー 画 面 で [ 交 付 内 定 時 の 手 続 を 行 う] [ 交 付 決 定 後 の 手 続 を 行 う]をクリックします 10

Ⅰ 調 査 の 概 要 1 目 的 義 務 教 育 の 機 会 均 等 その 水 準 の 維 持 向 上 の 観 点 から 的 な 児 童 生 徒 の 学 力 や 学 習 状 況 を 把 握 分 析 し 教 育 施 策 の 成 果 課 題 を 検 証 し その 改 善 を 図 るもに 学 校 におけ

研究者総覧システム

<4D F736F F D208ED089EF95DB8CAF89C193FC8FF38BB CC8EC091D492B28DB88C8B89CA82C982C282A282C42E646F63>

< F2D8AC493C CC81698EF3928D8ED2816A2E6A7464>

R4財務対応障害一覧

スライド 1

0605調査用紙(公民)

2016 年 度 情 報 リテラシー 三 科 目 合 計 の 算 出 関 数 を 用 いて 各 教 科 の 平 均 点 と 最 高 点 を 求 めることにする この2つの 計 算 は [ホーム]タブのコマ ンドにも 用 意 されているが 今 回 は 関 数 として 作 成 する まず 表 に 三 科

3. 選 任 固 定 資 産 評 価 員 は 固 定 資 産 の 評 価 に 関 する 知 識 及 び 経 験 を 有 する 者 のうちから 市 町 村 長 が 当 該 市 町 村 の 議 会 の 同 意 を 得 て 選 任 する 二 以 上 の 市 町 村 の 長 は 当 該 市 町 村 の 議

2 研 究 資 源 共 通 化 統 合 検 索 システムソフトウェア 利 用 者 用 マニュアル(ゲートウェイシステム) 目 次 1. はじめに 主 な 利 用 の 流 れ 検 索 検 索 画 面 検 索 画 面 の 設 定...

<4D F736F F D C97F195CF8AB DEC90E096BE8F912091E6312E313294C52E646F63>

主要生活道路について

(Microsoft Word - \221\346\202P\202U\201@\214i\212\317.doc)

「給与・年金の方」からの確定申告書作成編

5 振 込 依 頼 書 の 作 成 方 法 ()ツールの 起 動 コピーまたはダウンロードしたツールをダブルクリックして 開 いてください (ツール 起 動 の 際 マクロを 有 効 にしてください ) ダブルクリック 後 以 下 のメッセージが 出 力 されますので 読 み 取 り 専 用 ボタン

図 2 エクスポートによるシェープファイルの 新 規 保 存 新 規 保 存 するファイルは,より 分 かりやすい 名 前 をつけて 適 切 なフォルダ(shape フォル ダにまとめておくのがよい) 上 に 保 存 しておく 2 / 10

第1章 財務諸表

1.2. ご 利 用 環 境 推 奨 ブラウザ Internet Explorer Google Chrome(バージョン 32 時 点 で 動 作 確 認 済 み) Mozilla Firefox(バージョン 26 時 点 で 動 作 確 認 済 み) Safari 7

PowerPoint プレゼンテーション

私立大学等研究設備整備費等補助金(私立大学等

答申第585号

PowerPoint プレゼンテーション

一般競争入札について

返還同意書作成支援 操作説明書

Microsoft PowerPoint - 報告書(概要).ppt

戦略担当者のための

(Microsoft Word - \215u\213`\203m\201[\203g doc)

PowerPoint プレゼンテーション

する ( 評 定 の 時 期 ) 第 条 成 績 評 定 の 時 期 は 第 3 次 評 定 者 にあっては 完 成 検 査 及 び 部 分 引 渡 しに 伴 う 検 査 の 時 とし 第 次 評 定 者 及 び 第 次 評 定 者 にあっては 工 事 の 完 成 の 時 とする ( 成 績 評 定

(Microsoft Word - \215u\213`\203m\201[\203g doc)

検 索 しよう... 1 結 果 を 見 よう ~ 検 索 結 果 一 覧 ~... 2 結 果 を 見 よう ~ 検 索 結 果 詳 細 ( 図 書 )~... 3 結 果 を 見 よう ~ 検 索 結 果 詳 細 ( 雑 誌 )~... 4 ログインしよう... 5 私 の 本 棚 を 活 用


2016 年 度 情 報 リテラシー 変 更 された 状 態 同 様 に 価 格 のセルを 書 式 設 定 する 場 合 は 金 額 のセルをすべて 選 択 し [ 書 式 ]のプルダウンメニューか ら[ 会 計 ]を 選 択 する すると が 追 加 され 金 額 としての 書 式 が 設 定 さ

Microsoft PowerPoint - INIS_Collection_Srh_Quickmamual(Japanese)

<4D F736F F D20819C B78AFA95DB91538C7689E68DEC90AC289

(2)大学・学部・研究科等の理念・目的が、大学構成員(教職員および学生)に周知され、社会に公表されているか

12_02_02 帳票設定5

表紙

財団法人○○会における最初の評議員の選任方法(案)

医療費控除の入力編

(1)1オールゼロ 記 録 ケース 厚 生 年 金 期 間 A B 及 びCに 係 る 旧 厚 生 年 金 保 険 法 の 老 齢 年 金 ( 以 下 旧 厚 老 という )の 受 給 者 に 時 効 特 例 法 施 行 後 厚 生 年 金 期 間 Dが 判 明 した Bは 事 業 所 記 号 が

している 5. これに 対 して 親 会 社 の 持 分 変 動 による 差 額 を 資 本 剰 余 金 として 処 理 した 結 果 資 本 剰 余 金 残 高 が 負 の 値 となるような 場 合 の 取 扱 いの 明 確 化 を 求 めるコメントが 複 数 寄 せられた 6. コメントでは 親

<819A955D89BF92B28F BC690ED97AA8EBA81418FA48BC682CC8A8890AB89BB816A32322E786C7378>

2 出 願 資 格 審 査 前 記 1の 出 願 資 格 (5) 又 は(6) により 出 願 を 希 望 する 者 には, 出 願 に 先 立 ち 出 願 資 格 審 査 を 行 いますので, 次 の 書 類 を 以 下 の 期 間 に 岡 山 大 学 大 学 院 自 然 科 学 研 究 科 等

PowerPoint プレゼンテーション

2 科 学 研 究 費 助 成 事 業 のトップページ 画 面 が 表 示 されます [ 研 究 者 ログイン]をクリック します 掲 載 している 画 面 は 例 示 です 随 時 変 更 されます 3 科 研 費 電 子 申 請 システムの 応 募 者 ログイン 画 面 が 表 示 されます e

ボタンをクリックします ( 警 告 が 表 示 されない 場 合 もあります ) 9 画 面 に Win SFX32M V と 表 示 されますので 保 存 する 箇 所 を 選 択 し OK をクリックしてください 選 択 した 箇 所 にインストールしたフォルダが 保 存 され

平成27年度大学改革推進等補助金(大学改革推進事業)交付申請書等作成・提出要領

目 次 1. Web メールのご 利 用 について Web メール 画 面 のフロー 図 Web メールへのアクセス ログイン 画 面 ログイン 後 (メール 一 覧 画 面 ) 画 面 共 通 項 目

< DB8CAF97BF97A6955C2E786C73>

医 療 費 自 己 負 担 額 支 払 明 細 書 入 力 シート - 目 次 - < 第 1 章 > 共 通 事 項 説 明 医 療 費 自 己 負 担 額 支 払 明 細 書 入 力 シート 目 次 1.1 本 システムの 注 意 点 入 力 項 目 について 基 本 情

2 役 員 の 報 酬 等 の 支 給 状 況 平 成 27 年 度 年 間 報 酬 等 の 総 額 就 任 退 任 の 状 況 役 名 報 酬 ( 給 与 ) 賞 与 その 他 ( 内 容 ) 就 任 退 任 2,142 ( 地 域 手 当 ) 17,205 11,580 3,311 4 月 1

Word 003 スキルブック 06 - オブジェクトの 利 用 0.Word で 作 る 表 : 行 幅 を 最 小 値 より 小 さく 設 定 する 3 表 の 左 右 のサイズを 適 宜 調 整 します Word で 表 を 作 成 するとき, 列 幅, 行 幅 ともに 基 本 的 に 自 由

(2) 広 島 国 際 学 院 大 学 ( 以 下 大 学 という ) (3) 広 島 国 際 学 院 大 学 自 動 車 短 期 大 学 部 ( 以 下 短 大 という ) (4) 広 島 国 際 学 院 高 等 学 校 ( 以 下 高 校 という ) ( 学 納 金 の 種 類 ) 第 3 条

目 次 1. 積 算 内 訳 書 に 関 する 留 意 事 項 1 ページ 2. 積 算 内 訳 書 のダウンロード 3 ページ 3. 積 算 内 訳 書 の 作 成 (Excel 2003の 場 合 ) 6 ページ 4. 積 算 内 訳 書 の 作 成 (Excel 2007の 場 合 ) 13

Microsoft Word - 修正_作業手順書.docx

(Microsoft Word - Excel\211\236\227p2\217\315.docx)

2. データを 検 索 する なごやコレクションのデータを 検 索 するための 方 法 として キーワード 検 索 詳 細 検 索 の 二 通 りの 検 索 方 法 が あります 2.1. キーワードから 探 す キーワードを 入 力 する トップページの 入 力 ボックスに 検 索

目 次 1. 論 理 関 数 IF IF の 概 要 論 理 式 の 種 類 等 号 不 等 号 具 体 的 な 使 い 方 ネスト 複 数 の 条 件 を 記 述...

中根・金田台地区 平成23年度補償説明業務

PowerPoint プレゼンテーション

変 更 履 歴 版 日 付 区 分 変 更 内 容 変 更 個 所 /11/30 新 規 初 版 作 成 /12/10 修 正 資 料 カバー 画 像 設 定 の 操 作 内 容 を 追 加 資 料 カバー 画 像 設 定 i

PowerPoint プレゼンテーション

1. 表 から 値 を 抽 出 する 説 明 1.1. 表 から 値 を 抽 出 するための 関 数 について 説 明 します LOOKUP VLOOKUP HLOOKUP 関 数 は 検 索 値 に 対 応 する 値 を 検 索 値 を 含 む 一 覧 表 から 抽 出 し てくれる 関 数 です

Microsoft Word - 佐野市生活排水処理構想(案).doc

PowerPoint プレゼンテーション

検 討 検 討 の 進 め 方 検 討 状 況 簡 易 収 支 の 世 帯 からサンプリング 世 帯 名 作 成 事 務 の 廃 止 4 5 必 要 な 世 帯 数 の 確 保 が 可 能 か 簡 易 収 支 を 実 施 している 民 間 事 業 者 との 連 絡 等 に 伴 う 事 務 の 複 雑

目 次 1.はじめに 1-1. はじめに 2. 操 作 2-1. 概 要 2-2. 操 作 方 法 ( 調 査 依 頼 の 確 認 ) 2-3. 操 作 方 法 ( 回 答 登 録 ) 2-4. 操 作 方 法 (ワークシート 出 力 ) 2-5. 操 作 方 法 (ワークシート 取 込 ) 3.

目 次. WEB メールへのログイン.... メール 送 信 手 順.... メール 受 信 手 順 アドレス 帳 の 操 作 手 順 フォルダーの 操 作 手 順 メール 発 信 者 登 録 署 名 登 録 手 順 基 本 的 な 設 定

<4D F736F F D E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A C98AD682B782E993C195CA915B C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

Microsoft Word - 生物学技研報告ONLINE ガイドブック.doc

よりメンバーに 配 布 した 第 2 期 は 第 1 期 に 開 発 した 大 気 時 間 値 集 計 解 析 ツールをベースに 機 能 改 良 を 行 った 国 立 環 境 研 究 所 では メンバーから 寄 せられる 要 望 使 い 勝 手 に 関 する 意 見 感 想 不 具 合 発 生 など

1. 前 払 式 支 払 手 段 サーバ 型 の 前 払 式 支 払 手 段 に 関 する 利 用 者 保 護 等 発 行 者 があらかじめ 利 用 者 から 資 金 を 受 け 取 り 財 サービスを 受 ける 際 の 支 払 手 段 として 前 払 式 支 払 手 段 が 発 行 される 場 合

目 次 第 1. 土 区 画 整 理 事 業 の 名 称 等 1 (1) 土 区 画 整 理 事 業 の 名 称 1 (2) 施 行 者 の 名 称 1 第 2. 施 行 区 1 (1) 施 行 区 の 位 置 1 (2) 施 行 区 位 置 図 1 (3) 施 行 区 の 区 域 1 (4) 施

Transcription:

2009.10.19 第 9 回 GCOE 合 同 ゼミ 於 語 学 研 究 所 (419) 初 心 者 のための 太 陽 コーパス 概 説 ( 入 門 編 ) 東 京 外 国 語 大 学 大 学 院 博 士 後 期 課 程 佐 藤 佑 (you@satoyou.net) 1. 太 陽 コーパス って 何? 博 文 館 より 1895( 明 治 28) 年 ~1928( 昭 和 3) 年 まで 発 行 された 総 合 雑 誌 太 陽 をデ ータベース 化 したコーパス 計 5 年 (1895 1901 1909 1917 1925 1 ) 60 冊 分 ( 増 刊 号 を 除 く 各 年 12 冊 分 )がデータ 化 されている 収 録 データは 記 事 総 数 3408 述 べ 14451642 文 字 分 に 上 る データは 構 造 化 テキスト(XML 形 式 )で 収 録 されている 形 態 素 解 析 品 詞 などによる タグ 付 けは 行 われていないが 年 次 号 数 をはじめ 執 筆 者 名 ジャンルなどの 項 目 が 設 定 されているため それらを 元 に 検 索 結 果 から 原 文 を 参 照 したり それらの 情 報 によって 検 索 結 果 をソートしたりといった 使 い 方 が 可 能 である 2. 何 に 役 立 つの? 太 陽 は 多 様 な 執 筆 者 による 様 々なジャンルの 記 事 が 収 録 されている 総 合 雑 誌 であ り 当 時 の 日 本 語 を 代 表 する 資 料 として 非 常 に 有 用 である 太 陽 コーパス を 用 いることで 明 治 中 期 から 昭 和 初 期 にかけての 言 語 使 用 言 語 変 化 の 実 態 について 簡 単 に 大 量 のデータを 得 て 分 析 することができる ただし 数 年 ずつの 区 切 りで 年 単 位 のデータ 化 がされている(つまり 空 白 の 期 間 の 方 が 長 い)ため 真 に 漸 次 的 な 変 化 を 捉 える 上 で 万 全 とは 言 いがたい 部 分 もあるかもしれない なお 言 うまでもないがすべて 戦 前 のデータであり また 文 語 の 記 事 も 少 なからず 含 まれ るため 利 用 に 際 しては 旧 仮 名 遣 いや 旧 字 体 文 語 の 用 語 法 といった 問 題 を 常 に 念 頭 に 置 く 必 要 がある なお 本 稿 で 紹 介 するツールのうち 2 種 について 不 具 合 の 修 正 が 行 われている 致 命 的 な 問 題 に 直 結 するケースは 多 くないと 思 われるが ひまわり については 太 陽 コーパ ス ホームページ ( 後 述 するインデックスページよりリンクあり)> 太 陽 コーパス 付 属 ソフトウェアの 不 具 合 修 正 について にアクセスの 上 適 用 することを 推 奨 する 2 3. どうやって 使 うの?( 検 索 編 : ひまわり たんぽぽ の 使 い 方 ) XML 検 索 ツール(CD-ROM に 収 録 )を 用 いる 以 下 ツール 2 種 について 概 説 する 1 創 刊 年 および 1901 年 を 始 点 に 8 年 間 隔 の 計 4 年 分 である 2 プリズム も 修 正 ファイルが 配 布 されているが 発 表 者 の 環 境 で 適 用 したところエラーが 出 るように なった 必 ずしもプログラムに 問 題 があるとは 限 らないが 修 正 箇 所 は 本 稿 の 範 囲 で 問 題 にならない 部 分 であり 当 面 は 必 要 ないものと 判 断 した 1

3.1. ひまわり 特 徴 複 雑 な 正 規 表 現 の 類 を 用 いない 基 本 的 な 検 索 に 向 く 太 陽 コーパス の XML に 合 わ せて 設 計 されており 動 作 も 比 較 的 軽 快 通 常 は 全 文 (60 冊 分 すべて)が 対 象 になってい るが フィルタ 機 能 により 一 部 のみ 検 索 を 行 うことも 可 能 である( 後 述 ) 起 動 の 仕 方 CD-ROMをドライブに 挿 入 すると 自 動 的 にブラウザが 立 ち 上 がり 太 陽 コーパス のイ ンデックスページが 表 示 される 同 ページの CD-ROMの 内 容 > Himawari/ をクリ ックして Himawari フォルダの 中 身 を 表 示 し himawari.exe をダブルクリックして 起 動 する 3 利 用 方 法 本 文 ルビ(rt) 完 全 一 致 ルビ(rt) 部 分 一 致 4 のいずれかを 選 び 検 索 条 件 を 入 力 して 検 索 ボタンをクリックする ルビ は 完 全 一 致 で あそ とすると 遊 (ば/び/ぶ ) などしかヒットしな いが 部 分 一 致 にすると 遊 (あそば)した 彼 所 (あそこ) などもヒットする と いった 使 い 方 が 可 能 である ルビ 機 能 を 活 用 すると たとえば ひとり( 一 人 / 独 り) の 用 例 を 集 める 際 單 獨 = ひとり のような 当 て 字 熟 字 訓 の 例 も 漏 らさず 採 ることが 可 能 になる ただし 音 が 一 字 ずつに 分 割 できるような 場 合 二 字 以 上 の 熟 語 はルビで 検 索 たんどく できない(たとえば たんどく でルビ 検 索 をしても 單 獨 の 例 は 單 獨 が 各 々 別 個 にタグ 付 けされているため 採 れない) このような 例 を 漏 れのないように 集 めるには 後 述 (3.2.)する たんぽぽ を 使 う 必 要 がある 本 文 は 実 際 の 表 記 5で 検 索 する 場 合 に 選 択 する 表 記 当 て 字 の 問 題 が 気 になる 場 合 はまず ルビ で 検 索 し 当 時 の 表 記 として 考 えられるものをリストアップした 上 で 本 文 を 検 索 する という 流 れが 比 較 的 確 実 である 前 文 脈 後 文 脈 は 通 常 では 10 文 字 ずつしか 取 られず 文 の 流 れを 追 うのには 不 十 分 なこ とが 多 いので 検 索 オプション タブ 前 後 文 脈 長 で 適 宜 調 節 する 必 要 がある 1 年 分 ずつ 検 索 するなど 対 象 とする 範 囲 を 何 らかの 形 で 限 定 したい 場 合 は フィルタ タブをクリックして 各 項 目 を 設 定 する 雑 誌 名 6 年 号 題 名 著 者 位 置 7 欄 名 ジャンル 文 体 話 者 種 別 8 原 文 9 の 各 項 目 で 絞 り 込 みが 可 能 である 3 以 下 ファイルの 拡 張 子 は 表 示 する 設 定 になっているものとする( 設 定 方 法 は 中 山 編 2009:80 など 参 照 ) 4 ただし ルビ については 初 期 の 記 事 を 中 心 に 付 けられていないものが 少 なくないので 注 意 が 必 要 であ る 傾 向 として 1910 年 代 までは 小 説 が 総 ルビ 一 部 ジャンルの 記 事 がパラルビ( 一 部 のみにルビ 付 加 ) であるが それ 以 降 は 一 部 の 例 外 を 除 いてほぼ 総 ルビである( 国 立 国 語 研 究 所 編 2005:7) 5 ただし 本 文 データにおいて 誤 字 脱 字 などは 修 正 されている 詳 しくは 4.3.で 扱 う 6 太 陽 コーパス のみを 用 いる 限 りは 問 題 にならない 7 XMLファイル 全 体 の 中 でどのファイルのどの 位 置 であるかを 示 す 値 で 後 述 する プリズム における 行 番 号 と 同 義 である 8 引 用 や 小 説 の 会 話 文 など 本 文 の 筆 者 とは 異 なる 人 の 発 言 談 話 などの 場 合 話 者 ( 誰 によるものか) 2

検 索 結 果 は デフォルトでは 年 次 > 号 > 位 置 の 順 でソートされているが( 画 像 1) 項 目 名 をクリックすることでソートし 直 すことが 可 能 である( 画 像 2) 検 索 結 果 画 面 で 前 文 脈 ~ 題 名 および 位 置 欄 名 文 体 の 該 当 箇 所 をダブルクリックするとウェブ ブラウザで 本 文 データが 表 示 され 用 例 の 掲 出 のされ 方 を 個 別 に 確 認 することができる また 著 者 ジャンル の 該 当 箇 所 をダブルクリックすると それぞれの 概 略 がポップ アップで 表 示 される( 著 者 であれば 生 没 年 など) 検 索 終 了 後 テキストファイルとして 名 前 を 付 けて 保 存 できる ファイル 内 では 前 文 脈 キー 後 文 脈 雑 誌 名 年 次 号 記 事 タイトル 著 者 名 位 置 欄 名 ジャン ルの 順 でタブ 区 切 りがされている このテキストファイルを 開 き 全 選 択 コピーして Excel に 貼 り 付 けるとデータの 整 理 がしやすい 備 考 検 索 には [] ( 半 角 大 括 弧 )の 文 字 セット 指 定 のみ 正 規 表 現 が 利 用 可 能 で 文 字 範 囲 指 定 は 不 可 である 具 体 的 には 動 詞 學 ぶ の 用 例 を 検 索 したい 場 合 學 [ばびぶべん] であれば 問 題 ないが 學 [ば-べん] とすると 正 常 に 機 能 しない したがって たとえば 何 でもいいから 平 仮 名 一 文 字 何 でもいいから 漢 字 一 文 字 といった 検 索 には 用 いにくい(そ うした 検 索 を 行 う 必 要 がある 場 合 後 述 する たんぽぽ を 利 用 する 方 が 現 実 的 である) なお ^ による 除 外 も 無 効 である 新 字 体 で 入 力 した 漢 字 は 字 体 変 換 ボタンをクリックすることで 旧 字 体 に 一 括 変 換 で きる( 例 : 学 學 ) 10 さらに 本 文 に 用 いられうる 異 体 字 が 複 数 存 在 する 場 合 は [] で 括 ってすべてを 対 象 に 含 めるように 変 換 してくれるが 検 索 条 件 にも [] を 用 いている 場 合 は [] が 重 複 しないように 注 意 する 必 要 がある 検 索 キー 以 外 に 前 文 脈 の 末 尾 および 後 文 脈 の 冒 頭 の 文 字 列 を 指 定 できる たとえば 名 詞 の 用 例 を 取 る 場 合 で 前 文 脈 に の と 入 れれば ノ 格 名 詞 の 修 飾 を 受 ける 例 (た だし 直 前 に 現 れるものに 限 る 11 )を 絞 り 込 むことができる なお 全 データを 一 括 して 検 索 できることが ひまわり の 利 点 であるが あまりにヒ ット 数 が 多 い(メモリに 結 果 を 格 納 しきれなくなる)とエラーになる 可 能 性 がある した がって あまり 文 字 数 の 少 ない 一 度 に 膨 大 にヒットすることが 予 測 されるような 条 件 指 定 は 極 力 避 けた 方 が 無 難 である 種 別 ( 引 用 か 会 話 文 かなど)が 示 される 9 検 索 キー 内 に 誤 字 脱 字 等 のエラーがある 場 合 のみ 原 文 ママの 表 記 が 付 記 される 外 字 が 含 まれる 場 合 については 特 に 注 記 はされない 10 太 陽 コーパス には 専 用 の 字 体 変 換 辞 書 が 収 録 されている JISX0208 1997 に 異 体 字 が 存 在 すると されるもののうち 太 陽 コーパス の 範 囲 内 で 等 価 な 字 体 と 認 められるもの( 等 価 字 体 )とそうでないも の( 参 考 字 体 )の 2 種 が 指 定 可 能 である デフォルトの 設 定 であれば 前 者 のみ 使 用 するようになっており 通 常 これを 変 更 する 必 要 はない 11 たとえばキーを 友 情 前 文 脈 を の とした 場 合 篤 き 男 の 友 情 はヒットするが 男 の 篤 き 友 情 はヒットしない このように 語 と 語 の 共 起 関 係 をくまなく 見 るような 目 的 には 向 かないことが 多 い 3

3.2. たんぽぽ 特 徴 正 規 表 現 を 駆 使 して 柔 軟 な 検 索 条 件 指 定 が 行 えるが Grep 方 式 で 検 索 に 時 間 がかかる 特 に 全 データを 一 括 して 検 索 しようとするとフリーズする 可 能 性 が 大 なので 数 号 分 ずつ 分 けて 行 うことを 推 奨 する 起 動 の 仕 方 太 陽 コーパス のインデックスページから XML ファイルを 直 接 利 用 するためのア プリケーション > XML/Tanpopo.hta をクリックして 起 動 する 利 用 方 法 メイン 画 面 ( 画 像 3)で 検 索 条 件 を 入 力 し 検 索 対 象 とする 号 のチェックボックスにチェ ックを 入 れて 12 検 索 ボタンをクリックする 検 索 対 象 を ルビなしテキスト ルビを 開 いたテキスト ルビ 入 りテキスト から 選 択 できる 文 字 列 のみで 検 索 する 場 合 は ルビなしテキスト ルビを 対 象 に 検 索 したい 場 合 は ルビを 開 いたテキスト を 選 択 する 13 後 者 を 活 用 すれば たとえば たんどく で たんどく 検 索 することで 3.1.で 問 題 となった 單 獨 の 例 も 漏 らさず 採 ることができる ひまわり の 場 合 たとえば まま のような 同 じ 字 の 繰 り 返 される 語 形 を 検 索 する 場 合 踊 り 字 (ゝ ヽ )を 考 慮 に 入 れないと 大 量 の 取 りこぼしが 出 ることになるが た んぽぽ では 画 面 右 下 の 踊 り 字 を 開 く ボックスにチェックを 入 れることで まま で 検 索 すれば まま まゝ まヽ の 例 を 一 括 して 収 集 することが 可 能 になる 14 検 索 結 果 画 面 ( 画 像 4)の 右 上 にある 結 果 をコピー ボタンをクリックすると 情 報 ( 本 文 収 録 号 位 置 欄 名 記 事 タイトル 著 者 名 文 語 / 口 語 ジャンルおよび 小 説 の 会 話 文 や 引 用 の 箇 所 は 引 用 種 別 : 話 者 )がタブ 区 切 りされた 状 態 で 検 索 結 果 がクリップボ ードに 保 存 される Excel を 開 いて 貼 り 付 け を 行 うと 簡 単 にデータを 保 存 できる 備 考 ほとんどの 正 規 表 現 が 利 用 可 能 である(ただし 半 角 の 丸 括 弧 () は 不 可 ) メイン 画 面 にある 正 規 表 現 について ボタンをクリックすると 詳 しい 説 明 が 読 める Grepにおける 正 規 表 現 については 中 山 編 (2009) 第 8 章 なども 参 照 のこと なお 太 陽 コーパス で 使 われている 漢 字 は [ 一 - 龠 15] で 網 羅 できる 検 索 条 件 の 漢 字 表 記 については ひまわり と 同 様 ワンクリックで 字 体 変 換 が 可 12 右 にある 全 号 ボタンをクリックすると その 年 の 12 号 分 に 一 括 してチェックを 入 れることができ るが 動 作 の 安 定 上 推 奨 できない 13 ルビ 入 りテキスト を 指 定 すると たとえば 一 寸 通 りますよ のような 例 にルビが 振 られていた 場 合 一 寸 [ちよつと] 通 [とお]りますよ のように 本 文 中 にルビを 挿 入 したテキストが 検 索 対 象 となる すなわち 本 文 がルビの 振 られる 語 ごとに 分 割 された 形 になってしまい たとえば 一 寸 通 という 文 字 列 で 検 索 しても 上 記 の 例 はヒットしないことになる 14 なお くの 字 点 については 公 式 に 説 明 がなされていないが 太 陽 コーパス では たまたま であれ ば たま~~ というように ~~ で 代 用 されているようである はるばる など 連 濁 する 場 合 は ~ 15 音 は ヤク Shif-JIS(16 進 )でEA9E 4

能 である ただし [] で 複 数 の 字 体 が 指 定 された 場 合 は やはり 他 の 正 規 表 現 に 干 渉 し ないよう 工 夫 する 必 要 がある 柔 軟 で 有 用 な 機 能 が 多 い 反 面 外 字 の 扱 いに 関 しては 少 々 弱 いという 欠 点 がある 具 体 的 には ひまわり のように 外 字 を 別 字 体 に 変 換 してくれないため 利 用 方 法 の 項 で 述 べた 方 法 だと 検 索 結 果 に 含 まれる 外 字 はすべて で 表 示 されてしまう 対 処 法 と して 結 果 の 画 面 をドラッグして 選 択 してコピーし Excel などに 貼 り 付 けるとルビや 外 字 ( 画 像 ファイル)を 保 ったまま 保 存 することが 可 能 であるが 必 要 に 応 じて 出 典 情 報 その 他 をセル 分 けする 等 の 編 集 を 強 いられ 少 なからず 負 担 になる 以 上 で 紹 介 したように これら 2 種 のツールはそれぞれに 一 長 一 短 であり 必 要 に 応 じ て 使 い 分 ける また 2 種 をうまく 連 携 させて 用 いることが 肝 要 になる 4. どうやって 使 うの?( 発 展 編 : プリズム の 便 利 な 機 能 ) 上 述 の 2 ツールどちらを 利 用 しても 得 られた 用 例 は 掲 載 号 記 事 名 などの 情 報 と 併 せ て 保 存 することができる したがって 必 要 に 応 じて 本 文 を 参 照 することが 容 易 になる 本 節 では 閲 覧 変 換 ツール プリズム を 使 った 本 文 データの 参 照 方 法 およびその 応 用 について 概 説 する 4.1. 本 文 を 直 接 閲 覧 するには? 本 文 を 参 照 する 場 合 有 用 なのが 閲 覧 ツール プリズム である たんぽぽ と 同 じく XML ファイルを 直 接 利 用 するためのアプリケーション 下 部 の XML/Prism.hta をク リックして 起 動 し 使 用 する 本 文 を 直 接 開 きたい 場 合 DHTML または シンプルなHTML のいずれかを 選 択 す る 前 者 のほうが 利 便 性 その 他 において 優 れているため 今 回 は 前 者 に 絞 って 解 説 する 16 表 示 したい 号 数 をクリックした 後 位 置 情 報 ( 行 番 号 )の 要 否 に 応 じて DHTML( 行 番 号 ) DHTML のいずれかを 選 択 し 変 換 (ブラウザで 表 示 ) のボタンをクリックす ると ブラウザが 立 ち 上 がり まずは 目 次 が 表 示 される( 画 像 6) 記 事 タイトルの 上 にあ る 開 く ボタンをクリックすると 記 事 毎 に 閲 覧 することができる( 画 像 7) 4.2. JIS 外 字 を 確 認 するには? 太 陽 コーパス の XML ファイルでは 原 典 に JIS( 第 一 第 二 水 準 ) 外 の 字 が 含 まれ ていた 場 合 同 範 囲 内 の 他 の 字 で 補 える 場 合 はそれに 置 き 換 えられている(A)が それで も 間 に 合 わない 場 合 は 特 殊 なタグ 付 けがなされる(B) 検 索 範 囲 に(A)(B)のパターン の 文 字 が 含 まれていた 場 合 各 ツールの 検 索 結 果 画 面 では 画 像 ファイルで 補 われるが テ 16 後 者 については 本 文 中 に 外 字 が 表 示 されない(したがって 4.2.で 述 べる 外 字 一 覧 を 別 途 表 示 するな どの 手 間 がかかることがある)など 不 便 な 点 が 多 い 5

キストファイルなどにペーストすると(A)は 置 換 可 能 な 字 に (B)は に それぞれ 置 換 されてしまう( ひまわり 利 用 時 たんぽぽ の 場 合 はどちらも に 置 換 ) これらが 元 々どういう 字 であったのかを 個 別 に 確 認 したい 場 合 は プリズム で 外 字 一 覧 HTML を 表 示 すると 便 利 である コード 順 出 現 順 が 選 択 できるが 通 常 であれば 後 者 の 方 が 便 利 であろう(なお 表 示 までの 流 れは DHTML の 場 合 と 同 様 なので 割 愛 する) 4.3. 原 典 のエラーを 追 うには? 太 陽 の 特 に 初 期 の 号 には 濁 点 の 脱 落 誤 字 などの 問 題 が 少 なくないが( 田 中 小 木 曽 2000) 検 索 時 にはそれらが 修 正 された 状 態 のデータが 対 象 になる そうしたエラー 箇 所 が 原 文 でどのようになっていたかはタグに 明 記 されており DHTML 上 でも 確 認 できる( 該 当 箇 所 が 青 字 で 表 示 されており カーソルを 合 わせると 画 像 8 のようにポップアップで 表 示 される)が やはり 検 索 結 果 を 保 存 したテキスト エクセルのファイル 上 では 視 認 でき なくなってしまう 17 こうしたエラー 箇 所 だけを 一 覧 したい 場 合 は 注 情 報 HTML を 表 示 することで 可 能 になる 4.4. その 他 の 情 報 を 一 覧 するには? 引 用 や 会 話 文 など 本 文 (ないし 地 の 文 ) 以 外 の 発 言 発 話 の 箇 所 は ひまわり た んぽぽ いずれのツールを 用 いても 検 索 結 果 のデータに 明 示 される これらの 情 報 のみを 抽 出 する 必 要 はあまりないかもしれないが 他 の 情 報 と 同 様 に プリズム を 使 って 一 覧 することも 可 能 である( 引 用 情 報 HTML) また 各 号 に 収 録 された 記 事 の 内 訳 については 基 本 的 に DHTML 上 の 目 次 で 事 足 りる が これらのみを 抽 出 したければ 記 事 情 報 HTML を 表 示 することもできる 4.5. プリズム は 毎 回 起 動 しないといけないの? 以 上 で 述 べた 閲 覧 の 用 途 以 外 に 指 定 した 号 の 本 文 や 各 種 情 報 (4.2.-4.4.で 紹 介 したも の)をテキストファイルなどに 変 換 して 保 存 することも 可 能 である また 逐 一 プリズ ム を 起 動 して DHTML を 表 示 させるのを 手 間 に 思 う 場 合 DHTML ファイルを 保 存 して おいて 必 要 なときに 開 くという 使 い 方 もできる 方 法 としては 号 数 ファイル 形 式 を 選 んだ 後 変 換 (ブラウザで 表 示 ) ボタンの 代 わりに 変 換 (ファイルへ 出 力 ) ボタンをクリックするだけである この 場 合 Ctrl キー を 押 しながら 号 数 をクリックしていくと 複 数 の 号 を 同 時 に 選 択 することも 可 能 である な お 各 種 情 報 をファイル 出 力 する 場 合 は いずれも HTML より CSV の 方 が Excel への 展 開 が 容 易 であり 利 便 性 が 高 い 変 換 (ファイルへ 出 力 ) を 選 択 した 場 合 デフォルトであればファイルはデスクトッ 17 ただし ひまわり 使 用 時 は 検 索 キーの 範 囲 にこうしたエラーがあった 場 合 に 限 り 原 文 の 項 目 に 原 文 ママの 表 記 が 示 される 6

プに 一 括 して 保 存 される 必 要 に 応 じて 画 面 右 下 の ファイル 出 力 オプション で 保 存 先 などが 変 更 可 能 である 5. 結 び 実 践 編 に 向 けて 以 上 太 陽 コーパス の 基 本 的 な 利 用 法 について 概 説 した 実 際 には 各 ツールには 上 述 した 以 外 にも 様 々な 機 能 設 定 項 目 があるが 今 回 は 時 間 の 関 係 もあり 省 略 する 同 コーパスおよび 付 属 のツールをどういった 研 究 に 利 用 しうるかについて 具 体 的 なと ころは 次 回 ( 実 践 編 )に 譲 るが 一 つの 指 標 として 表 現 の 歴 史 的 推 移 を 見 る とい うような 文 法 形 式 一 般 をくまなく 観 察 するような 用 途 には 往 々にして 向 かないというこ とが 言 える たとえば 受 身 文 の 用 例 を GREP で 採 集 する 場 合 現 代 語 を 対 象 とするのであれば [か がさたなばまらわ]れ で 絞 り 込 めば ( 無 論 多 少 とも 関 係 ない 例 が 混 ざるので 取 捨 選 択 す る 必 要 はあるが) 用 例 を 集 めるのは 比 較 的 容 易 である 一 方 太 陽 コーパス に 関 しては この 条 件 だけでは 限 られた 範 囲 すなわち 口 語 の 例 のうち 現 代 語 と 仮 名 遣 いが 共 通 のも のしかヒットしないことになってしまう 旧 仮 名 遣 いでは 言 う ではなく 言 ふ であり その 受 身 形 は 口 語 であれば 言 はれ る であるが 文 語 の 場 合 は 言 はる である こうした 例 は 上 述 の 現 代 語 の 受 身 文 を 採 る 場 合 と 同 じ 検 索 条 件 ではヒットしない 加 えて 受 身 文 全 体 を 扱 うのであれば 打 た る 放 たる などの 例 も 当 然 採 ることになるが それらを 意 図 して たる たれ を 条 件 に 含 めることは とりもなおさず 堂 々たり などのタリ 活 用 形 容 詞 (および 助 動 詞 た り )の 連 体 形 や 命 令 形 といった 無 関 係 な 例 が 大 量 にヒットすることを 意 味 し 途 方 もない ゴミ 捨 ての 作 業 を 強 いられることになる さらに 言 えば ルビ 検 索 で うた を 見 ると うた 当 時 は 打 る のような 表 記 がされている 場 合 もあるが このようなことをも 一 々の 語 に ついて 意 識 しつつ 検 索 するのは 現 実 的 ではない 使 役 文 などについても 同 様 の 問 題 が 指 摘 できよう 文 語 と 口 語 の 入 り 交 じる 資 料 について 一 般 論 的 なことを 扱 おうとした 場 合 上 述 の 受 身 の 場 合 のように 非 現 実 的 とは 言 わないまでも 極 めて 高 度 な 条 件 指 定 が 必 要 になることが 少 なくない(たとえば 小 木 曽 2002:130 では 単 純 語 に 対 応 する 可 能 動 詞 の 実 例 を 極 力 漏 れのないよう 採 る 目 的 で 1143 字 に 上 る 正 規 表 現 を 用 いている) 国 立 国 語 研 究 所 編 (2005) に 収 録 されている 論 文 が 多 くそうであるように 対 象 となるデータの 膨 大 さを 考 えれば 語 レベル 18 あるいは 範 囲 の 決 定 しやすい 語 彙 レベル 19 での 分 析 が 基 本 線 ということになろ う また そうした 場 合 でも 先 述 (3.1.)の ルビ 検 索 の 活 用 あるいは 岩 波 国 語 辞 典 第 五 版 を 用 いて 異 表 記 の 可 能 性 を 逐 一 考 慮 した 小 木 曽 (2002:126)のような 努 力 は 不 18 掠 奪 と 奪 掠 現 出 と 出 現 のペアに 関 する 研 究 や 副 詞 とても や 接 続 詞 そして に 関 する 研 究 など なお そして の 例 として ソシテ が 3 例 ソして も 1 例 のみであるが 現 れてい るという 事 実 から ひらがなとカタカナが 混 在 する 可 能 性 を 常 に 考 慮 する 必 要 がある 19 たとえば 外 国 地 名 の 表 記 ( 漢 字 /カタカナ)に 関 する 研 究 など 7

可 欠 になる 何 であれ まず 大 切 なのは( 当 然 ではあるが) 研 究 をしたいという 熱 意 である 太 陽 コ ーパス を 用 いて 行 いたい 研 究 について 様 々なご 意 見 を 頂 き 次 回 の 有 益 な 議 論 に 繋 げる ことができれば 幸 いである [ 参 考 文 献 ] 小 木 曽 智 信 2002 近 代 語 テキストからの 可 能 動 詞 の 抽 出 太 陽 コーパス を 例 に 明 海 日 本 語 第 7 号 国 立 国 語 研 究 所 ( 編 )2005 雑 誌 太 陽 による 確 立 期 現 代 語 の 研 究 太 陽 コーパス 研 究 論 文 集 博 文 館 新 社 田 中 牧 郎 小 木 曽 智 信 2000 総 合 雑 誌 太 陽 の 本 文 の 様 態 と 電 子 化 テキスト 日 本 語 科 学 8 田 中 牧 郎 2001 XML を 利 用 したコーパスの 構 築 太 陽 コーパス を 中 心 に 日 本 語 学 20-13 中 山 健 一 ( 編 )2009 外 大 生 のための 日 本 語 研 究 ガイドブック 東 京 外 国 語 大 学 大 学 院 地 域 文 化 研 究 科 8