シードおよびタプルの生成検索エンジンのクエリパラメータに与えるタプルを構成するシードには NLB の開発過程で作成した BCCWJ(2009 年の領域公開データの一部 約 6 千 2 百万語 ) の頻度リストを利用しました 品詞ごとに分かれた頻度リストのうち 内容語である名詞 動詞 形容詞 副詞のリ

Similar documents
WinXPBook.indb

ル札幌市公式ホームページガイドライン

ん n わ wa ら ra や ya ま ma は ha な na た ta さ sa か ka あ a り ri み mi ひ hi に ni ち chi し shi き ki い i る ru ゆ yu む mu ふ fu ぬ nu つ tsu す su く ku う u れ re め me へ

1. NLT の 概 要 NLT とは NINJAL-LWP for TWC(ニンジャル エルダブリュピー フォー ティーダブリュシー 略 称 NLT) ( 筑 波 大 学 が 日 本 語 のウェブサイトから 収 集 して 構


日本語 IME の設定 (XP の場合 ) 2

일본어 IME 설정법

だいか第 5 課 にほんごにゅうりょく日本語でパソコンに入力する Using Japanese on a Computer もくひょう目標 Goals にゅうりょく 1 ひらがな カタカナをパソコンに入力することができる Typing hiragana and katakana on a compu

PowerPoint プレゼンテーション

1インターネットってなあに

クイックマニュアル(利用者編)

DataWare-NETご利用ガイド

ヘルプの使い方

2) データの追加 一番下の行までスクロールしていき * のある行をクリックすると 新しいデータを入力できます その他の方法 Access では様々な使い方が用意されています その一例としては 右クリックを使用する方法もあります 画面の左端の部分にマウスを持っていくと が表示されます の上でクリック

WebCADD.com ご利用ガイド

目次 第 1 章はじめに 取扱いについて 記載内容について... 6 第 2 章基本操作 Excel Online を開く ファイル ( ブック ) を作成する ファイル ( ブック ) を開く..

更新履歴 変更履歴 版数 リリース日 更新内容 第 1 版 2017/5/15 第 1 版発行 第 2 版 2017/7/13 更新履歴 変更内容を追加 (2ページ) 編集の前に を追加(8 ページ ) ブロックエディタ スマートモード エディタモード の説明を追加 (10~12 ページ ) ブロッ

英文機構図1(新機構)

サイボウズ Office 10「個人フォルダ」

【最新版】定期報告タイプなんついWEBマニュアル _pptx

目次 はじめに... Web メールを利用する.... ログインする.... ログアウトする... 6 Web メールの使い方 受信メールを表示する メールを送信する 連絡先を使用してメールの宛先を指定する 新しい受信メールを表示する メー

目次 ログイン ログイン お知らせ画面... 3 チェック結果の表示 / 新規作成 / 更新 / データ出力 チェック結果一覧の表示 新規作成 チェック結果の検索 チェック結果の詳

概要 ABAP 開発者が SAP システム内の SAP ソースまたは SAP ディクショナリーオブジェクトを変更しようとすると 2 つのアクセスキーを入力するよう求められます 1 特定のユーザーを開発者として登録する開発者キー このキーは一度だけ入力します 2 SAP ソースまたは SAP ディクシ

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

データの作成方法のイメージ ( キーワードで結合の場合 ) 地図太郎 キーワードの値は文字列です キーワードの値は重複しないようにします 同じ値にする Excel データ (CSV) 注意キーワードの値は文字列です キーワードの値は重複しないようにします 1 ツールバーの 編集レイヤの選択 から 編

目次 動作環境について... 3 土砂災害情報マップとは... 4 更新情報を見る... 5 熊本県の防災 災害情報を見る... 6 関連サイトのリンク情報を見る... 7 用語を調べる... 8 利用上の留意事項を確認する... 9 土砂災害警戒区域 特別警戒区域マップとは 使用データ

eYACHO 管理者ガイド

< 目次 PC 版 > 1. 電子版購読開始までの流れ 2. ログインについて 3. マイページ画面について 4. 配信記事の閲覧 5. お客様マイページお気に入り記事 6. お客様マイページ基本情報設定 ( 各種設定 ) 7. メールアドレス変更 8. パスワードを忘れた場合 9. オプション機能

サイボウズ Office 10「リンク集」

■デザイン

Microsoft Word MT操作マニュアル(ユーザ編).doc

Microsoft Word - kana-23.doc

Shareresearchオンラインマニュアル

にゅうりょくかつどう1 ひらがな カタカナをパソコンに入力する Actividades 1 Introducir hiragana y katakana en la computadora なんつかにほんご (1)1は何ですか よく使いますか 2 日本語でメールやチャットをしますか 1 2 (2)

PowerPoint プレゼンテーション

ホームページにパスワード認証を設定します 会員限定のページなどに利用できます 設定の手順 を設定するには 以下の手順で行います ユーザ登録 を設定したページにアクセスするためのユーザを登録します の設定 を設定するページ アクセスを許可するユーザを選択し 設定します 設定完了 を設定したページにアク

ASONE Compliance Manager User s Manual このマニュアルは AS ONE Compliance Manager(ACM) を検索及びチェックシートのリファレンスのみの用途で利用するユーザーを対象としています LAST UPDATE : Nov 10, 2017

Microsoft Word - okisu-japanese-characters.doc

サイボウズ Office「リンク集」

写真の閲覧方法 1. 閲覧する納品データの種類の選択 ( 写真 ) P3 写真の閲覧写真の閲覧写真の閲覧 2. 写真を一覧から選択 表示 3. 写真をサムネイル一覧から選択 表示 4. 写真をアルバム形式で表示 P5~ P7~ P9~ 5. 写真の便利な表示方法 拡大 / 縮小 回転 明るさ補正 6

Windows8.1基礎 ファイル管理

Hiragana 50-on hyo SeiOn (Basic characters) DakuOn (Combination - voiced consonant) あ い う え お a i u e o か き く け こ が ぎ ぐ げ ご ka ki ku ke ko ga gi gu ge

はじめに 本書を読むにあたって 本書では 次の用語 及びマークを使用しています クリック : マウスポインタを目的の位置でマウスの左ボタンをすばやく1 回押して離すことをいいます 本文では 選択 として表現していることもあります ダブルクリック : マウスポインタを目的の位置でマウスの左ボタンをすば

本説明書では パーツカタログ (Web CAPS) の操作方法を説明しています サービス資料ペ ージの操作方法については サービス資料情報操作マニュアル を参照してください 1.FUSO サービス情報トップページ ログイン後に表示される画面 ( 例 ) です タブにある パーツカタログ をクリックす

PowerPoint プレゼンテーション

<4D F736F F F696E74202D CB4967B2D8F6F93FC8AC48E8B8D9E F8E9E8C9F8DF5817A D C882F182C282A C520837D836A B2E707074>

CONTENTS Copyright 2017 NEC Solution Innovators, Ltd All rights reserved 0. 通訳案内士登録情報検索サービスを利用するまえに 1 利用環境 2 ブラウザの設定 3 プラグイン 4 操作上の制限 5 ウェブ操作マニ

目次 ご利用マニュアル... 目次... はじめに... Web メールを利用する.... ログインする.... ログアウトする... 6 Web メールの使い方 受信メールを表示する メールを送信する 連絡先を使用してメールの宛先を指定する 新しい受


Xperia™ XZ ユーザーガイド

掲示板の閲覧 掲示板の閲覧 登録権または参照権のある掲示板グループの掲示版を閲覧することができます 各利用者の権限は 管理者によって設定されます 掲示板を閲覧する 1 掲示板画面を表示し 閲覧する掲示が含まれている掲示板グループ 掲示板の順にクリックします 掲示板画面の表示方法 ポータル画面の画面説

WBS_Ch0.indd

< F31302D96F28BC78B40945C8FEE95F192F18B9F90A793788B4C8DDA>

サイボウズ Office 8 アドレス帳マニュアル

1. 信頼済みサイトの設定 (1/3) この設定をしないとレイアウト ( 公報 ) ダウンロードなどの一部の機能が使えませんので 必ず設定してください 1 Internet Explorer を起動し [ ツール ]-[ インターネットオプション (O)] を選択します 2 [ セキュリティ ] の

2 HMM HTK[2] 3 left-to-right HMM triphone MLLR 1 CSJ 10 1 : 3 1: GID AM/CSJ-APS/hmmdefs.gz

RAYOUT

LINE WORKS セットアップガイド目次 管理者画面へのログイン... 2 ドメイン所有権の確認... 3 操作手順... 3 組織の登録 / 編集 / 削除... 7 組織を個別に追加 ( マニュアル操作による登録 )... 7 組織を一括追加 (XLS ファイルによる一括登録 )... 9

KDDI ビジネスメール 一般ユーザ用カスタマーコントロール操作ガイド Ver.2.04 Copyright , KDDI Corporation All rights reserved 1

2. 患者一覧 ログインすると患者一覧画面が表示されます 初期表示は本日日付で診療が行われた患者の一覧が表示されます 該当の患者がいない場合は上図のように患者一覧は表示されません ORCA 連携されていない場合は初期導入時に患者情報がありませんので 取り込みを行う必要があります 患者の取り込み方法は

目次 1. 履修カルテシステム利用にあたって 動作環境 アクセス URL システムの使い方 教職課程履修カルテ WEB システムへのログイン 各画面共通構造 について 情報一覧

Capture の設定 以下のフォルダを開いてください. C: Program Files OrcadLite Capture 開いたフォルダにある Caputure というファイルをクリックして選択します. Capture を選択した状態で右クリックします.

はじめに 本書を読むにあたって 本書では 次の用語 及びマークを使用しています クリック : マウスポインタを目的の位置でマウスの左ボタンをすばやく1 回押して離すことをいいます 本文では 選択 として表現していることもあります ダブルクリック : マウスポインタを目的の位置でマウスの左ボタンをすば

<8B9E93738CF092CA904D94CC814090BF8B818F B D836A B B B816A2E786C73>

AppsWF ワークフロー設定ガイド Ver.1.1 株式会社オプロ

SOBA ミエルカ クラウドセミナーモード 配信者マニュアル 目次 はじめに 配信者のユーザー登録について ライブ配信の作成 ライブ配信への招待 ライブ配信への参加方法... 4 (1) ライブ配信を選んで参加する方法 ( 管理者 配信

サイボウズ デヂエ 8 はじめに

第1部参考資料

1. WebShare 編 1.1. ログイン / ログアウト ログイン 1 WebShare の URL にアクセスします xxxxx 部分は会社様によって異なります xxxxx. 2 ログイン名 パスワードを入力し

< ダッシュボード画面 > 現在開催中の研修 に ご覧いただけるセミナーがすべて表示されます 視聴したいセミナーをクリックします ( セミナーへのお申し込み方法はこちらをご参照ください ) マウスをセミナー名の上に移動すると色が変わります 色の変わる範囲はどこでもクリックすることができます < 講座

CONTENTS マニュアルの表記... S01-13_01 1.DataNature Smart 全体概要図... S01-13_11 2. 基本操作... S01-13_ Web レポートの表示... S01-13_ 画面構成... S01-13_ 集計表 /

POWER EGG2.0 Ver2.6 ユーザーズマニュアル ファイル管理編

<4D F736F F D F8E FEE95F1836C F8EE88F878F F88979D8BC68ED2976C A2E646F63>

目次 第 1 章はじめに 取扱いについて 記載内容について... 6 第 2 章基本操作 OneNote Online を開く ノートブックを開く ノート ( セクション ) を作成する... 11

目次 1. PDF 変換サービスの設定について )Internet Explorer をご利用の場合 )Microsoft Edge をご利用の場合 )Google Chrome をご利用の場合 )Mozilla Firefox をご利

生徒情報一覧 FAQ/ ヘルプ Kei-Navi に登録されている生徒情報の一覧です 対象年度 学年 クラスの選択 と さらに生徒情報を条件で絞り込む < 対象年度 学年 クラスの選択 > 対象年度 当年度含めて3 年 例 )2012 年度の場合 こ

生存確認調査ツール

Microsoft Word _Gmail利用マニュアル.doc

Microsoft Word - 国会図書館デジタル資料_

キャビネットの確認 キャビネットの確認 登録権または参照権があるキャビネットでは キャビネットの登録データを確認できます 各利用者の権限は 管理者によって設定されます キャビネットとファイル送受信の違い それぞれの特徴を確認し お客様のニーズに合わせて利用してください ファイル送受信の操作方法 ファ

スライド 1

推奨 web ブラウザについて スマートフォンやタブレットには様々な web ブラウザがあります Android 端末には 標準ブラウザ ios 端末には Safari どちらでも使用できる Y ブラウザ FireFox Google Chrome などの web ブラウザがあります ビット web

TunesGo (Win 版 ) ガイド Chapter1: 製品のインストール 1-1 製品のダウンロード 1-2 製品のインストール 1-3 製品の登録 Chapter2: データの転送 2-1 ios デバイスを PC に接続する 2-2 デバイスのメディアを itunes に転送 2-3 デ

文字入力60 キーボードについて IS11N では 画面に表示された ATOK のキーボードを使って文字を入力します キーボードは画面上の文字入力エリアをタップすると表示され M を長押しすると非表示になります ATOK には 2 種類のキーボードが用意されています テンキーキーボード一般的な携帯電

在宅せりシステム導入マニュアル

目次 1. ログイン 最初に設定しましょう メールの受信 メールの削除 振り分け ( ラベル付け ) メールの作成 メールの返信 転送 メールの自動転送 ログアウト

アクセス履歴の確認 アクセス履歴の確認 名刺データへのアクセス履歴を 日単位で確認または月単位でファイル出力できます 日単位の履歴を確認する 名刺データへの過去 1 ヵ月のアクセス履歴を 日単位で確認できます 1 名刺管理画面を表示し 名刺管理 アクセス履歴 の順にクリックします 名刺管理画面の表示

(7) 手順 1 の (5) で保存した定款をダブルクリックして開きます ダブルクリック (8) 電子定款の Word 文書が表示されますので 内容を確認します Point 定款認証の事前確認について 申請前に指定公証役場と連絡をとり 定款の案をファックスやメールで送付するなどして 事前の打ち合わせ

アクセス履歴の確認 アクセス履歴の確認 名刺データへのアクセス履歴を 日単位で確認または月単位でファイル出力できます 日単位の履歴を確認する 名刺データへの過去 1 ヵ月のアクセス履歴を 日単位で確認できます 1 名刺管理画面を表示し 名刺管理 アクセス履歴 の順にクリックします 名刺管理画面の表示

項番 取得 ボタンを押します * が鉛筆のアイコンに変化し プロジェクト と案件名がコピーされ 項番に新しい番号が入力されました 最終行にデータを入力してください 2) データの追加 一番下の行までスクロールしていき * のある行をクリックすると 新しいデータを入力できます その他の方法 Acces

Microsoft Word - macマニュアル【 】.doc

1 Ver /3/10

Microsoft PowerPoint - OASIS新物流システム設定.ppt

3 アドレスバーに URL を入力し ( 移動ボタン ) をタップします 入力した URL のホームページに移動します ネットワークへのログオン 画面が表示された場合は ユーザー名 を確 認し パスワード を入力して OK をタップしてください ホームページがうまく表示されないときは Opera B

Wasedaメール(Office365)ユーザーズガイド

POWER EGG V2.01 ユーザーズマニュアル 汎用申請編

ボタンメンバーを追加登録入力項目をクリア一つ前に戻る 説明社員を閲覧者に追加します アンケートのタイトル部分 閲覧者を登録します その後 質問登録画面を表示します 入力した内容をクリアし 元の状態へ戻します 入力した内容をキャンセルし 一覧画面に戻ります アンケート完成時のタイトル 説明文 画像の表

Works Mobile セットアップガイド 目次 管理者画面へのログイン... 1 ドメイン所有権の確認... 2 操作手順... 2 組織の登録 / 編集 / 削除... 6 組織を個別に追加 ( マニュアル操作による登録 )... 6 組織を一括追加 (XLS ファイルによる一括登録 )...

<4D F736F F D D382AD82A2837D836A B2E646F63>

PowerPoint プレゼンテーション

Transcription:

NLT(NINJAL-LWP for TWC) ユーザマニュアル バージョン 1.30(2015/3/27) 1. NINJAL-LWP for TWC とは NINJAL-LWP for TWC( ニンジャル エルダブリュピー フォー ティーダブリュシー 略称 NLT) は 筑波大学が日本語のウェブサイトから収集して構築した約 11 億語のコーパス 筑波ウェブコーパス (Tsukuba Web Corpus: TWC) を検索するためのツールです 検索には 国立国語研究所 ( 以下 国語研 ) と Lago 言語研究所が共同開発したコーパス検索システム NINJAL-LWP(NINJAL-LagoWordProfiler) を利用しています 同じシステムを利用したツールに 国語研が構築した 1 億語の 現代日本語書き言葉均衡コーパス (Balanced Corpus of Comtemporary Written Japanese: BCCWJ) を検索する NINJAL-LWP for BCCWJ(NLB) があります このツールを用いると 名詞や動詞などの内容語の共起関係や文法的振る舞いを網羅的に調査 比較することができます 2. 使用しているコーパス 筑波ウェブコーパス (TWC)ver.1.10 では 日本語のウェブサイトから収集した 11 億 3800 万語のデータを使用しています 筑波ウェブコーパスの構築 ウェブ上からのテキストの収集では 検索エンジンの API を利用して ウェブページの URL を収集した後 その URL の データを収集する一般的な手法に従っています 以下が具体的なコーパス構築の手順です

シードおよびタプルの生成検索エンジンのクエリパラメータに与えるタプルを構成するシードには NLB の開発過程で作成した BCCWJ(2009 年の領域公開データの一部 約 6 千 2 百万語 ) の頻度リストを利用しました 品詞ごとに分かれた頻度リストのうち 内容語である名詞 動詞 形容詞 副詞のリストをマージして 上位 500 語をシードとして選びました ただし 名詞のうち 数詞 固有名詞は排除し また 動詞 形容詞については活用形も含めました この 500 語のシードから無作為に 3 語を選び出し 計 50 万組のタプルを作成しました 以下にタプルの例を示します 駄目皆構造条件とても様々法律 ( 答える OR 答え OR 答えよ OR 答えれ OR 答えろ OR 答えりゃ OR 答えん ) 人々 検索エンジン API による URL の収集 URL の収集には Yahoo! ウェブ検索 API を利用しました 1 タプル当たりで収集する URL 数は 10 ページとし 2012 年 1 月初旬から下旬にかけて計 500 万 URL を収集しました 重複した URL を削除した URL 総数は約 3 割減の約 350 万件になりました HTML ページの収集 URL データを 5 万件ごとに分割した上で 3 台の端末を利用して 2 週間をかけて HTML ページを収集しました テキストの抽出次に収集した HTML ファイルからテキストを抽出する作業を行いました 具体的には HTML タグの削除 文字コードの統一 (utf8) 日本語以外の言語で書かれたテキストの削除などの作業を行いました 不適正なページの排除筑波ウェブコーパスの構築の目的は日本語の用例を採取することにあります そのため 単に項目やリンクを列挙しただけのページ 広告と思われる内容の多いページ センテンス境界の判定が難しいページは あらかじめコーパスデータの対象から外しました センテンスの抽出レキシカルプロファイリングツール NINJAL-LWP では センテンス単位にした用例の中にどのようなコロケーションが含まれるかを文法パターンごとに抽出します そのため コーパスデータはあらかじめセンテンス単位に分割しておく必要があります 一つ前の作業でセンテンス境界の判定が難しいページを排除したのもこの理由によります 用例データの抽出センテンス単位のデータのなかには 見出しに相当するものや メニュー項目に相当するものが含まれています センテンス中にどの程度名詞が含まれるか センテンス中に動詞は現れるか クリック や ログイン などのウェブページで多用される表現が用いられているかなどの複数の観点から 用例としての適正度を数値化し 用例としてふさわしいデータを抽出しました また 同一ページで同じセンテンスが現れた場合も 最初の 1 件のみを用例として採取し 不要な重複を避ける工夫をしました 2

重複する用例データの削除一つ前の作業で 同一ページでは同じ用例が複数回採取されないようにしましたが 6 億語弱のパイロット版 NLT を開発して実際に運用してみたところ 同一サイトで同一の用例が頻出することが確認されました そのため URL の情報をもとに同一サイトでの同じ用例は一度だけ採取するように改良し 最終的に語数にして 11 億 3781 万語 用例数にして 4672 万 7 千例の筑波ウェブコーパスが完成しました アノテーション NLT では コロケーションや文法的振る舞いの情報を抽出するために 筑波ウェブコーパス (TWC) のデータにアノテーションを付与した上で解析しています アノテーションに使用している解析器 辞書は以下の通りです 形態素解析 MeCab 0.98 + IPA 辞書 2.7.0 形態素解析用の IPA 辞書は 代表表記の情報を含まないため 独自に拡張して代表表記に対応させています 係り受け解析 CaboCha 0.60 3. ご利用にあたって 1. 動作環境 ブラウザは Firefox Chrome Safari IE( バージョン 8 以上 ) に対応しています 処理速度の観点 から Firefox Chrome Safari のご利用をお勧めします 2. クッキーの設定 使用にあたってはブラウザのクッキーをオンにしてください オフにした状態ではデータが表 示されません クッキーをオンにする方法については 各ブラウザのマニュアルなどでご確認ください 3. 表示結果 NLT では 機械的に処理した結果をそのまま表示しています 形態素 係り受け解析や抽出処理の精 度の限界により不適切なデータが混入しています あらかじめご了承ください 4. 論文 記事を公表する場合 NLT を研究 教育に利用して論文や記事を執筆される場合は 以下のように 必ず NLT を利用した旨を明記してください 筑波大学 国立国語研究所 Lago 言語研究所 NINJAL-LWP for TWC (http://corpus.tsukuba.ac.jp) 5. 用例の削除依頼 このコーパスは 教育 研究目的で ウェブ上からデータを収集したものです すべての用例は出所先であるページのタイトルと URL を明記した上で表示しています 自らが著作権を有するウェブページから抽出された用例の削除を希望される場合は お問い合わせのメールアドレスまでご連絡ください 申請者ご本人のページであることを確認した上で削除させていただきます 4. お問い合わせ NLT に関するお問い合わせは以下までお願いいたします 3

5. 使い方ガイド 見出し語検索ウィンドウの見出し語リストと 見出し語ウィンドウの各パネルでは 簡単な操作法を示した使い方ガイド を表示することができます リストやパネルの右上の [?] ボタンをクリックします 下のような使い方ガイドが表示されます 次の説明に移動するときは 右上の [NEXT] の部分をクリックします ひとつ前の説明に戻るときは 左上の [PREV] の部分をクリックします 使い方ガイドを閉じるときは 画面右下の [Close ] をクリックします 4

6. チュートリアル コンコーダンサでは検索語句を入力すると その結果がコンコーダンスラインとして返ってきます NLT では 検索語句を入力する代わりに まず調べたい語 (NLT ではこれを 見出し語 と呼びます 正確には 形態素解析によって認定された形態素を指します ) を選びます 見出し語として選べるのは 名詞 動詞 形容詞 連体詞 副詞の 5 種類の内容語です ここでは 走る という動詞について調べてみます まず画面上の入力ボックスに 走る または はしる ( カタカ ナも可 ) または hashiru を入力して [ 絞り込み ] ボタンをクリックします 下のリストに はしる という読みの見 出し語が 3 つ表示されますので 一番上の 走る をクリックします クリックすると 走る の見出し語ウィンドウが開きます ここでは 走る の主語となるガ格の名詞にはどのよう なものがあるのかを調べてみることにします 左側の文法パターンのパネルの [ グループ別 ] を選ぶと 一番上に [ 名詞 + 助詞 <] グループがあります 一番上の [ が走る ] というパターンをクリックします 5

すると 中央のコロケーションパネルに [ 名詞 + が走る ] のコロケーションが頻度順に表示されます 左側の用例パネル には 最も頻度の高い 車が走る の用例が表示されます 次に 特徴的なコロケーションを表示してみます NLT では 頻度順だけでなく MI スコアなどの他の統計値でも並べ替えることができます MI スコアは統計指標の一つで 特徴的なコロケーションほど数値が高くなる傾向があります ただし 低頻度のコロケーションの数値が過剰に高くなるため 低頻度のものを排除する必要があります コロケーションパネルのヘッダーの [MI] をクリックしてから パネル上で右クリックして [ 頻度 20 以上 ] を選びます 6

それぞれのコロケーションをクリックすると 右のパネルにその用例が表示されます ここでは 6 番目の 閃光が走る をクリックしてみます コーパスで使われている実際の用例を一つずつ確認することができます 用例はセンテンス単位で表示されます さらに前後の文脈を確認するときは それぞれの用例の出典の部分をクリックし ます さらに その右の矢印のアイコンをクリックすると 別ウィンドウ ( またはタブ ) にもとのウェブページに表示します このように NLT では 検索ウィンドウでまず見出し語を選んで 見出し語ウィンドウ上で 文法パターン コロケーション 用例を行き来しながら その見出し語の振る舞いの全体像をつかむことができます クリックだけで簡単に操作で きますので 思考を途切らせることなくさまざまな表現を思いのままに調べることができます 7

7. NLT の 2 つのウィンドウ NLT には 2 種類のウィンドウがあります 見出し語を検索するための見出し語検索ウィンドウと それぞれの見出し語の 振る舞いを調べるための見出し語ウィンドウです 7.1 見出し語検索ウィンドウ 見出し語検索ウィンドウは 見出し語を表示する見出し語リストと 見出し語を絞り込むための入力ボックスとボタン 絞り込みを解除するためのボタンから構成されます 見出し語リストの [ 見出し ] の列をクリックすると その見出し語のウィンドウ ( タブ ) が開きます 8

7.2 見出し語ウィンドウ見出し語ウィンドウは 3つのパネルから構成されます 左から 文法パターン 基本情報パネル コロケーションパネル 用例パネルです 見出し語の振る舞いを調べるときは 左のパネルから右のパネルに向かって 文法パターン コロケーション 用例という順に見ていきます 用例の前後を見るときは 文脈を表示するダイアログで確認できます 前後 5 センテンス ( 句点で終わるもの ) を見ることができます 9

8. 見出し語検索ウィンドウの操作 8.1 見出し語ウィンドウの開き方 見出し語リストの見出し列をクリックすると その見出し語のウィンドウ ( タブ ) が開きます 8.2 見出し語リストの並べ替え 見出し語リストは ウィンドウを開いた最初の状態では頻度の高い順に表示されています リストは [ 読み ] と [ ローマ字表記 ] と [ 頻度 ] で並べ替えできます 図のように [ 読み ] のヘッダー部分をクリックすると見出し語の読み順 ( 昇順 ) に並べ替えます もう一度クリックすると 今度は見出し語の読み順 ( 降順 ) に変わります [ ローマ字表記 ] も [ 読み ] と同じです [ 頻度 ] の場合は 最初にクリックしたときは高頻度順 ( 降順 ) もう一度クリックすると低頻度順( 昇順 ) になります 10

8.3 見出し語リストのページ 見出し語リストは 初期設定で 1 ページに 100 語の見出し語が表示されます リストを順に見ていくときは リスト下の [ ページ切り替えボタン ] をクリックしてください ボタンの間にある入力ボックスに直接ページを入力して 指定した ページにジャンプすることもできます 1 ページに表示する見出し語数は [ ページ切り替えボタン ] の右のコンボボックスで変更できます 1 ページの見出し 語数は 100 語 200 語 300 語の 3 つから選べます 8.4 見出し語リストの切り替え 見出し語リストには 6 種類のリストがあります [ 名詞 ] [ 動詞 ] [ 形容詞 ] [ 連体詞 ] [ 副詞 ] ではそれぞれ の品詞の見出し語が [ すべて ] ではこれら 5 つの品詞のすべての見出し語が表示されます リストの上部にあるタブを クリックすると 見出し語リストが切り替わります ナ形容詞の扱いについては 8.7 をご覧ください 8.5 見出し語の検索 ( 絞り込み ) 特定の見出し語を検索したいときは 見出し語リストの上にある入力ボックスに その見出し語か その読み ( ひらがな またはカタカナ ) か ローマ字 ( ヘボン式 ) で入力します ローマ字の表記については 27 ページのローマ字一覧をご覧ください 見出し語は代表的な表記で示されていますが ユーザはどの表記が代表的な表記か分からないので ふつうは読みで検索することをお勧めします 入力できたら エンターキーを押すか 隣の [ 絞り込み ] ボタンをクリックしてください 絞り込んだ状態のままで並べ替えすることもできます 検索する見出し語が見つかったら その見出し語をクリックして 見出し語ウィンドウを開きます 絞り込みの状態を解除して元に戻すには [ 元に戻す ] をクリックします 11

見出し語は 完全一致以外に 前方一致 後方一致でも検索できます 前方一致で調べたいときは 先頭に ^ ( 全角でも半角でも可能 ) を付けます 右の例では [ すべて ] の見出し語リストから 思 で始まる見出し語をすべて表示します ローマ字表記でも前方一致で検索できます 後方一致の場合は 末尾に $ ( 全角でも半角でも可能 ) を付けます 右の例では [ 動詞 ] の見出し語リストから非自立の動詞をすべて表示します ローマ字表記でも後方一致で検索できます 12

8.6 見出しリストの絞り込み 前節では見出し語を絞り込む方法を示しましたが 見出し 読み 頻度の 3 つの項目を自由に組み合わせて絞り込むこと もできます 見出し語リストの左下の [ フィルタ ] ボタンをクリックすると [ フィルタ ] ダイアログが開きます 以下では 頻度が 10 万件以上の副詞だけを表示します リストの右下に該当する見出しの件数 (44 件 ) が表示されます さらに複数の条件を指定することもできます 条件を追加するときは [ フィルタ ] ダイアログの [+] ボタンをクリックします ( 逆に [-] ボタンをクリックすると その条件が削除されます ) 以下では と で終わる頻度 10 万件以上の副詞を表示します 複数の条件を指定するときは ダイアログの一番下にあるコンボボックスで [ すべての ] 条件を満たす見出しを表示するか それとも [ いずれかの ] 条件を満たす見出しを表示するかを指定します 13

条件を解除してすべての見出し語を表示するには [ フィルタ ] ダイアログの [ リセット ] をクリックするか 見出し語 リストの左下の [ リセット ] ボタンをクリックしてください 8.7 ナ形容詞の扱い NLT では 形態素解析に IPA 辞書を利用しています IPA 辞書にはナ形容詞 ( あるいは形容動詞 ) という品詞分類はありません そのため NLT では 形容動詞の語幹となる名詞 と 助動詞ダ が連続する場合にナ形容詞と判定する便宜的な方法を用いています 検索するときは 使いやすさを考慮して 語幹となる名詞からでも 形容詞からでも検索できるようにしています 例えば 必要な というナ形容詞は 語幹となる 必要 という名詞からでも 必要な という形容詞からでも検索することができます まず語幹となる名詞 必要 から検索してみます 名詞の見出し語リストを選択し 入力ボックスに ひつよう と入力し [ 絞り込み ] ボタンをクリックします 見出し語リストの 必要 をクリックすると 名詞 必要 の見出し語ウィンドウが開きます 形容詞としての用法を調べたいときは [ 文法パターン 基本情報パネル ] の [ グループ別 タグの右上にある [ 形容動 詞語幹 + だ ] というボタンをクリックします 14

以下のように ナ形容詞 ( 形容動詞語幹 + 助動詞ダ ) の用法のパターンにジャンプします 形容詞 必要な から検索する場合は 形容詞の見出し語リストを選択し 入力ボックスに ひつような と入力し [ 絞 り込み ] ボタンをクリックします 見出し語リストの 必要な をクリックすると 先ほどと同じ名詞 必要 の見出し 語ウィンドウが開きます これ以降の操作は 先ほどの名詞の場合と同じです 15

9. 見出し語ウィンドウの操作 9.1 見出し語ウィンドウの構成 本章では見出し語のウィンドウの使い方について説明します 見出し語ウィンドウは 以下の 3 つのパネルから構成され ます 文法パターン 基本情報パネルコロケーションパネル用例パネル 9.2 文法パターン 基本情報パネル 文法パターン 基本情報パネルは 以下の 3 つのタブから構成されます [ グループ別 ] と [ パターン頻度順 ] は文法パ ターンを表示するためのタブで 中央のコロケーションパネルと連動しています [ 基本 ] には基本的な頻度情報が集約 されています 9.2.1 基本情報タブ基本情報タブは [ 書字形 ] [ 活用形 ] [ 後続助動詞の割合 ] の 3 つのパネルで構成されます ヘッダーをクリックするとそのパネルが開くようになっています 活用のない名詞や副詞や連体詞の基本情報タブには [ 活用形 ] と [ 後続助動詞の割合 ] のパネルはありません 基本情報タブは 他の文法パターンを表示するタブとは異なり コロケーションパネルと連動しません 以下 動詞 申す を例にして 5つのパネルを説明します [ 書字形 ] には それぞれの表記の頻度と割合が表示されます 漢字表記が 96% を占めていることが分かります 16

[ 活用形 ] には それぞれの活用形の頻度と割合が表示されます このパネル は 活用形のある内容語 ( 動詞 形容詞 ) のみです 申す は連用形での使用 が 8 割を占めていることが分かります [ 後続助動詞の割合 ] には 動詞または形容詞の直後に助動詞が後続する頻度と割合が表示されます 動詞の場合は れる られる せる させる ( 使役 ) ない ぬ ません ( 否定 ) の助動詞 形容詞の場合は ない ぬ ありません ( 否定 ) が表示されます 左が動詞 申す 右が形容詞の 素晴らしい の例です 素晴らしい は 10 万件ほどの例がありますが 否定形が直後に後続するのはわずか 32 件で 否定形では用いられることはきわめてまれであることが分かります 9.2.2 グループ別タブ [ グループ別 ] タブと 次のサブセクションで説明する [ パターン頻度順 ] タブは どちらも文法パターンを一覧表示します [ グループ別 ] では 文法パターンがグループごとに分類して表示され [ パターン頻度順 ] では 文法パターンが頻度の高い順に表示されます どちらのタブも パターンの列をクリックすると そのパターンのコロケーションが右のコロケーションパネルに表示されます 以下では 時間を+ 動詞 のコロケーションが表示されています 17

文法パターンのグループは 品詞ごとに設定されています 動詞の場合 以下の 9 のグループに分類されます どのパタ ーンにも属さなかった用例は未分類としてまとめています ID 文法パータングループ 説明 A 名詞 + 助詞 動詞の前に名詞 + 格助詞が先行するパターン B 名詞 + 複合助詞 動詞の前に名詞 + 複合助詞が先行するパターン C 名詞 動詞の直後に名詞が後続するパターン E 助動詞 動詞の直後に助動詞が後続するパターン F 複合動詞 複合動詞の前項または後項にくるパターン G 近接動詞 当該動詞と前後 3~5 語以内の共起する動詞とのパターン H 形容詞 動詞の直後に非自立の形容詞が後続するパターン I 副詞 動詞とそれを修飾する副詞のパターン J 形容詞連用形 動詞とそれを修飾する形容詞連用形のパターン Z ( 未分類 ) 上記のどのパターンにも属さない用例 9.2.3 パターン頻度順タブ [ パターン頻度順 ] タブは 文法パターンが頻度の高い順に表示されます 頻度と見出し語の全頻度に占める比率が示されます 比率は棒グラフで示されていますが 棒グラフの上にマウスのカーソルを置くとその割合 ( 数字 ) が表示されます このタブは 見出し語の振る舞いの全体像をつかむときに利用すると便利です 以下は 名詞の 可能 の例です 助動詞が後続するパターンが最も頻度が高く その右のコロケーションを見ると 可能だ 可能です という形がほとんどを占めていることが分かります 18

9.3 コロケーションパネル コロケーションパネルは 文法パターンパネルで選んだコロケーションを表示します 以下は 時間が+ 動詞 のコロケーションの例です 最初に表示したときはコロケーションは頻度の高い順に並んでいますが MI スコア LogDice 係数という2 種類の統計値でも並べ替えることもできます 並べ替えるときは それぞれのヘッダーをクリックします 9.3.1 コロケーションパネルの統計値 MI スコアで並べ替えると 頻度にかかわらず特徴的なコロケーションが上位に現れます 高頻度順で表示 MI スコア順で表示 ただし MI スコアの特性として 低頻度のコロケーションが過度に強調されるため 低頻度のものを排除したほうが人間の直感に近い結果が得られます パネル上で右クリックすると 頻度を設定するメニューが表示されます どの頻度を選ぶかはケースバイケースです [ 頻度 10 以上 ] で十分絞り込めていない場合は [ 頻度 20 以上 ] にするなど 実際の結果を見ながら判断するのがよいでしょう 19

LD は LogDice 係数で コロケーションの統計処理でよく利用されるダイス係数を対数化したものです 共起頻度 見出し語の頻度 共起語頻度の 3 つの変数から導いた統計値で 降順に並べると MI スコアよりは単純頻度に近い結果が出ます 9.3.2 コロケーションパネルでの固有名詞と数詞の表示 固有名詞については 以下の 4 つのグループにまとめて表示しています このうち 一般 には 形態素辞書にない固 有名詞以外の未知語が含まれることがあります また 数詞については 数字 としてまとめて表示されます コロケーションパネルでの表示 人名 地域 組織 一般 数字 該当する固有名詞姓や名 著名人の名前など一般的な地名や国名など企業などの組織名上記以外の固有名詞数詞 以下は 動詞 読む の 名詞 + を読む のコロケーションに現れた 人名 + を読む の例です 20

9.3.3 特定のコロケーションの検索 ( フィルタ ) 特定のコロケーションを探したいときは 画面左下の [ フィルタ ] ボタンをクリックして [ フィルタ ] ダイアログを表示 します [ フィルタ ] ダイアログの使い方は 見出し語検索ウィンドウの見出し語リストの場合と同様です (8.6 を参照 ) 以下 では 時間が + 動詞 のコロケーションのリストから 時間が過ぎ去る を検索している例です 絞り込んだ状態を元に戻すには [ フィルタ ] ダイアログの [ リセット ] ボタンをクリックするか コロケーションパネ ルの [ フィルタ ] ボタンの右の [ フィルタ解除 ] ボタンをクリックします 9.3.4 コロケーションリストのダウンロード 表示中のコロケーションのリストをダウンロードしたいときは コロケーションパネルの左下の [ ダウンロード ] ボタン をクリックします 21

クリックすると ダウンロードするファイルの形式を選択するダイアログが表示されます ファイル形式は Excel ファ イル (XLS ファイル ) と CSV ファイル ( カンマ区切りのファイル ) の 2 種類です ダウンロードできるのは表示中パタ ーンの全コロケーションのリストです フィルターダイアログで絞り込んだ結果を保存することはできません ファイル形式を選択して [ ダウンロード ] ボタンをクリックすると FireFox の場合 以下のようなダイアログが表示 されますので [ プログラムで開く ] か [ ファイルを保存する ] かを選び [OK] ボタンをクリックします 以下は Excel ファイルでダウンロードし Excel で開いたときの画面です 出力される項目は 左から順に コロケーシ ョン 頻度 MI スコア ログダイスです csv ファイルの場合も同様です 22

[ ファイル情報 ] のシートには ダウンロードしたコロケーションの情報が記載されています 9.4 用例パネル 用例パネルは コロケーションパネルで選択したコロケーションを含む用例を表示します 用例は短い順に表示されます 以下は 時間がかかる の用例です 9.4.1 用例の前後の文脈の表示 各用例の出典 ( グレーの文字の部分 ) をクリックすると 前後の文脈を表示するダイアログが開きます http://homepage3.nifty.com/tannisho/gojo/6_1.html 23

9.4.2 特定の表現を含む用例の検索 ( フィルタ ) 特定の表現を含む用例を検索することもできます 以下は 顰蹙を買う の用例です 全体で 413 件あります 用例を読んでいくと 周囲の顰蹙を買う という表現が 2 件見つかります この表現が全体 ( 413 件 ) のうちどのくらいあるのかを調べてみます 用例パネルの左下の [ フィルタ ] ボタンをクリックし [ フィルタ ] ダイアログに以下のように入力し [ フィルタ ] ボタンをクリックします 以下のように 13 件の用例が見つかります 24

9.4.3 用例のダウンロード 表示中の用例をダウンロードしたいときは コロケーションパネルの左下の [ ダウンロード ] ボタンをクリックします クリックすると ダウンロードするファイルの形式を選択するダイアログが表示されます ファイル形式は コロケーションリストと同じ Excel ファイル (XLS ファイル ) と CSV ファイル ( カンマ区切りのファイル ) の 2 種類です 用例は最大で先頭から 1 万件まで抽出できます ファイル形式を選択して [ ダウンロード ] ボタンをクリックすると 以下のようなダイアログが表示されますので [ プ ログラムで開く ] か [ ファイルを保存する ] かを選び [OK] ボタンをクリックします 以下は Excel ファイルでダウンロードし Excel で開いたときの画面です 25

[ ファイル情報 ] のシートには ダウンロードしたコロケーションの用例の情報が記載されています 10. 2 語比較機能 1. 見出し語検索ウィンドウの右上にある [ 2 語比較検索 ] ボタンをクリックします 2. 2 語比較検索ウィンドウが開きます 26

3. 比較できるのは 同一の品詞の内容語の組み合わせです 名詞と名詞 動詞と動詞 イ形容詞とイ形容詞 ナ形容詞とナ形容詞 連体詞と連体詞 副詞と副詞これ以外に 以下の組み合わせでも可能です イ形容詞とナ形容詞 イ形容詞と連体詞 ナ形容詞と連体詞 4. それでは 実際に 2 つの動詞を比較してみます [ 動詞 ] タブをクリックして 動詞のリストを表示します 5. 動詞を選択するときは リストの左端にあるチェックボックスにチェックマークを入れます 以下では 思う と 考える を選択しています 27

6. ただ 実際には このように同じ画面に表示されている動詞を選択する場合はまれなので 画面左上の [ 絞り込み入 力ボックス ] に比較したい動詞を入力して絞り込んで選択します ここでは 冷える と 冷める を比較してみ ます 以下のように 2 つの動詞の読みをスペース ( 全角でも半角でもよい ) で区切って入力します 7. 入力できたら [ 絞り込み ] ボタンをクリックします ひえる と さめる の読みをもつ動詞が 5 つ表示されま す 8. 冷える と 冷める にチェックマークを入れます 9. リストの右上の [2 語比較 ] ボタンをクリックします 28

10. 冷える と 冷める の比較ウインドウが開きます 11. [ 文法パターン ] パネルの [ グループ別 ] では 文法パターンごとにコロケーションが分類されています 以下は 名詞 + 助詞 + 冷える 冷める のパターンとその頻度を表しています 12. このなかから ガ格名詞と 冷える 冷める のコロケーションを調べてみます 一番上の が冷える または が冷める をクリックします 29

13. コロケーションパネルに が冷える と が冷める のコロケーションが表示されます 30

14. 最初の状態では コロケーションは LD 差の降順に並んでいます LD 差というのは 左側のコロケーション ( この場合は が冷える ) の LD( ログダイス値 ) から 右側のコロケーション ( この場合は が冷める ) の LD を引いたものです LD 差が大きくなればなるほど が冷える の特徴的なコロケーションと言えます 逆に LD 差が小さくなればなるほど が冷める の特徴的なコロケーションになります 視覚的に理解しやすいように LD 差が大きくなるほど濃い黄色で LD 差が小さくなるほど濃い紫でハイライトされます 13. の画面では が冷える の特徴的なコロケーションが表示されていますが が冷める の特徴的なコロケーションを見るときは [LD 差 ] のヘッダーをクリックして LD 差の昇順に並べ替えます コロケーションパネルには LD が負の値になるコロケーションや固有名詞 ( で囲んだもの) を含むコロケーションは表示されません そのため 文法パターンパネルに表示されるパターンの総頻度と コロケーションパネルに表示されるコロケーションの頻度の合計は一致しない場合があります 15. 両方のコロケーションを詳細に分析するために コロケーションパネルのフッターに 3 種類のボタンセットが用意さ れています 一番上の [ 頻度 ] ボタンセットは 頻度を絞り込むときに使います 頻度 2 以上 頻度 5 以上 頻度 10 以上の 3 つがあります これ以外の頻度に設定したいときは 後ほど説明するフィルターダイアログを使用します 31

16. 頻度 1 のコロケーションは数が多いので 頻度 2 以上または 5 以上にすると候補が絞られます 全体的な傾向を見た い場合は 頻度の低いものを排除すると分かりやすくなります が冷える と が冷める の場合 頻度 2 以 上にすると 1 ページに収まるようになります 17. さらに頻度 10 以上にすると 候補は 70 件程度までになります ヘッダーを見ると それぞれの動詞のコロケーションの数が分かります ( が冷える が 44 件 が冷める が 25 件 ) 32

18. 2 番目のボタンセットを使うと LD 差で絞り込めます 頻度での絞り込みとの違いは LD 差の場合は 数字の大き いものを選ぶほど 頻度には関係なく 特徴的なコロケーションのみが表示される点です 19. が冷える と が冷める の場合 LD 差を ±5 以上にすると 1 ページに収まるようになります 20. LD 差 ±5 以上で 頻度 10 以上にすると スクロールせずに見渡せる状態になります 33

21. このように 頻度と LD 差をうまく組み合わせて 分析の対象を狭めたり広げたりすることができます 22. 3 番目のボタンセットは 左側 ( この場合は が冷える ) 右側 ( この場合は が冷める ) のどちらか 片方に現れるコロケーションや 左右両方に現れるコロケーションを表示するときに使います 23. 以下では が冷える だけに現れるコロケーションで頻度 2 以上のものを表示しています 24. コロケーションパネルでは LD 差以外に 左右のコロケーションの [ 頻度 ] [MI] [LD] で並べ替えることができます 23 の画面を頻度順に並べると以下のようになります 34

25. 出現位置を [ 両方の語 ] にすると 両側に現れるコロケーションのみを表示します この機能を利用すると [ 愛 / 愛 情 / 気持ちが冷える と 愛 / 愛情 / 気持ちが冷める はどちらも使えますが 両者にどのような違いがあるのかを用例 レベルで調べることができます 26. 用例を見るには それぞれのコロケーションをクリックします 文法パターンパネルが閉じて 用例パネルが現れま す 以下は 愛が冷める をクリックしたときの画面です 特定のパターンのコロケーションとその用例を見ると きは この画面で作業すると便利です 35

27. 文法パターンパネルを表示するときは 左上の開閉ボタンをクリックします 36

ローマ字表記で使用しているローマ字一覧 あ い う え お a i u e o か き く け こ きゃ きゅ きょ ka ki ku ke ko kya kyu kyo さ し す せ そ しゃ しゅ しょ sa shi su se so sha shu sho た ち つ て と ちゃ ちゅ ちょ ta chi tsu te to cha chu cho な に ぬ ね の にゃ にゅ にょ na ni nu ne no nya nyu nyo は ひ ふ へ ほ ひゃ ひゅ ひょ ha hi fu he ho hya hyu hyo ま み む め も みゃ みゅ みょ ma mi mu me mo mya myu myo や ゆ よ ya yu yo ら り る れ ろ りゃ りゅ りょ ra ri ru re ro rya ryu ryo わ を ん wa wo n が ぎ ぐ げ ご ぎゃ ぎゅ ぎょ ga gi gu ge go gya gyu gyo ざ じ ず ぜ ぞ じゃ じゅ じょ za ji zu ze zo ja ju jo だ ぢ づ で ど ぢゃ ぢゅ ぢょ da ji zu de do ja ju jo ば び ぶ べ ぼ びゃ びゅ びょ ba bi bu be bo bya byu byo ぱ ぴ ぷ ぺ ぽ ぴゃ ぴゅ ぴょ pa pi pu pe po pya pyu pyo ふぁ ふぃ ふぇ ふぉ fa fi fe fo 37

このマニュアルについて 本マニュアルの著作権は 筑波大学と国立国語研究所と Lago 言語研究所が所有します 無断転載 複製を一切禁じます Copyright 2013-2015 University of Tsukuba, National Institute for Japanese Language and Linguistics, Lago Institute of Language. All rights reserved. 38