わんくま同盟 大阪勉強会 #1

Similar documents
文字コード略歴 よこやままさふみ社内勉強会 2012/05/18 文字コード略歴 Powered by Rabbit 2.0.6

自己紹介 フリーライターとして OpenOffice.org 日本ユーザー会に参加 日本語環境改善拡張機能 を開発 IPAex フォント Takao フォント用拡張機能も開発 オープンガイドブック OpenOffice.org 3 ( 翔泳社刊 ) 執筆メンバー OpenOffice.org 日本ユ

紀要ドラフト.indd

compatibility_1907.pdf

9601 F09F 9611 F0A F0B F0BD 9641 F0C F0A F0AA 9622 F0B F0BE 9642 F0C F0A F0AB 9623 F0B F0BF 9643 F0C9

随筆 私本太平記

RT Fontカタログ

游書体互換(HP用 )

DDBM_特集2_4-1001(SQL Server)

Unicode (2)

Microsoft PowerPoint - char-1605temp.ppt [互換モード]

ンロード可能であり 今後の運用 保守も情報処理推進機構が実施していく予定です 運用 保守にあたっては 行政現場の実務や国際標準との整合性をとり 文字情報の更なる正確性を期していく予定です 文字情報基盤の普及を図るために 説明会を札幌 仙台 東京 大阪 福岡で 11 月から実施予定です 詳細は情報処理

行政の情報化と文字情報基盤

MySQL 日本語処理完全解説 住商情報システム株式会社プラットフォームソリューション事業部門 IT 基盤ソリューション事業部オープンソースシステム部玉川修一 1

PowerPoint Presentation

MySQL Cluster

iNFUSE インフューズ

スライド 1

SOC Report

Delphi/400バージョンアップに伴う文字コードの違いと制御

文字コード (2) 林部祐太 国立国会図書館関西館電子図書館課 2013/9/27 1

Unicode (2)

字形の変化する文字.indd

iNFUSE インフューズ

フォント埋め込みに関する調査報告 プラネットファーマソリューションズ株式会社 2019 年 05 月 31 日 Copyright 2019 Planet Pharma Solutions, Inc. All Rights Reserved.

ProからPr5Pr6字形変更2013.indd

1.SqlCtl クラスリファレンス SqlCtl クラスのリファレンスを以下に示します メソッドの実行中にエラーが発生した場合は標準エラー出力にメッセージを出力します (1)Connect() メソッド データベースへ connect 要求を行います boolean Connect(String

untitled

Microsoft Word - No6_unicode2_06fl_www.doc

情報処理演習 E PC による外国語処理 第 10 回資料 第 10 回 : Unicode での文字の取り扱い 本日のポイント : Unicode のもう少し詳しい紹介 Unicode の歴史と現状 Unicode で扱うことのできるさまざまな文字 Unicode の基本原則 Unicode 文字

JIS2004移行シナリオWhitePaper(v1.1)

Oracle Database Connect 2017 JPOUG

C プログラミング 1( 再 ) 第 4 回 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ 1

4 Mule(Emacs)

HULFT-DataMagic for Windows Ver レベルアップ詳細情報 < 製品一覧 > 製品名 バージョン HULFT-DataMagic for Windows HULFT-DataMagic コード変換 オプション for Windows HU

自己紹介 とみたまさひろ MySQL 3.21 に日本語 charsetを追加 MySQLのRubyバインディング作成

2 課題管理 画面が表示されます 補助事業期間延長承認申請書 欄の[ 作成する ] をクリックします [ 作成する ] ボタンが表示されていない場合には 所属する研究機関の事務局等へお問い合わせください 295

親指シフトキーボード(FMV-KB611)、JISキーボード(FMV-KB621)、FMV-LIFEBOOK(親指シフトキーボードモデル)をお使いになる方へ

2 課題管理( 科学研究費補助金 ) 画面が表示されます 補助事業期間終了後 欄の[ 入力 ] をクリックします [ 入力 ] ボタンが表示されていない場合には 所属する研究機関の事務局等へお問い合わせください 109

親指シフトキーボード(FMV-KB611)、JISキーボード(FMV-KB621)、FMV-LIFEBOOK(親指シフトキーボードモデル)をお使いになる方へ

2 課題管理( 学術研究助成基金助成金 ) 画面が表示されます 補助事業期間延長承認申請書 欄の [ 作成する ] をクリックします [ 作成する ] ボタンが表示されていない場合には 所属する研究機関の事務局等へお問い合わせください 300

独立行政法人日本学術振興会科研費電子申請システム研究者向け操作手引 ( 学術研究助成基金助成金 )( 交付内定時 決定後用 ) 研究成果報告書の作成 研究成果報告内容ファイルを作成 1 科学研究費助成事業の Web ページ等から研究成果報告内容ファイル様式をダウンロードしま

IPAex フォント IPAフォントのダウンロード方法 IPAexフォント (Ver ) および IPAフォント (Ver ) は OSS ipedia 1 からダウンロードできます URL: なお IPA

目 次 1. 使用する電磁的記録媒体 1 2. ファイル構成, ファイル名及び記録すべき事項 1 3. ファイル形式 1 4. 使用可能文字規定等 1 5. ファイルへの記録方法 2 6. 申請データ仕様 6-1. 登記共通事項ファイル (COMMON.xml) 譲渡人ファイル (JT


プレポスト【問題】

SQL 基礎 (6) JOIN 句 - データの結合 作成日 : 2016/02/22 作成者 : 西村 更新履歴 更新日 更新概要 作業者 2016/02/22 新規作成 西村 はじめに この資料では 下記のような JOIN によるテーブル ( データ ) の結合について簡単に説明します INNE

2. 操作方法 以下の画面はイメージです 実際の画面とは異なる場合があります 2.1. ファイルのダウンロード手順 はじめにファイルをダウンロードする共通的な手順を説明します 画面には 以下のようにダウンロードボタンを配置しているものがあります ( 以降の画面は Windows 版 Internet

Unicode による JIS X 0213 実装 ~情報システムにおける日本語処理~

InputMan for Windows Forms バージョン比較表

FormPat インポート設定ガイド

tkk0408nari

Microsoft Word - Android_SQLite講座_画面800×1280

中綴じ2級.ren

いまさら聞けない日本語ドメイン名

改訂履歴 版作成 / 改訂区分改訂概要 初版 2006 年 3 月 22 日新規新規作成 2 版 2007 年 1 月 12 日 修正 3 版 2012 年 3 月 27 日 修正 4 版 2013 年 3 月 22 日 追加修正 1-1. システム動作環境 について Windows Vista I

PowerPoint プレゼンテーション

ご利用のブラウザのバージョンによっては 若干項目名が異なる場合があります 予めご了承ください Windows をお使いの場合 [ 表示 ] [ エンコード ] [ 日本語 ( 自動選択 )] を選択 [ 表示 ] [ エンコード ] [Unicode(UTF-8)] を選択 Firefox をご利用

Java Scriptプログラミング入門 3.6~ 茨城大学工学部情報工学科 08T4018Y 小幡智裕

Microsoft PowerPoint - db03-5.ppt

FTP 共有を有効にする あらかじめ作成済みの共有フォルダーを FTP 共有可能にする設定を説明します 共有フォルダーの作成方法は 画面で見るマニュアル をご覧ください ファイル数の多い共有フォルダーを変更すると 変更が完了するまでに時間がかかる場合があります また 変更が完了するまで共有フォルダー

Microsoft PowerPoint pptx

基礎情報処理Ⅱ 第2回

手書き文字のことを検討するというと, 幅広く認めるということにしかならないのではないか 現行の ( 付 ) 字体についての解説 の 第 1 明朝体のデザインについて に示されていることは, 第 2 明朝体と筆写の楷書との関係について に比べて小さな問題である 第 1と第 2の順序を入れ替えるべきでは

10-C.._241_266_.Z

第 2 章 問合せの基本操作 この章では データベースから情報を検索する際に使用する SELECT コマンド および SELECT コマンドと 同時に使用する句について説明します 1. 問合せとは 2. 基本的な問合せ 3. 列の別名 4. 重複行を一意にする 5. 検索行の絞込み 6. 文字パター

データ変換 How to セミナー 第1章

Y.OzFont ペン字版 Y.OzFont は ペン字風の手書き TrueType 和文フォントです 仕事にも使えるキッチリした字体で JIS 第 3~4 水準までの総てを実装した本格派です 外字も大量に収録し OpenType の字形切り替え機能 (OpenType Feature Tag) U

入札方式別操作

1250

テキストの保存形式と外国語テキストの保存

日本語入力システムの概要 日本語入力システムはインプットメソッド (Input Metho d) のうち 特にパソコンやワープロ 携帯電話などに日本語を入力するためのものを指す 通常はキー入力をソフトウェアで制御して実現する パソコンにおいて 英文の入力は一般のキーボードでタイプライター同様にタイプ

※サンプルアプリケーションを固めたファイル(orcasample

ビューアページ画像の仕様

<4D F736F F D E64976C8F E6388E9F81842E646F63>

Microsoft Word - 30-PDFガイド.doc

1 SQL Server SQL Oracle SQL SQL* Plus PL/SQL 2 SQL Server SQL Server SQL Oracle SQL SQL*Plus SQL Server GUI 1-1 osql 1-1 Transact- SQL SELECTFROM 058

出入国在留管理庁正字検索システムユーザーマニュアル 第 1.3 版

PowerPoint プレゼンテーション

T字形ER手法の概要とWebObjectsへの展開に向けて

掲示板の閲覧 掲示板の閲覧 登録権または参照権のある掲示板グループの掲示版を閲覧することができます 各利用者の権限は 管理者によって設定されます 掲示板を閲覧する 1 掲示板画面を表示し 閲覧する掲示が含まれている掲示板グループ 掲示板の順にクリックします 掲示板画面の表示方法 ポータル画面の画面説

Sequel のすすめ 私が SQL を嫌いな理由 とみたまさひろ RubyHiroba Sequel のすすめ - 私が SQL を嫌いな理由 Powered by Rabbit 2.0.7

1 催告書区分 String 1 1: 市税納付催告書 2: 延滞金納付催告書 2 発送連番 String 20 ZZZZZ ([ 通し番号 ]-[ 封入枚数合計 ]-[ 封入現在頁 ]) 封入現在頁は "01" 3 送付先郵便番号 String 送付先漢字住所

IGESデータの基礎知識

実務翻訳における 日本語スタイルガイドの活用

文字入力 ソフトウェアキーボードを切り替える...56 文字入力画面の見かた...56 文字を入力する...58 文字入力の便利な機能を利用する...60 iwnn IME の設定を行う

< F2D48508C668DDA81698ABF8E9A816A5B8CEB8E9A92F990B35D2E6A>

クエリの作成が楽になるUDF

1.Access Access2007 版てくてく 2007 へのバージョンアップバージョンアップ手順手順について 1-1 Access2007 版てくてく2007について 作業手順の概要について 1 2. てくてく 2007 のインストールインストールについて 2-1 インストールの概

<8DB782B58D9E82DD A2E6D6364>

OSC2013Kyoto

Web05

講習No.8

2. Windows Vista から共有フォルダのアクセスについて 対象製品 PNS25, PNB20S, PNS30 (F/W 3.x.x) Window Vista クライアントから 弊社 NAS 製品の共有フォルダにアクセスする際 Vista 側の設定を変更する必要がございます 対処方法は次

外国語文字入力の方法

合宿事前講座 Web 開発の基本編その 2 情報研究会モブ 薗田海樹 The. H.30 情報研究会 1

Oracle Corporation

インストールMNL_LAN.indd

IPA の提供する 縮退マップ に される MJ 字集合 JIS 字集合への縮退対応関係はある 字について 縮退先として 1 つの漢字が されるとは限らず 縮退先として複数の候補が される IPA としては縮退先の候補を さないの場合があります 2.2. 縮退マップの成り ち IPA の提供する縮退

帝国議会の運営と会議録をめぐって

Transcription:

ありうべき日本語処理とは by 中博俊

我々が普段利用している日本語 無意識のうちに日本語処理を行っていませんか? 日本人が 日本語を使う上で 自然体に利用できる情報処理が求められています

残念ながら私は日本語学者ではなくDeveloperです 記述の中には日本語の歴史などで誤りがあるかもしれませんが その節はご容赦ください

キーワードについて 言語処理についてのキーワードはいろいろあります 1つ1つおさらいしましょう

キーワードについて 文字セット (Character Sets) 字体を定義した文字の集合 ASCII, JIS, Unicode JIS(n 面 m 区 o 点 ) 区点コードなどとも Unicode など (U+0000 などと表現 ) エンコード (Encode) ある文字セットなどに番号を振り 実際に取り扱う形式のこと ShiftJIS, EUC, UTF-8, UTF-16 ShiftJIS には JIS にない漢字が含まれている ある意味文字セットでもある

キーワードについて 字体 (Character) 概念的なもの となどを区別しない 字形 (Glyph) 文字通り字の形 前述の違いを区別する 書体 (Style) 薔薇 ( メイリオ ) 薔薇 (MSP 明朝 )

キーワードについて 包摂 とは違う字だけれど 見る人は その字の違いに有意差を見出さない関係 JIS でも包摂関係の設定はそこそこある 両者は包摂関係にある 両者の字体は同一 コード化した場合も同一 (JIS コード )

ASCII(1963) JISX0201(1969) 文字に関する JIS 標準 ラテン文字と半角カタカナ JISX0208(1978( 旧 JIS), 1983( 新 JIS)) 第 1 水準, 第 2 水準 JISX0212(1990) 補助漢字 JISX0213(2000) 第 3 水準, 第 4 水準

ASCII と JIS の非互換 ASCII は文字集合です JIS も文字集合です 両者は同一 または包含関係のように思われますが 文字集合としての互換性はありません YEN SIGN OVER LINE

ASCII(1963) JISX0201(1969) 文字に関する JIS 標準 初版制定年度から考えても 日本語がカタカナだけとはいえ出るだけで大きな前進 通貨記号がないと実質的に利用できないため と \ の違いはどうでもよかったと思われる

今回の Vista 問題は一体何の問題? 字形が変わる 字が増える 結合文字の正式対応

字形が変わる いままでも 散々変わって います

字形が変わる (JISX0208 の変遷 )

字形が変わる 今回の変更は 2000 年の国語審議会の審議がベースになっています この 2000 年の国語審議会の答申のポイントは 3 つ 表外漢字字体表 今回の範囲 国際社会に対応する日本語の在り方 Hirotoshi, Naka と書くか NAKA Hirotoshi と書くか等 現在社会における敬意表現 敬語についてなど この後文化審議会国語分科会 ( 国語審議会の現在の継承機関 ) 敬語小委員会で 5 種類に分けるなどが最近の話題

印刷標準字体 表外漢字字体表についてのポイント 字体の中で標準とする字形は常用漢字を除き康熙字典に原点を見出すこと 3 部首許容 しんにゅう しめすへん しょくへんは昔より下の形を印刷で使ってきたから 特別に許す

そもそも康煕 ( 熙 ) 字典ってなによ? 1716 年に中国で作られた 最も完成された初めての漢字の事典

そもそも康煕 ( 熙 ) 字典ってなによ? 1716 年に中国で作られた 最も完成された初めての漢字の事典

常用 ( 当用 ) 漢字 vs 表外漢字 現在の常用漢字は 1946( 昭和二十一年 )/1/16 に吉田茂首相の名前で出されたものが最初 ( 当用漢字表 ) 1949( 昭和二十四年 )/4/28 に字体の変更などが大掛かりに行われた 澁谷區 渋谷区と変更されたのは戦後の漢字行政の決定による 區は区とされたにもかかわらず 森鴎外の鴎の字は鷗に戻る

常用漢字 常用漢字自体は今後定期的に改定しようとしている 新常用漢字表を平成十九年度の文化審議会で策定するような方向 常用漢字表に表外漢字から採用されると 代表字形も変わるかもしれない

異体字をどうするの? 澀 (U+6F80, JIS213:1-63-8) 澁 (U+6F81, JIS213:1-63-7) 渋 (U+6E0B,JIS213:1-29-34) 区 (U+533A, JIS213:1-22-72) 區 (U+5340, JIS213:1-50-31)

異体字をどうするの?.NET System.String PS C: Users localnaka> " 渋 " -eq " 澀 " False PS C: Users localnaka> " 渋 " -eq " 澁 " False.NET System.Data.SqlTypes.SqlString $a = New-Object Data.SqlTypes.SqlString " 渋 " $b = New-Object Data.SqlTypes.SqlString " 澀 " $a -eq $b SQL Server 2005 declare @a table( col nvarchar(100)) insert into @a values(' 渋 ') insert into @a values(' 澁 ') insert into @a values(' 澀 ') select * from @a where [col] collate Japanese_90_CI_AI = ' 渋 '

異体字をどうするの?.NET System.String PS C: Users localnaka> " 渋 " -eq " 澀 " False PS C: Users localnaka> " 渋 " -eq " 澁 " False.NET System.Data.SqlTypes.SqlString $a = New-Object Data.SqlTypes.SqlString " 渋 " $b = New-Object Data.SqlTypes.SqlString " 澀 " $a -eq $b SQL Server 2005 declare @a table( col nvarchar(100)) insert into @a values(' 渋 ') insert into @a values(' 澁 ') insert into @a values(' 澀 ') select * from @a where [col] collate Japanese_90_CI_AI = ' 渋 '

今回の Vista 問題は一体何の問題? 字形が変わる 字が増える 結合文字の正式対応

今回の Vista 問題は一体何の問題? Unicode 対応 してないの?

今回の Vista 問題は一体何の問題? 字形が変わる 字が増える 結合文字の正式対応

Unicode 結合文字をどうするの サロゲートペアのことではありません が という文字は U+304C で定義しているが U+304B, U+3099 も同様とみなすという意味 Windows Vista から正式に対応

Unicode 結合文字をどうするの.NET System.String1( ただの Equal) string a = " が ; string b = " が "; MessageBox.Show((a + "==" + b +"=" + (a == b).tostring()).tostring());.net System.String1( カルチャ依存 ) MessageBox.Show((a + "==" + b + "=" + (string.equals( a, b, StringComparison.CurrentCulture)).ToString()).ToString());.NET System.Data.SqlTypes.SqlString System.Data.SqlTypes.SqlString a = new System.Data.SqlTypes.SqlString(" が ); System.Data.SqlTypes.SqlString b = new System.Data.SqlTypes.SqlString(" が "); MessageBox.Show((a + "==" + b +"=" + (a == b).tostring()).tostring()); SQL Server 2005 declare @a table(col nvarchar(100)) insert into @a values(nchar(12363) + nchar(12441)) insert into @a values(' が ') select * from @a where [col] = ' が '

Unicode 結合文字をどうするの.NET System.String1( ただの Equal) string a = " が ; string b = " が "; MessageBox.Show((a + "==" + b +"=" + (a == b).tostring()).tostring());.net System.String1( カルチャ依存 ) MessageBox.Show((a + "==" + b + "=" + (string.equals( a, b, StringComparison.CurrentCulture)).ToString()).ToString());.NET System.Data.SqlTypes.SqlString System.Data.SqlTypes.SqlString a = new System.Data.SqlTypes.SqlString(" が ); System.Data.SqlTypes.SqlString b = new System.Data.SqlTypes.SqlString(" が "); MessageBox.Show((a + "==" + b +"=" + (a == b).tostring()).tostring()); SQL Server 2005 declare @a table(col nvarchar(100)) insert into @a values(nchar(12363) + nchar(12441)) insert into @a values(' が ') select * from @a where [col] = ' が '

繰り返し文字をどうするの くりかへし符号の使ひ方 をどり字法 ( 案 )

繰り返し文字をどうするの くりかへし符号の使ひ方 をどり字法 ( 案 )

どうするの? 正假名 vs 現代仮名 言う = 言ふ 文語体 vs 口語体 てふてふ = ちょうちょう

どうするの? 送りがなのゆれ 味わう = 味う 国語表記の基準例外 3 で前者を正としている 当て字の違い 変える 換える 替える Changeる Exchangeる Replaceる

どうするの? 半角 vs 全角 1=1 半角と全角という歴史から すべて (?) の文字に全角版が存在する 英文スペルの同一字形 Ꭰ(U+13A0チェロキー) А(U+0410キリル)

完全なユニバーサルフォントないし

今昔文字鏡 過去に一度でも出現した文字を分けて登録する方針 字形主義 登録されていない漢字は?

あたらしい漢字政策が取られたら? 日本 韓国 北朝鮮 中国 ( 香港 ) 台湾 ベトナムあたりが現在の漢字ユーザ 国の施策で漢字の省略を奨励したらどうするの? 字体は同じだけど 字形が大きく変わる その字形は別の国で使っている 変更できない 国別主義で解決できるのか? 同一字形の別コードはフィッシングを生む

参考文献など Michel Caplan(International Fundamentals team ) http://blogs.msdn.com/michkap JIS X 0213:2004 対応と新日本語フォント メイリオ について http://www.microsoft.com/japan/windows/products/windowsvista/jp_font/default. mspx 国語審議会 http://www.mext.go.jp/b_menu/shingi/12/kokugo/index.htm 青空文庫 ( 当用漢字表など ) http://aozora.gr.jp/kanji_table/ 言葉言葉言葉 http://members.jcom.home.ne.jp/w3c/ Unicode 表 http://www.unicode.org/charts/ 国語表記の基準 http://www.bunka.go.jp/kokugo/frame.asp?tm=20070409103237

IME2007 の文字コード表は秀逸 文字コード表に親しもう Windows の文字コード表追加面に対応してないけど 文字名が出るので ちょっと便利