スライド 1

Similar documents

Box-Jenkinsの方法

Microsoft PowerPoint - Econometrics pptx

Ⅰ 調査の概要 1 目的義務教育の機会均等その水準の維持向上の観点から的な児童生徒の学力や学習状況を把握分析し教育施策の成果課題を検証しその改善を図るもに学校におけ

2016 年度情報リテラシー三科目合計の算出関数を用いて各教科の平均点と最高点を求めることにするこの2つの計算は [ホーム]タブのコマンドにも用意されているが今回は関数として作成するまず表に三科

Microsoft PowerPoint - MVE pptx

(1)1オールゼロ記録ケース厚生年金期間 A B 及びCに係る旧厚生年金保険法の老齢年金 ( 以下旧厚老という )の受給者に時効特例法施行後厚生年金期間 Dが判明した Bは事業所記号が

4 教科に関する調査結果の概況校種学年小学校 2 年生 3 年生 4 年生 5 年生 6 年生教科平均到達度目標値差達成率国語 77.8% 68.9% 8.9% 79.3% 算数 92.0% 76.7% 15.3% 94

Microsoft Word - Stattext05.doc

積載せずかつ燃料冷却水及び潤滑油の全量を搭載し自動車製作者が定める工具及び付属品 (スペアタイヤを含む )を全て装備した状態をいうこの場合において燃料の全量を搭載するとは燃料

2 職員の初任給等の状況 (1) 職員の平均年齢平均給料月額及びの状況 (26 年 4 月 1 日現在 ) 1 一般行政職平均年齢静岡県国類似団体 2 技能労務職区 41.8 歳 42.6 歳 43.5

(Microsoft Word - \221\346\202P\202U\201@\214i\212\317.doc)

Taro-Ｈ１９退職金（修正版）.jtd

疑わしい取引の参考事例

一般行政職給料表の状況 ( 平成 3 年 4 月 1 日現在 ) 1 級級 3 級 4 級 5 級 6 級単位 : ( ) 7 級 1 号給の給料月額 137, 163,7 4,9 31,4 71, 33,3 359,7 最高号給の給料月額

2 役員の報酬等の支給状況役名法人の長理事理事 ( 非常勤 ) 平成 25 年度年間報酬等の総額就任退任の状況報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 16,936 10,654 4,36

単回帰モデル

平成１５・１６年度の建設工事入札参加資格の認定について

1 書誌作成機能 (NACSIS-CAT)の軽量化合理化電子情報資源への適切な対応のための資源 ( 人的資源,システム資源, 経費を含む) の確保のために, 書誌作成と書誌管理作業の軽量化を図

波佐見町の給与・定員管理等について

2 県公立高校の合格者はこのように決まる (1) 選抜の仕組み選抜の資料選抜の資料は主に下記の3つがあり全高校で使用する共通のものと高校ごとに決めるものとがあります 1 学力検査 ( 国語数

( 別紙 ) 以下法とあるのは改正法第 5 条の規定による改正後の健康保険法を指す ( 施行期日は平成 28 年 4 月 1 日 ) 1. 標準報酬月額の等級区分の追加について問 1 法改正により追加

2 一般行政職給料表の状況 ( 平成 2 年月 1 日現在 ) 1 号給の給料月額最高号給の給料月額 ( 注 ) 給料月額は給与抑制措置を行う前のものです ( 単位 : ) 3 職員の平均給与月

(2) 共通費について第 2 編共通費 2 12 共通費算定に関する数値の取り扱い (1) 積み上げによる算定積み上げによる算定は第 3 編 18に準ずる (2) 率による算定公共建築工事共通費積算

PowerPoint Presentation

Microsoft Word - Ⅱ章.doc

(4) 給与制度の総合的見直しの実施状況について概要国の給与制度の総合的見直しにおいては俸給表の水準の平均 2の引下げ及び地域手当の支給割合の見直し等に取り組むとされている.

2 一般行政職給料表の状況 (24 年 4 月 1 日現在 ) 1 級 2 級 3 級 4 級 5 級 6 級 1 号給の給料月額 135,6 185,8 222,9 261,9 289,2 32,6 最高号給の給料月額 243,7 37,8 35

Ｑ　IFRSの特徴について教えてください

Microsoft PowerPoint - 報告書(概要).ppt

目次 Ⅰ 概要 3 Ⅱ 平成 18 年度産業技術センター利用に関するアンケート調査結果 ( 依頼試験 ) 4 Ⅲ 平成 18 年度産業技術センター利用に関するアンケート調査結果 ( 機器開放 ) 8 Ⅳ 平成 18 年

Microsoft Word - ★ＨＰ版平成２７年度検査の結果

Microsoft PowerPoint _R勉強会ichikura.ppt [互換モード]

(4) ラスパイレス指数の状況 ( 各年 4 月 1 日現在 ) ( 例 ) ( 例 ) 15 (H2) (H2) (H24) (H24) (H25.4.1) (H25.4.1) (H24) (H24)

Microsoft PowerPoint - 2.ppt [互換モード]

H28記入説明書（納付金・調整金）8

平成１６年度

( 別途調査様式 1) 減損損失を認識するに至った経緯等 1 列 2 列 3 列 4 列 5 列 6 列 7 列 8 列 9 列 10 列 11 列 12 列 13 列 14 列 15 列 16 列 17 列 18 列 19 列 20 列 21 列 22 列固定

PowerPoint プレゼンテーション

Microsoft Word - A04◆／P doc

2 一般行政職給料表の状況 ( 平成 23 年 4 月 1 日現在 ) 1 号給の給料月額最高号給の給料月額 1 級 2 級 3 級 4 級 5 級 ( 単位 : ) 6 級 7 級 8 級 135, , ,900 2

1 林地台帳整備マニュアル( 案 )について林地台帳整備マニュアル( 案 )の構成構成記載内容第 1 章はじめに本マニュアルの目的記載内容について説明しています第 2 章第 3 章第 4 章第 5 章第 6 章林地

Microsoft Word - 公表資料（H２２）.doc

目次第 1 部個人所得税の概要居住者非居住者の定義 4 個人所得税の納付のしかた( 給不所得者 ) 5 居住者の個人所得税額の計算のしくみ( 給不所得者 ) 6 非居住者の個人所得税

<4D F736F F D208ED089EF95DB8CAF89C193FC8FF38BB CC8EC091D492B28DB88C8B89CA82C982C282A282C42E646F63>

Taro-給与公表(H25).jtd

2 一般行政職給料表の状況 ( 平成 24 年 4 月 1 日現在 ) 1 号給の給料月額最高号給の給料月額 ( 注 ) 給料月額は給与抑制措置を行う前のものです 3 職員の平均給与月額初任給

測量士補重要事項「写真地図作成」

SXF 仕様実装規約版 ( 幾何検定編 ) 新旧対照表 2013/3/26 文言変更 p.12(1. 基本事項 ) (5)SXF 入出力バージョン Ver.2 形式と Ver.3.0 形式および Ver.3.1 形式の入出力機能を

(5) 給与改定の状況事委員会の設置なし 1 月例給事委員会の勧告民間給与公務員給与較差勧告 A B A-B ( 改定率 ) 給与改定率 ( 参考 ) 国の改定率 24 年度円円円円 ( ) 改

2 一般行政職給料表の状況 ( 平成 23 年 4 月 1 日現在 ) 1 級 2 級 3 級 4 級 5 級 6 級 7 級 1 号給の給料月額最高号給の給料月額 135,600 円 185,800 円 222,900 円 261,900 円

2 一般行政職給料表の状況 ( 平成 23 年 4 月 1 日現在 ) ( 単位 : ) 1 級 2 級 3 級 4 級 5 級 6 級 7 級 8 級 1 号給の給料月額 135,6 161,7 222,9 261,9 289,2 32,6 366,2 41

質問票 ( 様式 3) 質問番号 62-1 質問内容鑑定評価依頼先は千葉県などは入札制度にしているが神奈川県は入札なのか?または随契なのか?その理由は? 地価調査業務は単にそれぞれの地点の鑑定

(4) 給与制度の総合的見直しの実施状況について給料表の見直し ( 給料表の改定実施時期 ) 平成 27 年 4 月日 ( 内容 ) 一般行政職の給料表について, 国の見直し内容を踏まえ平均

内において管理されている上場株式等のうち非課税管理勘定に係るもの( 新規投資額で毎年 80 万円を上限とします )に係る配当等で未成年者口座に非課税管理勘定を設けた日から同日の属

続に基づく一般競争 ( 指名競争 ) 参加資格の再認定を受けていること ) c) 会社更生法に基づき更生手続開始の申立てがなされている者又は民事再生法に基づき再生手続開始の申立てがなさ

研究テーマ考案ブログ記事を知識源とした雑談メタファに基づく情報推薦

公共建築工事共通費積算基準　平成２６年版

空き家を売却した場合の,000 万円控除特例の創設被相続人が住んでいた家屋及びその敷地を相続があった日から年を経過する年の月日までに耐震工事をしてからあるいは家を除却してから売却

もくじ 1 税源移譲 1 2 何が変わったのか改正の 3 つのポイントポイント1 国から地方へ 3 兆円規模の税源が移譲される 2 ポイント2 個人住民税の税率構造が一律 10%に変わる 3 ポイント3 個々の納

している 5. これに対して親会社の持分変動による差額を資本剰余金として処理した結果資本剰余金残高が負の値となるような場合の取扱いの明確化を求めるコメントが複数寄せられた 6. コメントでは親

(ⅴ) 平成 28 年 4 月 1 日から平成 35 年 12 月 31 日までの期間未成年者に係る少額上場株式等の非課税口座制度に基づき証券会社等の金融商品取引業者等に開設した未成年者口

平成25年度　独立行政法人日本学生支援機構の役職員の報酬・給与等について

目次 1 個人基本情報個人基本情報入力画面の分散 4 申告区分および申告種類の選択方法 5 繰越損失入力年別の繰越損失額入力に対応 6 作成手順作成手順の流れを提供 7 所得

2 一般行政職給料表の状況 ( 平成 22 年 4 月 1 日現在 ) 1 号給の給料月額 ( 単位 : ) 1 級 2 級 3 級 4 級 5 級 6 級 7 級 135, , , , , ,600

Ⅰ. はじめに 27 年からの不況の影響で不動産競売物件が増加している 29 年 9 月は全国で 8 件を超えた ( 前年同月は約 6 件 ) また不動産競売の情報がインターネットで公

Microsoft Word - 04特定任期付職員（特任事務）給与規程【溶込】

23年度版　総社市様式外.xls

１　変更の許可等（都市計画法第35条の2）

説明内容料金の算定期間と請求の単位について分散検針制日程等別料金料金の算定期間と支払義務発生日日程等別料金の請求スケジュール料金のお支払い方法その他各種料金支払

Microsoft Word - 奨学金相談Ｑ＆A.rtf

する婦人相談所その他適切な施設による支援の明記禁止命令等をすることができる公安委員会等の拡大等の措置が講じられたものである第 2 改正法の概要 1 電子メールを送信する行為の規制 ( 法

<4D F736F F D2095BD90AC E937890C590A789FC90B382CC8EE582C893E09765>

3 職員の初任給等の状況 (1) 職員の及びの状況 ( 平成 24 年 4 月 1 日現在 ) 1 一般行政職 ( ベース) ,9 47,78 369,884 崎県 , , ,

<4D F736F F D F4390B3208A948C E7189BB8CE F F8C668DDA97702E646F63>

Taro-2220（修正）.jtd

(2) 広島国際学院大学 ( 以下大学という ) (3) 広島国際学院大学自動車短期大学部 ( 以下短大という ) (4) 広島国際学院高等学校 ( 以下高校という ) ( 学納金の種類 ) 第 3 条

Microsoft Word - 佐野市生活排水処理構想（案）.doc

税金読本（8-5）特定口座と確定申告

Microsoft Word sozei-sample1.doc

<95BD90AC E93788C888E5A82CC8A FEE95F18CF68A4A97702E786C73>

< F2D824F C D9197A791E58A C938C8B9E>

2016 年度情報リテラシー変更された状態同様に価格のセルを書式設定する場合は金額のセルをすべて選択し [ 書式 ]のプルダウンメニューから[ 会計 ]を選択するするとが追加され金額としての書式が設定さ

<4D F736F F D F8D828D5A939982CC8EF68BC697BF96B38F9E89BB82CC8A6791E52E646F63>

3. 選任固定資産評価員は固定資産の評価に関する知識及び経験を有する者のうちから市町村長が当該市町村の議会の同意を得て選任する二以上の市町村の長は当該市町村の議

検討検討の進め方検討状況簡易収支の世帯からサンプリング世帯名作成事務の廃止 4 5 必要な世帯数の確保が可能か簡易収支を実施している民間事業者との連絡等に伴う事務の複雑

< E937895AA8CF6955C976C8EAE904588F58B8B975E2E786C73>

Taro-1-14A記載例.jtd

(4) ラスパイレス指数の状況 ( 各年 4 月 1 日現在 ) (H25.4.1) (H25.4.1) (H25.7.1) (H25.7.1) (H25.4.1) (H25.7.1)

. 負担調整措置 8 (1) 宅地等調整固定資産税額宅地に係る固定資産税額は当該年度分の固定資産税額が前年度課税標準額又は比準課税標準額に当該年度分の価格 ( 住宅

Transcription:

導入通信路モデル Bayes 統計最尤推定とMAP 推定データの性質

機械学習の先史時代 -- 情報の変換過程のモデル化 -- 情報源を記号列 ( 例えば単語列あるいは文字列 )とする Noisy Channel Model 情報源記号列 :t tx 情報変換雑音 (N(0,σ 2 ) etc) 出力された記号列 = 推定処理への入力 x 推定処理 tˆ : 推定された情報源記号列出力された記号列 = 推定処理への入力データxから情報源記号列 tを推定しを計算する tˆ

Bayesの定理 Bayes 統計の意義 P( t x) P( x t) P( t) P( x) P(t x)は新たな出力記号列 xが得られたときの情報源から出力された記号列 t を推定する式でこれを最大化する t すなわち tˆ arg max Pt x t を求めるのが目標ところがこのままでは既に得られている情報を使えないので Bayesの定理で変換するすると既知の情報源状態と出力記号列のペアに関する条件付き確率 P(x t) (= 教師データ) 情報源についての事前知識 P(t)が使える形になる

Bayes 統計とは 1. 常にBayesの定理を用いる 2. 用いられる確率は主観確率 (= 確信度 ) 3. 事前情報を利用する 4. 未知量 ( 確率分布のパラメター)は確率的に変動 5. 観測されたデータは絶対的 6. 推測は常に条件付 7. アドホックな手続きを認めない

Bayes 統計を用いた情報変換過程のモデルにおける出力データからの情報源の推定方法通信路を条件付確率でモデル化 :P(x t) 目的は x が観測されたときの t の確率すなわち事後確率 P(t x)を最大化する情報源の確率 tˆ arg max P( t t t arg max P( x x) t) P( t) ここでベイズの定理により P(t)は情報源記号列の既知の統計的性質が利用できる P(x t) は情報源記号列 tが情報変換およびnoisy channelの雑音によってx 毎に変化する確率この確率は多数の<t,x> 対の観測データにより計算する

情報変換過程モデルの適用例例 : 機械翻訳元言語 x: 私がリンゴを食べる P(t x) は元言語のテキスト x( 既知 )が翻訳先言語のテキスト t に翻訳される確率 P(x t) はtという翻訳結果に対する元言語のテキストがxである確率 P(t) 翻訳先言語におけるテキストtの自然さ例え tˆ ば N 単語列のコーパスにおける単語 3-gram 確率以上の設定で下の式 tˆ arg max t P( t 機械翻訳 x) は機械翻訳の出力 arg max P( x t) P( t) この考え方を元にしたのが現在主流となってきている統計的機械翻訳 (IBMで1993 年に開発された) t 翻訳先言語 t: I eat an apple

日英機械翻訳の例 P(リンゴを食べる eats an apple)=0.3 P(リンゴを食べる eats apples)=0.2 P( 彼は He)=1.0 P(He eats apples)=0.2 P(He eats an apple)=0.5 P(He eats an apple 彼はリンゴを食べる) =1.0x0.3x0.5=0.15 P(He eats apples 彼はリンゴを食べる) =1.0x0.2x0.2=0.04 He eats an apple のほうが良い英訳事前知識として P(He eats apple)=0.0 があれば非文 P(He eats apple)=0にできるのがベイズの強み

例 : 文書分類 P(t x) においてxが与えられた文書 tがカテゴリ推定されたカテゴリ: tˆ P(t) はカテゴリtの文書の出現確率 P(x t)はカテゴリtにおいて文書 xが出現する確率このモデル化にはいろいろな方法があるが簡単なのは出現する単語 w 1, w N P(x t) =P(w 1, w N t)だがこのままでは計算しにくいのでw 1, w N が独立だとすると P( w N 1,..., wn t) P( wn t) n1 これを naïve Bayse 分類とよぶ arg max P( x t) P( t) t Why?

文書分類の例 : 長澤まさみ vs 上野樹里長澤まさみ関連の文書に高い確率で出現する単語主演映画東宝吉田礼薬師丸ひろ子サッカー上野樹里関連の文書に高い確率で出現する単語主演のだめカンタービレドラマラストフジテレビ分類したい文書 :Dの含む単語は主演ラストフレンズ P( 主演長澤 )=0.1 P( 主演上野 )=0.1 P(ラスト長澤 )=0.2 P(ラスト上野 )=0.2 P(フレンズ長澤 )=0.2 P(フレンズ上野 )=0.2

Googleのヒット数から推定したところ P( 長澤 )=0.6 P( 上野 )=0.4 P( 長澤 D)=P(D 長澤 )P( 長澤 ) =P( 主演長澤 )P(ラスト長澤 )P(フレンズ長澤 )P( 長澤 ) =0.1x0.2x0.2x0.6=0.0024 P( 上野 D)=P(D 上野 )P( 上野 ) =P( 主演上野 )P(ラスト上野 )P(フレンズ上野 )P( 上野 ) =0.1x0.2x0.2x0.4=0.0016 よって文書 Dは長澤に分類しかし Dにカンタービレという単語も含まれ P(カン.. 長澤 )=0.1 P(カン.. 上野 )=0.8だと P( 長澤 D)=0.00024 P( 上野 D)=0.00128 で文書 Dは上野に分類直感にあっているようだ!

教師あり学習上記の例では情報源のモデルであるP(t)やP(x t)は単に出現確率だったがここで適切な確率分布を考えることが可能するとその分布を決めるパラメターを推定する必要が出てくるそのために<t,x>という情報源の状態と出力データの対データが多数入手できれば利用するこの<t,x>を教師データ(あるいは観測データ)と呼ぶすると機械学習の中心となる教師あり学習は確率分布 P(t) P(x t)のパラメターを教師データ<t,x>を利用して求めるという問題になる

教師なし学習教師あり学習では教師データ<t,x>の集合が与えられた状態で P(t)やP(x t)のパラメターを求めたしかしデータ<x>の集合だけが与えられていて(tは与えられていない)ときはどうする? データ<x>の集合から P(x)のパラメターだけを求めることになる直観的にはデータ<x>を類似したものにグループ化するクラスタリングと言いグループのことをクラスタと呼ぶこれを教師なし学習と呼ぶ

識別モデルと生成モデル入力データxに対応する予測値 tを求める識別モデル(discrimiative model):p(t x)を直接モデル化するこのp(t x)によって未知のxに対するtを予測 (あるいは推定 )する方法 t=f(x)となる関数を直接求めるものもあり事前分布生成モデル(generative model):ベイズの定理で p(t x)をp(x t)p(t)/p(x)に変換 p(x t)を学習 p(t)を事前データから求めるこれと既知の<x,t>のペアのデータからp(x t)のパラメターを更新これによって未知のxに対するtを求めるp(t x)の確率分布をモデル化する観測データが知られて後のp(x t)の事後分布

最尤推定とMAP 推定最尤推定分布 P X のパラメタ-θの推定値を以下の式で求める ˆ arg max P X,..., X 1 N あるいは対数をとり推定 : 対数尤度の最大化 ˆ arg max log P X,..., X ˆ arg max ただし X 1 log,..,x P N 1 N MAP 推定 ( 事後確率の最大化 ) 事前確率 P が与えられていたときには次式のように事後分布の確率を最大化するパラメタ-を求める X1,..., X N ˆ P はN個の観測データ

問題 1 X 1 X 1 X P (X i は 0か1)で定義されるベルヌ- イ試行を独立にN 回繰り返したとき 0がm 回 1がN-m 回観測されたとする最尤推定して θを求めよ 1 また事前分布として P bただし 0 のときのMAP 推定した θ を求めよこの場合の結果の意味を考察せよ問題 2 次式の多項分布において最尤推定して θ i を求めよ事前分布が P P N! X! X X1 X K X 1 1 K! 1 K 1 11 K 1 1 K 1 K K K k1 k の場合の MAP 推定した θ i を求めよ

今までは情報源の記号 tと出力記号列 (= 直接に観測されたデータ)xは機械学習において直接に計算の対象としていたこの仮定が成立する場合も多い身長体重薬の濃度価格などの( 連続 ) 数値データ人数個数などの整数をとる数値データ割合 %などデータの性質男女国籍など属性が記号の場合 ( 整数に変換すれば数値として処理可能 ) しかし必ずしも直接に観測されたデータだけを使える場合ばかりではない

観測データを表す情報の次元観測データ点が人間の場合の例 x=( 身長体重血圧収入金額 ) T 数値だけなので簡単単位は外部知識とする Ex (170, 50, 120, 10,000,000) 確率分布としては正規分布など x=( 職業発熱 ) T 記号 2つの方法記号に番号を与える Ex 無職 =0, 学生 =1,.. 発熱無 =0 有 =1 確率分布としては離散数値をとる分布など数値の意味付けが難しい記号の種別ごとに1 次元を与える( 次のページ参照 )

記号の種類ごとに次元を割り当てる方法 x=( 訪問国 1,, 訪問国 N) T 対策 : 国を番号つける ex(usa,uk,italy) T (USA=1, UK=2, Japan=3, China=4, Italy=5, ) この番号がベクトルの何番目の要素かを示すとして数値のベクトルとして表現 : Bernoulli 分布 : x 上のexは (1,1,0,0,1,.) T このベクトルの次元は世界中の国の数だけあるためかなり大きいしかし観測データには0が多くスパースなデータ記号の出現回数のある場合 x=(( 訪問国 1 滞在日数 1),,( 訪問国 N 滞在日数 )) T ex((usa,15),(uk,5),(italy,3)) T (15,5,0,0,3,.) T 多項分布 : Mult(15,5,0,0,3,... 15 USA 5 UK 0 Japan USA, 0 China UK, 3 Italy Japan Bern( x ) (1 ), China, Italy,...) 1 x

次元の大きさ国と滞在日数の例と同じタイプの問題をテキストデータで考えてみようあるテキストを表現するにはそのテキストに出現した各単語の個数で表現する次元は語彙数日本語の新聞では約 40 万語固有名詞や複合語まで入れると 100 万以上 100 万次元のベクトルを扱う必要あり! 個々の単語だけを対象にすれば済むのか? ABC 証券 ABC 証券株式会社総理が失言総理が訂正というような単語の連鎖で見ないと分からない場合は? N 単語の連鎖 (=N-gram)の種類数は 100 万のN 乗!!! しかしこのような多次元がすべて重要な情報だとも思えない次元圧縮の技術が有望 i.e. Singular Value Decomposition (SVD)とかLatent Semantic Indexing(LSI)

特殊性を表すデータ 1 これまでに示したデータ点の数値は観測された数値 ( 出現回数など)を直接使っていた観測データ全体の構造を利用したtf*idfと呼ばれる数値も有力データ点頻度 Data point Frequency : DF ただし DF(j)はj 番目の次元のデータが0でないデータ点の数また観測データ点の総数をNとする

特殊性を表すデータ 2 データ点頻度 Data point frequency:df ただし DF(j)はj 番目の次元のデータが0でないデータ点の数また観測データ点の総数をNとする IDF(j)=1/DF(j) TF(i,j)= 観測データ点 iで第 j 次元のデータの出現回数 TF*IDFの定義 : w j N i, TF*IDF(i, j) TF(i, j) log DF(j)

例データ例旅行者 a:(usa=10, UK=2, Japan=3, China=0, Italy=0) 旅行者 b:(usa=0, UK=2, Japan=0, China=4, Italy=0) 旅行者 c:(usa=5, UK=0, Japan=2, China=0, Italy=0) 旅行者 d:(usa=2, UK=0, Japan=1, China=2, Italy=1) DF(USA)=3, DF(UK)=2, DF(JP)=3. DF(CH)=2, DF(IT)=1 N/DF(..)は USA=4/3, UK=4/2, JP=4/3, CH=4/2, IT=4/1 TF*IDF(USA,a)=10*log(4/3)=4.114, TF*IDF(USA,b)=0 TF*IDF(UK,a)=2*log(4/2)=2 TF*IDF(IT,d)=1*log(4/1)=2

特殊性を表すデータ 3 TF*IDFの定義 : w j N i, TF*IDF(i, j) TF(i, j) log DF(j) TF*IDF(i,j)はデータ点 : iだけで特別に多く現れる次元 : jの数値を表す例えば新聞の1 記事を観測データ点とし次元を単語とすると TF*IDF(i,j)の大きな単語 iは偏りのある特殊ないし専門の単語小さな単語は一般的な単語といえる TF*DIFを用いて観測データ点を表現しなおすといろいろなことが見えてくることがある

距離の定義観測データ点を多次元空間中の点と定義そこで2つの問題各次元は観測データ点からどのように定義するか次元のことをfeatureあるいは素性 (そせい)と呼ぶこの問題をfeature design : 素性設計と呼ぶ例えば 2つの素性の比を新たな素性とする ex 身長 / 体重 2つの素性の連続したもの ex 日本銀行日本沈没しかしこれは個別適用分野に応じて工夫すべし多次元空間における2 点間の距離の定義ユークリッド距離ばかりではないのだ!