0308_.f.[.^.....i...j

Similar documents

Box-Jenkinsの方法

( 別紙 ) 以下法とあるのは改正法第 5 条の規定による改正後の健康保険法を指す ( 施行期日は平成 28 年 4 月 1 日 ) 1. 標準報酬月額の等級区分の追加について問 1 法改正により追加

積載せずかつ燃料冷却水及び潤滑油の全量を搭載し自動車製作者が定める工具及び付属品 (スペアタイヤを含む )を全て装備した状態をいうこの場合において燃料の全量を搭載するとは燃料

Microsoft PowerPoint - am9.ppt [互換モード]

調査結果トピック1: 性年代別利用率の利用率は男女ともに各年代で大きく伸長している 2011 年 9 月の調査ではの年代別利用率は男女ともが最も高くが 23.9% が 20.5%だったが今年の調

1 林地台帳整備マニュアル( 案 )について林地台帳整備マニュアル( 案 )の構成構成記載内容第 1 章はじめに本マニュアルの目的記載内容について説明しています第 2 章第 3 章第 4 章第 5 章第 6 章林地

3 圏域では県北沿岸で2の傾向を強く見てとることができます 4 近年は分配及び人口が減少している市町村が多くなっているため所得の増加要因を考える場合は人口減少による影響についても考慮する

SXF 仕様実装規約版 ( 幾何検定編 ) 新旧対照表 2013/3/26 文言変更 p.12(1. 基本事項 ) (5)SXF 入出力バージョン Ver.2 形式と Ver.3.0 形式および Ver.3.1 形式の入出力機能を

職員の平均給与月額初任給等の状況 (1) 職員の平均年齢平均給料月額及び平均給与月額の状況 ( 平成年月 1 日現在 ) 1 一般行政職福岡県技能労務職歳 1,19,98 9,9 歳 8,

頸がん予防措置の実施の推進のために講ずる具体的な施策等について定めることにより子宮頸がんの確実な予防を図ることを目的とする ( 定義 ) 第二条この法律において子宮頸がん予防措置とは子宮

(2) 支状況保育所 ( 定員 60 人以上 ) 支状況は次とおりです 1 総入構成比は割合が88.1% 活動外入が2.1% 特別入が9.8%でした 2 構成比は運営費入が80.1% 経常経費補助金入が17.8%

測量士補重要事項「写真地図作成」

Taro-別紙１パブコメ質問意見とその回答

<4D F736F F D203193FA8AD45F95CA8E86325F89898F4B315F94F093EF8AA98D AD97DF914F82CC8FEE95F182CC8EFB8F C28E8B89BB2E646F63>

<4D F736F F D208ED089EF95DB8CAF89C193FC8FF38BB CC8EC091D492B28DB88C8B89CA82C982C282A282C42E646F63>

ìäçeãKíˆÅEç◊ë•Åiç≈èIî≈àÛç¸ópÅj

単回帰モデル

1 総合設計一定規模以上の敷地面積及び一定割合以上の空地を有する建築計画について特定行政庁の許可により容積率斜線制限などの制限を緩和する制度である建築敷地の共同化や

Ⅰ 調査の概要 1 目的義務教育の機会均等その水準の維持向上の観点から的な児童生徒の学力や学習状況を把握分析し教育施策の成果課題を検証しその改善を図るもに学校におけ

Microsoft Word - Stattext05.doc

(5) 給与制度の総合的見直しの実施状況について概要の給与制度の総合的見直しにおいては俸給表の水準の平均 2の引き下げ及び地域手当の支給割合の見直し等に取り組むとされている

大阪福岡鹿児島前頁からの続き 35

PowerPoint プレゼンテーション

2 役員の報酬等の支給状況平成 27 年度年間報酬等の総額就任退任の状況役名報酬 ( 給与 ) 賞与その他 ( 内容 ) 就任退任 2,142 ( 地域手当 ) 17,205 11,580 3,311 4 月 1

1 書誌作成機能 (NACSIS-CAT)の軽量化合理化電子情報資源への適切な対応のための資源 ( 人的資源,システム資源, 経費を含む) の確保のために, 書誌作成と書誌管理作業の軽量化を図

(4) 給与制度の総合的見直しの実施状況について概要国の給与制度の総合的見直しにおいては俸給表の水準の平均 2の引下げ及び地域手当の支給割合の見直し等に取り組むとされている.

検討検討の進め方検討状況簡易収支の世帯からサンプリング世帯名作成事務の廃止 4 5 必要な世帯数の確保が可能か簡易収支を実施している民間事業者との連絡等に伴う事務の複雑

2016 年度情報リテラシー三科目合計の算出関数を用いて各教科の平均点と最高点を求めることにするこの2つの計算は [ホーム]タブのコマンドにも用意されているが今回は関数として作成するまず表に三科

第4回税制調査会　総4-1

< DB8CAF97BF97A6955C2E786C73>

Microsoft Word - 佐野市生活排水処理構想（案）.doc

平成 27 年 11 月 ~ 平成 28 年 4 月に公開の対象となった専門協議等における各専門委員等の寄附金契約金等の受取状況審査 ( 別紙 ) 専門協議等の件数専門委員数 500 万円超の受

<4D F736F F F696E74202D2090B490EC2D91E F12D955D89BF8EC08CB1>

為が行われるおそれがある場合に都道府県公安委員会がその指定暴力団等を特定抗争指定暴力団等として指定しその所属する指定暴力団員が警戒区域内において暴力団の事務所を新たに設

続に基づく一般競争 ( 指名競争 ) 参加資格の再認定を受けていること ) c) 会社更生法に基づき更生手続開始の申立てがなされている者又は民事再生法に基づき再生手続開始の申立てがなさ

国家公務員の年金払い退職給付の創設について検討を進めるものとする平成 19 年法案をベースに一元化の具体的内容について検討する関係省庁間で調整の上平成 24 年通常国会への法案提

Microsoft Word 印刷ver　本編最終no1（黒字化） .doc

2 一般行政職給料表の状況 ( 平成 24 年 4 月 1 日現在 ) 1 級 2 級 3 級 4 級 5 級 ( 単位 : ) 6 級 7 級 8 級 1 号給の給料月額 135,6 185,8 222,9 261,9 289,2 32,6 366,2 41

< F2D F97CC8EFB8F BE8DD78F9192CA926D>

8-1-2 重回帰分析と重回帰式複数の独立変数から従属変数を予測することを重回帰分析という重回帰式は単回帰式の応用で複数の独立変数が式に追加された直線モデル重回帰式 : Y

預金を確保しつつ資金調達手段も確保する収益性を示す指標として営業利益率を採用し営業利益率の目安となる数値を公表する株主の皆様への還元については持続的な成長による配当可

18 国立高等専門学校機構

<4D F736F F F696E74202D B E E88E68C9A90DD8BC65F E DC58F4994C52E >

小売電気の登録数の推移昨年 8 月の前登録申請の受付開始以降小売電気の登録申請は着実に増加しておりこれまでに310 件を登録 (6 月 30 日時点 ) 本年 4 月の全面自由化以降申

住み慣れたこの町で最期まで安心して暮らすために

JTCCM製品認証審査要綱

. 負担調整措置 8 (1) 宅地等調整固定資産税額宅地に係る固定資産税額は当該年度分の固定資産税額が前年度課税標準額又は比準課税標準額に当該年度分の価格 ( 住宅

第 1 条適用範囲本業務方法書は以下の性能評価に適用する (1) 建築基準法施行令 ( 以下令という ) 第 20 条の7 第 1 項第二号表及び令第 20 条の 8 第 2 項の認定に係る性能評

<4D F736F F D208E52979C8CA78E598BC68F5790CF91A390698F9590AC8BE08CF D6A2E646F6378>

<4D F736F F D A6D92E894C5817A30318F5A91EE838D815B839392CA926D95B62E646F6378>

<4D F736F F D A94BD837D836C B4B92F62E646F6378>

<4D F736F F D E598BC68A8897CD82CC8DC490B68B7982D18E598BC68A8893AE82CC8A C98AD682B782E993C195CA915B C98AEE82C382AD936F985E96C68B9690C582CC93C197E1915B927582CC898492B75F8E96914F955D89BF8F915F2E646F6

Microsoft Word - 【溶け込み】【修正】第２章～第４章

住宅改修の手引き（初版）

( 別途調査様式 1) 減損損失を認識するに至った経緯等 1 列 2 列 3 列 4 列 5 列 6 列 7 列 8 列 9 列 10 列 11 列 12 列 13 列 14 列 15 列 16 列 17 列 18 列 19 列 20 列 21 列 22 列固定

3. 選任固定資産評価員は固定資産の評価に関する知識及び経験を有する者のうちから市町村長が当該市町村の議会の同意を得て選任する二以上の市町村の長は当該市町村の議

2 平均病床数の平均病床数では療法人に対しそれ以外の開設主体自治体社会保険関係団体その他公的の規模が 2.5 倍程度大きく療法人に比べ公的病院の方が規模の大きいことが

平成２２年度

<4D F736F F D208EC096B18AEE8F D CF8D5882C882B5816A2E646F63>

2 職員の初任給等の状況 (1) 職員の平均年齢平均給料月額及びの状況 (26 年 4 月 1 日現在 ) 1 一般行政職平均年齢静岡県国類似団体 2 技能労務職区 41.8 歳 42.6 歳 43.5

Microsoft Word - 19年度（行情）答申第076号.doc

募集新株予約権（有償ストック・オプション）の発行に関するお知らせ

(6) Qualification for participating in the tendering procedu

<4D F736F F D F93878CA797708F4390B3816A819A95CA8B4C976C8EAE91E682538B4C8DDA97E12E646F6378>

Microsoft Word - 答申第１４３号.doc

<6D33335F976C8EAE CF6955C A2E786C73>

ていることからそれに先行する形で下請業者についても対策を講じることとしました本県としましてはそれまでの間に未加入の建設業者に加入していただきますよう 28 年 4 月から実施することとしました問 6 公共工事の

12 大都市の人口と従業者数 12 大都市は全国の人口の約 2 割従業者数の約 3 割を占める 12 大都市の事業所数従業者数及び人口は表 1 のとおりですこれらの 12 大都市を合わせると全

(Microsoft Word - \221\346\202P\202U\201@\214i\212\317.doc)

(1)1オールゼロ記録ケース厚生年金期間 A B 及びCに係る旧厚生年金保険法の老齢年金 ( 以下旧厚老という )の受給者に時効特例法施行後厚生年金期間 Dが判明した Bは事業所記号が

< EC8E F58B8B975E8CF6955C8CB48D652E786C73>

( 医療機器の性能及び機能 ) 第 3 条医療機器は製造販売業者等の意図する性能を発揮できなければならず医療機器としての機能を発揮できるよう設計製造及び包装されなければならない要求項目を

- 1 - 総控負傷疾病療養産産女性責帰べ由試 ~ 8 契約契約完了ほ契約超締結専門的知識技術験専門的知識高大臣専門的知識高専門的知識締結契約満歳締結契約契約係始

財政再計算結果_色変更.indd

公文書非公開決定処分に関する諮問について（答申）

一般競争入札について

Ⅰ 人口の現状分析 Ⅰ 人口の現状分析 1 人

通知カードと個人番号カードの違い 2 通知カード ( 紙 )/H27.10 個人番号カード (ICカード)/H28.1 様式 (おもて) (うら) 作成交付主な記載事項全国 ( 外国人含む)に郵送で配布希望者に交

課税ベースの拡大等 : - 租税特別措置の見直し ( 後掲 ) - 減価償却の見直し ( 建物附属設備構築物の償却方法を定額法に一本化 ) - 欠損金繰越控除の更なる見直し ( 大

する ( 評定の時期 ) 第条成績評定の時期は第 3 次評定者にあっては完成検査及び部分引渡しに伴う検査の時とし第次評定者及び第次評定者にあっては工事の完成の時とする ( 成績評定

[2] 控除限度額繰越欠損金を有する法人において欠損金発生事業年度の翌事業年度以後の欠損金の繰越控除にあたっては平成 27 年度税制改正により次ページ以降で解説するの特例 (

平成25年度　独立行政法人日本学生支援機構の役職員の報酬・給与等について

23年度版　総社市様式外.xls

6. 共有等に係る固定資産の判定 3 共有に係る固定資産についてはそれぞれの共有者が他に固定資産を所有している場合であってもその資産とは別個に共有されている固定資産を別の人格が所

はじめに日本の税制改革では控除の引き上げや税率の引き下げにより税負担が軽減されてきた基礎控除 :33 万円 (1988 年 ) 38 万円 (1995 年 ) 所得税の最高税率 : 8000 万円超の所得

法人等に対する課税際課税原則の帰属主義への見直しのポイント総合主義から帰属主義への移行法人及び非居住者 ( 法人等 )に対する課税原則について従来のいわゆる総合主義を改め OECD

Microsoft Word 役員選挙規程.doc

Microsoft PowerPoint - 税制上の特例.pptx

表 1 年度香川大学 1 年生の学部別スコア分布年 7 月 listening reading total 年 12 月 listening reading total 全学部 takers 全学部 takers

製品設計のための3 次元検証技術 (ソリッド編 ) ~ 製品設計の考え方に基づいた3 次元 CADの使い方をマスターしよう!~ 受講料 11,500 円 /28,29.30 ( 金土日 ) 筆記製品設計業務において

消防庁危険物保安室殿ドラム缶に係る可燃性蒸気対流シミュレーション分析業務成果報告書 2013 年 1 月アドバンスソフト株式会社

Transcription:

n m

I II I II I II I II

kk nm nm

k k k k

n i x ix n i x i n n i x i n

x x x x x x x x x x x x x x x x x x x x

A A A A A PA X X X

PXkkn n

Bnp PXk n C k pp k nk kn n k nck C n p Bk k B B p

x fx N N

N X X X n X X X n n t t t n t t t X N Y n T X Yn

X m Y n F Xm Yn m n F F F t F

XXb PX b b PX b

PXb PXb PxbPxb PX PX PaXa ab PaXb axb PaXbPXbPXa PaXb Pa X b ab ab ab X X PaX b ab

N PaXb a b X Z XX XX Z V s N

N n N n N N Z X XNZN n n V sv X XNZN n sn nt XNTtn X n sn Y Pa Y b a b ab Z X N n

Pz Zz X Pz z n PXz Xz n n Xz Xz n n z Xn nt X Ttn Vn XtnXtn V V n n t n t n t t n Xtn V n Xtn V n t n Bnp k B

Bnpnp npp Xnp ZN npp Pz Zz Xnp P a Pz z npp P a p x n pz p pp a pz pp n n P a t F

H H H H H H

X X X n N X N n Z

X ZN n nt X Ttn sn T nt X T sn t t F F F t p H p p t p t t p p p

p t t

t p p p p

p p p t

p p p p

a j jk i n a y y y i y n y a y y y i y n y A y i y i y ij y ik i i n a j y j y j y ij y nj y j a k y k y k y ik y nk y k

a A a a a y ij a a a a

k nk SS B SS W MS B MS W y ij y ij y y j yy ij y j y y j k n yy ij nk j i n y j y ij n i MS B MS W P y j y y ij y j SS B k SS B y j y n j i k MS B MS B SSB k SS W k n SS W y ij y j j i SS W N k N k MS W MS W SSW Nk F F MSB MS A F P

a a a a A

A B A b a a a b B b b b b b a b b a a b b b a b b b b b b

f

f x y f yfx x y yabx a b x

a x b yabxe yabx x x i e i y i y i y i abx i e i y i abx i in

t yabx ab S e e iy i a a x S x i xy i xy y b S x i x xx a yb x at p S e y i y i S e s e nk nk a x SEas e n x i x b s SEb e x i x a att a SEa b btt b SEb tp t p

R n k k S R R S T S e nk R S T n S T S R S e ys T y i y y i S R y i y S e y i y i S T S R S e F p F p F F k n k F R F nk R k

ya a x a x a n x n a ya a x a x a n x n a a a a n y y

ya a x a x a x x

[ 連載 ] フリーソフトによるデータ解析マイニング第 15 回 R と一般化線形モデル 1. 一般化線形モデル分散分析線形回帰分析は線形モデルであり残差が正規分布に従う仮定に基づいているしかしデータが常に正規分布に従うと言う保証はないまた非線形の現象については線形になるような変換を施し線形モデルで問題を解決することもできるしかしこのような方法ではモデルを不自然な尺度で歪んだ解釈を行ってしまう危険性が伴う一般化線形モデル (Generalized Linear Model)は表 1 関数 glm で使用可能な主な分布分布族 (family) リンク関数 g (μ) yi の範囲正規 (gaussian) μ (-, + ) 二項 (binomial) log( μ (1 μ)) 0,1,2, L, n ポアソン(poisson) log(μ ) 0,1,2, ガンマ(Gamma) 1 μ ( 0, + ) n i i 正規分布を含んだ分布族 (family)にデータを対応させ非逆正規 (Inverse.gaussian) 2 1 μ (, + 0 ) 線形の現象を線形モデルの場合と同じく簡単に扱えかつ不自然な尺度で解釈しないように工夫したデータ解析方法であるまた一般化線形モデルは被説明変数 ( 反応変数応答変数とも呼ぶ)が 2 値データ例えば男と女死と生存はいといいえのようなデータのモデルも含んでいる通常の線形モデルは次の式で表される y = Xβ + e X は説明変数の行列である一般化線形モデルでは Xβ という線形結合から g ( μ) = Xβ のような変換を行った拡張であるここの μ は被説明変数の平均で g をリンク関数と呼ぶ R ではパッケージ stats に一般化線形モデルの関数 glm が用意されている関数 glm で対応できる主な分布を表 1 に示す関数 glm の最も簡単な書式を次に示す glm(formula, family, data) 引数 formula は関数 lm と同じくモデルの式を引数 family には表 1 の分布名を指定するデフォルトには gaussian が指定されている一般化線形モデル関数 glm の使用法について例を用いて説明する R に airquality というデータがあるデータ airquality は 1973 年 5 月から9 月までのニューヨークの大気状態を 6 つの変数で観 1

測した 154 の観測値であるデータの中の変数を次に示す [,1] Ozone オゾンの量 (ppb) [,2] Solar.R 日射量 (lang) [,3] Wind 風力 (mph) [,4] Temp 温度 ( 華氏 F) [,5] Month 月 1~12 [,6] Day 月のうちの日 1~31 ここでは日射量風力温度の値でオゾンの量を説明できるかどうかと言うオゾンの量を被説明変数とした重回帰モデルを考えることにする第 5 列の月 (Month ) 6 列の日 (Day) のデータは必要ではないので次のように新たなデータセットを作成する >data(airquality) >airq2<-airquality[,1:4] >airq2 Ozone Solar.R Wind Temp 1 41 190 7.4 67 2 36 118 8.0 72 < 後略 > 回帰分析を行う前にまず 4 変数の対散布図で変数の相互関係を考察してみよう対散布図関数 pairs に引数 panel=panel.smooth を用いると散布図の点の傾向を示す曲線が描かれる >pairs(airq2,panel=panel.smooth,lwd=2) 図 2 airquality の対散布図 2

対散布図から日射量 (Solar.R) 温度 (Temp)の値が大きくなるに伴い Ozone の値が大きく風力 (Wind)の値が大きいほどオゾン量が小さくなる相関関係および逆相関関係があることが分かるそこで Ozone を被説明変数とし残りの 3 変数を説明変数とした重回帰分析を行うことにする >airq2.lm<-lm(ozone~.,data=airq2) 次に残差の Q-Q プロットを図 1 に示す > qqnorm(resid(airq2.lm)) > qqline(resid(airq2.lm)) 図 1 で分かるように残差が正規分布に十分良く当てはまっているとは言いがたい図 1. 残差の Q-Q プロットそこで関数 lm による重回帰モデルと一般化線形モデルによる重回帰モデルとの当てはめの良さについて比較してみることにするモデルの当てはめの良さに関する評価は AIC を用いることにするまず関数 lm による重回帰モデルの AIC を次に示す > AIC(airq2.lm1) [1] 998.717 3

次に関数 glm の gaussian Gamma 分布を用いた場合の AIC 値を求める >AIC(glm(Ozone~Solar.R+Wind+Temp,data=airq2,family=gaussian)) [1] 998.7171 >AIC(glm(Ozone~Solar.R+Wind+Temp,data=airq2,family=Gamma)) [1] 939.8778 AIC の値から分かるように関数 lm による重回帰モデルと関数 glm の gaussian 分布を用いた結果は同じである Gamma 分布による AIC の値が gaussian 分布を用いた場合より小さいので Gamma 分布によるモデルの当てはめが良いと判断される関数 glm の引数 family に poisson を指定した場合の回帰分析をポアソン回帰分析とも呼ぶ 2.ロジスティック回帰と一般化線形モデル (1) ロジスティック回帰分析次の関数をロジスティック関数と呼ぶ η e p = 1 + e ロジスティック関数がどのような形をしているかを見ることにしよう次のコマンドで図 1 のような横軸が-5 から 5 までの範囲内のロジスティック曲線が作成される η >eta<-seq(from=-5,to=5,length=200) >plot(eta,exp(eta)/(1+exp(eta)),type="l ) 図 1.ロジスティック曲線 4

この S 字型曲線をロジスティック曲線と呼ぶロジスティック関数は二項分布と深く関係している例えばある病気にかかった場合その死亡率を p とするとその生存率は1 p となるこのようなあることが起る確率と起らない確率の比ジット(logit) 変換と呼ぶ η = p g( p) = log( ) 1 p p 1 p (オッズと呼ぶ)の対数変換をロロジスティック関数はオッズのロジット変換の逆関数である上記の式が表 1 の二項分布のリンク関数と同じであることに注意して欲しいロジスティック関数は経済データ解析に用いるのに都合がよい例えば携帯電話やインタ -ネットの普及率を考えた場合普及率が大きくなり飽和状態に近づくとその伸び率は小さくなり普及率が 100%( 確率 1)を超えることはあり得ないこのようなデータについて線形回帰分析を行うと両側に行くほど予測値と実測値との乖離が大きくなるそこでこのようなデータについてはロジスティック回帰分析が多く用いられている R では一般化線形モデル関数 glm の二項分布を用いてロジスティック回帰分析を行うことができるここで表 2 に示す日本のカラーテレビの普及率の例を用いて説明する表 2 カラーテレビの普及率年度普及率年度普及率年度普及率 1966 0.003 1973 0.758 1980 0.982 1967 0.016 1974 0.859 1981 0.985 1968 0.054 1975 0.903 1982 0.989 1969 0.139 1976 0.937 1983 0.988 1970 0.263 1977 0.954 1984 0.992 1971 0.423 1978 0.978 1972 0.611 1979 0.978 出処 : 回帰分析の基礎早川毅著朝倉出版 ( 経済企画庁調査局消費者動向調査による) > 年度 <-c(1966:1984) > 普及率 <-c(0.003,0.016,0.054,0.139,0.263,423,0.611,0.758,0.859,0.903,0.937,0.954,0.978,0.978, 0.982,0.985,0.989,0.988,0.992) > tv<-glm( 普及率 ~ 年度,family=binomial) 関数 glm による当てはめ値は fitted で返すことができる図 2 にカラーテレビの普及率の実測値と関数 glm を用いたロジスティック回帰モデルの予測値の折れ線プロットを示す 5

>plot( 年度, 普及率,type="l") >lines( 年度,fitted(tv),lty=2,col="red",lwd=2) >legend(1975,0.5,c(" 実測値 "," 予測値 "), col=1:2,lty=1:2) 関数 predict でリンク関数空間上の予測値を返すことができるただし次のように引数 type を指定すると fiitted と同じ結果が返される >predict(tv,type= response ) 関数 glm の要約の出力は関数 lm と同じく summary を用いる図 2 実測値と予測値の折れ線プロット (2) 2 値データのロジスティック回帰分析関数 glm の二項分布を用いて 2 値 (binary)になっている被説明変数を予測するモデルを構築することも可能であるここでは R の中のデータ ToothGrowth を用いて説明するデータ ToothGrowth は各々10 匹のギニアピッグ(モルモット)の造歯細胞 ( 歯 )の成長についてビタミン C の投与量 (0.5, 1, 2mg)を異なる摂取法 (オレンジジュースまたはアスコルビン酸 )で計測を行った 60 行 3 列の実験データである 3 変数のラベルを次に示す [,1] len 歯の長さ [,2] supp 摂取法 (VC 又は OJ) [,3] dose 投与量 (0.5, 1, 2mg) 通常ではこのデータは歯の長さが摂取法と投与量の影響を受けているかを分析するのに用いられているがここでは歯の長さと投与量を説明変数としどのような摂取法を用いたかを予測する例題の題材とするデータ ToothGrowth の中から 5 行をランダムサンプリングしたデータを次に示す 6

>data(toothgrowth) > samp<-sample(60,5) > ToothGrowth[samp,] len supp dose 50 27.3 OJ 1.0 53 22.4 OJ 2.0 11 16.5 VC 1.0 13 15.2 VC 1.0 32 21.5 OJ 0.5 関数 glm では被説明変数が 2 値の場合は引数 famaily に二項分布 binomial を指定する関数 glm による使用例を次に示す >attach(toothgrowth) >Tooth.glm<-glm(supp~len+dose, family=binomial) 結果の要約は summary で返されるがここでは省略するここで興味を持っているのは予測値がどのような形式であり実測値とどのような関係を持っているかである次に実測値と予測値の対応のサンプルを示す > 実測値 <-supp[samp] > 予測値 <-fitted(tooth.glm) > data.frame( 実測値, 予測値 [samp]) 実測値予測値.samp. 50 OJ 0.1015566 53 OJ 0.7212634 11 VC 0.5292075 13 VC 0.5971142 32 OJ 0.1201745 関数 glm では 2 値のカテゴリカルデータを1 0のダミー変数に自動的に置き換えて計算を行う返された予測値は確率データであり確率の値はダミー変数 1(ここでは VC)に対する予測確率であるよって得られた予測値の値が小さいとダミー変数 0(ここでは OJ)に対応するカテゴリを予測したことになる 2 値データであるので確率値 0.5 を境として 0.5 より大きければダミー変数 1 0.5 より小さければダミー変数 0であると見なすこともできる四捨五入関数 round を用いることで予測値を 0 1 で返すことができる > 予測値 1<-round( 予測値 ) > data.frame( 実測値, 予測値 1[samp]) 実測値予測値 1.samp. 50 OJ 0 53 OJ 1 11 VC 1 13 VC 1 7

32 OJ 0 次のように関数 teable を用いて実測値と予測値のクロス表を作成することができる > table(supp, 予測値 1) 予測値 1 supp 0 1 OJ 17 13 VC 7 23 返された実測値と予測値のクロス表から分かるようにカテゴリ OJ の場合は 30 の中の 17 が正しく予測され VC では 30 の中の 23 が正しく予測されているこのような回帰分析応用法は一種の 2 群判別分析として解釈することもできる関数 attach(toothgrowth)を用いた場合は ToothGrowth の解析が終ったら次のように関数 detach を用いて検索リストから切り離すことをお薦めする >detach(toothgrowth) 3. 分散分析と一般化線形モデル通常の分散分析は線形モデルである例えば一元配置の分散分析モデルは次のように被説明変数は平均と誤差の線形式で表し残差 εij は正規分布に従うと仮定している yij = μ i R では回帰モデルの結果から分散分析の結果を返すことができるここでは異なる 6 種類の農薬を散布し昆虫への薬剤噴霧の効果を調べた農業実験データ InsectSprays を用いることにするデータ InsectSprays は 2 変数 72 個の観測値を持つデータフレームである次にその 2 変数のラベルを示す [,1]count 昆虫の数 [,2]spray 噴霧剤の種類 (A,B,C,D,E,F) > data(insectsprays) > InsectSprays[1,] count spray 1 10 A 6 種類噴霧剤ごとの箱ひげ図を図 3 に示す図 3 から噴霧剤の種類によって殺虫効果が明らかに異なることが読み取られる + ε ij 8

図 3 InsectSprays の箱ひげ図次に関数 lm,glm の結果に関数 aov anova を用いた分散分析の例を示す結果から 3 種類の結果は基本的に同じであることが分かる >attach(insectsprays) >summary(aov(count~spray)) Df Sum Sq Mean Sq F value Pr(>F) spray 5 2668.83 533.77 34.702 < 2.2e-16 *** Residuals 66 1015.17 15.38 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 >anova(lm(count~spray)) Analysis of Variance Table Response: count Df Sum Sq Mean Sq F value Pr(>F) spray 5 2668.83 533.77 34.702 < 2.2e-16 *** Residuals 66 1015.17 15.38 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 >anova(glm(count~spray,family=gaussian),test="f") Analysis of Deviance Table Model: gaussian, link: identity Response: count Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev F Pr(>F) NULL 71 3684.0 spray 5 2668.8 66 1015.2 34.702 < 2.2e-16 *** 9

--- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 次に関数 glm の正規分布を用いた場合とポアソン分布を用いた場合の当てはめの良さについて比較してみる当てはめの良さの判断基準は AIC を用いる >AIC(glm(count~spray,family=gaussian)) [1] 408.8494 >AIC(glm(count~spray,family=poisson)) [1] 376.5892 AIC の値からポアソン分布を用いた場合の当てはめが正規分布を用いた場合より良いと判断される次にポアソン分布による分散分析の結果を示す >anova(glm(count~spray,family=poisson),test="f") Analysis of Deviance Table Model: poisson, link: log Response: count Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev F Pr(>F) NULL 71 409.04 spray 5 310.71 66 98.33 62.142 < 2.2e-16 *** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 >detach(insectsprays) このデータではいずれの方法でも Pr(>F)が非常に小さいので < 2.2e-16 ( 2.2 10 より小さい値 )が返されているしかし F 値はポアソン分布の場合は 62.142 で正規分布の 34.702 より大きく同じではないことが分かる 16 10

a be cx y

a y be cx

y a bx cx dx

yxx x y a bx y x

yafx fx fx i i fx n n y x if i f i

G G m l x x x m x x x l x x x m x x k x ij G k i j G m G l x l x n x n x mn x n x n x ln G G G G n n j j m j x j x j x mj j x j x j x l lj G G H Hx h x h x hn jn H G D G D D D H G D D H G DXX t S X X S

S XS

a a x a x a k x k yx x

f LD x x x x c x x x x c

n n n n n n n n n n n n

n n n

y y y y y y y

p ik k p ik p ik k p ik i k

n n

n n

p i p i i N ij p i p i i, j N N ij N ij j N N

図７パフォーマンスの結果画面 ④Runタブをアクティブ化し [Start]ボタンを押し計算を開始させる図４計算が終了した画面図８独立したパフォーマンスの結果画面 ⑤計算が終了したら Analyseタブをアクティブ化し [Experiment]ボタンをクリックする図５ Analyseタブの画面 Test outputのウィンドウに返された結果は [Save output]ボタンを用いて保存すること ⑥[Perform test]ボタンを押すとtest output ができるのウィンドウに結果が返される 2. KnowledgeFlowの環境と機能図６実行結果の画面 KnowledgeFlowとは WEKAのGUI 図１には KnowledgeFlowというボタンが設けられている KnowledgeFlow はデータの処理システムをコンポーネント component 構成要素部品アイコンを組み合わせて自由に構築するグラフィカル環境であるさらに図７のような操作を行うと図８ KnowledgeFlowは発展途上であり WEKA のような独立したパフォーマンスの結果を返の classifiers と filters のすべての機能すウィンドウが開かれるが実装されているが clustering の機能の実装は若干遅れているその一方 Explorer 2005年5月 No.134 ESTRELA 69

yfu u u yfu e u uw i x i n i y fu u u x i w i w i w i x x x x n w w w w n x i w i n uw i x i i fu

y k k w hk h h w ih x i h i

x x x q w w w q w jw jo net w j j w j j O net w j

x x z z x x x

x x x i x x i z z z z x x z x x x x z x x z x x z z z z x x z z a x a x x x a a mnx x x n X mn X mn x x x i x n x x x x j x n x x j x n i x i x i x ij x in m x m x m x mj x mn n kk n z a x a x a n x n z a x a x a n x n z j a j x a j x a nj x n z k a k x a k x a nk x n z z A nk X m n A n k z j Z m k Z m k X mn A nk Z mk X mn A nk

j k x a a a j a k x a a a j a k x i a i a i a ij a ik x n a n a n a nj a nk A nk z X m n i Z z z j j z k k z z z j z k z z z j z k i z i z i z ij z ik m z m z m z mj z mk Z mk j k q q

n kk n q

k X mn x x x i x n x x x x j x n x x j x n i x i x i x ij x in m x m x m x mj x mn f jk f k i A nkf mk

x i a f i a f i a k f ik e i x i a f i a f i a k f ik e i x ij a j f i a j f i a jk f ik e ij x in a n f i a n f i a nk f ik e in im k x i k x i k x ij x in A nk j j jk n n nk k f f f k f f f k i f j f j f jk m f n f n f nk F mk

Benzécri F rc x x x j x c f f f j f c f f f j f c i r f i f i f ij f ic f r f r f rj f rc f f f j f n f f f i f r n

F rc n Prc f ij P ij irjc n x x x j x c P P P j P c P P P j P c i r P i P ij P ic P i P rc P r P r P rj P rc P P P j P n FrcPrc Q Z t Z Q t ZZ t U V ij f ijf i f j n f i f j n p j p i Dc UDr V DcP jdrpi f ij f i f j n ijnn f i f j f ij f i f j n z ij n f i f j P P P i P r p ijp ip j p i p j p ijp ip j p i p j x x x j x c Z Z Z j Z c Z Z Z j Z c i r Z i Z i Z ij Z ic Z rc Z r Z r Z rj Z rc QZ t Z k k rankq rc r c k f ij f i f j n n i i j f i f j n i

m n i j d ij d ij ij

x x x k x n x x x k x n x x x k x n i j m X mn x i x i x ik x in x j x j x ik x in x m x m x mk x mn D mm j m d d i d m d d j d m i m d i d i d m d m d ij d im d mj n ed ij x ik x jk k cd ij x ik x jk n k n md ij p x ik x jk p k

d ij d ij d ji d ij d jk d ik x k ik x i x jk x j r ij r ij n n x k ik x i x k jk x j n n x k ik x jk ps ij ps ij n n x k ik x k jk rd ij r ij pd ij ps ij D m m Z m m d ij d ij d ij m m m m z ij d ij i m jm i jm

dij d ij d ij d ij

d ij d ij STRESS d ijd ij d ij STRESS d ijd ij d STRESS ij d ij d ij ij d ij ij d ij

x x x m x x x m x n x n x mn d c d m d m c m c m

d ij d ijk d ik d jk i j d ijk i d ik j d jk d ij d ik d jk

n i c i i j i j n i n i n i n k n j n j n j n k n k n i n j n i n j n i n j n k n i n j n i n j n i n j n k n i n j n k

j x j x j x j x jn k i k m i m i m i m in x j m c x j m c minx j m i i m i mt m ith tx ci tm j tin i c i m it in c htt r cr i ci t

h ci t c i x j h ci t t r c r i c i t c N c t t t T t T T j m

[ 連載 ]フリーソフトによるデータ解析マイニング第 31 回 Rとカーネル法サポートベクターマシン 1. カーネル法とは図 1 に示すように非線形データ構造を線形構造に変換することができれば線形データ解析手法で非線形データを容易に扱うことができる図 1 変換による線形化のイメージデータを変換することで非線形構造を線形構造に変換することが可能である例えば図 2(a)に示す 2 次元平面座標系 ( x, y ) 上の 4 つの点 A1(1,1) A2(1,-1) A3(-1,-1) A4(-1,1)を考えよう仮に A1 と A3 がひとつのクラス A2 と A4 がひとつのクラスだとすると平面上でクラスの境界線を一本の直線で引くことができないしかし新しい変数 z = xy を導入し 2 次元平面 ( x, y ) 上の 4 つの点を 3 次元空間 ( x, y, z )に射影すると A1(1,1,1) A2(1,-1,-1) A3(-1,-1,1) A4(-1,1,-1)になり両クラスは平面で切り分けることが可能である例えば, z = 0 の平面を境界面とすることができる図 2 データ写像の例 (a) (b) 図 1 では関数 φ(x) を用いて個体の特徴属性ベクトルについて変換を施している関数 φ(x) は通常高次元への写像関数で x を入力空間変換された F を特徴空間と呼ぶ従来のデータ解析方法では高い次元のデータを低次元に縮約して分析を行うその典型的

な方法としては主成分分析因子分析対応分析多次元尺度法などがあるデータを高い次元の特徴空間に射影すると非線形問題を線形問題に置き換えることが可能であるが計算量が増えるカーネル(kernel) 法はデータを高次元に射影し線形問題に置き換えると同時に計算量の問題を解決する技法であるカーネル法では射影された高次元のデータを直接計算するのではなく任意の個体 x, z を変換した φ (x) φ(z) の内積 φ( x), φ( z) のような処理を借りて間接的に高次元のデータについて計算処理を行うこのようなデータの変換と内積のような演算を組み合わせた関数をカーネル関数と呼び K( x, z) = φ( x), φ( z) のように表記するカーネルに関する厳密な定義やカーネル関数の性質などについては[1] [3] [4]が詳しいカーネル法を取り入れた幾つかのデータ解析方法が提案されている例えばカーネル主成分分析カーネル正準相関分析カーネルクラスター分析カーネル k 平均ほうカーネル回帰分析カーネル判別分析などがある本稿ではカーネル主成分分析とカーネル法による分類器サポートベクターマシンについて紹介する 2 カーネル主成分分析カーネル主成分分析 (KPCA; kernel principal component analysis)は非線形主成分分析とも呼ばれているカーネル主成分分析には幾つかのアルゴリズムが提案されているがその大まかな流れは次のステップを取る (1) カーネル関数 K( x, z) を決める (2) データから写像行列 K m m を求める (3) K m m の固有値と固有ベクトルを求める (4) 固有値と固有ベクトルを正規化する 2.1 パッケージと関数パッケージ kernlab には,カーネル主成分分析の関数 kpca があるパッケージ kernlab は CRAN ミラーサイトからダウンロードできる次に関数 kpca の書き式を示す kpca(x, kernel = "rbfdot", features=0, kpar= list(sigma = 0.1),...) 引数 x はマトリックスとデータフレーム形式のデータである引数 kernel では用いるカーネル関数を指定するデフォルトには"rbfdot"(ガウシアン)が指定されているがこれ以外にカーネル関数 "polydot"( 多項式 ) "vanilladot"( 線形 ),"tanhdot"(タンジェント) "laplacedot"(ラプラシアン) "besseldot"(ベッセル) "anovadot"(anova RBF) "splinedot"(スプライン)が用意されているこれらの関数は [2]に定義されている引数 features では求める主成分の数を指定するデフォルトはゼロになっている引数

kpar はカーネル関数に用いるパラメータを指定する結果としては固有値 eig(), 主成分ベクトル kpc() 用いたデータの主成分得点 pcv() 回転射影後の主成分得点 rotated()が返される 2.2 カーネル主成分分析の例す次にデータ iris を用いた主成分得点の散布図を作成するコマンドとその結果を図 3(a)に示 > library(kernlab) > x<-as.matrix(iris[,1:4]) > iris.kpc1<-kpca(x,kernel="rbfdot", features=2,kpar=list(sigma=0.1)) > plot(pcv(iris.kpc1), col=as.integer(iris[,5])) カーネル主成分析法は古典的主成分分析方法と異なり用いるカーネル関数および kpar のパラメータによって返される結果が異なるカーネル関数を kernel="polydot" kpar のパラメータを list(degree =1))にしたコマンドラインとその結果を図 3(b)に示す > iris.kpc2<-kpca(x,kernel="polydot", kpar= list(degree= 1),features=2) > plot(pcv(iris.kpc2), col=as.integer(iris[,5])) 図 3 iris のカーネル主成分得点散布図 (a) (b) このようにカーネル関数 kpar のパラメータは主成分の結果に大きく影響するどのようなカーネル関数を用い kpar のパラメータをどのような値にするべきであるかに関しては用いるデータに依存するので経験に頼るのが現状である

返された主成分ベクトル kpc()は新しいデータを当てはめるときの学習モデルとして用いる次に iris.kpc の結果を用いて新しいデータ new.data を当てはめる書き式を示す predict(kpc(iris.kpc),new.data) 3 サポートベクターマシンサポートベクターマシン(SVM; support vector machine)は分類と回帰問題を主としたデータ解析方法で広く知られるようになったのは 1990 年代の中頃であり Vapnik,V の貢献が高く評価されている support vector machine をサポートベクターマシンと訳するかそれともサポートベクトルマシンと訳するかについては議論があるが本稿ではサポートベクターマシンと呼ぶことにする SVM は高次元の分類問題が得意であると言われている SVM はカーネル関数の力を借りて線形分離可能な高次元の空間で線形的なアプローチで学習を行うアルゴリズムである学習データ集合 ( x 1, y1 ) ( x 2, y2 ) ( x m, ym )があるとするこの x = ( x1, x2, L, xn ) は個体の特徴ベクトル y は目的変数である y は回帰問題では数値分類問題ではクラスのラベルである通常の線形回帰と線形判別の問題では次に示す線形モデルを用いる. 図 4における点線上の個体をサポートベクターと呼ぶ y = p f (x) = w x i=1 i i + b 図 4 SVM のイメージ初期の SVM は 2 群線形分類器として提案されたが, 多くの改良が施されている.その 1 つが,カーネル法を用いた SVM であるカーネル法による SVM はカーネル関数を用いて次に示す線形関数で表されるが, 非線形分類器である

n f ( x) = β i K( xi, x) + b 式の最適化は特徴空間でクラス間のマージンを最大にするアプローチで行う[3][4]. i=1 3.1 パッケージと関数ここではパッケージ kernlab の中の SVM 関数 ksvm を紹介する関数 ksvm の書き式を次に示す ksvm(formula, data, kernel ="rbfdot", kpar=list(sigma = 0.1), type=null, cross = 0, ) 引数 formula はモデルに用いるデータの書き式 data は用いるデータ引数 kernel と kpar は前節で説明したカーネル関数と関数に用いるパラメータである引数 type では分類と回帰のタイプを指定するデフォルトは目的変数が質的データの場合は C-svc 分類法量的データの場合は eps-svr 回帰を行うように設定されている分類方法としては"nu-svc" "C-bsvc" 回帰方法としては"nu-svr" "eps-svr"が用意されている引数 cross では n 重交差確認法の n を指定するデフォルトはゼロになっているテストデータを訓練結果へ当てはめる関数は predict である 3.2 データと関数の使用例パッケージ kernlab には分類問題として面白いデータセット spam が用意されているデータセットは 4601 の電子メールを 58 項目に分けて記録したものである第 58 列がクラス情報 spam,nonspam で残りの 57 項目はメールの特徴を記録したものであるこの spam とは受け取りたくないのに届いた迷惑メールを指す > library(kernlab) > data(spam);dim(spam) [1] 4601 58 > table(spam[,58]) nonspam spam 2788 1813 返された結果から分かるようにデータは 1813 の spam メールと 2788 の nonspam メールにより構成されているデータセットの第 1 列から 48 列まではデータ spam の変数の名前に用いた文字列がメールに使用された頻度である.ただし num857 のように num***になっているのは,その数値 ***が現れた頻度である 49 列から 54 列までは記号 ; ( [! $ #の使用頻度 55 列から 57 列はメールに用いられた大文字の平均値大文字が連続使用された

最も長い文字列の文字数用いられた大文字の総数であるまずデータセット spam から訓練用データとテスト用データを作成するここではサンプリング方法を用いることにする同じサンプリング結果を再現するため乱数のシード( 種 )を関数 set.ssed で指定する用いるシードの番号は自由であるがここでは番号 50 を用いるこのシードを用いることにより読者のマシン上でも同じ乱数が得られるここでは訓練用データの個体数を 2500 にしその残りをテスト用とする > set.seed(50) > tr.num<-sample(4601,2500) > spam.train<-spam[tr.num,] > spam.test<-spam[-tr.num,] 訓練データを用いて学習を行いその結果に基づいて関数 predict を用いてテストを行うことにする > spam.svm <- ksvm(type~.,data=spam.train, kernel="rbfdot",kpar=list(sigma=0.01)) > spam.pre <- predict(spam.svm, spam.test[,-58]) > (spam.tab<-table(spam.test[,58], spam.pre)) spam.pre nonspam spam nonspam 1226 56 spam 96 723 > 1-sum(diag(spam.tab))/sum(spam.tab) [1] 0.0723465 ランダムサンプリングした 2500 のメールを用いて学習を行い残り 2101 のメールについてテストを行った結果誤判別 ( 識別 ) 率は約 0.0724 である学習データを用いて交差確認法で誤判別率などについて考察を行うこともできる交差確認法の n を 10 にしたコマンドラインとその結果を次に示す > (train.cro <- ksvm(type~.,data=spam.train,kernel="rbfdot",kpar=list(sigma=0.05), C=5,cross=10))

結果として学習のエラーと交差確認のエラーが返される返された交差確認のエラーは 0.082 であるこの値はテストデータを用いて行ったテストの結果 0.072 と大きい差がないこのように交差確認法を用いて作成したモデルの精度を把握することができる用いるデータが 2 変数で 2 クラスに分類する問題の場合は関数 plot を用いてカラフルな散布図を作成することができるデータ iris の一部分を用いた例のコマンド次に, 返される散布図を図 5に示す > set.seed(10) > y<-as.matrix(iris[51:150,5]) > iris1<-data.frame(iris[51:150,3:4],y) > ir.ksvm<- ksvm(y~.,data=iris1) > plot(ir.ksvm,data=iris1[,1:2]) > table(iris1$y,predict(ir.ksvm,iris1[,1:2])) versicolor virginica versicolor 48 2 virginica 3 47 図 5 irisのsvm 分類図 SVM classification plot 1.5 6 1.0 Petal.Length 5 4 0.5 0.0-0.5-1.0 3 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 Petal.Width -1.5

3.3 回帰分析のケーススタディ関数 ksvm による回帰分析の書き式は, 判別の問題と基本的には同じである. 関数 ksvm のパフォマンスを示すため, 多項式回帰を説明する際に作成した多項式曲線の人工データを用いることにする. > x1=seq(-10,10,0.1);set.seed(10) > y1=50*sin(x1)+x1^2+10*rnorm(length(x1),0,1) 説明変数を x1, 目的変数を y1 にした関数 ksvm の使用例のコマンドを次に示す. > xy.svm<-ksvm(x1,y1,epsilon=0.01,kpar=list(sigma=16)) > sy.pre<-predict(xy.svm,x1) > plot(x1,y1,type="l") > lines(x1,sy.pre,col="red",lty=2) > legend(locator(1),c(" 実測値 "," 予測値 "), lty=c(1,2),col=c(1,2)) 図 15.6 回帰問題における実測値と関数 ksvm の予測値 4 その他パッケージ kernlab にはデータの特徴を分析するアルゴリズム関数 kfa(kernel Feature Analysis) カーネルヘッビアン(Kernel Hebbian)アルゴリズムによる主成分分析関数 khc カーネル準相関分析関数 kcca 適合ベクターマシン関数 rvm(relevance Vector Machine)などがある現段階の関数 rvm は回帰分析のみが機能しているカーネル法は機械学習パターン分析の方法として研究応用が広がりつつあるカーネル法によるパターン分析に関しては[1]が詳しい SVM は狭義の分類と回帰問題だけではなく自然言語処理などへも応用されているカーネル法と SVM の基礎理論に関しては [3] [4]が詳しいまた SVM に関しては [5]がある. SVM はパッケージ klar e1071 にも実装されている

カーネル法は回帰平滑化や密度の推定などにも多く用いるパッケージ stats には平滑化に関する関数 kernel kernapply ksmooth 密度を推定する関数 density があるカーネル法による関数 ksmooth を用いたカーネル回帰平滑化の例のコマンドとその結果を次に示す >attach(cars) >plot(speed, dist) >lines(ksmooth(speed, dist, "normal", bandwidth=1.3), col=2) >lines(ksmooth(speed, dist, "normal", bandwidth=4), col=3,lty=2) >detach("cars") 図 6 関数 ksmooth によるカーネル回帰平滑化カーネル法による平滑化関数パッケージとしては KernSmooth ks がありパッケージ ade4 assist fields lattice splancs sandwich などにもカーネル法に関連する関数がある参考文献 [1] J.Shawe-Taylor and N. Cristianini (2004): Kernel Methods for Pattern Analysis, Cambridge. [2] Karatzoglou, A., Smola, A., hornik, K., Zeileis,A.(2004): kernlab-an S4 Package for Kernel Methods in R, Journal of statistical Software, Vol.11, Is.9, p.1-20. http://www.jstasoft.org [3] 麻生英樹, 津田宏治, 村田昇 (2003): パターン認識と学習の統計学新しい概念と手法, 岩波書店 [4] 大北剛訳 (2005): サポートベクターマシン入門, 共立出版 [5] 前田英作 (2001): 痛快!サポートベクトルマシン - 古くて新しいパターン認識手法 -, 情報処理学会誌, Vol.42, No.7, p.676-683

N m h B B h i i B B B Hxh B i Hxih i y i B

w i t T w ti y f t x t err t t w t i gw ti T Fx t fx t i

B

nnn

y n t y y y tk y t y t y t y tk y n y n

t y t y t y t y tk k y t y t y t y t y t y t

y y y n y n n y n t t y t y tk n C k y n t y tk tk R k C k C

C k f pfc k e ikf C C k kf C K y y y n C K n k p j C C k kf j k f j jnjn

y t ay t e t

t p t p y t a y t e t i a i i p p p pe t p a i

p y t y t y t y t e t

p q y t d d y t p d q p d q a i y t e t q b j e tj j p y t a i y t e t b j e tj i p i q j y t y t y t e t e t

p d q p d q p d q p d q p d q p d q p d q y t y t y t y t e t

d d p d q d

g t h t N g t h t h t h t i e ti q i q r h t i e tih tj i j g t h t

y t y t e t e t h t e th t p d q p d q

Y Y t p Y t Y t p Y n Y t A Y t A p Y t p E t A A A p E t

M t M t M t G t G t E t G t M t M t G t G t E t M MG GNP

ü

T ft tttt t t Tt F t t St StTttTFt t h t tttttt ft t St ht ft TtTt St St ht Ht t Ht htdtst

St t i t d i t i r i t i HtStHtSt Ht di ti t r i d i r i di HtStHt t i t r i k k F t StFt

St d i St t i t rr i i d i d i t i t rr i i d i S S t H H t se Sz ses Sz seh seh Hz H

h t h t t h tch t c t x x x m T h t r h t t hth tr m htht ht i x i i m M j PL j k krtj

j M t j R t j H H

g t t gt H gt g t i t gtgt S t gt

ftt Stt ht i i ftt t Stt htt t ft t t St ft ht St t ft t St t t ht t

X Y X X X X X X Y X Y suppxy XY M X Y XY X X XY suppxy confxy X suppx supp Y X Y X Y D t t t M I all i i i k t j I j I j I all X Y X Y I X Y Ø liftxy confxy suppy X Y X Y XY M supp X Y conf X Y lift X Y

D F I s D C k k L k k Ø C k apriori_genl k L k C k C kt subsetc k tc k

X Y X Y

AGCT A G C T A G C T A G C T A G C T A G C T A G C T A A A A G C T G C T C T G T G C ACGTATCG A G C T A G C T AGCT

A G C T R R A G Y Y C T GC G C A G C T A G C T AGCT R Y A G C T A A A A A A A A G C T G G G C C C G C T G G G C C C T T T T T T R R Y Y R Y R Y R Y GC

N n N n t Xx x x i x n X X x x x i x n X X x x x i x n X X Bx x x i x n X B

n x x x i x n x s n z z z i z n x i x z i s x x x i x n x n x x x i x n n u u u i u n u i x k x i x x x i x n B B B B B i i B sx i B i B biasx i B i B B B PrX x x x i B x x x

B t t t t F b F S Z

F b sf s F b c F b c ac a c a c Y y y y n X x x x m Y R X Y Y n Y Y X Y B B

a a a i a r b b b j b c n n n j n c n n n j n c n i n i r c n ij E ij i j E ij rc n ij i j E ij i j E ij i n i j n j n n i n j n n ij n ic n r n r n rj n rc n n nj nc E ij n in j n n n n i n r n re n ije ij E ij

n n n n n n n n n r c n G ij n ij i j E ij C V k n C n V n k n n n n n n n nn Y a a b n n n n n n n n n n n n n n C n n C n pn n C n n n n n n n n n n n b n n n n n n

p p p p pp p p n n n n n n n n

A P y y e y n n p np A y A A i A y i y i i e i P y i y i X

# KMLData<-paste('<?xml version="1.0" encoding="utf-8"?> ', '<kml xmlns="http://earth.google.com/kml/2.2">', '<Document>', '<name>poly.kml</name>', '<Placemark>', '<name>poly</name>', '<styleurl>#msn_ylw-pushpin</styleurl>', '<Polygon>', '<tessellate>1</tessellate>', '<altitudemode>relativetoground</altitudemode>', '<outerboundaryis>', '<LinearRing>', '<coordinates>', '139.7441431187752,35.66085751628702,50 139.7437770251541,35.65962355418283,50 139.7454177799272,35.65927100666627,50 139.7458381440458,35.66052699303938,50 139.7441431187752,35.66085751628702,50', '</coordinates>', '</LinearRing>', '</outerboundaryis>', '</Polygon>', '</Placemark>', '</Document>', '</kml>',sep='') KMLData2 <-paste("<?xml version= "1.0 " encoding= "UTF-8 "?>", <kml xmlns= http://earth.google.com/kml/2.1 ">", <Placemark>, <name>tokyotower</name>, <LookAt>, <longitude>139.4285</longitude>, <latitude>35.3874</latitude>, <altitude>0</altitude>, <range>316.3662914479763</range>, <tilt>0</tilt>, <heading>6.199453434125936</heading>, </LookAt>, <Point>, <coordinates>139.745408,35.658617,0</coordinates>, </Point>, </Placemark>, </kml>,sep="") GEI<-comCreateObject("GoogleEarth.ApplicationGE") cominvoke(gei,"loadkmldata",kmldata) cominvoke(gei,"loadkmldata",kmldata2)

s i s s s i s i s i s n q u q u q

f r c c c f r rn r r f r f r f

i x i x x n x x x n nx i i n

A A A A A A A A A A A A A N A i x i x i N N P A i x i N N P A i x i N N N

P A i P A i A j ij Φ P A i P A i A A Φ A A n i AB P A B B A P AB i A i A A A A n i n A i A A A A n i PABPAPBA PBPAB PAB PAB PB P AB PAB PAB PB PAPBA PB P A A P AB B A A A i A n A i P B n PA i PBA i i PA k PBA k PA B k n PA i i PBA i

n EXx i PXx i x i i EaXbYaEXbEY EXYEXEY XY ab i X X x x x i PXx i PA xi PXx i i VarXEXEX EX EX X n EX x i PXx i x i i VarX i X EX EXx i PXx i i X fx EXx fxdx VarXx fxdx

PXx n C x p x p n x n x p EXnpVarXnpp x x PXxpq x x p qp X EX pp VarX pp p i f i f i i x i x i PXxpq x x p qp n xx i p i i f i p x q p q P pp NP p i

x i f i NP i P i ė x PXxe x x e e n np ˇ x i x f i p i x PXxe x x xexx i p i i x

x PXxe x x x P NP P e NP x i f i NP i P i PaXb PaXb fxdx f x fxe x N b a

Y X N X fxe x x EX e VarX e e

X x x x n p f X fx fx x x x x n f X Lfx fx fx n fx n n i

c n i Np i i Np i c c n n n c N p p p c Np Np Np c N

n B B B n B k k n M m m Mm M B k m T k