< F55542D303996E291E894AD8CA9365F834E E95AA90CD836D815B>

Similar documents
Microsoft PowerPoint - 10問題発見6_クラスタ分析.pptx

<4D F736F F F696E74202D E291E889F08C888B5A964093FC96E55F35834E E95AA90CD2E >

Microsoft PowerPoint - 12問題発見6_クラスタ分析.pptx

Ł\”ƒ-2005

第90回日本感染症学会学術講演会抄録(I)

日本内科学会雑誌第98巻第4号

日本内科学会雑誌第97巻第7号

第13章  テキストのクラスター分析

抄録/抄録1    (1)V

研修コーナー

パーキンソン病治療ガイドライン2002

2 Part A B C A > B > C (0) 90, 69, 61, 68, 6, 77, 75, 20, 41, 34 (1) 8, 56, 16, 50, 43, 66, 44, 77, 55, 48 (2) 92, 74, 56, 81, 84, 86, 1, 27,

linearal1.dvi

LLG-R8.Nisus.pdf

日本内科学会雑誌第102巻第4号

ii 3.,. 4. F. (), ,,. 8.,. 1. (75% ) (25% ) =9 7, =9 8 (. ). 1.,, (). 3.,. 1. ( ).,.,.,.,.,. ( ) (1 2 )., ( ), 0. 2., 1., 0,.

O1-1 O1-2 O1-3 O1-4 O1-5 O1-6

x, y x 3 y xy 3 x 2 y + xy 2 x 3 + y 3 = x 3 y xy 3 x 2 y + xy 2 x 3 + y 3 = 15 xy (x y) (x + y) xy (x y) (x y) ( x 2 + xy + y 2) = 15 (x y)

放射線専門医認定試験(2009・20回)/HOHS‐05(基礎二次)

プログラム

II (No.2) 2 4,.. (1) (cm) (2) (cm) , (

画像類似度測定の初歩的な手法の検証

DVIOUT-HYOU

68 A mm 1/10 A. (a) (b) A.: (a) A.3 A.4 1 1


第86回日本感染症学会総会学術集会後抄録(I)

EBNと疫学

プログラム

ii 3.,. 4. F. (), ,,. 8.,. 1. (75%) (25%) =7 20, =7 21 (. ). 1.,, (). 3.,. 1. ().,.,.,.,.,. () (12 )., (), 0. 2., 1., 0,.

Microsoft PowerPoint - 基礎・経済統計6.ppt

:010_ :3/24/2005 3:27 PM :05/03/28 14:39


本文/目次(裏白)

2001 年度 『数学基礎 IV』 講義録

熊本県数学問題正解

数学概論I

(1) θ a = 5(cm) θ c = 4(cm) b = 3(cm) (2) ABC A A BC AD 10cm BC B D C 99 (1) A B 10m O AOB 37 sin 37 = cos 37 = tan 37

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Part () () Γ Part ,

x V x x V x, x V x = x + = x +(x+x )=(x +x)+x = +x = x x = x x = x =x =(+)x =x +x = x +x x = x ( )x = x =x =(+( ))x =x +( )x = x +( )x ( )x = x x x R

ad bc A A A = ad bc ( d ) b c a n A n A n A A det A A ( ) a b A = c d det A = ad bc σ {,,,, n} {,,, } {,,, } {,,, } ( ) σ = σ() = σ() = n sign σ sign(


(2000 )

ii 3.,. 4. F. ( ), ,,. 8.,. 1. (75% ) (25% ) =7 24, =7 25, =7 26 (. ). 1.,, ( ). 3.,...,.,.,.,.,. ( ) (1 2 )., ( ), 0., 1., 0,.

0.45m1.00m 1.00m 1.00m 0.33m 0.33m 0.33m 0.45m 1.00m 2


A A = a 41 a 42 a 43 a 44 A (7) 1 (3) A = M 12 = = a 41 (8) a 41 a 43 a 44 (3) n n A, B a i AB = A B ii aa

n 2 + π2 6 x [10 n x] x = lim n 10 n n 10 k x 1.1. a 1, a 2,, a n, (a n ) n=1 {a n } n=1 1.2 ( ). {a n } n=1 Q ε > 0 N N m, n N a m

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

/02/18

tnbp59-21_Web:P2/ky132379509610002944

R R 16 ( 3 )

住まい・まちづくり活動事例集

Microsoft Word - 補論3.2

学習指導要領

−g”U›ß™ö‡Æ…X…y…N…g…‰

Microsoft PowerPoint - A1.ppt [互換モード]

Microsoft PowerPoint - 14都市工学数理ノンパラ.pptx


23 1 Section ( ) ( ) ( 46 ) , 238( 235,238 U) 232( 232 Th) 40( 40 K, % ) (Rn) (Ra). 7( 7 Be) 14( 14 C) 22( 22 Na) (1 ) (2 ) 1 µ 2 4

18 I ( ) (1) I-1,I-2,I-3 (2) (3) I-1 ( ) (100 ) θ ϕ θ ϕ m m l l θ ϕ θ ϕ 2 g (1) (2) 0 (3) θ ϕ (4) (3) θ(t) = A 1 cos(ω 1 t + α 1 ) + A 2 cos(ω 2 t + α

[1.1] r 1 =10e j(ωt+π/4), r 2 =5e j(ωt+π/3), r 3 =3e j(ωt+π/6) ~r = ~r 1 + ~r 2 + ~r 3 = re j(ωt+φ) =(10e π 4 j +5e π 3 j +3e π 6 j )e jωt

N cos s s cos ψ e e e e 3 3 e e 3 e 3 e

) a + b = i + 6 b c = 6i j ) a = 0 b = c = 0 ) â = i + j 0 ˆb = 4) a b = b c = j + ) cos α = cos β = 6) a ˆb = b ĉ = 0 7) a b = 6i j b c = i + 6j + 8)

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

_0212_68<5A66><4EBA><79D1>_<6821><4E86><FF08><30C8><30F3><30DC><306A><3057><FF09>.pdf

Microsoft Word - Stattext13.doc

I II III IV V

1. 4cm 16 cm 4cm 20cm 18 cm L λ(x)=ax [kg/m] A x 4cm A 4cm 12 cm h h Y 0 a G 0.38h a b x r(x) x y = 1 h 0.38h G b h X x r(x) 1 S(x) = πr(x) 2 a,b, h,π

様々なミクロ計量モデル†

1990 IMO 1990/1/15 1:00-4:00 1 N N N 1, N 1 N 2, N 2 N 3 N 3 2 x x + 52 = 3 x x , A, B, C 3,, A B, C 2,,,, 7, A, B, C

03実習2・松井.pptx

(1.2) T D = 0 T = D = 30 kn 1.2 (1.4) 2F W = 0 F = W/2 = 300 kn/2 = 150 kn 1.3 (1.9) R = W 1 + W 2 = = 1100 N. (1.9) W 2 b W 1 a = 0

untitled

Note.tex 2008/09/19( )

Microsoft PowerPoint - 三次元座標測定 ppt

☆joshin_表_0524.ai

日本内科学会雑誌第96巻第7号

7 π L int = gψ(x)ψ(x)φ(x) + (7.4) [ ] p ψ N = n (7.5) π (π +,π 0,π ) ψ (σ, σ, σ )ψ ( A) σ τ ( L int = gψψφ g N τ ) N π * ) (7.6) π π = (π, π, π ) π ±

a n a n ( ) (1) a m a n = a m+n (2) (a m ) n = a mn (3) (ab) n = a n b n (4) a m a n = a m n ( m > n ) m n 4 ( ) 552

ビジネス統計 統計基礎とエクセル分析 正誤表

Probit , Mixed logit

橡00扉.PDF

snkp-14-2/ky347084220200019175

meiji_resume_1.PDF

untitled

DVIOUT-fujin

学習指導要領

τ τ

<4D F736F F F696E74202D208EC0926E89758A7782CC82BD82DF82CC939D8C765F939693FA2E >

The Physics of Atmospheres CAPTER :

1 s 1 H(s 1 ) N s 1, s,, s N H({s 1,, s N }) = N H(s k ) k=1 Z N =Tr {s1,,s N }e βh({s 1,,s N }) =Tr s1 Tr s Tr sn e β P k H(s k) N = Tr sk e βh(s k)

PowerPoint プレゼンテーション

x () g(x) = f(t) dt f(x), F (x) 3x () g(x) g (x) f(x), F (x) (3) h(x) = x 3x tf(t) dt.9 = {(x, y) ; x, y, x + y } f(x, y) = xy( x y). h (x) f(x), F (x

, ,279 w

広報みはま.indd

x 3 a (mod p) ( ). a, b, m Z a b m a b (mod m) a b m 2.2 (Z/mZ). a = {x x a (mod m)} a Z m 0, 1... m 1 Z/mZ = {0, 1... m 1} a + b = a +

ver Web

20~22.prt

バイオインフォマティクスⅠ

Transcription:

クラスター分析に関するノート 情報学部堀田敬介 2004/7/32008/7/ 改訂, 2009/0/3 改訂 ) 類似度の測定 まずはじめに, 各データ間の距離を測るが, 尺度毎に様々な方法が提案されている. 尺度に対応した類似度測定の距離を示す.. 間隔尺度による類似度の測定 n 個の対象があり, 各対象は間隔尺度で m 個の属性 変量 ) が測定されているとする. このとき対象 と q を x [x,,x m ] T, x q [x q,,x qm ] T とし, その距離 d q を測ることを考える. v u ユークリッド距離 d q t m x x q ) 2 ユークリッド平方距離 d q 重み付きユークリッド距離 d q マンハッタン距離 d q ミンコフスキー距離 d q k v u t m v u t m x x q ) 2 w x x q ) 2 x x q x x q k w,...,m) は重み weght) k ならばマンハッタン距離,k 2ならばユークリッド距離となる ) x x q キャンベラ距離 d q x + x q マハラノビス距離 d q x x q ) T Σ x x q ) Σ : 分散共分散行列 ) 内積 d q x T x q x x q 平均 0, 長さ x x q に標準化した際の Pearson の積率相関係数に一致 ) P m x x )x q x q ) Pearson の積率相関係数 r q q Pm q Pm x x ) 2 x q x q ) 2

問題発見技法 6. クラスター分析 2.2 順序尺度による類似度の測定 n 個の対象があり, 各対象は順序尺度で m 個の属性 変量 ) が測定されているとする. このとき対象 と q を x [x,,x m ] T, x q [x q,,x qm ] T とし, 各変量は各固体の順位をあらわす数値, 2,...,m) になっている場合, どの程度対応する変量の順位が一致しているかを, 順位相関係数 r q で計ることを考える. 6 Searman の順位相関係数 r q x x q ) 2 mm +)m ) 上記の順位尺度変量に Pearson の積率相関係数を計算した結果 ) Kendall の順位相関係数 r q F R nn )/2 Kendall の相関係数について,F, R はそれぞれ, F は, j {,...,m} :<j) R は, j {,...,m} :<j) x >x j かつ x q >x qj, または x <x j かつ x q <x qj の個数 x >x j かつ x q <x qj, または x <x j かつ x q >x qj の個数 となる. 即ち, 全変量対 nn )/2 個 ) に対する, 順序が同じ個数と逆になる個数の差の割合を意味する..3 名義尺度 [0,]- データ ) による類似度の測定 n 個の対象があり, 各対象は名義尺度で m 個の属性 変量 ) が測定されており, その値は または 0 であるとする. このとき対象, q 間の類似度 S q を測定することを考える. x [x,,x m ] T, x q [x q,,x qm ] T 類似比 the coeffcent of Jaccard) S q a/a + b + c) 一致係数 the smle matchng coeffcent) S q a + d)/m Russel-Rao 係数 S q a/m Rogers-Tanmoto 係数 S q a + d)/m + b + c) Hamann 係数 S q {a + d) b + c)}/m ただし, ファイ係数 S q ad bc)/{a + b)c + d)a + c)b + d)} 2 a P m k x x q b P m k x x q ) c P m k x )x q d P m k x ) x q ) 対象, q がともに をとる変量の個数対象 が,q が 0 をとる変量の個数対象 が 0,q が をとる変量の個数対象, q がともに 0 をとる変量の個数 であり, となる. a + b + c + d m

問題発見技法 6. クラスター分析 3.4 名義尺度による類似度の測定 変量間類似度 ) n 個の対象があり, 各対象は名義尺度で m 個の属性 変量 ) の度数が測定されているとする. 対象 の属性 の度数を n で表す. 対象 \ 属性... m f f f m....... f f f m....... n f n f n f nm 平均平方根一致係数 C グッドマン クラスカルの λ λ q χ 2 /χ 2 + nm) χ 2 は 2 つの変量間の独立性検定のためのカイ 2 乗統計量 ) max f + max f max f max f 2nm max f max f 2 クラスター分析 : クラスター化の方法 クラスター とクラスター q があわさり一つのクラスター t を作る場合, 新しくできるクラスター t と, q 以外のクラスタ達 r と呼ぼう ) との類似度 S tr を求める必要がある. 今, と q, と r,q と r の元の類似度をそれぞれ S q,s r, S qr としたときに, これらを基にして S tr を求める方法は, 例えば以下のようなものがある.. 最短距離法 nearest neghbor method) 2. 最長距離法 furthest neghbor method) 3. 群平均法 grou average method) 4. 重心法 centrod method) 5. 中央値法 medan method) 6. ウォード法 Ward method) ここでは, 上記 6 つのうち, 重心法とウォード法についてのみ記す. 2. 重心法 centrod method 重心法は, クラスタ間の類似度を各クラスタの重心間の距離で測る方法. クラスタ, q 間,, r 間,q, r 間, 及び t, r 間の類似度 S q,s r,s qr 及び S tr について, S tr n n + S r + n + S qr n n + ) 2 S q

問題発見技法 6. クラスター分析 4 と更新する方法である. クラスタ, q, r, 及び t の重心をそれぞれ x, x q, x r, 及び x t とし, クラスタ, q, r, 及び t 内の対象数をそれぞれ n,,, 及び とする. すると, n +, x t n n + x + n + x q である. クラスタ t, r 間のユークリッド平方距離を d 2 tr とすると, Ã d 2 tr x t x r 2 n x + n! 2 q x q x r n + n + n x x r )+ n 2 q x q x r ) n + n + n 2 n + ) 2 k x x r k 2 n 2 q + n + ) 2 k x q x r k 2 2n n + ) 2 x x r, x q x r ) n n + ) n n + ) 2 k x x r k 2 + n + ) n n + ) 2 k x q x r k 2 2n n + ) 2 x x r, x q x r ) n k x x r k 2 + k x q x r k 2 n n o n + n + n + ) 2 k x x r k 2 + k x q x r k 2 2 x x r, x q x r ) n k x x r k 2 + k x q x r k 2 n n + n + n + ) 2 k x x r ) x q x r )k 2 n k x x r k 2 + k x q x r k 2 n n + n + n + ) 2 k x x q k 2 n d 2 r + d 2 qr n n + n + n + ) 2 d2 q となる. 従って, 重心法では, 類似度 S tr としてユークリッド平方距離 d 2 tr をとったときのみ妥当. 2.2 ウォード法 Ward method クラスタ とクラスタ q を一つのクラスタ t に統合するとき, 他のクラスタ r との類似度 S tr を決める方法の一つ. クラスタ に属する対象 j を x j と表すことにする. x j x j. IR m x mj クラスタ 内の変動 D は D : n x j x ) 2 ただし x n x j n j j であり, 全クラスタ内変動 D は, クラスタ数を K として, D : K D で与えられる. またこのとき, D t D + D q + D q ただし D q n n + x x q ) 2

問題発見技法 6. クラスター分析 5 となる. なぜなら, n +, x t x tj n x j + n j t j j n n j x j + x qj j x qj n x + x q であることに注意すると, D t x tj x t ) 2 j {x 2 tj 2x tj x t + x 2 t } j n {x 2 j 2x j x t + x 2 t } + {x 2 qj 2x qj x t + x 2 t } j j n n n x j x ) 2 +2 x x j n x 2 2 x t x j + n x 2 t j j j + x qj x q ) 2 +2 x q x qj x 2 q 2 x t x qj + x 2 t } j j j n x j x ) 2 + x qj x q ) 2 j j n o + 2n x 2 n x 2 2n x x t + n x 2 t +2 x 2 q x 2 q 2 x q x t + x 2 t n o D + D q + n x 2 + x 2 q x 2 t D + D q + ½n x 2 + x 2q ³ ¾ n 2 x 2 +2n x x q + n 2 q x 2 q nt ½ nt n )n D + D q + x 2 n x x q + n ¾ t ) x 2 q n t D + D q + n x x q ) 2 n + D + D q + D q だからである. さて, ウォード法は, 全クラスタ内変動 D を最も小さくするのが好ましいとする方法, 即ち, 各反復のクラスタリング 例えば, q を統合して t にする ) について, その増分 例では D q ) を最小にすることを考える方法である. この増分 D q ) を類似度 S q とし, 類似度が最も小さいクラスタ同士を統合する. なお, 初期状態 すべてのクラスタが つの対象から構成されている状態 ) では, この値はユークリッド平方距離の 2 となる.

問題発見技法 6. クラスター分析 6 また, 類似度の更新は, 次式で与えられる. D tr ) S tr + + + x t x r ) 2 µ n à n 2 n 2 t ½ x + x q x r 2 x 2 + n2 q n 2 x 2 q + x 2 r + 2n t n 2 x x q 2n x x r 2 x q x r t n x 2 2 x x r + x 2 + n r )+ x 2 q 2 x q x r + x 2 r ) n x 2 +2 x x q + x 2 r n q ) t m m ) n x x r ) 2 + x q x r ) 2 n x x q ) 2 + n + + {n + ) D r + + ) D qr D q } n + + S r + + + S qr + S q!

問題発見技法 6. クラスター分析 7 2.3 6 つの方法を統合する式 G.N. Lance & W.T.Wllams による統一的に扱うための式. 各方法の違いを, パラメータ α, α q, β, γ) の違いで決定できると示した. 平方距離を使用する場合は 2 番目の式となる. Str α S r + α q S qr + βs q + γ S r S qr Str 2 α Sr 2 + α q Sqr 2 + βsq 2 + γ Sr 2 Sqr 2 平方距離用 ) ) 最短距離法 nearest neghbor method) α α q : 2, β : 0, γ : 2 S tr 2 S r + 2 S qr 2 S r S qr Sr for S r S qr, S qr for S r >S qr mn{s r,s qr } 2) 最長距離法 furthest neghbor method) α α q : 2, β : 0, γ : 2 S tr 2 S r + 2 S qr + 2 S r S qr Sr for S r S qr, S qr for S r <S qr max{s r,s qr } 3) 重心法 centrod method) 4) 中央値法 medan method) α : n, α q :, β n, γ : 0 S 2 tr n 2 t n Sr 2 + Sqr 2 n n 2 t S 2 q α α q : 2, β : 4, γ : 0 5) 群平均法 grou average method) 6) ウォード法 Ward method) S tr 2 S r + 2 S qr 4 S q α : n, α q :, β γ : 0 S 2 tr n S 2 r + S 2 qr α : n +, α q : +, β :, γ : 0 + + + S 2 tr n + Sr 2 + + Sqr 2 Sq 2 + + +