Microsoft PowerPoint - 5.pptx - PDF Free Download

5. サーチ 5-1. 線形探索 5-2.2 分探索 5-3. ハッシュ 1

サーチ問題入力 :n 個のデータ a, a,, an a n 0 1 1 ( ここで入力サイズはとします ) さらにキー k 出力 : k = a となる a があるときは i i となるがあるときはその位置 i,(0 i n 1) キーが存在しないとき -1 2

探索 ( サーチ ) 入力 : 5 3 8 1 4 13 9 2 配列 A A[0]A[1] A[i] A[n-1] キー 3 K 出力 : キーが存在 : キーを保持している配列のインデックス ( 添え字 ) 1 A[1] にキー K の値が保存されている 3

キーがない場合入力 : 5 3 8 1 4 13 9 2 配列 A A[0]A[1] A[i] A[n-1] キー 7 K 出力 : キーが存在しない : データがないことを意味する値 -1 4

サーチ問題の重要性実際に頻繁に利用される ( 検索も探索の応用である ) 多量のデータになるほど計算機を用いた探索が重要計算機が扱うデータ量は増加する一方である探索問題が益々重要 5

サーチアルゴリズムの種類線形探索素朴な探索技法 2 分探索理論的に最適な探索技法ハッシュ応用上重要な探索技法 6

5-1: 線形探索 ( 逐次探索 ) 7

線形探索方針配列の前方 ( 添え字の小さい方 ) からキーと一致するかを順に調べる配列の最後まで一致検査を行ったかをチェックするもし配列の最後までキーが存在しなければキーは存在しない最も直感的で素朴なアルゴリズムしかしこのアルゴリズムにも注意点がある 8

0 1 2 3 4 5 6 7 線形探索の動き 0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 A 5 3 8 1 4 13 9 2 K 1 K 1 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 A 5 3 8 1 4 13 9 2 K 1 K 1 一致 retun 3; 9

0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 線形探索の動き2 ( データが無い場合 ) 省略 K 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 A 5 3 8 1 4 13 9 2 K 7 K 7 retun -1; 10

線形探索の実現 /* 線形探索引数 : キー戻り値 : キーを保持している配列の添え字 */ 1. int linear_search(double k) 2. { 3. int i; /* カウンタ */ 4. for(i=0;i<n-1;i++) 5. { 6. if(a[i]==k) 7. { 8. return i; /* 添え字を戻す */ 9. } 10. } 11. return -1; /* 未発見 */ 12.} 11

命題 LS1(linear_seach の正当性 1) for ループが p 回繰り返される必要十分条件は A[0]~A[p-1] にキー kと同じ値が存在しない証明略命題 LS2(linear_seach の正当性 2) キーと同じ値が配列中に存在すれば添え字が最小のものが求められる証明略 12

線形探索の最悪計算量配列中にキーが存在しないときが最悪であるこのときは明らかにすべての配列が走査されるしたがって On ( ) 時間のアルゴリズム 13

線形探索の平均時間計算量配列中にキーが存在する場合を考えるキーが各位置に対して等確率で保持されていると仮定する 1 Tn ( ) = { 1 2 3 n} + + + n + n 1 1 1 nn ( + 1) = ( i + 1) = n i= 0 n 2 n + 1 = 2 n O( ) = O( n) 時間のアルゴリズム 14 n O( ) ( ) 2

線形探索の注意事項単純に前から走査するだけだと配列の範囲を超えて走査することがある ( 正当性ではキーの存在しない範囲を増加させているだけに注意する ) バッファーオーバーランというプログラムの不備である 15

危険なプログラム /* 危険な線形探索配列中にキーが存在しないときに終了しない */ 1. int linear_search(double k) 2. { 3. int i=0; /* カウンタ */ 4. while(a[i]!=k){ 5. i++; 6. } 7. return i; /* 添え字を返す */ 8. } 16

配列を超えて走査するバグ A[0] 5 3 A[7] 8 7 K 1 4 13 9 2 XXXX yyyyy zzzzz 17

番兵付の線形探索 18

番兵付の線形探索アィディア効果必ずキーが存在するように設定してから線形探索をおこなうバッファーオーバーランを無くせるバ比較回数を約半分に減らせる 19

番兵付き線形探索 ( キーがある場合 ) 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 1 A 5 3 8 1 4 13 9 2 8 1 K 1 書き込み K 1 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 A 5 3 8 1 4 13 9 2 1 A 5 3 8 1 4 13 9 2 1 一致 K 1 K 1 if(i<n)retun i; 20

番兵付き線系探索 ( キーが無い場合 ) 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 7 A 5 3 8 1 4 13 9 2 8 7 K 7 書き込み K 1 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 A 5 3 8 1 4 13 9 2 7 A 5 3 8 1 4 13 9 2 7 K 7 K 1 番兵と一致 if(i==n)retun -1; 21

番兵付線形探索の実現 /* 番兵付き線形探索 */ 1. int banpei_search(double k) 2. { 3. int i=0; /* カウンタ */ 4. A[n]=k; /* 番兵の設定 */ 5. while(a[i]!=k) { 6. i++; 7. } 8. } 9. if(i<n){ 10. return i; /* 見つかった場合 */ 11. }else { 12. return -1;/* 見つからない場合 */ 13. } 14.} 22

命題 BAN1(banpei_seach の停止性 ) banpei_searhは必ず停止するキーが必ず A[0]-A[n] 中に存在するのでステップ 5 の条件が必ず偽になり停止する 23

番兵付線形探索の計算量最悪時間計算量平均時間計算量ともに線形探索と同じである On ( ) 時間のアルゴリズム実は番兵を用いない線形探索では各繰り返しにおいて配列の範囲のチェックとキーのチェックの2 回の比較を行っている一方番兵を用いると配列の範囲チェックを毎回行う必要がないしたがって比較回数は約半分にすることができる 24

5-2:2 分探索 25

2 分探索アィディア配列をあらかじめソートしておけば一回の比較でキーの存在していない範囲を大幅に特定できる探索範囲の半分の位置を調べれば探索範囲を繰り返し事に半分にできる探索範囲が小さくなればサイズの小さい同じタイプの問題再帰的に処理すればよい探索範囲の大きさが1であればキーそのものかもとの配列にキーが存在しないかのどちらかである 26

0 1 2 3 4 5 6 7 2 分探索の動き ( キーが存在する場合 ) 0+ 2 mid = = 1 2 A 5 3 8 1 4 13 9 2 0 1 2 3 4 5 6 7 A 1 2 3 4 5 8 9 13 ソート A mid 0 1 2 3 4 5 6 7 1 2 3 4 5 8 9 13 0 + ( n 1) = = 3 2 K 3 k < Amid [ ] K 3 2+ 2 mid = = 2 2 Amid [ ] < 0 1 2 3 4 5 6 7 1 2 3 4 5 8 9 13 3 K retun 3; 27 k

0 + ( n 1) = = 3 2 2 分探索の動き ( キーが存在しない場合 ) 6+ 7 6 mid = = 6 Amid [ ] < 0 1 2 3 4 5 7 2 A 1 2 3 4 5 8 9 13 0 1 2 3 4 5 6 7 + mid A 1 2 3 4 5 8 9 13 k K 10 K 10 4+ 7 mid = = 5 2 Amid [ ] < k 7 + 7 mid = = 7 2 A [ mid ] < k 0 1 2 3 4 5 6 7 A 1 2 3 4 5 8 9 13 A 1 2 3 4 5 8 9 13 K 10 基礎 retun -1; K 10 28

A[left] 2 分探索の原理 A[mid] A[right] k left + right mid = 2 < Amid [ ] Amid [ ] < k A[left] A[mid-1] A[mid+1] A[right] Amid [ ] == k retun mid; 29

2 分探索のイメージ A[mid] A[left] key A[right] 小さい要素は左の部分配列に存在大きい要素は右の部分配列に存在 30

練習次の配列に対して各キーに対して 2 分探索で調べられる要素の系列を示せ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A 1 4 5 8 9 13 14 17 19 20 21 25 26 28 29 30 (1) key 5 (2) key 10 (3) key 20 (4) key 23 31

注意 : 2 分探索の注意アィディアは結構シンプルであるが実現には細心の注意が必要特に再帰を用いて実現する場合にはその境界部分やサイズ減少について吟味する必要がある一見正しく動作しているようにみえてもデータによっては無限に再帰呼び出しを行うことがある 32

2 分探索の実現 ( 繰り返し版 ) /* 繰り返し2 分探索引数 : キー戻り値 : キーを保持している配列の添え字 */ 1. int loop_b_search(double bl k){ 2. int left=0,right=n-1,mid; /* カウンタ */ 3. while(left<=right){ 4. mid=(left+right)/2; 5. if(a[mid]==k){return mid;}/* 発見 */ 6. if(k<a[mid]){right=mid-1;}/* 小さい方 */ 7. if(a[mid]<k){left=mid+1;}/* 大きい方 */ 8. } 9. return -1;/* キーは存在しない */ 10.} 33

命題 LBS1 (loop_b_search の正当性 1) A[left]~A[right] はソートしてあるとするこのとき次が成り立つ (1) (2) A[mid]<kであるならば A[left]~A[mid] にはkは存在しない K<A[mid] であるならば A[mid]~A[right] には k は存在しない 34

証明 (1) だけを証明する (2) も同様に証明できる A[ mid] < k i, left i mid,( A[ i] k) を証明するためにより強い命題として次を証明する A [ mid ] < k i, left i mid,( Ai [ ] < k ) まず配列がソートされているので A[left] ー A[mid] の部分配列もソートされているすなわち次式が成り立つ Aleft [ ] Aleft [ + 1] A[ mid 1] A[ mid] この式と Amid [ ] < k より明らかに命題は成り立つ QED 35

命題 LBS2 (loop_b_search の正当性 2) A[left]~A[right] はソートしてあるとするこのとき次が成り立つ (1) A[mid]<kであるときもしkが存在するならばA[mid+1]~A[right] 中に存在する (2)K<A[mid] であるときもしkが存在するならばA[left]~A[mid-1] 中に存在する証明命題 LBS1 より明らかに成り立つ QED 36

命題 LBS3 (loop_b_search の停止性 ) loop_b_search は停止する証明 while ループの 1 回の繰り返しにより次の 2 つのいずれかが成り立つ (1) キーが発見されてステップ 5 により終了する (2) 探索範囲が減少するすなわちすなわち right-leftが1は減少する特にここが重要 left + right mid = であるが 2 left mid としかいえないことに注意する必要がある QED 37

間違った実装 /* 繰り返し2 分探索 */ 1. int loop_ b_ search(double k){ 2. int left=0,right=n-1,mid; /* カウンタ */ 3. while(left<=right){ 4. mid=(left+right)/2; 5. if(a[mid]==k)return mid;/* 発見 */ 6. if(k<a[mid]){right=mid;}/* 小さい方 */ 7. if(a[mid]<k){left=mid;}/* 大きい方 */ 8. } 9. return -1;/* キーは存在しない */ 10.} この実装では繰り返しによってもサイズが減少するとは限らない 38

間違った実装が停止しない例 0 1 2 3 A 1 2 5 8 1 回目 left = 0 right = 3 2 回目 k 6 left = 1 right = 3 0+ 3 mid = = 1.5 = 1 2 1+ 3 mid = = 2 = 2 2 left = 2 right = 3 2+ 3 mid = = 25 2.5 = 2 2 lft left = 2 right iht= 3 2+ 3 mid = = 25 2.5 = 2 2 lf left = 2 right = 3 2+ 3 mid = = 25 2.5 = 2 2 39 3 回目 2 4 回目 2 5 回目

2 分探索の実現 ( 再帰版 ) /* 繰り返し 2 分探索 */ 1. int rec_b_search(double k,int left,int right){ 2. int mid; 3. if(left>right){/* 基礎 */ 4. return -1;/* 未発見 */ 5. }else{ /* 帰納 */ 6. mid=(left+right)/2; 7. if(a[mid]==k){/* 発見 */ 8. return mid; 9. }else if(k<a[mid]){/* 小さい方 */ 10. return rec_b_search(k,left,mid-1); 11. }else if(a[mid]<k){/* 大きい方 */ 12. return rec_b_search(k,mid+1,right); 13. } 14. } 15.} 40

rec_b_searchの正当性および停止性は loop_ b_ searchと同様に示すことができる 41

2 分探索の最悪計算量 K right left 探索される部分配列の大きさに注目する i 回の繰り返しの後の探索される部分配列の大きさを K と表す i このとき次の漸化式が成り立つ K 0 = n i = 0 K i 1 Ki i > 0 2 これより次式が成り立つ K i n i 2 42

最悪の場合でも部分配列の大きさが 1 以上でしか繰り返すことができない n 1 K = right left< i 2 i これより次のように計算できる 2 i n i log 2 n よって最悪時間計算量は O (log n) O 2 のアルゴリズムである 43

2 分探索の平均計算量平均時間計算量を求める要素数を n < 2 k としすべて等確率でキーが保持されていると仮定するこのとき最大反復回数は k = log 2 n である要素位置により下図のように計算時間を割り振ることができる 3 回 3 回 3 回 3 回 2 回 2 回 1 回 44

よって平均反復回数 En ( ) は次式を満たす ) 1 E ( n ) = 1+ 2 2+ 3 4+ 4 8 + 2 k n k 1 1 = ji 2 j { + i + i + i + ki 1 } n j = 1 1 2 En ( ) = 1 2 + 2 4 + 3 8 + 4 8 + + 2 k n 1 { E( n) = 11 i + 2i2 + 3i4 + 4i8 + + k i2 k 1 } n { i i i i k i } ) { } 1 En ( ) = 2 (1+ 2+ 4+ + 2 ) n { k k ki 1 } 45

1 En ( ) = nlog n ( n 1) n 1 En ( ) = logn 1+ n { } よって平均時間計算量も O(log (og n) のアルゴリズムである 2 46

5-3. ハッシュ 47

線形探索と 2 分探索の問題点線形探索多大な計算時間が必要 ( データの順序に制限はない ) 2 分探索 ( 検索時間は高速 ) 事前にソートが必要データの保存時とデータ検索時の両方にタ検索時の両方に効率的な手法が望まれるハッシュ法 48

ハッシュとは整数への写像を利用して高速な検索を可能とする技法探索データに割り当てられる整数値を配列の添え字に利用するハッシュを用いることによりほとんど定数とんど定数時間 ( O(1) () 時間 ) の高速な探索が可能となる 49

大きいデータハッシュのイメージ名前生年月日住所経歴写像ハッシュ関数 ( 範囲の制限された ) 整数 h 趣味 i = h ( x ) x 配列の添え字として利用配列 A A[0]A[1] [] [] A[i] [] A[j] A[M-1] ハッシュ表 ( ハッシュテーブル ) といいます 50

具体的なハッシュ関数ここでは名前データから具体的なハッシュ関数を構成する簡単のため名前はアルファベットの小文字の8 文字からなるものだけを考える入力 : x = xx x 1 2 8 ただし 1 i 8 に対して x { a,, b,} z ( 入力例 :suzuki,sato,kusakari, ) ハッシュ値 : h ( x ) {0,1,2,,,, M 1} i 配列の大きさ ( ハッシュ値の例 :3,7,11 ) 51

アスキーコードアスキーコードは以下に示すようにアルファベットへの整数値の割り当てである a ( 61 ) = (01100001) 2 = (97) 10 16 b (62) = (01100010) = (98) z 16 2 10 (7 A) = (01111010) = (122) これを利用する 16 2 10 このコードを次のように記述する ( ) code x i ( 例 : code() a = 97 ) 52

ハッシュ関数の構成例 1 8 h ( x ) = code ( x )(mod M) i i=1= 1 この余りを求める演算によりハッシュ値がつねに h ( x ) {0,1,2, 12, M 1} となることが保証される配列の添え字として利用可能 53

名前とハッシュ関数の構成例ここでは名前データから具体的なハッシュ関数を構成してみる簡単のため名前はアルファベットの小文字の8 文字からなるものだけを考える入力 : x = xx x 1 2 8 ただし 1 i 8 に対して x { a,, b,} z ( 入力例 :suzuki,sato,kusakari, ) ハッシュ値 : h ( x ) {0,1,2,,,, M 1} i ( ハッシュ値の例 :3,7,11 ) 54

ハッシュ値の計算例ここでは M=8 として具体的にハッシュ値を計算してみる ( ) ( ) h ( abe ) = code () a + code () b + code () e mod10 = 97 + 98 + 101 ( mod 8 ) = = 0 296 ( mod 8) hito ( ) = 105 + 116 + 111 (mod 8) = 4 55

A[0] A[1] このハッシュ値をもとに配列に保存する直接間接 abe B[0] B[1] abe A[2] B[2] A[3] B[3] [] A[4] A[5] ito B[4] B[5] ito A[6] B[6] A[7] B[7] 56

練習先ほどのハッシュ関数を用いて自分の苗字に対するハッシュ値と名前に対するハッシュ値を求めよ 57

ハッシュ関数の定義域と値域ここではハッシュ関数の定義域と値域を考察する先ほどのハッシュ関数ではハッシュ関数の定義域の大きさは 26 この定義域を名前空間と呼ぶこともあるともある S = { a,, b,} z 8 であるとすると名前空間はの8 個の直積で表されるすなわち 8 S S S = S が定義域になる 58

次に値域は {0,1,2,, M 1} であるがこれを M と書くこれらの記号を用いるとハッシュ関数は次のように記述される h : S 8 M x h( ( x ) x S 8, h( x) M 59

関数のイメージ S 8 M x h i 名前空間配列の添え字 60

ハッシュ関数への要求探索にはハッシュ値にしたがって検索されるハッシュ値からもとのデータ ( 名前 ) を得るには逆写像が必要全単射が望ましいが名前空間が膨大ながため実現困難 ( すくなくとも単射にしたい ) 8 8 S = 26 = 10 10 61

衝突定義域 > 値域のときには理論的には単射は存在しないしかしハッシュが適用される場面の多くでは定義域 >> 値域であるつまりハッシュ関数の多くは単射にならない値域の 1 つの要素に対して複数の定義域の要素が対応するこのことを衝突という衝突しているデータを同義語 ( シノニム ) ということもある 62

S 8 x 衝突のイメージ 1 h M x ' i 配列の添え字名前空間 63

衝突例ここでは M=8 として具体的にハッシュ値を計算してみる habe ( ) = 97 + 98 + 101 ( mod 8 ) = 0 hotu ( ) = 111 + 116 + 117 (mod 8) = 0 64

A[0] A[1] A[2] A[3] A[4] A[5] A[6] abe ito 衝突のイメージ 2 otu A[7] 65

衝突への対処衝突の関数に関係した関係ハッシュ関数の系列で対処する衝突の回数が次を用いる k 回のときハッシュ関数に hk ( x ) = h ( x ) + k (mod M ) 8 = code ( x ) + k (mod M ) i i= 1 66

8 i= 1 h0( x) = code( xi) + 0 (mod M) = h( x) h1( x ) = h ( x ) + 1 (mod M ) h2( x ) = h ( x ) + 2 (mod M ) このハッシュ関数を用いると abe-> okuの順にデータが挿入された場合次のように割り当てられる h0( 0 abe ) = 0 h0( otu ) = 0 h1( otu ) = 0+ 1 (mod8) = 1 67

A[0] A[1] A[2] abe otu 衝突の対処 otu A[3] A[4] A[5] A[6] ito 直感的にはハッシュ表 ( 配列 ) の最大要素と最小要素をつないだ循環の順で考え最初にあいている要素に挿入される A[7] 68

ハッシュ表への検索ハッシュ表への検索はキーに対してハッシュ表作成時と同じハッシュ関数を用いることで実現される y したがってキーをとすると次の関数によってハッシュ値を計算してハッシュ表を調べるハシ h ( y ) = h ( y ) + k (mod M ) k 8 = code ( y ) + k (mod M) i i= 1 69

A[0] A[1] A[2] ハッシュ表からの検索 abe otut abe key A[3] A[4] A[5] A[6] ito h0( abe ) = 0 A[7] 70

A[0] A[1] ハッシュ表からの検索 ( 衝突時 ) abe otu otu key A[2] A[3] A[4] A[5] A[6] ito h1( otu ) = 1 h0( otu ) = 0 A[7] 71

ハッシュテーブルへのデータ挿入 ( 衝突が無い場合 ) /* ハッシュへの挿入 */ 1. void input() 2. { 3. int h; /* ハッシュ値 */ 4. for(i=0;i<n;i++) 5. { 6. h=hash(x[i]); 7. A[h]=x[i]; 8. } 9. } 10. return; 11.} 72

ハッシュ表からの検索 ( 衝突が無い場合 ) /* ハッシュからの検索 */ 1. int search(double key) 2. { 3. int h; /* ハッシュ値 */ 4. h=hash(key); 5. if(a[h] が空 ) { 6. return -1;/* データ無し */ 7. } else if(a[h]==key) {/* 発見 */ 8. return h; 9. } 10. } 73

ハッシュテーブルへのデータ挿入 ( 衝突がある場合 ) /* ハッシュへの挿入 */ 1. void input() 2. { 3. int h=0; /* ハッシュ値 */ 4. for(i=0;i<n;i++){ 5. h=hash(x[i]); 6. while(a[h] が空でない ){/* 衝突の処理 */ 7. h=(h+1)%m; 8. } 9. A[h]=X[j]; 10. } 11. return; 12.} 74

ハッシュ表からの検索 ( 衝突がある場合 ) /* ハッシュからの検索 */ 1. int search(double key) 2. { 3. int h; /* ハッシュ値 */ 4. h=hash(key); 5. while(1){/* ハッシュ値による繰り返し検索 */ 6. if(a[h] が空 ){ 7. return -1;/* データ無し */ 8. }else if(a[h]!=key) {/* 衝突 */ 9. h=(h+1)%m; /* ハッシュ値の更新 */ 10. }else if(a[h]==key) {/* 発見 */ 11. return h; 12. } 13. } 14.} 75

ハッシュ法を用いた計算量 ( 衝突が定数回の場合 ) ハッシュ法の計算時間はハッシュ関数の計算に必要な計算量に依存するが通常ハッシュ関数の計算は入力サイズのnに依存していないことが多いしたがって次のように解析されるハッシュ表の作成は線形時間 ( On ( ) 時間 ) ハッシュ表からのキーの検索は定数時間の検索は定数時間 ( 時間 ) O(1) 76

衝突がある場合の平均計算量解析衝突がある場合は少し複雑な解析が必要である挿入の評価 : ここではまずサイズMのハッシュ表に N 個のデータを挿入する計算量を評価する今 k 番目のデータが既に挿入されているときに k+1 番目のデータを挿入することを考える A[0] [] A[1] [] A[i] [] A[j] A[M-1] k 個のデータが存在 77

h ( x ) = h ( x ) このとき 0 さがっている確率は k M により求められる最初のセルがふ h 1( x ) であるこのときはハッシュ関数により 2つ目のハッシュ値が求められるこのハッシュ値を添え字とするセルがふさがっている確率は M-1 個中の k-1 個がふさがっている確率であるので k 1 M 1 h0( x), h1( x),, hi 1( x) であるよってふさがっている確率は次式で表される kk ( 1) ( k i+ 1) k MM ( 1) ( M i 1) M + i までが全て 78

これは空きセルを見つけるための失敗の回数を表しているこれに空きセルの発見 ( 成功 ) の分の 1 回を考慮することで挿入位置を求める際に調べるセルの期待値が次式で表される M 1 kk ( 1) ( k i+ 1) kk ( 1) ( k i+ 1) 1 + i= 1 MM ( 1) ( M i + 1) MM ( 1) ( M i+ 1) i k 1 + i 1 M = k = 1 + M ( k < M ) k 1 M ( M k) + k = M k M = M k 79

これは 1 回の挿入の際に調べるセルの期待値であるしたがってハッシュ表に N 個のデータを挿入する際の総計算量は M M M dx = M log N 1 N 1 e 0 k= = 0 M k M x M N + 1 と表される A[0] A[1] A[i] A[j] A[M-1] A[0] A[1] A[i] A[j] A[M-1] 80

したがって一回あたりの平均計算量は次式で表される M M 1 log e ln(1 α) N M N + 1 α N ここで α はハッシュ表におけるデータの使用率である M 81

? 検索の評価 : A[0] A[1] A[i] A[j] A[M-1] データがハッシュ表に存在する場合は挿入時の 1 回当たりの平均計算量と同じである 1 ln(1 α) α データがハッシュ表に存在しない場合は N 個のデータが存在しているときの挿入位置をもとめる平均計算量と同じであり次式で表される i= 1 i N M 1 1 + M = M N 1 α 82

内部ハッシュ関数の計算量の概形 1 1 α 1 ln(1 α) α 83

ハッシュ法のまとめ衝突が少ない場合には極めて高速にデータの保存検索を行える On ( ) ハッシュ表の作成は線形時間 ( 時間 ) ハッシュ表からのキーの検索は定数時間 ( O(1) 時間 ) 衝突への対処を考慮する必要がある今回の説明で用いたようにすべてのデータを配列内部に保持する方法を内部ハッシュ ( クローズドハッシュ ) という間接参照を利用して衝突を処理する方法も考えられる ( この方法を外部ハッシュ法 ( オープンハッシュ ) という 84

衝突が生じる場合 : ハッシュ表の大きさ Mとしてはデータ数の 2 倍以上にしておくと検索時間は定数時間とみなせることが多いデータ数がハッシュ表の大きさに近いと性能は急激に劣化する特に M<N とするとアルゴリズムの停止性に問題が生じる 85

他のハッシュ関数キーのデータの2 乗和をバケットで割った余りここで l l 2 ( x ) = i (mod ) i= 0 h x M は名前の長さキーの 2 乗の中央ここで logm 2 x h( x) = (mod M) C 2 2 ( MC = K ) K は名前空間の上限値ビット部分 86