Microsoft PowerPoint - 5.pptx

Similar documents
Microsoft PowerPoint - algo ppt [互換モード]

PowerPoint Presentation

Microsoft PowerPoint - 2.ppt [互換モード]

データ構造

Microsoft PowerPoint - 05.pptx

情報処理Ⅰ

次に示す数値の並びを昇順にソートするものとする このソートでは配列の末尾側から操作を行っていく まず 末尾の数値 9 と 8 に着目する 昇順にソートするので この値を交換すると以下の数値の並びになる 次に末尾側から 2 番目と 3 番目の 1

Microsoft PowerPoint - ca ppt [互換モード]

Microsoft PowerPoint - 6.pptx

Microsoft PowerPoint - 13approx.pptx

(search: ) [1] ( ) 2 (linear search) (sequential search) 1

Microsoft PowerPoint - 9.pptx

PowerPoint Presentation

Microsoft PowerPoint - 9.pptx

Taro-再帰関数Ⅲ(公開版).jtd

Microsoft PowerPoint - 7.pptx

Microsoft PowerPoint - 7.pptx

プログラム言語及び演習Ⅲ

Taro-最大値探索法の開発(公開版

論理と計算(2)

Taro-再帰関数Ⅱ(公開版).jtd

Microsoft PowerPoint - 10.pptx

memo

論理と計算(2)

memo

データ構造

Microsoft Word - no103.docx

メソッドのまとめ

Microsoft PowerPoint - algo ppt [互換モード]

Microsoft PowerPoint - 10.ppt [互換モード]

文字列探索

PowerPoint Presentation

5after探索( )


始めに, 最下位共通先祖を求めるための関数 LcaDFS( int v ) の処理を記述する. この関数は値を返さない再帰的な void 関数で, 点 v を根とする木 T の部分木を深さ優先探索する. 整数の引数 v は, 木 T の点を示す点番号で, 配列 NodeSpace[ ] へのカーソル

memo

オートマトン 形式言語及び演習 1. 有限オートマトンとは 酒井正彦 形式言語 言語とは : 文字列の集合例 : 偶数個の 1 の後に 0 を持つ列からなる集合 {0, 110, 11110,

PowerPoint Presentation

Microsoft PowerPoint - ad11-09.pptx

ボルツマンマシンの高速化

PowerPoint プレゼンテーション

データ解析

Microsoft PowerPoint - mp11-02.pptx

PowerPoint プレゼンテーション

Microsoft PowerPoint - kougi11.ppt

今回のプログラミングの課題 ( 前回の課題で取り上げた )data.txt の要素をソートして sorted.txt というファイルに書出す ソート (sort) とは : 数の場合 小さいものから大きなもの ( 昇順 ) もしくは 大きなものから小さなもの ( 降順 ) になるよう 並び替えること

Microsoft PowerPoint - 5.ppt [互換モード]

構造化プログラミングと データ抽象

スライド 1

PowerPoint プレゼンテーション

Microsoft PowerPoint - 11.pptx

Microsoft PowerPoint - DA2_2017.pptx

Taro-再帰関数Ⅰ(公開版).jtd

簡単な検索と整列(ソート)

/*Source.cpp*/ #include<stdio.h> //printf はここでインクルードして初めて使えるようになる // ここで関数 average を定義 3 つの整数の平均値を返す double 型の関数です double average(int a,int b,int c){

プログラミング基礎

Microsoft Word - lec_student-chp3_1-representative

人工知能入門

模擬試験問題(第1章~第3章)

データ構造と  アルゴリズムⅠ

Microsoft Word - no11.docx

関数の呼び出し ( 選択ソート ) 選択ソートのプログラム (findminvalue, findandreplace ができているとする ) #include <stdiu.h> #define InFile "data.txt" #define OutFile "surted.txt" #def

Microsoft PowerPoint - 10.pptx

Microsoft PowerPoint - ppt-7.pptx

構造化プログラミングと データ抽象

program7app.ppt

プログラミングI第10回

情報数理学

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

バイオプログラミング第 1 榊原康文 佐藤健吾 慶應義塾大学理工学部生命情報学科

Microsoft Word - 13

2014年度 東京大・文系数学

040402.ユニットテスト

cp-7. 配列

C プログラミング演習 1( 再 ) 2 講義では C プログラミングの基本を学び 演習では やや実践的なプログラミングを通して学ぶ

フローチャートの書き方

メソッドのまとめ

Microsoft PowerPoint - 計算機言語 第7回.ppt

Microsoft PowerPoint - 1.ppt [互換モード]

関数の呼び出し ( 選択ソート ) 選択ソートのプログラム (findminvalue, findandreplace ができているとする ) #include <stdio.h> #define InFile "data.txt" #define OutFile "sorted.txt" #def

2015年度 2次数学セレクション(整数と数列)

INTRODUCTION TO ALGORITHMS

memo

Microsoft PowerPoint - C言語の復習(配布用).ppt [互換モード]

アルゴリズムとデータ構造

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

Java Scriptプログラミング入門 3.6~ 茨城大学工学部情報工学科 08T4018Y 小幡智裕

COMPUTING THE LARGEST EMPTY RECTANGLE

混沌系工学特論 #5

<4D F736F F D20438CBE8CEA8D758DC F0939A82C282AB2E646F63>

Microsoft PowerPoint - lec10.ppt

gengo1-8

4 分岐処理と繰返し処理 ( 教科書 P.32) プログラムの基本的処理は三つある. (1) 順次処理 : 上から下に順番に処理する ぶんきそろ (2) 分岐処理 : 条件が揃えば, 処理する はんぷく (3) 反復処理 : 条件が揃うまで処理を繰り返す 全てのプログラムは (1) から (3) の

Microsoft PowerPoint - IntroAlgDs pptx

明解Javaによるアルゴリズムとデータ構造

様々なミクロ計量モデル†

PowerPoint プレゼンテーション

Taro-2分探索木Ⅰ(公開版).jtd

PowerPoint プレゼンテーション

C#の基本2 ~プログラムの制御構造~

Transcription:

5. サーチ 5-1. 線形探索 5-2.2 分探索 5-3. ハッシュ 1

サーチ問題 入力 :n 個のデータ a, a,, an a n 0 1 1 ( ここで 入力サイズは とします ) さらに キー k 出力 : k = a となる a があるときは i i となるがあるときは その位置 i,(0 i n 1) キーが存在しないとき -1 2

探索 ( サーチ ) 入力 : 5 3 8 1 4 13 9 2 配列 A A[0]A[1] A[i] A[n-1] キー 3 K 出力 : キーが存在 : キーを保持している配列のインデックス ( 添え字 ) 1 A[1] にキー K の値が保存されている 3

キーがない場合 入力 : 5 3 8 1 4 13 9 2 配列 A A[0]A[1] A[i] A[n-1] キー 7 K 出力 : キーが存在しない : データがないことを意味する値 -1 4

サーチ問題の重要性 実際に頻繁に利用される ( 検索も 探索の応用である ) 多量のデータになるほど 計算機を用いた探索が重要 計算機が扱うデータ量は 増加する一方である 探索問題が益々重要 5

サーチアルゴリズムの種類 線形探索 素朴な探索技法 2 分探索 理論的に最適な探索技法 ハッシュ 応用上重要な探索技法 6

5-1: 線形探索 ( 逐次探索 ) 7

線形探索 方針 配列の前方 ( 添え字の小さい方 ) からキーと一致するかを順に調べる 配列の最後まで一致検査を行ったかをチェックする もし 配列の最後までキーが存在しなければ キーは存在しない 最も直感的で 素朴なアルゴリズム しかし このアルゴリズムにも注意点がある 8

0 1 2 3 4 5 6 7 線形探索の動き 0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 A 5 3 8 1 4 13 9 2 K 1 K 1 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 A 5 3 8 1 4 13 9 2 K 1 K 1 一致 retun 3; 9

0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 線形探索の動き2 ( データが無い場合 ) 省略 K 7 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 A 5 3 8 1 4 13 9 2 K 7 K 7 retun -1; 10

線形探索の実現 /* 線形探索引数 : キー戻り値 : キーを保持している配列の添え字 */ 1. int linear_search(double k) 2. { 3. int i; /* カウンタ */ 4. for(i=0;i<n-1;i++) 5. { 6. if(a[i]==k) 7. { 8. return i; /* 添え字を戻す */ 9. } 10. } 11. return -1; /* 未発見 */ 12.} 11

命題 LS1(linear_seach の正当性 1) for ループが p 回繰り返される必要十分条件は A[0]~A[p-1] にキー kと同じ値が存在しない 証明略 命題 LS2(linear_seach の正当性 2) キーと同じ値が配列中に存在すれば 添え字が最小のものが求められる 証明略 12

線形探索の最悪計算量 配列中にキーが存在しないときが最悪である このときは 明らかに すべての配列が走査される したがって On ( ) 時間のアルゴリズム 13

線形探索の平均時間計算量 配列中にキーが存在する場合を考える キーが 各位置に対して等確率で保持されていると仮定する 1 Tn ( ) = { 1 2 3 n} + + + n + n 1 1 1 nn ( + 1) = ( i + 1) = n i= 0 n 2 n + 1 = 2 n O( ) = O( n) 時間のアルゴリズム 14 n O( ) ( ) 2

線形探索の注意事項 単純に前から走査するだけだと 配列の範囲を超えて走査することがある ( 正当性では キーの存在しない範囲を増加させているだけに注意する ) バッファーオーバーランというプログラムの不備である 15

危険なプログラム /* 危険な線形探索配列中にキーが存在しないときに 終了しない */ 1. int linear_search(double k) 2. { 3. int i=0; /* カウンタ */ 4. while(a[i]!=k){ 5. i++; 6. } 7. return i; /* 添え字を返す */ 8. } 16

配列を超えて走査するバグ A[0] 5 3 A[7] 8 7 K 1 4 13 9 2 XXXX yyyyy zzzzz 17

番兵付の線形探索 18

番兵付の線形探索 アィディア 効果 必ずキーが存在するように設定してから 線形探索をおこなう バッファーオーバーランを無くせる バ 比較回数を約半分に減らせる 19

番兵付き線形探索 ( キーがある場合 ) 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 1 A 5 3 8 1 4 13 9 2 8 1 K 1 書き込み K 1 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 A 5 3 8 1 4 13 9 2 1 A 5 3 8 1 4 13 9 2 1 一致 K 1 K 1 if(i<n)retun i; 20

番兵付き線系探索 ( キーが無い場合 ) 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 A 5 3 8 1 4 13 9 2 7 A 5 3 8 1 4 13 9 2 8 7 K 7 書き込み K 1 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 A 5 3 8 1 4 13 9 2 7 A 5 3 8 1 4 13 9 2 7 K 7 K 1 番兵と一致 if(i==n)retun -1; 21

番兵付線形探索の実現 /* 番兵付き線形探索 */ 1. int banpei_search(double k) 2. { 3. int i=0; /* カウンタ */ 4. A[n]=k; /* 番兵の設定 */ 5. while(a[i]!=k) { 6. i++; 7. } 8. } 9. if(i<n){ 10. return i; /* 見つかった場合 */ 11. }else { 12. return -1;/* 見つからない場合 */ 13. } 14.} 22

命題 BAN1(banpei_seach の停止性 ) banpei_searhは必ず停止する キーが必ず A[0]-A[n] 中に存在するのでステップ 5 の条件が必ず偽になり停止する 23

番兵付線形探索の計算量 最悪時間計算量 平均時間計算量ともに 線形探索と同じである On ( ) 時間のアルゴリズム 実は 番兵を用いない線形探索では 各繰り返しにおいて 配列の範囲のチェックとキーのチェックの2 回の比較を行っている 一方 番兵を用いると 配列の範囲チェックを毎回行う必要がない したがって 比較回数は約半分にすることができる 24

5-2:2 分探索 25

2 分探索 アィディア 配列をあらかじめソートしておけば 一回の比較でキーの存在していない範囲を大幅に特定できる 探索範囲の半分の位置を調べれば 探索範囲を繰り返し事に半分にできる 探索範囲が小さくなれば サイズの小さい同じタイプの問題 再帰的に処理すればよい 探索範囲の大きさが1であれば キーそのものか もとの配列にキーが存在しないか のどちらかである 26

0 1 2 3 4 5 6 7 2 分探索の動き ( キーが存在する場合 ) 0+ 2 mid = = 1 2 A 5 3 8 1 4 13 9 2 0 1 2 3 4 5 6 7 A 1 2 3 4 5 8 9 13 ソート A mid 0 1 2 3 4 5 6 7 1 2 3 4 5 8 9 13 0 + ( n 1) = = 3 2 K 3 k < Amid [ ] K 3 2+ 2 mid = = 2 2 Amid [ ] < 0 1 2 3 4 5 6 7 1 2 3 4 5 8 9 13 3 K retun 3; 27 k

0 + ( n 1) = = 3 2 2 分探索の動き ( キーが存在しない場合 ) 6+ 7 6 mid = = 6 Amid [ ] < 0 1 2 3 4 5 7 2 A 1 2 3 4 5 8 9 13 0 1 2 3 4 5 6 7 + mid A 1 2 3 4 5 8 9 13 k K 10 K 10 4+ 7 mid = = 5 2 Amid [ ] < k 7 + 7 mid = = 7 2 A [ mid ] < k 0 1 2 3 4 5 6 7 A 1 2 3 4 5 8 9 13 A 1 2 3 4 5 8 9 13 K 10 基礎 retun -1; K 10 28

A[left] 2 分探索の原理 A[mid] A[right] k left + right mid = 2 < Amid [ ] Amid [ ] < k A[left] A[mid-1] A[mid+1] A[right] Amid [ ] == k retun mid; 29

2 分探索のイメージ A[mid] A[left] key A[right] 小さい要素は左の部分配列に存在 大きい要素は右の部分配列に存在 30

練習 次の配列に対して 各キーに対して 2 分探索で調べられる要素の系列を示せ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 A 1 4 5 8 9 13 14 17 19 20 21 25 26 28 29 30 (1) key 5 (2) key 10 (3) key 20 (4) key 23 31

注意 : 2 分探索の注意 アィディアは 結構シンプルであるが 実現には細心の注意が必要 特に 再帰を用いて実現する場合には その境界部分やサイズ減少について吟味する必要がある 一見 正しく動作しているようにみえても データによっては無限に再帰呼び出しを行うことがある 32

2 分探索の実現 ( 繰り返し版 ) /* 繰り返し2 分探索引数 : キー戻り値 : キーを保持している配列の添え字 */ 1. int loop_b_search(double bl k){ 2. int left=0,right=n-1,mid; /* カウンタ */ 3. while(left<=right){ 4. mid=(left+right)/2; 5. if(a[mid]==k){return mid;}/* 発見 */ 6. if(k<a[mid]){right=mid-1;}/* 小さい方 */ 7. if(a[mid]<k){left=mid+1;}/* 大きい方 */ 8. } 9. return -1;/* キーは存在しない */ 10.} 33

命題 LBS1 (loop_b_search の正当性 1) A[left]~A[right] はソートしてあるとする このとき 次が成り立つ (1) (2) A[mid]<kであるならば A[left]~A[mid] にはkは存在しない K<A[mid] であるならば A[mid]~A[right] には k は存在しない 34

証明 (1) だけを証明する (2) も同様に証明できる A[ mid] < k i, left i mid,( A[ i] k) を証明するために より強い命題として次を証明する A [ mid ] < k i, left i mid,( Ai [ ] < k ) まず 配列がソートされているので A[left] ー A[mid] の部分配列もソートされている すなわち 次式が成り立つ Aleft [ ] Aleft [ + 1] A[ mid 1] A[ mid] この式と Amid [ ] < k より 明らかに命題は成り立つ QED 35

命題 LBS2 (loop_b_search の正当性 2) A[left]~A[right] はソートしてあるとする このとき 次が成り立つ (1) A[mid]<kであるとき もしkが存在するならばA[mid+1]~A[right] 中に存在する (2)K<A[mid] であるとき もしkが存在するならばA[left]~A[mid-1] 中に存在する 証明 命題 LBS1 より明らかに成り立つ QED 36

命題 LBS3 (loop_b_search の停止性 ) loop_b_search は停止する 証明 while ループの 1 回の繰り返しにより 次の 2 つのいずれかが成り立つ (1) キーが発見されて ステップ 5 により終了する (2) 探索範囲が減少する すなわち すなわち right-leftが1は減少する 特に ここが重要 left + right mid = であるが 2 left mid としかいえないことに注意する必要がある QED 37

間違った実装 /* 繰り返し2 分探索 */ 1. int loop_ b_ search(double k){ 2. int left=0,right=n-1,mid; /* カウンタ */ 3. while(left<=right){ 4. mid=(left+right)/2; 5. if(a[mid]==k)return mid;/* 発見 */ 6. if(k<a[mid]){right=mid;}/* 小さい方 */ 7. if(a[mid]<k){left=mid;}/* 大きい方 */ 8. } 9. return -1;/* キーは存在しない */ 10.} この実装では 繰り返しによってもサイズが減少するとは限らない 38

間違った実装が停止しない例 0 1 2 3 A 1 2 5 8 1 回目 left = 0 right = 3 2 回目 k 6 left = 1 right = 3 0+ 3 mid = = 1.5 = 1 2 1+ 3 mid = = 2 = 2 2 left = 2 right = 3 2+ 3 mid = = 25 2.5 = 2 2 lft left = 2 right iht= 3 2+ 3 mid = = 25 2.5 = 2 2 lf left = 2 right = 3 2+ 3 mid = = 25 2.5 = 2 2 39 3 回目 2 4 回目 2 5 回目

2 分探索の実現 ( 再帰版 ) /* 繰り返し 2 分探索 */ 1. int rec_b_search(double k,int left,int right){ 2. int mid; 3. if(left>right){/* 基礎 */ 4. return -1;/* 未発見 */ 5. }else{ /* 帰納 */ 6. mid=(left+right)/2; 7. if(a[mid]==k){/* 発見 */ 8. return mid; 9. }else if(k<a[mid]){/* 小さい方 */ 10. return rec_b_search(k,left,mid-1); 11. }else if(a[mid]<k){/* 大きい方 */ 12. return rec_b_search(k,mid+1,right); 13. } 14. } 15.} 40

rec_b_searchの正当性および停止性は loop_ b_ searchと同様に示すことができる 41

2 分探索の最悪計算量 K right left 探索される部分配列の大きさに注目する i 回の繰り返しの後の探索される部分配列の大きさを K と表す i このとき次の漸化式が成り立つ K 0 = n i = 0 K i 1 Ki i > 0 2 これより 次式が成り立つ K i n i 2 42

最悪の場合でも 部分配列の大きさが 1 以上でしか繰り返すことができない n 1 K = right left< i 2 i これより 次のように計算できる 2 i n i log 2 n よって 最悪時間計算量は O (log n) O 2 のアルゴリズムである 43

2 分探索の平均計算量 平均時間計算量を求める 要素数を n < 2 k とし すべて等確率でキーが保持されていると仮定する このとき 最大反復回数は k = log 2 n である 要素位置により下図のように計算時間を割り振ることができる 3 回 3 回 3 回 3 回 2 回 2 回 1 回 44

よって 平均反復回数 En ( ) は次式を満たす ) 1 E ( n ) = 1+ 2 2+ 3 4+ 4 8 + 2 k n k 1 1 = ji 2 j { + i + i + i + ki 1 } n j = 1 1 2 En ( ) = 1 2 + 2 4 + 3 8 + 4 8 + + 2 k n 1 { E( n) = 11 i + 2i2 + 3i4 + 4i8 + + k i2 k 1 } n { i i i i k i } ) { } 1 En ( ) = 2 (1+ 2+ 4+ + 2 ) n { k k ki 1 } 45

1 En ( ) = nlog n ( n 1) n 1 En ( ) = logn 1+ n { } よって 平均時間計算量も O(log (og n) のアルゴリズムである 2 46

5-3. ハッシュ 47

線形探索と 2 分探索の問題点 線形探索 多大な計算時間が必要 ( データの順序に制限はない ) 2 分探索 ( 検索時間は高速 ) 事前にソートが必要 データの保存時 とデータ検索時の両方にタ検索時の両方に効率的な手法が望まれる ハッシュ法 48

ハッシュとは 整数への写像を利用して 高速な検索を可能とする技法 探索データに割り当てられる整数値を配列の添え字に利用する ハッシュを用いることにより ほとんど定数とんど定数時間 ( O(1) () 時間 ) の高速な探索が可能となる 49

大きいデータ ハッシュのイメージ 名前 生年月日 住所 経歴 写像ハッシュ関数 ( 範囲の制限された ) 整数 h 趣味 i = h ( x ) x 配列の添え字として利用 配列 A A[0]A[1] [] [] A[i] [] A[j] A[M-1] ハッシュ表 ( ハッシュテーブル ) といいます 50

具体的なハッシュ関数 ここでは 名前データから具体的なハッシュ関数を構成する 簡単のため 名前はアルファベットの小文字の8 文字からなるものだけを考える 入力 : x = xx x 1 2 8 ただし 1 i 8 に対して x { a,, b,} z ( 入力例 :suzuki,sato,kusakari, ) ハッシュ値 : h ( x ) {0,1,2,,,, M 1} i 配列の大きさ ( ハッシュ値の例 :3,7,11 ) 51

アスキーコード アスキーコードは 以下に示すように アルファベットへの整数値の割り当てである a ( 61 ) = (01100001) 2 = (97) 10 16 b (62) = (01100010) = (98) z 16 2 10 (7 A) = (01111010) = (122) これを利用する 16 2 10 このコードを 次のように記述する ( ) code x i ( 例 : code() a = 97 ) 52

ハッシュ関数の構成例 1 8 h ( x ) = code ( x )(mod M) i i=1= 1 この余りを求める演算により ハッシュ値がつねに h ( x ) {0,1,2, 12, M 1} となることが保証される 配列の添え字として利用可能 53

名前とハッシュ関数の構成例 ここでは 名前データから具体的なハッシュ関数を構成してみる 簡単のため 名前はアルファベットの小文字の8 文字からなるものだけを考える 入力 : x = xx x 1 2 8 ただし 1 i 8 に対して x { a,, b,} z ( 入力例 :suzuki,sato,kusakari, ) ハッシュ値 : h ( x ) {0,1,2,,,, M 1} i ( ハッシュ値の例 :3,7,11 ) 54

ハッシュ値の計算例 ここでは M=8 として具体的にハッシュ値を計算してみる ( ) ( ) h ( abe ) = code () a + code () b + code () e mod10 = 97 + 98 + 101 ( mod 8 ) = = 0 296 ( mod 8) hito ( ) = 105 + 116 + 111 (mod 8) = 4 55

A[0] A[1] このハッシュ値をもとに配列に保存する 直接間接 abe B[0] B[1] abe A[2] B[2] A[3] B[3] [] A[4] A[5] ito B[4] B[5] ito A[6] B[6] A[7] B[7] 56

練習 先ほどのハッシュ関数を用いて自分の苗字に対するハッシュ値と 名前に対するハッシュ値を求めよ 57

ハッシュ関数の定義域と値域 ここでは ハッシュ関数の定義域と値域を考察する 先ほどの ハッシュ関数では ハッシュ関数の定義域の大きさは 26 この定義域を名前空間と呼ぶこともある ともある S = { a,, b,} z 8 である とすると 名前空間は の8 個の直積で表される すなわち 8 S S S = S が定義域になる 58

次に値域は {0,1,2,, M 1} であるが これを M と書く これらの記号を用いると ハッシュ関数は次のように記述される h : S 8 M x h( ( x ) x S 8, h( x) M 59

関数のイメージ S 8 M x h i 名前空間 配列の添え字 60

ハッシュ関数への要求 探索には ハッシュ値にしたがって 検索される ハッシュ値からもとのデータ ( 名前 ) を得るには 逆写像が必要 全単射が望ましいが 名前空間が膨大ながため実現困難 ( すくなくとも 単射にしたい ) 8 8 S = 26 = 10 10 61

衝突 定義域 > 値域 のときには 理論的には単射は存在しない しかし ハッシュが適用される場面の多くでは 定義域 >> 値域 である つまり ハッシュ関数の多くは単射にならない 値域の 1 つの要素に対して 複数の定義域の要素が対応する このことを 衝突という 衝突しているデータを同義語 ( シノニム ) ということもある 62

S 8 x 衝突のイメージ 1 h M x ' i 配列の添え字 名前空間 63

衝突例 ここでは M=8 として具体的にハッシュ値を計算してみる habe ( ) = 97 + 98 + 101 ( mod 8 ) = 0 hotu ( ) = 111 + 116 + 117 (mod 8) = 0 64

A[0] A[1] A[2] A[3] A[4] A[5] A[6] abe ito 衝突のイメージ 2 otu A[7] 65

衝突への対処 衝突の関数に関係した 関係ハッシュ関数の系列で対処する 衝突の回数が次を用いる k 回のとき ハッシュ関数に hk ( x ) = h ( x ) + k (mod M ) 8 = code ( x ) + k (mod M ) i i= 1 66

8 i= 1 h0( x) = code( xi) + 0 (mod M) = h( x) h1( x ) = h ( x ) + 1 (mod M ) h2( x ) = h ( x ) + 2 (mod M ) このハッシュ関数を用いると abe-> okuの順にデータが挿入された場合 次のように割り当てられる h0( 0 abe ) = 0 h0( otu ) = 0 h1( otu ) = 0+ 1 (mod8) = 1 67

A[0] A[1] A[2] abe otu 衝突の対処 otu A[3] A[4] A[5] A[6] ito 直感的には ハッシュ表 ( 配列 ) の最大要素と最小要素をつないだ循環の順で考え 最初にあいている要素に挿入される A[7] 68

ハッシュ表への検索 ハッシュ表への検索は キーに対して ハッシュ表作成時と同じハッシュ関数を用いることで実現される y したがって キーを とすると 次の関数によって ハッシュ値を計算して ハッシュ表を調べる ハシ h ( y ) = h ( y ) + k (mod M ) k 8 = code ( y ) + k (mod M) i i= 1 69

A[0] A[1] A[2] ハッシュ表からの検索 abe otut abe key A[3] A[4] A[5] A[6] ito h0( abe ) = 0 A[7] 70

A[0] A[1] ハッシュ表からの検索 ( 衝突時 ) abe otu otu key A[2] A[3] A[4] A[5] A[6] ito h1( otu ) = 1 h0( otu ) = 0 A[7] 71

ハッシュテーブルへのデータ挿入 ( 衝突が無い場合 ) /* ハッシュへの挿入 */ 1. void input() 2. { 3. int h; /* ハッシュ値 */ 4. for(i=0;i<n;i++) 5. { 6. h=hash(x[i]); 7. A[h]=x[i]; 8. } 9. } 10. return; 11.} 72

ハッシュ表からの検索 ( 衝突が無い場合 ) /* ハッシュからの検索 */ 1. int search(double key) 2. { 3. int h; /* ハッシュ値 */ 4. h=hash(key); 5. if(a[h] が空 ) { 6. return -1;/* データ無し */ 7. } else if(a[h]==key) {/* 発見 */ 8. return h; 9. } 10. } 73

ハッシュテーブルへのデータ挿入 ( 衝突がある場合 ) /* ハッシュへの挿入 */ 1. void input() 2. { 3. int h=0; /* ハッシュ値 */ 4. for(i=0;i<n;i++){ 5. h=hash(x[i]); 6. while(a[h] が空でない ){/* 衝突の処理 */ 7. h=(h+1)%m; 8. } 9. A[h]=X[j]; 10. } 11. return; 12.} 74

ハッシュ表からの検索 ( 衝突がある場合 ) /* ハッシュからの検索 */ 1. int search(double key) 2. { 3. int h; /* ハッシュ値 */ 4. h=hash(key); 5. while(1){/* ハッシュ値による繰り返し検索 */ 6. if(a[h] が空 ){ 7. return -1;/* データ無し */ 8. }else if(a[h]!=key) {/* 衝突 */ 9. h=(h+1)%m; /* ハッシュ値の更新 */ 10. }else if(a[h]==key) {/* 発見 */ 11. return h; 12. } 13. } 14.} 75

ハッシュ法を用いた計算量 ( 衝突が定数回の場合 ) ハッシュ法の計算時間はハッシュ関数の計算に必要な計算量に依存するが 通常 ハッシュ関数の計算は 入力サイズのnに依存していないことが多い したがって 次のように解析される ハッシュ表の作成は 線形時間 ( On ( ) 時間 ) ハッシュ表からのキーの検索は 定数時間の検索は 定数時間 ( 時間 ) O(1) 76

衝突がある場合の 平均計算量解析 衝突がある場合は少し複雑な解析が必要である 挿入の評価 : ここでは まず サイズMのハッシュ表に N 個のデータを挿入する計算量を評価する 今 k 番目のデータが既に挿入されているときに k+1 番目のデータを挿入することを考える A[0] [] A[1] [] A[i] [] A[j] A[M-1] k 個のデータが存在 77

h ( x ) = h ( x ) このとき 0 さがっている確率は k M により求められる最初のセルがふ h 1( x ) である このときは ハッシュ関数により 2つ目のハッシュ値が求められる このハッシュ値を添え字とするセルがふさがっている確率は M-1 個中の k-1 個がふさがっている確率であるので k 1 M 1 h0( x), h1( x),, hi 1( x) である よって ふさがっている確率は 次式で表される kk ( 1) ( k i+ 1) k MM ( 1) ( M i 1) M + i までが全て 78

これは 空きセルを見つけるための失敗の回数を表している これに 空きセルの発見 ( 成功 ) の分の 1 回を考慮することで 挿入位置を求める際に調べるセルの期待値が次式で表される M 1 kk ( 1) ( k i+ 1) kk ( 1) ( k i+ 1) 1 + i= 1 MM ( 1) ( M i + 1) MM ( 1) ( M i+ 1) i k 1 + i 1 M = k = 1 + M ( k < M ) k 1 M ( M k) + k = M k M = M k 79

これは 1 回の挿入の際に調べるセルの期待値である したがって ハッシュ表に N 個のデータを挿入する際の総計算量は M M M dx = M log N 1 N 1 e 0 k= = 0 M k M x M N + 1 と表される A[0] A[1] A[i] A[j] A[M-1] A[0] A[1] A[i] A[j] A[M-1] 80

したがって 一回あたりの平均計算量は 次式で表される M M 1 log e ln(1 α) N M N + 1 α N ここで α はハッシュ表におけるデータの使用率である M 81

? 検索の評価 : A[0] A[1] A[i] A[j] A[M-1] データがハッシュ表に存在する場合は 挿入時の 1 回当たりの平均計算量と同じである 1 ln(1 α) α データがハッシュ表に存在しない場合は N 個のデータが存在しているときの 挿入位置をもとめる平均計算量と同じであり 次式で表される i= 1 i N M 1 1 + M = M N 1 α 82

内部ハッシュ関数の計算量の概形 1 1 α 1 ln(1 α) α 83

ハッシュ法のまとめ 衝突が少ない場合には 極めて高速に データの保存 検索を行える On ( ) ハッシュ表の作成は 線形時間 ( 時間 ) ハッシュ表からのキーの検索は 定数時間 ( O(1) 時間 ) 衝突への対処を考慮する必要がある 今回の説明で用いたように すべてのデータを配列内部に保持する方法を内部ハッシュ ( クローズドハッシュ ) という 間接参照を利用して 衝突を処理する方法も考えられる ( この方法を外部ハッシュ法 ( オープンハッシュ ) という 84

衝突が生じる場合 : ハッシュ表の大きさ Mとしては データ数の 2 倍以上にしておくと検索時間は定数時間とみなせることが多い データ数がハッシュ表の大きさに近いと 性能は急激に劣化する 特に M<N とすると アルゴリズムの停止性に問題が生じる 85

他のハッシュ関数 キーのデータの2 乗和をバケットで割った余り ここで l l 2 ( x ) = i (mod ) i= 0 h x M は名前の長さ キーの 2 乗の中央 ここで logm 2 x h( x) = (mod M) C 2 2 ( MC = K ) K は名前空間の上限値 ビット部分 86