Microsoft PowerPoint - ca ppt [互換モード]

008//8 大阪電気通信大学情報通信工学部光システム工学科年次配当科目コンピュータアルゴリズム探索アルゴリズム () 第 8 講 : 平成 0 年月 8 日 ( 金 ) 4 限 E5 教室中村嘉隆 ( なかむらよしたか ) 奈良先端科学技術大学院大学助教 y-nkmr@is.nist.jp http://nrym.nist.jp/~y-nkmr/ 第講の復習探索アルゴリズム探索するデータ構造レコードの列表線形探索 (liner serh) 前から順に探索 ( 探索 O(n) ) 分探索 (inry serh) 整列された領域の中央の値を調べ, 領域を半減させながら探索 ( 探索 O(log n)) 分探索木 (inry serh tree) 大小関係を木構造で表して探索 ( 探索 O(log n)) 008//8 第 8 講探索アルゴリズム () 今日の講義の内容探索アルゴリズム線形探索分探索分探索木の復習平衡木できるだけ完全分探索木になるように, 要素の追加削除時に木の形を再構成平衡木の例として VL 木を紹介ハッシュ法ハッシュ関数を使って, 探索の計算量を O() に近づける復習 : 探索 ( サーチング ) 問題とはサーチング : Serhing, 探索 n 個のレコード列から, キーの値を指定して, それと等しいキーを持つレコードを選ぶ処理レコード (reord) とキー (key) レコードとは, ひとかたまりのデータキーとは, レコードの中にあるつのフィールド ( 要素 ) 例 : 成績 { 学籍番号, 名前, 出席点, 試験点 } レコードは人分のデータ ( 例 :{54, 中村,0,55}) キーは, 要素のどれか ( 例えば, 学籍番号 ) ここでは簡単のため同じキーを持つレコードは複数存在しないとする 008//8 第 8 講探索アルゴリズム () 008//8 第 8 講探索アルゴリズム () 4 復習 : 探索するレコードの表とサイズ復習 : 線形探索探索はある列 ( 表 ) に対して行うその表を作るのに必要な計算量も考慮が必要問題のサイズ = レコード数番号名前点数表の分類静的な表問題のサイズ n たろう 6 はな 8 こん 4 一度表を作ると二度と作り替えないキー探索さえ早くすればよい動的な表表を作ったあとでも, レコードの追加, 削除があるレコードの追加, 削除の手間も考慮 008//8 第 8 講探索アルゴリズム () レコード 5 線形探索 : liner serh,sequentil serh, 逐次探索, 順探索アルゴリズム配列, またはリストに並べられたデータを一つ一つ順に端から調べる 5 回優勝した横綱は?( キー : 優勝回数 ) 4kg の横綱は?( キー : 体重 ) 朝青龍 9kg 5 回武蔵丸 5kg 回若乃花 4kg 5 回貴乃花 59kg 回曙 kg 回旭富士 4kg 4 回大乃国 0kg 回 [] [] [] [4] [5] [6] [] 008//8 第 8 講探索アルゴリズム () 6 コンピュータアルゴリズム

008//8 復習 : 線形探索のまとめ復習 : 分探索入力レコードの列 ( 並び方は自由 ) アルゴリズム前から順番にキーを調べていく計算量探索 O(n), 表への追加 O(), 削除 O(n) その他番兵による高速化応用例 : 自己再構成リスト分探索 : inry serh 入力はキーであらかじめ整列された列 ( 表 ) とする整列は前に勉強したキーの大小判定することで, 目的のキーが列 ( 表 ) の前にあるか後ろにあるか判断できる列の中央の要素のキーと探索したいキーを比較し, 探索する領域を半減させる 008//8 第 8 講探索アルゴリズム () 008//8 第 8 講探索アルゴリズム () 8 復習 : 分探索の概念図復習 : 分探索のデータ構造キーを持つ動物を探したい lo =, hi = 6, mid = 8 [] [] [] [4] [5] [6] [] [8] [9] [0] [] [] [] [4] [5] [6] キー 5 8 9 6 4 6 40 45 55 58 69 4 8 虎牛馬猫鶏犬鷹鼠狸兎羊豚猿狐人魚 lo =, hi =, mid = 4 [] [] [] [4] [5] [6] [] [8] [9] [0] [] [] [] [4] [5] [6] 5 8 9 6 4 6 40 45 55 58 69 4 8 虎牛馬猫鶏犬鷹鼠狸兎羊豚猿狐人魚 lo = 5, hi =, mid = 6 [] [] [] [4] [5] [6] [] [8] [9] [0] [] [] [] [4] [5] [6] 5 虎 8 牛馬 9 猫鶏 6 犬鷹 4 鼠 6 狸 lo = 5, hi = 5, mid = 5 見つかった!! 40 兎 45 羊 55 豚 58 猿 69 狐 4 人 008//8 第 8 講探索アルゴリズム () 9 8 魚データ構造は配列型配列型はランダムアクセスが可能添え字でちょうど真ん中の位置のレコードにアクセスできるリストはランダムアクセス不可能 ( 前から辿るのみ ) レコードの追加, 削除は整列された状態を保持する必要がある追加は, 探索して入る位置を決めた後, その後ろの要素を後ろにずらして挿入削除は, 位置を探索した後, その後ろの要素を前にずらす 008//8 第 8 講探索アルゴリズム () 0 復習 : 分探索のデータ構造 : 追加と削除レコードの追加追加する位置の探索これは分探索すれば O(log n) で求まるプログラムで見つからなかった場合に - を返すのではなく, 直前の位置を返すようにすればよい配列への要素の挿入追加位置から後ろのレコードはつずつ後ろにずらす必要がある O(n) O(log n) + O(n) = O(n) レコードの削除削除する位置の探索 O(log n) 配列の要素の削除 O(n) O(log n) + O(n) = O(n) 復習 : 分探索のまとめ入力探索するキーで整列されたレコードの列アイデア探索するキーと, 列の中央の要素のキーの大小関係で探索範囲を半減させる計算量探索 O(log n), 表への追加 O(n), 削除 O(n) その他線形探索に比べて, 探索の計算量は小さいが, 追加の計算量が多い表への追加が多い ( 動的な ) 場合はおすすめできない静的な表への探索に向いている 008//8 第 8 講探索アルゴリズム () 008//8 第 8 講探索アルゴリズム () コンピュータアルゴリズム

008//8 復習 : 分探索木とは以下の特徴を持つ木構造各節点は最大で個の子を持つその個の子は, 左の子, 右の子である小大左の子 ( 子孫 ) は, 4 小大小大親より小さな値を持つ 4 5 右の子 ( 子孫 ) は, 小大大大小親より大きな値を持つ 5 0 9 44 大小 48 復習 : 分探索木の概念図キー 5 を持つノードを探したい根 ( キー : ) からはじめる 5 < なので, 左の子へ 5 < なので, 左の子へ < 5 なので, 右の子へ 5 = 5 なので, 終了 4 4 5 5 0 9 44 48 008//8 第 8 講探索アルゴリズム () 008//8 第 8 講探索アルゴリズム () 4 復習 : 分探索木の計算量探索の計算量最良の場合完全分木のときノード数 n (= m) に対して木の高さは log n (= m) 最大でも log n 回木を辿れば, 目的のノードに辿り着く O(log n) 平均的な場合このときも最良の場合の.9 倍しか悪化しない ( 証明略 ) O(.9 log n) =O(log n) 008//8 第 8 講探索アルゴリズム () 5 4 4 5 5 0 9 44 56 復習 : 分探索木の計算量探索の計算量最悪の場合各ノードがつずつしか子を持たないとき ( 一列 ) 線形探索と同じになる O(n) 0 4 008//8 第 8 講探索アルゴリズム () 6 4 0 4 0 復習 : 分探索木のデータ構造リスト型で木構造を作るレコードの追加, 削除はどうなる? 追加探索して入るべき位置を探す例 : キー 0 のデータ 4 0 4 探索 O(log n) 挿入は O() 4 5 全体で O(log n) + O(n) 5 0 0 9 44 = O(log n) 48 復習 : 分探索木のデータ構造レコードの追加, 削除はどうなる? 削除探索して入るべき位置を探す探索 O(log n) 削除するノードが葉ノードドの場合は, そのまま削除削除例えば, このノードを削除したい 4 4 5 5 0 9 44 4 中間ノードの場合は? 48 008//8 第 8 講探索アルゴリズム () 008//8 第 8 講探索アルゴリズム () 8 コンピュータアルゴリズム

008//8 復習 : 分探索木からのノードの削除中間ノードの削除子がつの場合子を親とつなげる 9 子がつの場合左の部分木の最大値のノード ( 最も右奥の子 ) か, 右の部分木の最小値のノード ( 最も左奥の子 ) を持ってきて代わりをさせる 4 5 左の部分木 4 9 9 44 4 5 5 どちらかと交換右の部分木復習 : 分探索木の削除の計算量削除ノードの探索 O(log n) 削除するノードが葉ノードの場合 O() で削除可能中間ノードの場合交換候補を左右どちらかの部分木を辿って見つける O(log n) 見つかったら交換は O() で可能削除全体では, O(log n)+{o(log n)+o()} = O(log n) 008//8 第 8 講探索アルゴリズム () 9 008//8 第 8 講探索アルゴリズム () 0 復習 : 分探索木の計算量のまとめ探索の計算量平均 O(log n), なので保証が必要なら使わない方がよい表へのレコードの追加, 削除の計算量追加 O(log n) 削除 O(log n) 追加削除も小さい計算量で可能データ構造はリストを使って木構造にする復習 : 分探索木の落とし穴木の形が最悪になりやすいことがある途中でどんどんレコードが追加されるとする ( 動的 ) このとき, ある程度整列された順で追加されると, 木の形が一直線になっていく例 : {4,,0} の木に,,,4,, のキーの要素が入ってくるとするこのような入力は与えやすいので注意そのような入力が予想されるときには分探索木は使わない方がよい 4 0 4 008//8 第 8 講探索アルゴリズム () 008//8 第 8 講探索アルゴリズム () 復習 : 分探索木のまとめ入力左の子孫は小さなキー, 右の子孫は大きなキーを持つ分木アイデア各ノードのキーと探索したいキーを大小比較することで, 探索範囲を片方の部分木に限定していく計算量探索平均 O(log n), 表への追加平均 O(log n), 削除平均 O(log n) その他最悪で O(n) になるため注意が必要 ( 平均は O(log n)) 整列されたデータを追加していくと木の形が直線的になり, 計算量が最悪に近づく平衡木平衡木 (lned tree) 分探索木の欠点偏った木の形 ( 子がつしかない節点が多い木 ) だと探索が O(n) になる完全分木の形が理想できるだけ左右の部分木の大きさを揃えたい VL 木 del son-vel skii と Lndis が考案各節点の左右の部分木の深さの差を以内にした木探索の計算量が最悪でも O(log n) を保証 008//8 第 8 講探索アルゴリズム () 008//8 第 8 講探索アルゴリズム () 4 コンピュータアルゴリズム 4

008//8 VL 木のアイディア VL 木要素の追加, 削除が起こったときに木の形が偏るなら再構成するただし再構成の計算量が O(log n) を超えてはいけない完全にバランスさせる必要はない最悪でも O(log n) にさえなれば良い 4 各節点の左右の部分木の高さの差が以上になったら, 木を再構成する部分木 5 ある節点より子孫で構成される部分的な木 9 44 高さの差 -, ±0, + は許す左の部分木右の部分木 008//8 第 8 講探索アルゴリズム () 5 左右の部分木の高さの差が高々の分探索木左の部分木の高さ右の部分木の高さ左の部分木左の部分木右の部分木の高さ右の部分木の高さの高さ4 の高さ 4 5 5 44 008//8 第 8 講探索アルゴリズム () 6 VL 木での探索の最悪計算量最も偏った形の VL 木全ての頂点で木の高さがだけ違い, 最も頂点数が少ない 4 4 5 5 0 9 4 0 0 0 008//8 第 8 講探索アルゴリズム () VL 木での探索の最悪計算量最も頂点数が少ない最も偏った VL 木の頂点数各高さの部分木で最も頂点数の少ない場合深さの頂点数 N() = N() = 部分木の根 + 深さの部分木 + 深さ 0 の部分木 = + N() + N(0) = + + 0 = N() = 部分木の根 + 深さの部分木 + 深さの部分木 = +N() + N() = ++ + = 4 つまり深さ h の場合 N(h) = + N(h-) + N(h-) 4 漸化式を解くと h 4 5 ( + 5) N( h) = O( ) 5 0 9 高さに対して頂点数は指数的に増える, 頂点数に対して高さは対数的にしか増えない最悪時でも O(log n) 008//8 第 8 講探索アルゴリズム () 8 VL 木への要素の追加, 削除手順は次のステップ分探索木と同様に場所を探し, 挿入削除その結果, 木の形が VL 木の条件を満たさなくなったら再構成挿入後の木の形の可能性各節点の左右の部分木の高さの差が高々以内 VL 木の条件を満たすので再構成なし高さの差が以上になる節点が出てくる再構成 008//8 第 8 講探索アルゴリズム () 9 VL 木の再構成を必要とする形追加削除した後の木の形 (i) (ii) (iii) ここに追加した場合ここから削除した場合ここから削除した場合ここに追加した場合ここから削除した場合 008//8 第 8 講探索アルゴリズム () 0 コンピュータアルゴリズム 5

008//8 VL 木の再構成 (i) とを付け替え, を親とする節点とのキーの大小関係は < なので, はの右の子になる部分木はの左の部分木にする部分木はの左の子孫つまり全てより小さい 008//8 第 8 講探索アルゴリズム () VL 木の再構成 (ii)( 削除のみ ) < < < < < < ( d < < e ) < < d e 008//8 第 8 講探索アルゴリズム () d e どちらか片方は高さが低い可能性がある VL 木の再構成 (ii)( 削除のみ ) VL 木の再構成 (iii) (ii) の再構成をした結果, 以下のと d のように, まだ高さの差がある場合は, 以下の部分木を再構成こっちなら VL 木の条件を満たす < < < < < < ( d < < e ) < < d e 再構成後でもとd の高さの差 d がの場合は再々構成 008//8 第 8 講探索アルゴリズム () e d e d e どちらか片方は高さが低い可能性がある 008//8 第 8 講探索アルゴリズム () 4 再構成の計算量追加, 削除する位置の探索 O(log n) 部分木の高さの調査 O(log n) 節点の付け替え O() つまり, 再構成に必要な計算量は O(log n) ちなみに, ランダムに要素の追加削除を行った場合に再構成が発生する確率は, 追加約 4%, 削除約 % という実験結果がある VL 木のまとめ分探索木の拡張各節点において, 左右の部分木の高さの差が高々になるように常に保つ要素の追加削除時に必要に応じて木の再構成を行う計算量探索の計算量最悪でも O(log n) 探索 O(log n), 追加 O(log n), 削除 O(log n), 再構成 O(log n) 木の再構成の操作の分, アルゴリズムが複雑 008//8 第 8 講探索アルゴリズム () 5 008//8 第 8 講探索アルゴリズム () 6 コンピュータアルゴリズム 6

008//8 ハッシュ法ハッシュ法のアイディアハッシュ (hsh) いままでとはまったく違うアイデアうまく設計すれば, 探索追加削除の計算量を平均して全て O() にできる事実上最速の探索アルゴリズム実用上非常に有益しかし, やはり欠点もある 008//8 第 8 講探索アルゴリズム () いままでの探索アルゴリズムキーの値の比較が基本最も効率が良くても探索領域の半減 O(log n) ハッシュ法のアイデアキーの値の範囲が分かっているとする例 : から 00 その場合, 添え字から 00 までの配列を用意キーキー x のデータがほしい場合は, キー 9 配列 [x] にダイレクトアクセス O()!!!!! キーレコード [] [] [] [4] d 未使用 few 未使用 [5] 未使用 [6] 6 def [] 未使用 [8] 8 eg [9] 9 ek [0] 0 rok [] 未使用 [] ff 008//8 第 8 講探索アルゴリズム () 8 ハッシュ法のアイディア先ほどの配列を使う方法の欠点なかなかキーの範囲が分かることは少ないそれにキーが正整数のみとも限らない範囲が広すぎるとメモリがたくさん必要ある関数を定義して, キーを変換 mod とは剰余 ( 余り ) を求める演算子例 : キーが整数のとき, 下桁の添え字を持つ配列の位置に格納する ( この場合, 関数 h(x) = x mod 00 となる ) このような下桁の値をそのキーのハッシュ値というキー 45 のレコードはハッシュ値 45 なので配列 [45] へメモリ領域も 00 で済むじゃ, キー 945 のレコード ( これもハッシュ値 45) もあった場合どうする?? 008//8 第 8 講探索アルゴリズム () 9 チェイン法と開番地法チェイン法レコードを追加するとき, 既に同じハッシュ値を持つレコードがあるときはリストでつなげる探索するとき, 同じハッシュ値を持つレコードがつ以上ある場合はリストを辿る開番地法レコード x を追加するとき, ハッシュ値 h(x) の場所にレコードがある場合は,h(x)+ にそのレコードを格納する探索するとき,h(x) の位置から順に調べる必要があるハッシュ値レコード 008//8 第 8 講探索アルゴリズム () 40 4 5 ハッシュ値使用済キー 4 5 6 レコード身近なハッシュ法の例辞書目次のある辞書目次でアカサタの場所を調べるタ行の項目なら, 目次のタのページから調べればよい辞書は開番地法になっている人間は目次の項目がたくさんあると目次を読むのに時間がかかるが, 計算機は機械的な計算で値が求まるので目次の項目が多くても問題ない分探索で例に出したのは目次のない辞書 008//8 第 8 講探索アルゴリズム () 4 ハッシュ法の欠点同じハッシュ値を持つレコードが多いと効率が悪くなるできるだけレコードがもつハッシュ値が均等にバラけるようにしないといけないキーの数に比べて, ハッシュ値の数が少ないとき効率が悪くなる例 : 目次の項目が少ない, アとハしかない同じハッシュ値を持つレコード数が増えるリストを辿る場合は, 線形探索になるレコード数 n, ハッシュ値数 h とすると, 各ハッシュ値の平均リスト長は n/h, 線形探索で O(n/h) 008//8 第 8 講探索アルゴリズム () 4 コンピュータアルゴリズム

008//8 ハッシュ関数ハッシュ法の概念図元のレコードのキーからハッシュ値を求める関数異なる入力に対して, できるだけバラけたハッシュ値を返すようにするよく使われる手法剰余 ( 割り算の余り ) を使う h(x) = x mod 56 偏りをなくす工夫複数のハッシュ関数を組み合わせる h 0 (x),h (x),h (x),h (x), を用意すると同じハッシュ値を持つ可能性が減ると言っても, たくさん用意するのは面倒なのでつ h(x) と g(x) を用意し, h 0 (x) = h(x),h (x) = h(x) + g(x),h (x) = h(x) + g(x),h (x) = h(x) + g(x), とする重ハッシュ法 (doule hshing) ハッシュ関数 h 0 (x) = x mod,h (x) = x mod ハッシュ値 h(x) は (h 0 (x), h ( (x)) とするキー 6 (6,6) キー 5 (9,0) キー (,6) 表のサイズ = 9 エントリハッシュ値 (0,0) (,6) (6,6) (9,0) (,6) キーのレコードキー 6 のレコードキー 5 のレコード 008//8 第 8 講探索アルゴリズム () 4 008//8 第 8 講探索アルゴリズム () 44 ハッシュ法での追加と削除同じハッシュ値を持つレコード数 O(k) とする追加すべき位置は O(), 削除すべき位置は O() + O(k) の探索で求まるチェイン法の場合は, リストの追加と削除追加削除とも O() 開番地法の場合追加は開いている場所までさらに移動 O(k), 削除はその場所の使用済みフラグを解除 O() 両方とも, 追加削除 O(k) でできるここで k=n/h n: レコード数,h: ハッシュ値数 008//8 第 8 講探索アルゴリズム () 45 ハッシュ値のまとめレコード数 n, ハッシュ値数 h のとき, 探索 O(n/h), 追加削除 O(n/h) の計算量ハッシュ値数が十分あれば, 全て平均 O() ハッシュ値が重なったレコードの処理チェイン法 : リストでつなぐ開番地法 : その番地以降で開いているところに入れていくハッシュ関数ハッシュ値を導く関数できるだけバラけた値を導出することが望ましい剰余関数 (mod) が良く使われる複数のハッシュ関数を組み合わせる重ハッシュ法がある 008//8 第 8 講探索アルゴリズム () 46 探索アルゴリズムのまとめ名前探索追加削除備考線形探索 O(n) O() O(n) 配列, リストどっちも可分探索 O(log n) O(n) O(n) 配列で実現, リスト不可分探索木平均 O(log n) 平衡木 (VL 木 ) ハッシュ法平均 O(log n) 平均 O(log n) 整列されたデータの追加に弱い O(log n) O(log n) O(log n) 追加削除時に再構成が必要平均 O() 平均 O() 平均 O() レコード数とハッシュ値数の比, ハッシュ関数の精度に依存 008//8 第 8 講探索アルゴリズム () 4 第 8 講のまとめ探索アルゴリズム分探索木 VL 木分探索木の拡張できるだけ完全分探索木に近づくように木の構成を保つ要素の追加, 削除時に必要なら木の形を再構成ハッシュ法場合によっては O() で探索可能 008//8 第 8 講探索アルゴリズム () 48 コンピュータアルゴリズム 8