この手の問題を診断する際に Simics は完璧なツールなのですが実行するためには問題が発生するプログラムを Simics に取り込まなければなりませんすなわち Simics 上で Simics を実行するのですまず Simics 内部に開発ホストの複製を作成しますこれは何も難しいことでは

Simics 上での Simics のデバッグ投稿者 :Jakob Engblom,, 2012/12/05 私はたびたび書いたり話したりしていますが Simics は並列処理のバグのデバッグとマルチスレッドやマルチコアシステムの障害に対するデバッグには実に有効です非常に複雑なアプリケーション具体的に言えば Simics 自体の上でこのことを証明した例を最近経験しましたこの例は Simics の反復の完成度と複雑なソフトウェアに潜む手ごわいバグを解決する際の有効性の両方の分かりやすい証明であると考えています私はたびたび書いたり話したりしていますが Simics は並列処理のバグのデバッグとマルチスレッドやマルチコアシステムの障害に対するデバッグには実に有効です非常に複雑なアプリケーション具体的に言えば Simics 自体の上でこのことを証明した例を最近経験しましたこの例は Simics の反復の完成度と複雑なソフトウェアに潜む手ごわいバグを解決する際の有効性の両方の分かりやすい証明であると考えていますこの例の説明は Simics に含まれていたバグから始めましょうある特定の構成に限って発生するバグがありました Simics のターゲットはプロセッサのシミュレーションをテストするベアメタル型テストコードを実行する Power アーキテクチャマシンですこの構成ではたまに Simics またはモデルに含まれているバグのために Simics がクラッシュしましたテストを 50 回実行するうちの 1 回程度しか発生しないので追跡が難しいバグでした診断のためにデバッガを接続してバグの再現を試みるとそういうときに限って発生しません ( 昔からハイセンバグと呼ばれるものです )

この手の問題を診断する際に Simics は完璧なツールなのですが実行するためには問題が発生するプログラムを Simics に取り込まなければなりませんすなわち Simics 上で Simics を実行するのですまず Simics 内部に開発ホストの複製を作成しますこれは何も難しいことではなく単純に 8 コア Intel ターゲット上に標準的な Linux の Fedora 16 をインストールするだけです Linux をインストールしてブートするとシステムのチェックポイントが取得されます次にホストからの開発コードツリーが TAR ファイルとしてパッケージングされて DVD イメージファイルに置かれます Simics はブートされたターゲットシステムのチェックポイントから起動され Simics 上で稼働している Fedora Linux は DVD イメージを仮想 DVD ドライブに挿入してマウントします TAR ファイルはターゲット上のファイルシステムにコピーされて展開されますこのようにして Simics のインストールが完了すると新しいチェックポイントが取得されて Simics 上で Simics を実行できるようになりますこの時点で得られる成果は完全に自身で完結していて制御可能で再現可能な環境です以下のスクリーンショットは Simics 上で Simics が稼働する様子を示していますホストと外部の Simics Fedora システムの両方で同じデスクトップの壁紙を使っています

次のステップは Simics の中にあるバグの再現ですこの目的のためにバグに遭遇するまで内部の Simics を繰り返し実行するシェルコマンドを使用します ( このセッションは明らかに Simics をインストールした後のチェックポイントから開始します ) ここでの成果はバグに遭遇するまで Simics を実行する準備が整ったこの構成です

ここまでの流れをまとめると Simics 上で稼働する Simics を構築しました Power アーキテクチャ構成の内部 Simics はホスト上でクラッシュしました Fedora 16 が稼働している外部 Simics は開発ホストの仮想レプリカ ( ただし Simics 内部を除く ) を提供していますバグの検索とバグの再現の効率を上げるためにスクリプトを追加して外部 Simics 内で使用しました

その Simics スクリプトで IA ターゲットシステムに含まれているプロセッサに割り当てたタイムスライスを変更しましたこうすることで並列実行プロセスと Simics でシミュレートしている Fedora 16 OS 内のスレッドのスケジューリングに大きな変化が起こりバグを早く再現する ( バグを再現するまでの内部 Simics の実行回数が少なくなる ) ことにつながります内部 Simics が起動されてタイミングの変更が IA プロセッサに適用されたら内部 Simics がテストケースの実行を開始する前にチェックポイントを取得しますこれでバグに直接つながるチェックポイントが利用できますバグの再現のためにターゲットのウォームアップや Simics を特定の構成にする必要は全くありませんチェックポイントは結果的にこの問題に関する自己完結したバグレポートとなります内部 Simics の segfault( セグメントエラー ) ハンドラにマジック命令 ( ブルースター ) を埋め込みますこれで内部 Simics のクラッシュは簡単に捕捉できます正しいページフォルトの捕捉を試みたり正しい場所にブレークポイントを設定するよりもこのようにマジック命令を使用する方が簡単な場合がありますマジック命令とはコード中でバイオマーカーのような役割を果たすものでデバッグ情報や OS Awareness に関係なく常にトリガーの働きをしますしかもマジック命令は起動するまでオーバーヘッドは発生しません

ついに内部 Simics を 20 回程度実行するとバグをトリガーできるようになりましたチェックポイントと Simics の反復能力によってバグの再現は困難ではなくなりました Simics のクラッシュはもはやいつでも再現できるようになったので次はデバッグに移って Simics がクラッシュする理由を考えることにしましょうたまにしか起こらないハイセンバグは 100% 再現可能なボーアバグに変わりましたデバッグの最初のステップは内部 Simics の中に多数ある動的にロードされたモジュールのマッピングについて考えることですこれは外部 Simics を稼働させて Fedora シェルに Ctrl-Z を送信し内部 Simics を一時停止させることで実現しますこのとき Simics 上で動作している Fedora Linux 上の /proc ファイルシステムにロードアドレスを検出するための応答指令信号が送られます Simics が起動した後にチェックポイントが取得されているのでこれはチェックポイント中で検出されるソフトウェア構成内のマッピングであることが分かりますチェックポイントがオープンされるたびに同じマッピングが適用されますこうして情報が保存され使用している Simics モジュールのためのシンボリックデバッグ情報を設定するために利用されますデバッグの次のステップではチェックポイントを再びオープンしそこからリバース実行を始めてマジック命令がヒットするまで実行を続けますここで segfault ハンドラが実行される前に内部 Simics が動作していた最終時点のバックアップを取得するために OS awareness が利用されますこれによって外部 Simics は内部 Simics のクラッシュを引き起こした命令とまったく同じ命令を実行します Simics はコードが存在しないロケーション (BCDE) でコードの実行を試みていたことが判明しましたそこから 1 命令戻ると BCDE ロケーションへの JMP 命令を実行していましたではこの JMP BCDE 命令を実行するに至った理由は何でしょうこの命令は明らかに Simics の静的コードには含まれていませんが Simics 自身が命令実行中に何か生成したと考えられます (Simics には JIT コンパイラが含まれているので実行中にコードを変更する可能性は十分にあります )

誤った JMP 命令が作成された状況を調べるために命令 (JMP BCDE) にメモリー書き込みブレークポイントを設定してリバース実行を進めてみました Simics は命令の JMP 部分をメモリーに書き込んだ時点で停止しましたここでスタックのバックトレースを実行してコードは JIT が生成したコードストリームに 5 バイトの JMP XYZQ 命令を書き込もうとしていたことが分かりました JMP 命令コードを含むバイトの書き込み時にブレークポイントがヒットしたことから命令が実行されて Simics がクラッシュしたとき命令以外の 4 バイト (JMP 命令が本来目指していたロケーションである XYZQ) はまだ書き込まれていなかったことが分かります命令を ( プロセッサ上で ) 書かれている順序どおりに 1 ステップずつ実行することで内部 Simics の中でスレッドの切り替えが起こり入ってきたスレッドが即座に 5 バイトの JMP 命令を実行して現在の問題が起こったと判明しました JMP バイトだけが書き込まれていたことから狙っていた XYZQ( もともとの ABDCE コードを実行するにはそれでもよかった ) へのジャンプではなく BCDE へのジャンプとなってしまったことが分かりますしたがって今回の状況は読み取りはメモリーの内容をコードに書かれたとおりに実行して書き込みは通常のデータの書き込みを行うという性質に基づいた読み取りと書き込みの競合条件の問題であると診断されました問題が特定されればその修正はとてもたやすいことでした同じ構成で Simics の競合条件がもう 1 つ見つかりそれも修正されましたさらに頻度の高いケースである複数のスレッドの同時実行に関係する問題で共有しているデータ構造の更新および読み取りを実行する間に同期が不完全になるというものでした

要約するとこのブログエントリーでは Simics を利用して現実世界に存在する複雑なソフトウェアシステムの 1 つでもある Simics の並列実行のバグを検出して修正した一例を説明しました成功のカギとなったのは Simics が備えている反復能力ですタイミングが関係するたまにしか発生しないイベントにも対応できますしチェックポイントスクリプティングリバース実行デバッグ設備と連携させることもできます原文はこちら :http://blogs.windriver.com/m2m/2012/12/biggest-predictions-for-m2m.html 本社ブログサイト :http://blogs.windriver.com/