アセンブラとコンパイラ・インタプリタ

Copyright 守屋悦朗 2005 アセンブラとコンパイラインタプリタここでは人間にとってより分かりやすい言語 ( アセンブラ語や BASIC, FORTRAN, C, Pascal などの汎用プログラミング言語 ) で書かれたプログラムをコンピュータのハードウエアが直接理解して実行できるプログラム (= 機械語 ) に翻訳するプログラムについて考えるアセンブラ語のプログラムを機械語に翻訳するプログラムがアセンブラであり汎用言語で書かれたプログラムを機械語に翻訳するプログラムがコンパイラ ( 翻訳系 ) であるコンパイラは実行前に前もって翻訳をすませるのに対し実行時にプログラムを 1 行 1 行逐一通訳するようなプログラムをインタープリタ ( 通訳系 ) という 1. アセンブラすでに見たように機械語でプログラムを組むのはきわめて大変であるそこで機械語命令を 8 ビットの 2 進数 ( 命令コード ) で書いたり命令の対象になるデータの格納されている場所 ( 主記憶装置上のアドレス ) を 16 ビットの 2 進数で書いたりする代わりに命令に決まった名前 ( ニモニック ) を付けておきまたアドレスにも自由に名前 ( ラベル ) を付けることができるようにしたものがアセンブラ言語 ( アセンブラ語 ) であるアセンブラ言語はこういった名前付けなどがうまくできるようにする命令 (DS 命令や DC 命令 ) を備えていると同時にそのようなアセンブラ言語で書かれたプログラムを機械語に翻訳する作業 ( この作業はアセンブラと呼ばれるプログラムが行う ) がきちんとできるようにするためにアセンブラへ情報 ( プログラムの始まり終わり実行開始位置など ) を伝えるための命令 ( アセンブラ制御命令 ) も持っているさらにマクロ機能のような高級な機能を持っていることもあるこのようなアセンブラ言語は人間にとっては機械語でプログラムを書くよりはるかに簡単になるがコンピュータのハードウエアはアセンブラ言語で書かれたプログラムを直接理解することができないので機械語に翻訳してあげる必要が生じるこれを行うプログラムがアセンブラ (assembler) でありその作業をアセンブル作業とかアセンブリング (assembling) という人間アセンブラ語プログラムアセンブラ機械語プログラムコンピュータソースプログラム目的プログラム翻訳前のプログラムを原始プログラム ( ソースプログラムソースコード source

program, source code) といい翻訳した結果を目的プログラム ( オブジェクトコード目的コード object code) という目的コードはそのまま主記憶装置へロードしてすぐさま実行できる形の場合とそうでない場合とがある前者の場合目的コード内のすべてのアドレスが絶対番地 ( 主記憶装置の各語 ( ワードマシンの場合 ) あるいは各バイト ( バイトマシンの場合 ) に付けられたアドレスのこと absolute address) になっていなければならない後者の場合各プログラム単位 (program unit, サブルーティン単位 ) の目的コード内のアドレスはそのプログラム単位の先頭から何語目か ( 何バイト目か ) という値 ( 相対番地という relative address) になっている ( 注 ) 前者のようにそのまま主記憶装置へロードしてすぐさま実行できる形の目的コードを実行形式 ( ロードモジュール (load module)) というこれに対し後者のような目的コードは先頭番地を変えるだけで主記憶装置のどこにでもロードして実行することができるので再配置可能型 (relocatable) であるという再配置可能型プログラム (1つ以上のプログラム単位の集まり ) は実行直前に各プログラム単位の先頭番地を決めて実行形式に変換され ( この作業を行うプログラムをリンカー (linker) とかリンケージエディタ ( 連係編集プログラム linkage editor) という ) 主記憶装置にロードされる( この作業を行うプログラムをローダー (loader) という ) リンカーの部分まで含めてアセンブラということもあるソースコード 1 再配置可能コード 1 プログラム単位 1... アセンブラ... リンカー実行形式ソースコード k 再配置可能コード k プログラム単位 k 名前表とロケーションカウンタアセンブラが上のように機械語への翻訳を行うためにはプログラム内に現れる記号番地 ( 上の例では EXMPL, BGN, DONE, A, B, MAX) の相対番地 ( プログラムの先頭から数えて何語 ( バイト ) 目か ) を知る必要ある次の例を考えよう左側にアセンブラ言語のプログラムを右側にそれを機械語に翻訳したもの ( この場合再配置可能型コード ) を示した話を簡単にするために 2パスのアセンブラを考える kパスアセンブラ (k-pass seembler) とは目的コードを生成するまでにソースコードをk 回見るタイプのものである

アセンブラ語プログラム機械語コード (relocatable code) EXPL START BGN 相対番地 (LC) コード BGN LD GR1,A 0000 10 10 000B LD GR2,B 0002 10 20 000C SUBA GR1,GR2 0004 21 12 JPL DONE 0005 65 00 0008 LD GR1,GR2 0007 10 12 DONE ST GR1,MAX 0008 11 10 000D RET 000A 81 00 A DC 12 000B 000C B DC 34 000C 0022 MAX DS 1 000D 0000 END 2パスアセンブラの場合 1パスめでアセンブラは機械語コードの命令コード部分をはじめアンダーラインした以外の部分を決定することができる同時に各命令が何語使う命令であるかも知ることができるアンダーラインした部分は記号番地に対応するアドレス ( 相対番地 ) であるがそれはその記号番地が命令のラベル部に出現するまで判明しないそこでロケーションカウンター (location counter)lc を用意しこれにはプログラムの先頭からの語数 (= 相対番地 ) をカウントするまた名前表 (name table 記号表 symbol table ということもある ) を用意し記号番地が初めて出現すると名前表に登録しその記号番地が命令のラベル部に現れたときにそのときの LC の値をアドレスとして対応させる上例の場合次のようになる : A A B A B LC=0 LC=0 LC=2 LC=5

DONE A B DONE 8 MAX A 11 B DONE 8 MAX A 11 B 12 DONE 8 MAX A 11 B 12 DONE 8 MAX 13 LC=8 LC=11 LC=12 LC=13 2パスめでは名前表に従って機械語コードのアドレス部を埋めることができ機械語コードは確定する 1パスアセンブラの場合 1パスめではアドレスが義の命令語のアドレス部から名前表の対応する所へのポインタ ( 上例の矢印の向きを逆にしたようなもの ) を埋め込んでおくパスの最後ですべての記号番地のアドレスが確定したらポインタをたどって未確定の命令のアドレス部にその確定値を書き込む 2. コンパイラアセンブラといえども人間にとってはまだ使いにくいアセンブラは機械語とほぼ 1 対 1 対応なのでそれぞれのマシンに依存した仕様になってしまいコンピュータごとに別々のアセンブラを覚えなければならないという難点もあるそこで人間の使う言語 ( 自然言語 ) により近い言語を使ってプログラムを書くことができるようにすると今度はそのような言語で書かれたプログラムを機械語に翻訳するプ

ログラムが必要になる自然言語に近いプログラミング言語で特定用途に限定せずどんな目的のプログラムでも書けるようにデザインされたものを汎用プログラミング言語 (general purpose programming language) とか高級言語 (high-level language) とかコンパイラ言語といいそのような言語で書かれたプログラムを機械語に翻訳するプログラムをコンパイラ (compiler) という人間高級言語のプログラムコンパイラ機械語プログラムコンピュータソースプログラム目的プログラム高級言語 (C++ 言語 ) 中間コード機械語コード main( ) { int x, y, z; // 変数宣言 LD GR1,C001 100100A0 cin >> x; cin >> y; MULA GR1,V001 280100A3 if (y>x) { MULA GR1,V001 280100A3 z=x; x=y; y=z; ST GR1,W001 110100A6 } LD GR1,C002 100100A1 cout << 3*x*x+2*y+1; MULA GR1,V002 280100A4 // 特に意味はない出力 ADDA GR1,W001 200100A6 } ADDA GR1,C003 200100A2 ST GR1,W001 110100A6 C001 DC 3 0003 C002 DC 2 0002 C003 DC 1 0001 V001 DS 1 0000 V002 DS 1 0000 V003 DS 1 0000 W001 DS 1 0000 この例で分かるように高級言語ごとに異なるコンパイラが必要になる (C 言語には C 言語用のコンパイラが BASIC には BASIC 用のコンパイラがというように ) 機械語への翻訳は実行前に行われる

機械語へ直接翻訳するのではなく一旦アセンブラレベルの中間言語へ翻訳する方式もある高級言語のプログラムのたった1 行も機械語に翻訳すると何十行にもなるほど翻訳作業は大変である * プログラムという文字列の中で変数配列名関数名キーワードなど各種の名前の区別四則比較代入など各種演算を表す文字列の判別等々この作業を字句解析とか語彙解析という * 文 ( ステートメント ) の判別とそれぞれの文に対応する機械語コードへの変換これを行うためには文がどのような構造を持っておりしたがってどのようなコードを生成すべきであるかを解析しなければならないこの作業を構文解析というコンパイル開始構文解析部字句解析部コード生成部コンパイル修了字句解析字句解析 (lexical nalysis) はコンパイラがまず最初に行う作業である高級言語で書かれたソースプログラムを文字列として読みその中の部分文字列を種別に分類する種別には定数 ( 整数定数実数定数文字定数文字列 ) 変数名配列名関数名キーワード演算子 ( 代入比較四則論理など ) 区切り記号( 空白文字タブ改行 ) 注釈などがある注釈は読み捨てられるがその他は種別ごとに管理する ( 名前は名前表定数は定数表に登録される ) このような種別分けされたものをトークン(token) という例えば上例の C++のプログラムは次のようなトークンの列に分解される : main ( ) { int x, y, z ; 関数名左 ( 右 ) 左 { キーワード名前コンマ名前コンマ名前セミコロン cin >> x ; cin >> y ; if 名前演算子名前セミコロン名前演算子名前セミコロンキーワード ( y > x ) { z = x ; 左 ( 名前比較演算子名前右 ) 左 { 名前代入演算子名前セミコロン x = y ; y = z ; } 名前代入演算子名前セミコロン名前代入演算子名前セミコロン右 } cout << 3 * x * x + 名前演算子整数定数乗法演算子名前乗法演算子名前加法演算子

2 * y + 1 ; } 整数定数乗法演算子名前加法演算子整数定数セミコロン右 } 構文解析字句解析して得られたトークンの列は高級言語の文法に照らしてどのような構造 ( 意味 ) をもっているかを分析するこの作業を構文解析 (syntax analysis) という例えば 3*x*x+2*y+1 は算術式であるが算術式とは何か ( 算術式の外見的な形 = 構文 ( シンタックス syntax)) が高級言語の文法できちんと定義されている必要があるそのような文法の厳密な定義法としては例えばバッカス記法 (BNF: Backus Naur form) などがある例えば算術式の構文はバッカス記法を使って < 算術式 >::=< 算術式 >< 加法演算子 >< 項 > < 項 > < 項 >::=< 項 >< 乗法演算子 >< 因子 > < 因子 > < 因子 >::=<1 次子 > < 因子 > <1 次子 > <1 次子 >::=-<1 次子 > (< 算術式 >) < 変数 > < 定数 > < 変数 >::=x y z < 定数 >::=< 整数定数 > < 整数定数 >::=0 1 2 < 乗法演算子 >::=* / < 加法演算子 >::=+ - と定義される ( これが算術式の文法である ) 例えば 1 行目は次のように読む : 算術式とは算術式の直後に+を書いてその後ろに項を書いたものであるかまたは算術式の直後に-を書いてその後ろに項を書いたものであるかまたは単独の項だけである上記の算術式はこの文法的には次ページに示したような構造をしている ( 一意的に定まる ) 構文解析結果をこの木構造(tree structure) で表したものを構文解析木 (parse tree) と呼ぶこのような構文解析のアルゴリズムはいろいろ知られているがこの講義の範囲を超えているのでここでは述べないコード生成構文解析が終わるとその情報をもとにコードの生成 (code generation) を行うコードの生成法もいろいろあるがここでは詳細は述べない実際には構文解析と同時に中間コードを生成してしまうアルゴリズムもある中間コードから機械語への変換は一般にやさしくなるような中間コードが用いられる

3 * x * x + 2 * y + 1 整数定数乗法演算子変数乗法演算子変数加法演算子整数定数乗法演算子変数加法演算子整数定数定数定数定数 1 次子 1 次子 1 次子 1 次子 1 次子 1 次子因子因子因子因子因子因子項項項項項項算術式算術式 3*x*x+2*y+1 の構文解析木算術式中間言語このような構文木も一種の中間言語 (intermediate language) といえるその他の中間言語として数式のための逆ポーランド記法 (reverse Polish notation) 3つ組コード 4つ組コードなどがある逆ポーランド記法は後置記法 (postfix notation) とも呼ばれ数式における演算子をオペランドの後ろに書く書き方である例えば a+b*(c-d)/e は abcd-e/* と書く普通の数式の書き方は演算子をオペランドの間に書く書き方で中置記法 (infix notation) とも呼ばれるこれらに対し演算子をオペランドの前に書く記法を前置記法 (prefix notation) とかポーランド記法 (Polish notation) という前置記法 -*ab+c/de 中置き法 a*b-(c+d/e) 後置記法 ab*cde/+-

前置記法や後置記法では括弧が要らないこれらの記法は構文解析木をたどる方法と密接に関係しているがそれについてはここでは述べない 3つ組コード (triple code, 二番地命令 two-address code ともいう ) や4つ組コードはよく使われるもので 3つ組コードは次の形の命令を使って記述する : 番号.( 演算子第一オペランド第二オペランド ) 例えば 5. (+, x, 100) は ( 変数 5) x + 100 を意味する ( 変数?) は作業用変数を表す例えば z=123*x+(y-z) は次のような3つ組コードに変換される : 1. (*, 123, x) 2. (-, y, z) 3. (+, 1, 2) 4. (=, 3, z) 4つ組コード (quadruple code, 三番地命令 three-address code ともいう ) は ( 演算子第一オペランド第二オペランド結果の変数 ) の形の命令を用いて記述する例えば上例は次のようになる : (*, 123, x, w1) (-, y, z, w2) (+, w1, w2, z) 最適化目的コードをできるだけ効率が良いものにすることをコードの最適化 ( code optimization) といいコンパイラの重要な仕事の一つである現在のコンパイラはこの最適化機能を必ず備えているためプログラマが考える以上に効率の良い機械語プログラムが生成される最適化は中間コードに対して行われる場合と機械語コードに対して行われる場合がある実行速度の向上に貢献する場合と記憶容量の縮小に貢献する場合がある : 共通の部分式の除去不要コードの除去少ない回数のループの展開ループ普遍量の抽出とコード移動演算子の強さの軽減

3. インタプリタパソコン初期の BASIC 言語にはコンパイラがなくインタープリタ方式で実行されたインタープリタ (interpreter) 解釈実行系とか通訳系とも呼ばれ高級言語で書かれたプログラムを先頭から1 行ずつ順にその意味を解釈しながら実行していくプログラムであるソースプログラムの形のままで解釈実行することもあるが構文解析木や中間言語などに変換しておいてそれを解釈実行する方式のものもあるここでは数式 ( 算術式 ) を逆ポーランド記法に翻訳しておいてからそれを解釈実行するインタープリタを例として考えるすでに見たように数式 (a+b)*(c-d) は逆ポーランド記法で ab+cd-* と表されるこれを解釈実行するのにスタックを用いる : 演算子が出現するとスタックのトップとセカンドをオペランドとしてその演算を適用して結果をスタックにプッシュする a d b c c c-d a a+b a+b a+b a+b (a+b)*(c-d) 参考書 : 疋田輝夫石畑清コンパイラの理論と実現共立出版 1988. 疋田輝夫コンパイラ昭晃堂 1985. 守屋悦朗コンピュータサイエンスのための離散数学 2 章サイエンス社 1991.

始め問題 / 仕事... 解決策を検討する解法 / 作業手順... アルゴリズムを考える algorithm... コーディング ( プログラムを書く ) coding プログラム ( 机上 )... プログラミング言語で記述 Pascal,C,FORTRAN など... 入力 ( エディタを使う ) editor デバッグソースプログラム source program debugging ( 原始プログラム ) 人間にしかわからない文字の列エラーがある場合... コンパイラによって機械語に翻訳 compiling プログラムを修正する目的コード object program 未確定部分を含む機械語コード library ライブラリや他の目的コード... リンカによって他のプログラムと結合編集する linkage editing 実行可能プログラム executable program 機械語で記述された命令の列 ( コンピュータが理解できる 0,1 の列 ) データ... 実行 execution (run) 実行結果... 結果が ok なら終了終り