都市データ分析第 7 回課題書 年 5 月 3 日重回帰モデルによる地価推定担当鈴木勉 システム情報系 TA 高森賢司 システム情報工学研究科 茨城県の公示地価を重回帰モデルによって説明し 地価に影響を及ぼすと考えられる要因との関係を定量的に記述する.. 重回帰分析重回帰分析では一つの従属変数 被説明変数 を 複数の独立変数 説明変数 で説明することを考える. これによって どの独立変数が どの程度従属変数に影響を与えているかを知ることができる... 従属変数と独立変数今地点 における地価を とし これを 個の変数 に関する一次式で表すと u L L という式で表わすことができる. ここで を独立変数 を従属変数 または目的変数 とよぶ. は未知の定数 パラメータ であり 対応するそれぞれ が 単位増加したとき がどの程度増加する が負の値を持つときは減少する かを表す値である. また u L は説明しきれない値であり 誤差項という... 最小 乗法 を で説明するとき と との値が近いほど 言い換えれば - の値が に近い方が説明力が高くなる. そこでこの差の 乗の総和 L を最小とするような の値を求めることによって推定式を決定することができる. この方法を最小 乗法と呼ぶ. の最小 乗法による推定量を求めるために上の式を でそれぞれ偏微分して とおくと 正規方程式と呼ばれる方程式が得られる. つまり Q L L とおけば Q Q Q L M L L が最小となる条件となる. この正規方程式を解くことにより と偏回帰係数 L が求められる. 計算過程は行列方程式を利用した大がかりなものになるためここでは示さないが 結果としての偏回帰
係数の一般形は次のようになる. ただし [ j S] : 行列 S j の 行 j 列目の要素の余因子である. 最小 乗法によって導かれた式 j [ [ yj yy S] S] L をの に対する回帰式といい 被説明変数の観測値 と回帰式によって推定された値 の差 を残差と呼ぶ. e L.3. 重相関係数 重相関係数 R とは 予測値 と実測値 の値の動きの類似性を計算したものであり との相関係数である. R ただし がよい予測値であれば は45 線の周りに集まってくるので 相関係数は高くなる. 図 予測値対実測値の相関図.4. 決定係数被説明変数とその平均との差の 乗和を全平方と呼ぶ. 全平方は 次のように 回帰平方和と残差平方和の合計として表すことができる.
全平方和回帰平方和残差平方和残差平方和は 被説明変数の値 と回帰直線で当てはめた Ŷ の差 残差 の 乗和であり 全平方のうち回帰直線で説明できない部分である. 回帰直線の当てはまりがよければ 残差平方和が小さくなる. したがって 全平方和のなかで回帰平方和の占める割合を以下のように定義する. R R は回帰直線による説明力を表す指標として用いられ 決定係数と呼ばれる.R はその定義から R であり に近いほど当てはまりがよいと判断できる. 決定係数は 独立変数の数が増えると単純に増加していく性質がある. したがって意味のない独立変数を分析にいれても決定係数だけは上昇していく. この欠点を補うために 自由度調整済み決定係数 を用いることが多い は独立変数の数. R / / また 決定係数は重相関係数の 乗と等しい. 重相関係数の 乗は以下で表わされる. R ただし ここで分子について { } であるので R となり決定係数と一致することがわかる.
.5. 多重共線性重回帰分析モデルにおいて 説明変数どうしの相関係数が高い場合 説明変数間に多重共線性があるという. パラメータの分散が大きくなってしまったり 相関の高いものどうしの説明変数のパラメータが片方はプラスで大きな値となり 一方が逆にマイナスで大きな値となってしまったりといったことが起こる. 多重共線性を回避するには前もって説明変数間の単相関係数を求め 相関の高いものについては説明変数をどれかに代表させるという措置が必要になる..6. ダミー変数説明変数として使用できるものは数値で表せるもの 量的変数という のみではない. ここでは数値に表すこのできない 与えられた数値そのものにあまり意味がない変数 質的変数という を取り扱うことを考える. ある特定のカテゴリーに属する場合は そうでない場合にはを与える変数をダミー変数という. 例 市町村ダミー つくば市なら それ以外なら.7. 変数の選択重回帰分析では 変数の選択 が行われることが重要である. 被説明変数に影響を及ぼしている変数を 多くの変数の中から選択する. これは説明変数の組み合わせを様々に変化させて重回帰分析を繰り返し 最も当てはまりの良いモデルを選択する方法である. これには以下のような方法がある. 強制投入法 : 全ての変数を強制的に取り入れる方法. 変数増加法 : 単回帰から出発し順次変数を取り入れていく方法. 3 変数減少法 : 全ての変数を含んだ重回帰モデルから出発し 順次変数を減少させていく方法. 4 ステップワイズ法 : 変数増加法と変数減少法を組み合わせた方法. 事実上標準的方法.. データの取得ホームページ http//www.rs.tsuuba.ac.jp/~tsutomu/publc_html よりリンクされている本講義のホームページにアクセスする. ページ内にある下記のファイルを自分のディレクトリにダウンロードする. 都市データ分析第 7 回課題書 都市データ分析第 7 回課題回答用紙 地価データLadprce.xls 地図データfor_GIS.zp 3. データの編集 ダウンロードしてきたファイルのうち Ladprce.xls を開く オリジナルのデータを保存するために ファイル の 名前をつけて保存する から Ladprce _*******_Suzu.xls Ladprce _ 学籍番号 _ 名前 という名前をつけて保存する. 3 各地点のデータから地価に影響を与えていると思われる指標を整理する ダミー変数の作成など 4.SPSS による重回帰分析 4.. エクセルデータの読み込み SPSSを立ち上げる. ファイル 開く データ を選ぶと 初め ファイルの種類 が SPSS *.sav になっているが Excel*.xls または すべてのファイル*.* を選択する. 範囲は指定しなくてよい.3で作成したファイルを選択すると図 のようにデータが読み込まれる. 各データの名前が長かったり 互いに似通っていたりすると警告が出ることがあるが 分析上は特に問題はない. 操作するにあたってわずらわしいと思うときはデータの名前を変えておく.
4.. 分析方法の指定読み込んだデータを用いて 重回帰分析を行う. 分析 回帰 線形 図 3 より 線形回帰 のウィンドウを開く. 図 エクセルデータの読み込み 図 3 分析方法の指定 図 4 変数の投入 図 5 予測値 残差の保存設定 4.3. 重回帰分析の設定まず被説明変数 SPSSの表記では従属変数 を左側のボックスから選択し 図 4のボタンで 従属変数 として読み込む. また 説明変数 SPSSの表記では独立変数 となるものを同じように左側のボックスから選択し のボタンで 独立変数 として読み込む.3の枠内は変数選択の方法を決めるもので 初めは 強制投入法 を選択する. 最後に4の枠内の 保存 ボタンをクリックし 予測値 残差 内の 標準化されていない にそれぞれチェックをする 図 5. 以上の設定が終了したら OK を押して分析を開始する. 出力 というタイトルが付いたウィンドウが自動的に立ち上がり 分析結果が表示される 課題 地価に影響を与えると考えた指標を書きなさい. その際その指標が地価に正の影響を与えるか負の影響を与えるかを予測し その理由を書きなさい. 課題 課題 で考えた指標を用いて SPSS をつかって重回帰分析を行い その分析結果を書きなさい. ただし 変数の選択方法は 強制投入法 を用いること. 課題 3 課題 の分析結果より それぞれ投入した変数が地価に正の影響または負の影響を与えているかを判断せよ. また それぞれの説明変数が有意であるかを判断せよ.
課題 4 予測値対実測値についてのグラフを描き その分布から推定の特徴を考察しなさい. 課題 5 ここまでの分析を踏まえ もう一度 SPSSを用いて重回帰分析を行い 選択変数を変えた試行錯誤の末 うまく説明できたと思われたものについて分析結果を書き どのような理由でどういった変数を採用したのかを説明しなさい. 4.4.Excelファイルの出力分析が終了したあと SPSS 内のデータの右端に予測値を表す pre_ と残差を表す res_ という新しい項目が追加されていることがわかる. 予測値と残差が追加されたデータをExcelデータとして出力するには ファイル 名前をつけて保存 を選び はじめ ファイルの種類 が SPSS*.sav になっているものを Excel*.xls に変更して適当な名前をつけて保存をすればよい. 5.ArcGISによる残差の空間分布の把握重回帰分析によって求められた予測値と実測値の差である残差が 空間的にどのような分布をしているかを調べることによって重回帰分析の結果を考察する. 5..ArcGISによるデータの確認ダウンロードしてきた for_gis.zp を解凍すると for_gis というフォルダが作成される. このフォルダの中に入っている Ladprce.mxd をダブルクリックしてArcGISを立ち上げる. ArcGISが立ち上がると図 6のような画面になる. このデータでは茨城県の市町村境界 つくば市周辺の鉄道路線と駅 そして今回対象とした Ladprce.xls に収録されていた公示地価の観測地点のポイントデータが表示されている. 公示地価の属性情報を確認するには図 6ので示されている 属性情報 ボタンを押して 各公示地価のポイントデータをクリックすれば 属性情報が表示される 図 7. 属性情報を確認したら 一度 ArcGISを閉じておく. 図 6 ArcGIS の画面
図 7 属性情報の表示 5.. 残差データの追加課題 5で行った重回帰分析の結果追加した残差のデータを GISのデータファイルに追加する. まず重回帰分析で出力した残差の値の入ったExcelファイルを開く 住所 列の隣に 予測値 残差 正の残差 負の残差 列を新たに作成する. 予測値の入った列 PRE_ と残差の値のはいった列 RES_ をコピーして 予測値 残差 の列に貼り付ける 図 8. このとき両方のファイルのデータの並び順が一致しているかに注意する. 図 8 残差の挿入 次に残差を 正の残差 と 負の残差 に分ける 正の残差 の項目には残差の正の値のみを 負の残差 の項目には残差の負の値の絶対値を関数などを使用して入力する 図 9.
図 9 正の残差 負の残差の項目の作成 それぞれの項目が作成できたら ファイル 上書き保存 を選択する. このとき Excelは開いたままにする. 次に SPSSから ファイル 開く データ を選択する. はじめ ファイルの種類 を d Basedbf を選択し for_gis フォルダの中に入っている Ladprce.dbf というファイルを選択してデータを開く. Excelファイルの方から 予測値 残差 正の残差 負の残差 列をコピーし dbfファイルの同名の列に貼り付ける. このときも両方のファイルのデータの並び順が一致しているかに注意する. 貼り付けたら dbfファイルを上書き保存しspssを閉じる. 5.3.ArcGISによる残差の表示 Ladprce.dbf のファイルを加工して閉じたら 再び Ladprce.mxd からArcGISを立ち上げる. 左側のボックスの中にある Ladprce という項目を選択し右クリック プロパティ を選択する 図. レイヤプロパティ ウィンドウが表示されたら シンボル チャート バー / カラム を選択し フィールド選択 から正の残差を選択して図 ののボタンを押し OK を押す.
図 プロパティの表示 図 残差の表示 すると各地点での正の残差がグラフで表される 図. 同様に負の残差を表示することもできる. 図 正の残差の表示 正の残差と負の残差を同時に表示させるには左側のボックスにある Ladprce を選択し右クリック コピー を選択した後左側のボックスの一番上にある レイヤ を選択して右クリック レイヤの貼り付け を選択すればよい. 地図画像の出力は ファイル マップのエクスポート を選択し ファイルの種類 でjpegなどを指定して適当な名前をつけて保存すればよい. 課題 6 課題 5 で求めた残差の空間分布を GIS にて表示して分布図を作成し その特徴を考察せよ. 余裕のある人は課題 7 にもチャレンジ.
課題 7* ここまでの分析より 今回与えられていなかったデータのうちどういったデータがあればよりよく地価を推定できるかを考察せよ. 課題提出先 提出期限 : 年 6 月 6 日 水 7:まで提出先 : システム情報エリア支援室レポートボックス 参考文献 [] 宮脇典彦 :SPSSによるデータ解析の基礎 培風館 [] 大野高裕 998: 多変量解析入門 同友館 [3] 平成 年公示地価 :http://toch.mlt.go.jp/cha/ouj/933/dex.html [4] 平成 年都道府県地価調査 :http://toch.mlt.go.jp/cha/chousa/8/dex.htm