また Excel 読み込みウィザードで Excel ファイルを読み込むと指定した設定が JSL(JMP のスクリプト言語 ) に自動保存できるためこの JSL を実行することにより簡単に Excel データの再読み込みを行うことができます次の 2 章ではこれらの読み込みオプションのいくつ

Excel 読み込みウィザード ~ その強力な機能と活用例 ~ SAS Institute Japan 株式会社 JMP ジャパン事業部 2015 年 6 月作成 1. はじめに 2013 年 9 月にリリースした JMP 11 の Windows 版では Excel 読み込みウィザードという Excel データを対話的に読み込むことができる機能が追加されました JMP 12 以降では Macintosh 版でも Excel 読み込みウィザードが使用可能となっています図 1 Excel 読み込みウィザード JMP のメニューバーより [ ファイル ] > [ 開く ] を選択し JMP に読み込む Excel ファイルを指定すると読み込み時に図 1 のような読み込みのプレビューウィンドウが表示されますここでは読み込み後のデータプレビューを確認しながら対話的に Excel データの開始行や開始列の指定などを行うことができます Excel 読み込みウィザードでは主に次の読み込みオプションを指定することができます Excel ワークシートの開始行開始列終了行終了列の指定列見出しの行数の指定 ( 列見出しが複数行にわたっているときに有用 ) 複数の列見出しを階層化した見出しに変更階層化したデータを積み重ねた状態で読み込み複数のワークシートを連結し 1 つのデータテーブルとして読み込みワークシート別に読み込み形式を指定 1

また Excel 読み込みウィザードで Excel ファイルを読み込むと指定した設定が JSL(JMP のスクリプト言語 ) に自動保存できるためこの JSL を実行することにより簡単に Excel データの再読み込みを行うことができます次の 2 章ではこれらの読み込みオプションのいくつかの機能について実際の Excel ファイルの読み込み例とともに説明します注意 : 本文書は JMP 12.0 での機能を説明したものになります今後の JMP のバージョンアップにおいて機能の追加修正等が発生する可能性があります Macintosh 版 JMP 12 の場合.xlsx ファイルのファイル名およびフルパスに日本語などのダブルバイト文字が含まれていますと開く際にエラーが発生しますファイル名やパスに含まれるフォルダ名が半角英数字のみのものとなるようにしてください 2.Excel 読み込みウィザードでのデータの読み込みこの章ではサンプルの Excel データを用い Excel 読み込みウィザードの機能や特徴を説明します例 1: データの開始行開始列終了行の指定図 2 の Excel データ (sample1.xls) のシート売上を JMP に読み込みます図 2 sample1.xls 2

JMP で読み込む際次のように読み込みたいとします 3 行目を列見出しとするデータの開始は 4 行 3 列からとするデータの終了行を 19 行目とする ( 合計の行は読み込まない ) Excel 読み込みウィザードでは上記の条件を設定して読み込むことができます < 操作 > 1. JMP のメニューバーより [ ファイル ] > [ 開く ] を選択して Excel ファイル sample1.xls を指定し [ 開く ] ボタンをクリックします 2. Excel 読み込みウィザードが表示されますのでここで列見出しの開始行を 1 から 3 に変更しますすると自動的にデータの開始行が 4 に変更されます ( 図 3) ( 注意 : データの開始列に関して実際 Excel ファイルは 3 列目からデータが開始していますが 1 列目 2 列目 (A 列 B 列 ) にはデータが入力されていないため自動的に Excel の 3 列目がデータの開始列として認識されますそのためこの例ではデータの開始列を 3 列目に変更する必要はありません ) 図 3 Excel 読み込みウィザード (1/2) 3. 右下の [ 次へ ] ボタンをクリックすると次の設定ウィンドウに移ります ( 図 4) 4. データの最終行に読み込みたい最後の Excel の行が 19 行目なので 19 と入力します ( 注意 : データのプレビューに表示される最終行とは異なります ) 3

図 4 Excel 読み込みウィザード (2/2) 5. 右下の [ 読み込み ] ボタンをクリックします読み込みウィザードで指定した設定に基づき Excel のシート売上が読み込まれます ( 図 5) 図 5 ウィザードにより作成された JMP データテーブル 4

データテーブルの左上のテーブルパネルにはソースという名前のスクリプトが自動的に保存されます左側の赤い三角ボタンをクリックし [ 編集 ] を選択すると保存されたスクリプトの中身を確認することができます ( 図 6) 図 6 保存されたスクリプト Open() 関数の最初には読み込んだ Excel ファイルの場所の情報 ( この例では C:\Temp\sample1.xls ) が記載されていますこの場所に同名の Excel ファイルがあればこのスクリプトを実行することにより Excel 読み込みウィザードで指定した設定で再度読み込みを行うことができます自動的に保存されたスクリプトは図 6 の編集ウィンドウからコピーしスクリプトエディタ ([ ファイル ] > [ 新規作成 ] > [ スクリプト ]) により起動 ) に貼り付け jsl 形式で保存すると ( 図 7) 今後この jsl ファイルを実行することにより自動的に読み込みを行うことができます Excel ファイルのデータが更新された際再度 JMP で読み込むといった場合に便利です図 7 スクリプトエディタに貼り付け 5

例 2: 階層がある列見出しの設定複数のシートを連結して読み込み図 8 の Excel データ (sample2.xls) を JMP に読み込みます図 8 sample2.xls このデータは気象庁の Web ページ (http://www.jma.go.jp/) から引用しています 2012 年の 1 月から 4 月までの 1 日ごとの東京の気温や降水量を示していますデータは月別に 4 つのシート (201201, 201202, 201203, 201204) に分けて入力されておりデータの入力形式は 4 つのシートとも同一です JMP で読み込む際次のように読み込みたいとします列見出しは 2 行目と 3 行目を用い気温や降水量については気温 - 平均気温 - 最高気温 - 最低降水量 - 合計というように 2 行目の情報と 3 行目の情報を併せた形の列見出しにしたいデータの開始行は 4 行目からとする 4 つのシートを縦に連結して 2012 年 1 月 ~2012 年 4 月までのデータを 1 つにまとめた JMP データテーブルを作成する Excel 読み込みウィザードで上記の条件を満たすように読み込んでみます例 1 と同様に JMP で Excel ファイル sample2.xls を開き Excel ウィザードを起動します ( 図 9) 6

図 9 Excel 読み込みウィザード < 操作 > 1. 列見出しの開始行を 2 行目に設定します 2. 列見出しの行数を 2 に設定しますこの設定を行うと Excel シートの 2 行目と 3 行目を列見出しとして使用することになり階層化された列名として (2 行名の列名 ) (3 行目の列名 ) と列名間にハイフンを挟む形式の新しい列名になりますデータのプレビューを参照すると列名は気温 - 平均や降水量 (mm) 合計といった形式に変換されていることを確認できます 3. ワークシートを連結して列をマッチさせるにチェックをいれますこの設定により 4 つのシートが連結されますそのためデータプレビュー左下の表示されている行 121/121 は 4 つのシートを連結した行数 =121 が表示されていますさらに連結の際ワークシート名を含む列を作成するにチェックをいれると最初の列にシート名を示した新しい列 ( 元のテーブル ) が追加されますこの列の値はシート名になるので 1 つのデータに連結された際どのシートからのデータなのかを確認することができます 4. すべてのワークシートに使用にチェックが入っていることを確認しますチェックが入っていると 4 つのシートすべてに今回の設定が反映されます 5. [ 次へ ] ボタンをクリックしますここでのウィンドウ設定はそのままにし [ 読み込み ] ボタンをクリックします図 10 のように JMP でデータが読み込まれます 7

図 10 JMP データテーブル 3.Excel 読み込みウィザードの応用現在インターネットではさまざまなデータをダウンロードできデータ自体が Excel ファイルで提供されているサイトもあります本章では政府統計の総合窓口である e-stat (http://www.e-stat.go.jp) から都道府県別の人口の推移に関する Excel データをダウンロードし Excel 読み込みウィザードで JMP へ読み込みを行いますさらに読み込んだデータに対し JMP のグラフ機能を用いてデータの可視化を行います Excel ファイルのダウンロード注意 : 下記で紹介する Web ページ Excel ファイルは 2015 年 6 月現在のものです総務庁統計局 ( http://www.stat.go.jp/index.htm ) のページの下側にある調査名で探すのタブから 2. 人口推計のリンクをクリックします推計結果の統計表一覧のリンクをクリックします (e-stat のページに移動します ) 8

長期時系列データ ( 平成 12 年 ~22 年 ) のリンクをクリックします上記リンクの URL は以下の場所になります (2015 年 6 月現在 ) http://www.e-stat.go.jp/sg1/estat/list.do?bid=000001039703&cycode=0 都道府県の項目にある 9 番の Excel ファイルをダウンロードします ( ファイル名 :05k5-9.xls) 図 11 はダウンロードした Excel ファイルです図 11 ダウンロードした Excel ファイル平成 12 年 (2000 年 )~ 平成 22 年 (2010 年 ) の都道府県ごとの人口が示されているデータであり年ごとにシートが分かれています総人口のほかに 0~4 歳 5~9 歳と 5 歳階級での人口も示されていますこの Excel データを Excel 読み込みウィザードを用いて次のように読み込みたいとします 9

列見出しは 9 行目の 0~4 歳 5~9 とします列見出しを読み込むことが出来ない列はデータテーブル作成後に列名を手動で入力します全国合計 (13 行目 ) の行は読み込まずデータの先頭行は 14 行目の北海道からとします最後の行は 60 行目の沖縄県にします ( その下には男女別の表がありますがこれは読み込みません ) Excel 読み込みウィザードダウンロードしたファイル 05k5-9.xls を JMP で開き Excel ウィザードを起動します ( 図 12) 図 12 Excel 読み込みウィザードデータの行列見出しの開始行などを設定列見出しの開始行 = 9 としますデータの開始行 = 14 としますワークシートを連結して列をマッチさせるにチェックをいれますさらに連結の際ワークシート名を含む列を作成するにチェックをいれますすべてのワークシートに使用にチェックが入っていることを確認しますデータのプレビューで列見出しデータの開始行が想定通りになっているか最初の列元のテーブルが正しく追加されているかどうかを確認し [ 次へ ] をクリックします 10

次のウィンドウではデータの終了行の設定を行います ( 図 13) 図 13 Excel 読み込みウィザードデータの終了行の設定データの最終行 = 60 としますデータのプレビューで正しく連結されているかどうか確認し [ 読み込み ] ボタンをクリックします図 14 のようにシートを連結した JMP データテーブルが作成されます図 14 JMP データテーブル 11

注意 : 以下で説明する読み込んだデータの加工バブルプロットを用いて少子高齢化の現象を考察グラフビルダーを用い地図上で少子高齢化の現象を考察は Excel 読み込みウィザードとは直接関係はありませんが実際 JMP で読み込んだデータを可視化する例として記載しております読み込んだデータの加工読み込んだデータに対し各都道府県の 20 歳未満の人口割合と 65 歳以上の人口割合が年ごとにどのように推移していくかバブルプロットで可視化してみますそのために列名の変更列元のデーブルの値を再コード化し年 ( 西暦 ) の値に変更しますさらに計算式を用いて 20 歳未満の人口割合と 65 歳以上の人口割合を求めますまずは 1 列目から 4 列目をそれぞれ年都道府県コード都道府県都道府県 ( ローマ字 ) と列名を変更します最初の列年を選択し [ 列 ] > [ ユーティリティ ]> [ 再コード化 ] により次のように新しい値を入力して値の置換を行います新しい列 20 歳未満の割合 65 歳以上の割合を作成し次のように計算式を指定します列 20 歳未満の割合の計算式列 65 歳以上の割合の計算式 ( 注意 : 今回のデータは 2006 年までは 80 歳以上の人口を示していますが 2007 年以降では 80~84, 85 歳以上と 80 歳以上の人口区分が増えていますそのため 2006 年までのデータでは列 80 歳以上に値が入力され 2 つの列 80-84 85 以上は欠測値になり 2007 年以降では 2 つの列 80-84 85 以上に値が入力され列 80 歳以上は欠測値になりますこのような場合でも Sum 関数を用いると欠測値はカウントせずに合計しますので上記の計算式で 65 歳以上の人口を求めることができます ) 都道府県の名称は北海道のように文字間に半角スペースが入っているため [ 編集 ] > [ 検索 ] > [ 検索 ] を選択し検索する文字列に半角のスペースを指定し [ すべて置換 ] ボタンをクリックすると半角スペースを削除することができます 12

東北地方や関東地方など地方での傾向も見たいため新しい列地方を作成し次のような計算式を指定します図 15 が分析用データテーブルです新しい列地方 20 歳未満の割合 65 歳以上の割合が追加されています図 15 分析用データテーブル 13

バブルプロットを用いて少子高齢化の現象を考察 [ グラフ ] > [ バブルプロット ] を選択し次のように列を指定しますバブルプロットが出力されます横軸は 20 歳未満の割合縦軸は 65 歳以上の割合各都道府県のバブルの大きさはその年の人口の総数 ( 総人口 ) を示します 20 歳以上の割合と 65 歳以上の割合を比較するために次の操作を行います横軸と縦軸について軸の最小値を 0.1 最大値を 0.3 目盛り間隔を 0.05 にしますグラフ上で右クリックし [ カスタマイズ ] を選択しますグラフをカスタマイズのウィンドウで左上の + ボタンをクリックし中央のスクリプトウィンドウに Y Fucntion(x,x); と入力しますこの操作で Y =X の直線を引くことができますバブルプロットの左上の赤い三角ボタンより [ ラベル ] > [ すべて ] を選択しすべてのバブルにラベルをつけます図 16 は上記の操作を行った後の出力になりますこれは 2000 年のプロットです 14

図 16 バブルプロット (2000 年 ) Y=X の直線は 20 歳未満の割合と 65 歳未満の割合のどちらが高いか低いかをみる境界線になります直線の下側にプロットが位置すれば 20 歳未満の割合が高く上側は 65 歳以上の割合が高いことになります図 16 の 2000 年では総人口が多い都道府県のバブルの多くは直線の下側に総人口が少ない都道府県のバブルの多くは直線の上側に位置しているようですただし沖縄県はグラフの右下に位置し他の都道府県に比べ 20 歳未満の割合が高く 65 歳未満の割合が低いことを示していますバブルプロットの左下にあるアニメーションの開始ボタン ( ) をクリックすると年ごとの割合の推移をアニメーションで確認することができます図 17 は 2010 年におけるバブルプロットですバブルプロットの左上の赤い三角ボタンより [ 軌跡線 ] > [ すべて ] を選択するとバブルの軌跡を線で表示することができます図 17 バブルプロット (2010 年 ) 15

バブルの軌跡からすべてのバブルが左上に進んでいることがわかりいわゆる少子高齢化が進んでいることを確認できます 2010 年では沖縄県を除くすべてのバブルが直線より上側に位置するので 65 歳以上の人口割合が 20 歳未満の人口割合より高くなっていることがわかりますバブルの色は右上の凡例にあるように地方を示しますが赤色である関東地方のバブルがそれぞれ近くに位置しています ( 図 18) 図 18 バブルプロット (2010 年 ) で関東地方のみ強調表示そこで今度はグラフビルダーを用いて地図上で都道府県の少子高齢化の状況を確認してみますグラフビルダーを用い地図上で少子高齢化の現象を考察データテーブルに戻り新しい列を作成し次のような計算式を作成します列名は 65 歳以上の割合 /20 歳未満の割合としますこの値が 1 より大きい場合は 65 歳以上の割合が 20 歳未満の割合より高いことになり値が大きいほど少子高齢化が進んでいると考えられます JMP のメニューバーより [ グラフ ] > [ グラフビルダー ] を選択し左下の [ 地図シェープ ] に都道府県をドロップし右上の [ 色 ] のゾーンに 65 歳以上の割合 /20 歳未満の割合をドロップしますさらに右側の凡例を選択しカラーテーマやラベルの数最小中央最大を次のように設定します 16

図 19 がグラフビルダーの出力ですこのグラフでは 2000 年から 2010 年までの 65 歳以上の割合 /20 歳未満の割合の平均値が都道府県別に地図上で色分けして表示されています図 19 グラフビルダーで地図表示年ごとの推移をみるためローカルデータファイタを用いますグラフビルダーの左上にある赤い三角ボタンより [ スクリプト ] > [ ローカルデータフィルタ ] を選択しますフィルタ列の追加で列年を追加すると 2000 年 2001 年 2010 年とデータにファイルをかけて結果を参照することができます図 20 図 21 図 22 はそれぞれ 2000 年 2005 年 2010 年でフィルタをかけたときの出力になります図 20 65 歳以上の割合 /20 歳未満の割合 (2000 年 ) 17

図 21 65 歳以上の割合 /20 歳未満の割合 (2005 年 ) 図 22 65 歳以上の割合 /20 歳未満の割合 (2010 年 ) 2000 年 2005 年 2010 年と見比べると次第に濃い色になっているすなわち 65 歳以上の割合 /20 歳未満の割合が大きくなっていることがわかります特に東北や北陸中国地方の太平洋側や四国地方は比較的少子高齢化が進んでいるようです 18

4. まとめ第 2 章では Excel 読み込みウィザードの機能についてサンプルデータを用いて説明し第 3 章では実際にインターネットから Excel ファイルをダウンロードし Excel 読み込みウィザードを使って JMP で読み込み読み込んだデータを用いて JMP で分析を行う例を示しました第 3 章で用いた Excel ファイルはシートが年ごとに複数ありこれらを Excel ウィザードでまとめて 1 つの JMP データテーブルとして読み込むことができたので作業時間が大幅に短縮できています JMP で時系列のデータを扱うには今回のように各年のデータを連結し積み重ねた形で用意しておく方がその後の分析で都合が良いことが多くありますそのため自動的に同形式の複数のシートをウィザード上で自動的に連結する機能は強力な機能といえますさらに Excel 読み込みウィザードで読み込んだ設定は JMP のデータテーブルにスクリプトとして自動的に保存されるので定型的なファイルを自動的に読み込むプログラムを自動的に作成できるという点も強力な機能ですデータ分析は実際にデータを分析する時間よりも分析の前処理である分析用のデータを作成することの方が時間を要するといわれています本文で説明した Excel 読み込みウィザードを用いると Excel からのデータを効率よく読み込むことができデータの作成のプロセスを短縮することができます < 参考 > Windows 版 JMP 12 のデフォルト設定では [ ファイル ] > [ 開く ] で Excel ファイルを開いたとき自動的に Excel 読み込みウィザードが起動する設定になっていますウィザードを設定せずに直接 Excel ファイルを読み込みたいときは JMP のメニューバーから [ ファイル ] > [ 環境設定 ] を選択し Excel ファイルを開く方法をすべてのシートを開くまたは個々の Excel シートを開くに設定します ( 図 23) Macintosh 版 JMP 12 の場合.xlsx ファイルは常に Excel 読み込みウィザードで読み込むようになっています.xls ファイルを読み込む場合は Excel ウィザードを使用するのオプションをオフにして直接読み込むことも可能です図 23 Excel ファイルを開く方法の環境設定 19