斎藤参郎 saito@fukuoka-u.ac.jp データサイエンス A 2018 年度水曜日 2 限目 (10:40-12:10) 0. イントロダクション 講義の進め方 担当昨年度より 講義の方針 1) 自宅でも学習できる 2) 様々なデータ分析手法を自分でインストールし 実験できる 環境の紹介 3) データ分析技法を自習していくことができる基礎能力 講義内容で考慮すべき点 4) 多くの手法が電卓のように使える時代 2 つの異なった能力 a) 少数の手法について 何故の質問にこたえられる理論的背景 b) 多くの手法を使いまわせる対応力 5) 自分で分析するときに何が必要か データサイエンティスト汎用スキル a) 様々なデータを加工して自分の分析に使えるようにする b) 計算方法に工夫を加える c) システム化して 実用化する 6) 研究分野に特化した技能 a) 特徴を抽出する b) 原因と結果 政策効果を測る c) 統計的方法の理論的背景を知る統計学 数学 計量経済学 d) 原因と結果を結び付けるモデルを考える ( パネル ) e) 予測モデルをつくる 政策の効果予測 f) ビッグデータ g) テキストデータ h) 画像データ i) 音声データ j) リアルタイムの推定予測 ( 時系列 パネル ) 7) データサイエンスの道具箱 a) 計算機環境 OS Windows Mac Linux モバイル Androids ios Virtual Machine
VirtualBox VMware HyperV Xen リモートデスクトップ TeamViewer Google Remote Desktop Windows Remote Desktop Parallels b) プログラミング言語 フリー Python Winbugs (Bayesian) Stan (Bayesian) R SASOnDemand 商用 SAS Proc IML MatLab Mathematica Stata 言語のタイプ 関数形言語 vs 手続き型関数形 Mathematica, Python 行列を変数として扱える言語 MatLab SAS IML Python Object-Oriented Programming オープンソース R Stata Proc IML MatLab ウェブ ( プログラミング ) 言語 PHP JAVA Python 開発環境 ( エディターなど ) SAS Studio Viya データマイニングなどのツールが用意されている Jupyter Notebook Spyder
Eclipse c) BI ツール Tableau Dr.SUM d) クラウドコンピューティング クラウドサービス AWS Google Cloud Computing Azure (MicroSoft) SAS Studio Viya SaaS IaaS 講義の内容 1) メインのソフト開発環境 SASOnDemand を選択 SAS Studio = Viya SAS University Edition VM(Virtual Machine) アプライアンスとして配布 VirtualBox VMware workstation player # VirtuaBox,VMware も Linux の Ubuntu を OS として配布 # Python Anaconda も Ubuntu にインストール可 自分のパソコンへ SAS University Edition VirtualBox VMware MatLab 大学で本年度より導入済み (5000 円学生版 ) 研究所のパソコンに teamviewer でアクセス SAS14.3 使用できるようにしたい 2) プログラミング言語 SAS IML(Interactive Matrix Language) #14.2 より オープンソース化された #14.2 より データタイプに 数値の matrix のみならず table と list が加えられた # 数値処理のほかに テキスト処理の実習も可能となった # 他の言語の理解へ拡張するのに効果的 # 必要に応じて今後使えると望ましいもの MatLab 大学で本年度より導入済み Mathematica FQBIC で利用可
Python FQBIC でアクセスできるようにしたい STATA FQBIC でアクセス可 ArcGIS FQBIC で可 ( リモート不可 ) Winbugs (Bayesian) Stan (Bayesian) # R 大学で利用可 ( リモート不可 ) R-commander 大学で利用可 ( リモート不可 ) 3) 講義の内容 SASOnDemand の利用 (2 回 ) (Takanami, Funao et al. 2016) 第 1,2 章 SASOnDemand の登録 SAS Studio の利用 SAS によるデータ処理 SAS プログラミングの概観 (3 回 ) SAS プログラミング入門 1,2,5 WEB SAS Studio によるデータ解析 (4 回 ) (Takanami, Funao et al. 2016) 第 3 章 SAS Studio によるグラフ (3 回 ) (Takanami, Funao et al. 2016) 第 4,5 章 SAS IML モジュール (2 回 ) SAS プログラミング入門 3,4 WEB まとめ (1 回 ) 4) 講義日程 1 4 月 11 日 ( 水 ) 2 4 月 18 日 ( 水 ) イントロ SAS OnDemand SAS Studio SAS によるデータ処理 3 4 月 25 日 ( 水 ) 4 5 月 2 日 ( 水 ) 休講 5 5 月 9 日 ( 水 ) 6 5 月 16 日 ( 水 ) SAS プログラミング入門 1,2,5 WEB Data Step Proc step Cards; Proc freq; If Then Do; End; など 7 5 月 23 日 ( 水 ) 8 5 月 30 日 ( 水 ) 9 6 月 6 日 ( 水 ) 中間実技テスト 10 6 月 13 日 ( 水 ) SAS Studio によるデータ解析 要約統計量
検定 2 群間の差の検定 (t- 検定 ) 正確検定 ノンパラメトリック検定 ヒストグラム 相関分析 線形回帰 2 値データ ロジスティック回帰 生存時間分析 11 6 月 20 日 ( 水 ) 12 6 月 27 日 ( 水 ) 13 6 月 30 日 ( 土 ) 補講 SAS Studio によるグラフ 棒グラフ 箱ひげ ヒストグラム 折れ線 散布図 バブルプロット 時系列 14 7 月 4 日 ( 水 ) 15 7 月 11 日 ( 水 ) SAS IML によるプログラミング SAS IML の最新の動き モジュールとは マトリックス ( 行列の操作 ) Huff モデルによる予測計算 Huff モデルの推定 16 7 月 18 日 ( 水 ) まとめ期末試験解説 教科書 Takanami, Y., N. Funao, 高浪洋平 and 舟尾暢男 (2016). SAS Studio によるやさしい統計データ分析, オーム社. Ohashi, W. and 大橋渉 (2010). 統計を知らない人のための SAS 入門. 東京, Japan, オーム社. SAS (2016). SAS/IML 14.2 User's guide, SAS Institute.