ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

Similar documents
EBNと疫学

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

様々なミクロ計量モデル†

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft Word - lec_student-chp3_1-representative

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

_KyoukaNaiyou_No.4

不偏推定量

経営統計学

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Microsoft PowerPoint - データ解析基礎2.ppt

Microsoft PowerPoint ppt

【指導のポイント】

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

基礎統計

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

モジュール1のまとめ

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

講義「○○○○」

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

Microsoft PowerPoint - stat-2014-[9] pptx

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

Microsoft Word - Stattext07.doc

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft PowerPoint - statistics pptx

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

Microsoft Word - 保健医療統計学112817完成版.docx

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

Microsoft Word - t30_西_修正__ doc

2015実験ゼロ結果と考察 UP用.pdf

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

スライド 1

Microsoft PowerPoint - statistics pptx

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

散布度

Microsoft PowerPoint - statistics pptx

代表値

Microsoft PowerPoint - sc7.ppt [互換モード]

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

数値計算法

振動学特論火曜 1 限 TA332J 藤井康介 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫

Microsoft Word - apstattext05.docx

FdData中間期末数学3年

スライド 1

日心TWS

Excelにおける回帰分析(最小二乗法)の手順と出力

情報工学概論

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft PowerPoint - 基礎・経済統計6.ppt

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - CVM.ppt [互換モード]

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

Medical3

ビジネス統計 統計基礎とエクセル分析 正誤表

< 文字式問題文の意味を文字式で表す > No. 桁 ( ケタ ) の整数 自然数 例 ) 8 という整数は が つ が 8 つ集まってできている整数である これを踏まえて 8 = + 8 と表すことができる (1) 十の位の数字が χ 一の位の数字が у である 桁の整数は χ と у を用いてど

Microsoft Word - Stattext13.doc

Microsoft PowerPoint - 測量学.ppt [互換モード]

Medical3

(Microsoft Word - 10ta320a_\220U\223\256\212w\223\301\230__6\217\315\221O\224\274\203\214\203W\203\201.docx)

青焼 1章[15-52].indd

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

3章 度数分布とヒストグラム

テレビ講座追加資料1105

Microsoft Word - Stattext12.doc

Microsoft Word - appendix_b

統計的データ解析

PowerPoint プレゼンテーション

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

相関係数と偏差ベクトル

Microsoft Word - apstattext04.docx

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

Probit , Mixed logit

統計学 Ⅰ(8) 累積度数 : ある階級以下に含まれる度数の合計 階級 度数 相対度数累積度数 累積相対度数 点以上 ~ 点未満.. ~.. ~. 7. ~ 6..6 ~. 6.8 ~ ~ ~ ~ ~.. ~.. 合計. - -

第7章

第4回

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

1.民営化

横浜市環境科学研究所

強度のメカニズム コンクリートは 骨材同士をセメントペーストで結合したものです したがって コンクリート強度は セメントペーストの接着力に支配されます セメントペーストの接着力は 水セメント比 (W/C 質量比 ) によって決められます 水セメント比が小さいほど 高濃度のセメントペーストとなり 接着

<4D F736F F D AAE90AC94C5817A E7793B188C481698D5D E7397A791E58A A778D5A814094F68FE3816A2E646F63>

memo

[1] の問題は四分位数の計算方法を知っているだけでは解けず, 四分位数や箱ひげ図の意味がわかり, また,2 回目とのデータの比較について箱ひげ図からわかることの判断といったことができるかどうかが問われていた しかも (2) と (3) はそれぞれ選択肢を 4 個と 2 個答えるが, それぞれ完答を

Microsoft PowerPoint - mp11-06.pptx

1 から 1000 までの整数の中で 約数の数が 最も多い数字の求め方 0. はじめにこのファイルは あべしん が mixi 内で一部に公開した 第 14 回勝抜杯 の予選奮戦記 弱くても解けます を改訂してまとめたものである 主な変更内容は以下の通り mixi 内の奮戦記で示した解法を ノーカット

東邦大学理学部情報科学科 2014 年度 卒業研究論文 コラッツ予想の変形について 提出日 2015 年 1 月 30 日 ( 金 ) 指導教員白柳潔 提出者 山中陽子

2014年度 千葉大・医系数学

【FdData中間期末過去問題】中学数学1年(負の数/数直線/絶対値/数の大小)

Microsoft PowerPoint - 10.pptx

統計学の基礎から学ぶ実験計画法ー1

Microsoft PowerPoint - A1.ppt [互換モード]

Blue circle & gradation

Transcription:

春学期統計学 I 記述統計と推測統計 担当 : 長倉大輔 ( ながくらだいすけ ) 1

本日の予定 本日はまず記述統計と推測統計の違い 推測統計学の基本的な構造について説明します 2

記述統計と推測統計 統計学とは? 与えられたデータの背後にある 特性 法則 を 検証 発見 分析 するための手法の開発 その応用などに関わる学問の事です 3

記述統計と推測統計 データの種類 データの種類はおおまかに 2 つに分けられます 1 つ目は実験により育成される実験データと呼ばれるもの 2 つ目は実験から生み出されたものではない非実験データです 4

記述統計と推測統計 実験データ これは分析者によってデータが育成される条件 状態を管理できる環境で生み出されるようなデータで 物理学や化学などで用いられるようなデータです このようなデータでは他の条件を同じにして特定の条件を変えた場合のデータの変動が測定できるため データに含まれる変動の規則性を見つける事が容易といえます 5

記述統計と推測統計 非実験データ これは気象学や経済学で観測されるようなデータで 分析者はデータが育成される条件 状態を管理できません 実現した値を観測する事ができるだけです このようなデータではいろんな諸条件が組み合わさった状態でデータが育成されるため そこに隠された法則などを見つける事が実験データに比べると難しくなります 経済やファイナンスのデータはほとんどが非実験データです 6

記述統計と推測統計 記述統計 記述統計 ( 統計的記述 ) とは与えられたデータに対して そのデータの特徴を要約 ( 記述 ) する事です 具体的には よく知られたもので平均 今日説明するものでは中央値 最頻値 今後説明するものでは分散 などがあげられます 7

記述統計と推測統計 推測統計 多くの場合 データは分析したい対象全体の一部分に関してのみ与えられます それら一部分から対象全体に関する特性を推測する事を推測統計 ( 統計的推測 ) といいます 8

記述統計と推測統計 記述統計と推測統計の例 今 私たちはある工場で作られた電球の品質を分析したいとします 与えられたデータ ( 観測値 ) は電球 20 個の寿命です 例えば電球 1 の寿命 150 時間電球 2 の寿命 130 時間 電球 20 の寿命 90 時間などです 9

記述統計と推測統計 記述統計と推測統計の例 ここで私たちはまずこれら 20 個の 電球は大体何時間くらいで寿命がつきてしまっているのか? という事に関心があるとします 与えられた 20 個のデータを眺めているだけではなかなかわかりません この場合よく使われるのが ( 標本 ) 平均という統計量です 標本とはデータの事で 統計量とは標本から計算されるもの ( より正確には標本の関数 ) のことです 10

記述統計と推測統計 記述統計と推測統計の例 これら 20 個の電球の寿命の平均は 120 時間だったとしましょう これはこのデータ (20 個の電球 ) においてだいたい 120 時間あたりの値をとる電球が多いと言うことを意味します これでこの 20 個の電球 についての特徴のひとつが明らかになりました これがデータの特性を記述するということです 11

記述統計と推測統計 記述統計と推測統計の例 しかし私たちが本当に関心があるのは この 20 個の 電球の寿命ではなく むしろこの工場でつくられる電球の寿命の平均はどれくらいか? という事でしょう ここで問題はこの工場で作られた 20 個の電球 ( 全体の一部 ) の寿命の平均が 120 時間である事から この工場で作られる電球の平均寿命は 120 時間 と結論してよいか? です 12

記述統計と推測統計 記述統計と推測統計の例 20 個の電球の寿命の平均からいかに全体の電球の寿命の平均について推測するかを問題にするのが 推測統計 の問題です ここでは 20 個の電球の寿命の平均 ( 標本平均 ) は 全体の電球の寿命の平均 ( 母平均 ) の推定値とみなされます 推定値とはそれが真の値ではなく 誤差をともなっているという事を意味します 13

記述統計と推測統計 記述統計と推測統計の例 このように推定を行った場合 興味のある問題として この推定値は全体の電球の寿命の平均を どれくらい正確に推定しているか? ということがあります 誤差が小さい場合と大きい場合では結論がまったく違うものになります 他にも どのようにすれば誤差を小さく推定できるだろうか? という問題にも興味があるでしょう 推測統計はそのような問題について考えます 14

母集団と標本 母集団と標本 観測対象の事を母集団といい ( 例 : ある工場で作られた電球の寿命 ) 母集団からの観測される値を標本といいます ( 例 :20 個の電球の寿命 ) 全標本 もし母集団全ての値が観測できた場合 それを全標本といいます 15

母集団と標本 全数調査と標本調査 全数調査とは全標本が得られる場合の調査の事であり 標本調査とは母集団の一部分しか観測できない調査の事です 全数調査は多くの場合非常に時間と経費がかかります ( 不可能である場合も多い ) 電球の寿命 の例などは全数調査が不可能な例です 16

母集団と標本 全数調査と標本調査の例 ( 全数調査の例 ) 国勢調査 5 年ごとに日本に住んでいる全ての人を対象に調査 ( 標本調査の例 ) 家計調査 毎月農家を除く全ての世帯の暮らし向きを把握するために全体の 5000 分の 1 を対象に調査 17

母集団と標本 無作為標本 標本の採り方の代表的な例に無作為標本というものがあります これは母集団から標本を無作為に ( より厳密には確率的独立に ) とるというやり方のことです これは標本から母集団に関する推測をする際に極めて重要になってきます 18

母集団と標本 無作為標本に失敗した例 無作為標本に失敗するとどうなるかという例として有名なものとして 1936 年のアメリカ大統領選挙の話があります この時ある新聞社は 200 万人規模の ( 標本 ) 調査を行い共和党のランドン氏の大勝利を予想しました しかし結果は民主党のルーズベルト氏の圧勝に終わりました この新聞社の調査はどこがまずかったのでしょうか? 19

母集団と標本 無作為標本に失敗した例 この新聞社の調査の問題点は調査の対象を同誌の購買者と電話保有者に限定した事にありました 当時はまだ電話を所有できるのは高所得者に限り 高所得者は共和党を支持する傾向が高かったため 調査では共和党の勝利という結果になったのです これは一部で全体を代表させるのに失敗した例です 20

記述統計 - データの中心 標本平均 平均という言葉は 平均点 平均気温 平均降水量 など 日常でよく使われているので すでになじみの深いものだと思いますが これもれっきとした統計用語です 21

記述統計 - データの中心 平均の定義今 n 個の観測値からなる標本 { x 1, x 2, x n } が得られたとします この時平均 ( より正確には標本平均 ) は x x x x 1 2... n n と定義されます ( 平均はしばしばと書かれます ) x 22

記述統計 - データの中心 平均の意味 解釈 平均はデータがどの値の周りに多く分布しているかを表していると解釈する事ができます 言い換えるとデータの中心を表していると考えられます 23

記述統計 - データの中心 Σ ( シグマ ) 記号 平均の定義の分子の部分は Σ 記号を使うとより簡便に表せます Σ 記号とは n i1 の事です これによって平均は と表わされます x x x... x i x 1 n 1 2 n i1 x i n 24

記述統計 - データの中心 Σ( シグマ ) 記号の性質 Σ 記号は統計学で非常に頻繁に登場するのでここでその性質を確認します (1) 各 x i を c 倍して和を取ったものは となります n i1 cx i c n i1 x i 25

記述統計 - データの中心 Σ( シグマ ) 記号の性質 (2) 定数 c に対して となります (3) 2 組の観測値 { y 1,,y n } と { x 1,,x n } に対して が成り立ちます n i1 n i1 ( x i c cn y i ) n i1 x i n i1 y i 26

27 27 記述統計 - データの中心 Σ( シグマ ) 記号の性質 (1) - (3) より 例えばなどが導けます n c x c x c x n i i n i i n i i 2 1 1 2 1 2 2 ) (

記述統計 - データの中心 メディアン ( 中位点 中央点 ) 観測値を大小順番に並べ 真ん中に位置する値を中位点 またはメディアンといいます ただし観測値の数が偶数の場合 ちょうど真ん中にくる数はないので 真ん中の 2 つの観測値の平均をメディアンとします 28

記述統計 - データの中心 ( 例 ) メディアン ( 標本数が奇数の場合 ) 標本が { x 1, x 2,,x 5 } = { 7, 9, 4, 2, 5 } であるとすると まず小さい順に並べて { 2, 4, 5, 7, 9 } 次にメディアンなので その真ん中の値を取ります { 2, 4, 5, 7, 9 } よってメディアンは 5 となります ちなみにこの標本の平均は 5.4 となります 29

記述統計 - データの中心 メディアン ( 標本数が偶数の場合 ) 標本 { x 1, x 2,, x 6 } = { 10, 7, 9, 4, 2, 5 } であるとすると まず小さい順に並べると { 2, 4, 5, 7, 9, 10 } です 次にその真ん中の 2 つの観測値の平均をとります { 2, 4, 5, 7, 9, 10 } (5 + 7)/2 = 6 よってメディアンは 6 となります ちなみにこの標本の平均は 37/6 6.2 です 30

記述統計 - データの中心 メディアンの定義 標本 { x 1, x 2,, x n } を小さい順に並べたものを とします { x (1), x (2),., x (n) } ( 標本の数 n が奇数の時 ) この時メディアンは x ((n+1)/2) です ( 標本の数 n が偶数の時 ) この時メディアンは (x (n/2) +x (n/2 + 1) )/2 です 31

記述統計 - データの中心 メディアンの特性 平均もメディアンも共にデータの中心を測るものですが ( どのあたりの値のデータが多く観測されているかを見る ) メディアンは平均に比べて異常値 ( 外れ値 ) の影響を受けにくいという特徴があります 32

記述統計 - データの中心 メディアンの特性 例えば今 5 人の人の年収が ( 単位は円 ) {500 万 600 万 700 万 800 万 900 万 } だとすると 平均は 700 万 メディアンも 700 万です ここである年収 1 兆円の大富豪がこの標本に加わったとしましょう {500 万 600 万 700 万 800 万 900 万 1 兆円 } この場合平均は (1 兆 3500 万 )/6 で 1666 億 7250 万になります しかしメディアンは 750 万です どちらの方が どの値の周りにこのグループの標本の値が多いか をよく表しているか明らかでしょう 33

記述統計 - データの中心 モード ( 最頻値 ) 標本の中で最も頻繁に出た値をモード または最頻値といいます 例えば標本 { 3, 10, 7, 9, 4, 3, 5 } が与えらた時に 3 が 2 つあり 最も頻繁に観測されています よってこの場合はモードは 3 となります ちなみにこのデータのメディアンは 5 平均は約 5.9 となります 34

記述統計 - データの中心 モード ( 最頻値 ) 平均やメディアンと違い モードは一つとは限りません 例えば標本 { 2, 10, 7, 9, 4, 2, 5, 9 } が与えらた時には 2 と 9 が共に 2 つあるので モードは 2 と 9 になります 35

記述統計 - データの中心 演習問題男女 5 人ずつに1 週間にコンビニエンスストアを利用する回数を聞いたところ 男性は 5 回 2 回 3 回 3 回 4 回 女性は 1 回 1 回 5 回 4 回 4 回という解答が得られた (1) 男性 5 人の平均 メディアン モードを求めて下さい (2) 女性 5 人の平均 メディアン モードを求めてください (3) 男女 10 人合計の平均 メディアン モードを求めて下さい 36