0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Similar documents
0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

周期時系列の統計解析 (3) 移動平均とフーリエ変換 nino 2017 年 12 月 18 日 移動平均は, 周期時系列における特定の周期成分の消去や不規則変動 ( ノイズ ) の低減に汎用されている統計手法である. ここでは, 周期時系列をコサイン関数で近似し, その移動平均により周期成分の振幅

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

PowerPoint プレゼンテーション

Microsoft PowerPoint - 資料04 重回帰分析.ppt

データ解析

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

Microsoft PowerPoint - 時系列解析(11)_講義用.pptx

横浜市環境科学研究所

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

様々なミクロ計量モデル†

カイ二乗フィット検定、パラメータの誤差

日心TWS

スライド 1

統計的データ解析

Microsoft Word doc

スライド 1

今回用いる例データ lh( 小文字のエル ) ある女性の血液中の黄体ホルモンを 10 分間隔で測定した時系列データ UKgas 1960 年 ~1986 年のイギリスのガス消費量を四半期ごとに観測した時系列データ ldeaths 1974 年 ~1979 年のイギリスで喘息 気管支炎 肺気腫による死

Microsoft PowerPoint - stat-2014-[9] pptx

講義「○○○○」

ディジタル信号処理

OpRisk VaR3.2 Presentation

Microsoft Word - å“Ÿåłžå¸°173.docx

図 5 一次微分 図 6 コントラスト変化に伴う微分プロファイルの変化 価し, 合否判定を行う. 3. エッジ検出の原理ここでは, 一般的なエッジ検出の処理内容と, それぞれの処理におけるパラメータについて述べる. 3.1 濃度投影検出線と直交する方向に各画素をスキャンし, その濃度平均値を検出線上

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft Word - 補論3.2

簿記教育における習熟度別クラス編成 簿記教育における習熟度別クラス編成 濱田峰子 要旨 近年 学生の多様化に伴い きめ細やかな個別対応や対話型授業が可能な少人数の習熟度別クラス編成の重要性が増している そのため 本学では入学時にプレイスメントテストを実施し 国語 数学 英語の 3 教科については習熟

Microsoft PowerPoint - statistics pptx

PowerPoint プレゼンテーション

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

例 e 指数関数的に減衰する信号を h( a < + a a すると, それらのラプラス変換は, H ( ) { e } e インパルス応答が h( a < ( ただし a >, U( ) { } となるシステムにステップ信号 ( y( のラプラス変換 Y () は, Y ( ) H ( ) X (

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

2. 時系列分析 プラットフォームの使用法 JMP の 時系列分析 プラットフォームでは 一変量の時系列に対する分析を行うことができます この章では JMP のサンプルデ ータを用いて このプラットフォームの使用法をご説明します JMP のメニューバーより [ ヘルプ ] > [ サンプルデータ ]

program_japanese

ビジネス統計 統計基礎とエクセル分析 正誤表

大気環境シミュレーション

Microsoft Word - Time Series Basic - Modeling.doc

航空機の運動方程式

Microsoft PowerPoint - Inoue-statistics [互換モード]

<4D F736F F F696E74202D B835E8F88979D D834F CC8E6782A295FB322E707074>

Microsoft PowerPoint - chap8.ppt

情報工学概論

Microsoft Word - ピーク分離.docx

基礎統計

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

ボルツマンマシンの高速化

音情報処理I

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft PowerPoint - e-stat(OLS).pptx

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Microsoft PowerPoint - Econometrics

画像類似度測定の初歩的な手法の検証

数学 ⅡB < 公理 > 公理を論拠に定義を用いて定理を証明する 1 大小関係の公理 順序 (a > b, a = b, a > b 1 つ成立 a > b, b > c a > c 成立 ) 順序と演算 (a > b a + c > b + c (a > b, c > 0 ac > bc) 2 図

SAP11_03

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

PowerPoint プレゼンテーション

1 対 1 対応の演習例題を解いてみた 微分法とその応用 例題 1 極限 微分係数の定義 (2) 関数 f ( x) は任意の実数 x について微分可能なのは明らか f ( 1, f ( 1) ) と ( 1 + h, f ( 1 + h)

EBNと疫学

Hara-statistics

2357

最小二乗法とロバスト推定

Œ{Ł¶/1ŒÊ −ªfiª„¾ [ 1…y†[…W ]

日本内科学会雑誌第96巻第11号

本文/扉1

プログラム


平成20年5月 協会創立50年の歩み 海の安全と環境保全を目指して 友國八郎 海上保安庁 長官 岩崎貞二 日本船主協会 会長 前川弘幸 JF全国漁業協同組合連合会 代表理事会長 服部郁弘 日本船長協会 会長 森本靖之 日本船舶機関士協会 会長 大内博文 航海訓練所 練習船船長 竹本孝弘 第二管区海上保安本部長 梅田宜弘

Program

aphp37-11_プロ1/ky869543540410005590


森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

Microsoft PowerPoint - sc7.ppt [互換モード]

l10

Microsoft Word - note02.doc

MFIV となる Volatility Index Japan(VXJ) を日次で算出 公表している VIX 等と同様にTは約 1 ヶ月に設定 近似ターゲットは V t である 現行バージョンの計算方法は CBOE 方式に準じているが CSFI ではより高い精度で V t を近似する方法を研究開発中

Microsoft Word - NumericalComputation.docx

データ科学2.pptx

EXCELを使った正規乱数(標準偏差1,平均0)の発生方法

プラズマ バブルの到達高度に関する研究 西岡未知 齊藤昭則 ( 京都大学理学研究科 ) 概要 TIMED 衛星搭載の GUVI によって観測された赤道異常のピーク位置と 地上 GPS 受信機網によって観測されたプラズマ バブルの出現率や到達率の関係を調べた 高太陽活動時と低太陽活動時について アジア

Microsoft PowerPoint - ch04j

今日の要点 あぶない 時系列データ解析は やめましょう! 統計モデル のあてはめ (危 1) 時系列データの GLM あてはめ (危 2) 時系列Yt 時系列 Xt 各時刻の個体数 気温 とか

PowerPoint プレゼンテーション

Microsoft PowerPoint - 第3回2.ppt

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint - Lec17 [互換モード]

パソコンシミュレータの現状

Microsoft Word - 卒論レジュメ_最終_.doc

If(A) Vx(V) 1 最小 2 乗法で実験式のパラメータが導出できる測定で得られたデータをよく近似する式を実験式という. その利点は (M1) 多量のデータの特徴を一つの式で簡潔に表現できること. また (M2) y = f ( x ) の関係から, 任意の x のときの y が求まるので,

1

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

振動学特論火曜 1 限 TA332J 藤井康介 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint SIGAL.ppt

. 分析内容及びデータ () 分析内容中長期の代表的金利である円金利スワップを題材に 年 -5 年物のイールドスプレッドの変動を自己回帰誤差モデル * により時系列分析を行った * ) 自己回帰誤差モデル一般に自己回帰モデルは線形回帰モデルと同様な考え方で 外生変数の無いT 期間だけ遅れのある従属変

Microsoft PowerPoint - NA03-09black.ppt

Problem P5

ダイポールアンテナ標準:校正の実際と不確かさ

Transcription:

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

スペクトルデータの特徴 1 波 ( 波数 ) が近いと 吸光度 ( 強度 ) の値も似ている ノイズが含まれる 吸光度 ( 強度 ) の極大値 ( ピーク ) 以外のデータも重要

時系列データの特徴 2 時刻が近いと プロセス変数の値も似ている ノイズが含まれる プロセス変数の極大値 極小値以外のデータも重要 時間が経つとデータが増える

スペクトル 時系列データ 3 スペクトル 時系列データの特徴は似ている 回帰分析 クラス分類の推定性能を向上させるためのデータの前処理についても 同様の 法を適用できる

スペクトル 時系列データの前処理 4 平滑化 ( スムージング ) スペクトル 時系列データを 均す ( ならす ) ことでノイズを低減する やりすぎて極大値 極小値の情報が消えないように注意する 微分 スペクトル 時系列データの傾きを計算することで ベースラインを補正する 新しいスペクトル情報を抽出する 時間変化を得る 一次微分 二次微分 三次微分 微分するとノイズが大きくなるので注意する

単純移動平均 ( スペクトルデータ ) 5 ある波 ( 波数 ) の前後 n 点での強度 ( 吸光度 ) の平均値を 平滑化後の値にする 波 ごとに計算する (2n+1) を窓枠の数と呼ぶ 端っこの波 については (2n+1) 点とれないこともある 強度 ( 吸光度 ) 平均値 (2n+1) 点 : 窓枠 波 ( 波数 )

単純移動平均 ( 時系列データ ) 6 現在時刻の値を含めて 過去 n 点でのプロセス変数の平均値を 平滑化後の値にする ( 予測するときは前後点をとれないため ) 時刻ごとに計算する n を窓枠の数と呼ぶ 初期時刻付近については n 点とれないこともある プロセス変数 平均値 n 点 : 窓枠 現在 経過時間

線形加重移動平均 ( スペクトルデータ ) 7 ある波 ( 波数 ) の前後 n 点での強度 ( 吸光度 ) について 対象の波 から離れるにつれて 線形に重みが小さくなる加重平均の値を 平滑化後の値にする (2n+1) を窓枠の数と呼ぶ ある波 i における強度を x i とし 平滑化後の値を x S,i とすると x S, i = ( ) ( ) ( n ) n ( n ) x + 2x + + n 1 x + nx + n 1 x + + 2x + x i n i n+ 1 i 1 i i+ 1 i+ n 1 i+ n 1+ 2 + + 1 + + 1 + + 2 + 1

線形加重移動平均 ( 時系列データ ) 8 現在時刻の値を含めて 過去 n 点でのプロセス変数の値について 現在時刻から離れるにつれて 線形に重みが小さくなる加重平均の値を 平滑化後の値にする (2n+1) を窓枠の数と呼ぶ ある時刻 t におけるプロセス変数の値を x t とし 平滑化後の値を x S,t とすると x S, t = n ( + 1) { n j x } t j+ 1 j= 1 n j= 1 ( n j + 1)

指数加重移動平均 ( スペクトルデータ ) 9 ある波 ( 波数 ) の前後 n 点での強度 ( 吸光度 ) について 対象の波 から離れるにつれて 指数関数的に重みが小さくなる加重平均の値を 平滑化後の値にする 波 からある程度離れると 重みはほぼ 0 になるため 窓枠をある程度大きくしておけば 細かい数字は気にしなくてよい ある波 i における強度を x i とし 平滑化後の値を x S,i とすると x + α x + α x + x + α x + α x + 2 2 i 2 i 1 i i+ 1 i+ 2 S, i = 2 2 + α + α + 1+ α + α + α を平滑化係数とよぶ

指数加重移動平均 ( 時系列データ ) 10 現在時刻の値を含めて 過去 n 点でのプロセス変数の値について 現在時刻から離れるにつれて 指数関数的に重みが小さくなる加重平均の値を 平滑化後の値にする 波 からある程度離れると 重みはほぼ 0 になるため 窓枠をある程度大きくしておけば 細かい数字は気にしなくてよい ある時刻 t におけるプロセス変数の値を x t とし 平滑化後の値を x S,t とすると { ( ) ( ) 2 1 1 } x = α x + α x + α x + S, t t t 1 t 2 α を平滑化係数とよぶ

微分 11 隣の波 時刻における値との差分をとることで 一次微分 一次微分の値について 隣の波 時刻における値との差分をとることで 二次微分

Savitzky-Golay (SG) 法 [1,2] 12 データの平滑化と微分とを同時に う 法 窓枠のデータを多項式で近似して 多項式の計算値を平滑化後の値とする 多項式の微分係数を微分後の値とする 波 や時刻ごとに計算 スペクトル解析の分野における前処理の 法として一般的 時系列データに用いられる例はあまりないが 効果は確認済み [3,4] [1] A. Savitzky, M.J.E. Golay, Anal. Chem. 36, 1627-1639, 1964. [2] 吉村季織, 柳正夫, Journal of Computer Chemistry, Japan, 11, 149-158, 2012 [3] H. Kaneko, K. Funatsu, Ind. Eng. Chem. Res., 54, 12630-12638, 2015. [4] H. Kaneko, K. Funatsu, J. Chem. Eng. Jpn., 50, 422-429, 2017

SG 法の例 13 吸光度強度 3 2.5 2 1.5 1 0.5 0 1100 1150 1200 1250 1300 波長 [nm] 0.04 0.03 0.02 0.01 0-0.01 SG (1 次微分 ) -0.02 元のスペクトル -0.03 1100 1150 1200 1250 1300 波長 [nm] 吸光度 吸光度 3 2.5 2 1.5 1 0.5 0 1100 1150 1200 1250 1300 波長 [nm] 2 0-2 4 x 10-3 SG 法後 SG (2 次微分 ) -4 1100 1150 1200 1250 1300 波長 [nm]

SG 法 ( スペクトルデータ ) 14 x: 強度 x = t の多項式 = a 2 t 2 + a 1 t + a 0 ( 例 ) 窓枠の数 t : 波 多項式の次数 窓枠の数 を事前に決めなければならない

SG 法 ( 時系列データ ) 15 x: プロセス変数 x = t の多項式 = a 2 t 2 + a 1 t + a 0 ( 例 ) 窓枠の数 現在 t : 経過時間 多項式の次数 窓枠の数 を事前に決めなければならない

手法 ハイパーパラメータ 微分次数はどうする? 4 つの手法とハイパーパラメータの値の候補 単純移動平均 : 窓枠の数 (5, 11, 21, 31,, 201) 線形加重移動平均 : 窓枠の数 (5, 11, 21, 31,, 201) 指数加重移動平均 : 平滑化係数 (0.01, 0.02,, 1) SG 法 : 多項式の次数 (1, 2, 3, 4) 窓枠の数 (5, 11, 21, 31,, 201) 16 微分次数 ( 場合によってはその組み合わせ ) をどのように決めるか? 1 モデルの検証により選択する 2 ノイズの正規分布性により選択する

1 モデルの検証による選択 17 各手法 各ハイパーパラメータの値 各微分係数の値で 回帰分析 クラス分類のモデルの検証を い 最も検証結果のよい組み合わせを選択する たとえば クロスバリデーション推定値の r 2 が最も大きい組み合わせ バリデーションデータの r 2 が最も大きい組み合わせ モデルの検証 :http://datachemeng.com/modelvalidation/

1 モデルの検証による選択特徴 18 メリット モデルの検証の仕 によっては 推定性能の いモデルを構築できる手法 ハイパーパラメータの値 微分係数を選択可能 デメリット 教師ありデータが必要 モデリングを何回も わなくてはならない ( 時間がかかる )

2 ノイズの正規分布性による選択 19 平滑化前後の値を引くことで 平滑化によって 均 ( なら ) された ノイズの値を計算できる ノイズは正規分布であると仮定すると 平滑化によって減少したノイズの分布も正規分布に従う必要がある コルモゴロフ スミルノフ検定などの正規分布性の検定により ノイズが正規分布に従う手法 ハイパーパラメータの組み合わせを選択 選択された手法 ハイパーパラメータの組の中で 標準偏差が最も大きい ( = ノイズが最も減少した ) 組を選択 詳しくは下の論 を参照のこと H. Kaneko, K. Funatsu, J. Chem. Eng. Jpn., 50, 422-429, 2017

2 ノイズの正規分布性による選択特徴 20 メリット 教師データ不要 モデリング不要 ( 時間がかからない ) デメリット 微分次数は選択できない 選択の際 モデルの推定性能は考慮されていない