0 スペクトル時系列データの前処理法平滑化 ( スムージング ) と微分明治大学理学部応用化学科データ化学学研究室弘昌

スペクトルデータの特徴 1 波 ( 波数 ) が近いと吸光度 ( 強度 ) の値も似ているノイズが含まれる吸光度 ( 強度 ) の極大値 ( ピーク ) 以外のデータも重要

時系列データの特徴 2 時刻が近いとプロセス変数の値も似ているノイズが含まれるプロセス変数の極大値極小値以外のデータも重要時間が経つとデータが増える

スペクトル時系列データ 3 スペクトル時系列データの特徴は似ている回帰分析クラス分類の推定性能を向上させるためのデータの前処理についても同様の法を適用できる

スペクトル時系列データの前処理 4 平滑化 ( スムージング ) スペクトル時系列データを均す ( ならす ) ことでノイズを低減するやりすぎて極大値極小値の情報が消えないように注意する微分スペクトル時系列データの傾きを計算することでベースラインを補正する新しいスペクトル情報を抽出する時間変化を得る一次微分二次微分三次微分微分するとノイズが大きくなるので注意する

単純移動平均 ( スペクトルデータ ) 5 ある波 ( 波数 ) の前後 n 点での強度 ( 吸光度 ) の平均値を平滑化後の値にする波ごとに計算する (2n+1) を窓枠の数と呼ぶ端っこの波については (2n+1) 点とれないこともある強度 ( 吸光度 ) 平均値 (2n+1) 点 : 窓枠波 ( 波数 )

単純移動平均 ( 時系列データ ) 6 現在時刻の値を含めて過去 n 点でのプロセス変数の平均値を平滑化後の値にする ( 予測するときは前後点をとれないため ) 時刻ごとに計算する n を窓枠の数と呼ぶ初期時刻付近については n 点とれないこともあるプロセス変数平均値 n 点 : 窓枠現在経過時間

線形加重移動平均 ( スペクトルデータ ) 7 ある波 ( 波数 ) の前後 n 点での強度 ( 吸光度 ) について対象の波から離れるにつれて線形に重みが小さくなる加重平均の値を平滑化後の値にする (2n+1) を窓枠の数と呼ぶある波 i における強度を x i とし平滑化後の値を x S,i とすると x S, i = ( ) ( ) ( n ) n ( n ) x + 2x + + n 1 x + nx + n 1 x + + 2x + x i n i n+ 1 i 1 i i+ 1 i+ n 1 i+ n 1+ 2 + + 1 + + 1 + + 2 + 1

線形加重移動平均 ( 時系列データ ) 8 現在時刻の値を含めて過去 n 点でのプロセス変数の値について現在時刻から離れるにつれて線形に重みが小さくなる加重平均の値を平滑化後の値にする (2n+1) を窓枠の数と呼ぶある時刻 t におけるプロセス変数の値を x t とし平滑化後の値を x S,t とすると x S, t = n ( + 1) { n j x } t j+ 1 j= 1 n j= 1 ( n j + 1)

指数加重移動平均 ( スペクトルデータ ) 9 ある波 ( 波数 ) の前後 n 点での強度 ( 吸光度 ) について対象の波から離れるにつれて指数関数的に重みが小さくなる加重平均の値を平滑化後の値にする波からある程度離れると重みはほぼ 0 になるため窓枠をある程度大きくしておけば細かい数字は気にしなくてよいある波 i における強度を x i とし平滑化後の値を x S,i とすると x + α x + α x + x + α x + α x + 2 2 i 2 i 1 i i+ 1 i+ 2 S, i = 2 2 + α + α + 1+ α + α + α を平滑化係数とよぶ

指数加重移動平均 ( 時系列データ ) 10 現在時刻の値を含めて過去 n 点でのプロセス変数の値について現在時刻から離れるにつれて指数関数的に重みが小さくなる加重平均の値を平滑化後の値にする波からある程度離れると重みはほぼ 0 になるため窓枠をある程度大きくしておけば細かい数字は気にしなくてよいある時刻 t におけるプロセス変数の値を x t とし平滑化後の値を x S,t とすると { ( ) ( ) 2 1 1 } x = α x + α x + α x + S, t t t 1 t 2 α を平滑化係数とよぶ

微分 11 隣の波時刻における値との差分をとることで一次微分一次微分の値について隣の波時刻における値との差分をとることで二次微分

Savitzky-Golay (SG) 法 [1,2] 12 データの平滑化と微分とを同時にう法窓枠のデータを多項式で近似して多項式の計算値を平滑化後の値とする多項式の微分係数を微分後の値とする波や時刻ごとに計算スペクトル解析の分野における前処理の法として一般的時系列データに用いられる例はあまりないが効果は確認済み [3,4] [1] A. Savitzky, M.J.E. Golay, Anal. Chem. 36, 1627-1639, 1964. [2] 吉村季織, 柳正夫, Journal of Computer Chemistry, Japan, 11, 149-158, 2012 [3] H. Kaneko, K. Funatsu, Ind. Eng. Chem. Res., 54, 12630-12638, 2015. [4] H. Kaneko, K. Funatsu, J. Chem. Eng. Jpn., 50, 422-429, 2017

SG 法の例 13 吸光度強度 3 2.5 2 1.5 1 0.5 0 1100 1150 1200 1250 1300 波長 [nm] 0.04 0.03 0.02 0.01 0-0.01 SG (1 次微分 ) -0.02 元のスペクトル -0.03 1100 1150 1200 1250 1300 波長 [nm] 吸光度吸光度 3 2.5 2 1.5 1 0.5 0 1100 1150 1200 1250 1300 波長 [nm] 2 0-2 4 x 10-3 SG 法後 SG (2 次微分 ) -4 1100 1150 1200 1250 1300 波長 [nm]

SG 法 ( スペクトルデータ ) 14 x: 強度 x = t の多項式 = a 2 t 2 + a 1 t + a 0 ( 例 ) 窓枠の数 t : 波多項式の次数窓枠の数を事前に決めなければならない

SG 法 ( 時系列データ ) 15 x: プロセス変数 x = t の多項式 = a 2 t 2 + a 1 t + a 0 ( 例 ) 窓枠の数現在 t : 経過時間多項式の次数窓枠の数を事前に決めなければならない

手法ハイパーパラメータ微分次数はどうする? 4 つの手法とハイパーパラメータの値の候補単純移動平均 : 窓枠の数 (5, 11, 21, 31,, 201) 線形加重移動平均 : 窓枠の数 (5, 11, 21, 31,, 201) 指数加重移動平均 : 平滑化係数 (0.01, 0.02,, 1) SG 法 : 多項式の次数 (1, 2, 3, 4) 窓枠の数 (5, 11, 21, 31,, 201) 16 微分次数 ( 場合によってはその組み合わせ ) をどのように決めるか? 1 モデルの検証により選択する 2 ノイズの正規分布性により選択する

1 モデルの検証による選択 17 各手法各ハイパーパラメータの値各微分係数の値で回帰分析クラス分類のモデルの検証をい最も検証結果のよい組み合わせを選択するたとえばクロスバリデーション推定値の r 2 が最も大きい組み合わせバリデーションデータの r 2 が最も大きい組み合わせモデルの検証 :http://datachemeng.com/modelvalidation/

1 モデルの検証による選択特徴 18 メリットモデルの検証の仕によっては推定性能のいモデルを構築できる手法ハイパーパラメータの値微分係数を選択可能デメリット教師ありデータが必要モデリングを何回もわなくてはならない ( 時間がかかる )

2 ノイズの正規分布性による選択 19 平滑化前後の値を引くことで平滑化によって均 ( なら ) されたノイズの値を計算できるノイズは正規分布であると仮定すると平滑化によって減少したノイズの分布も正規分布に従う必要があるコルモゴロフスミルノフ検定などの正規分布性の検定によりノイズが正規分布に従う手法ハイパーパラメータの組み合わせを選択選択された手法ハイパーパラメータの組の中で標準偏差が最も大きい ( = ノイズが最も減少した ) 組を選択詳しくは下の論を参照のこと H. Kaneko, K. Funatsu, J. Chem. Eng. Jpn., 50, 422-429, 2017

2 ノイズの正規分布性による選択特徴 20 メリット教師データ不要モデリング不要 ( 時間がかからない ) デメリット微分次数は選択できない選択の際モデルの推定性能は考慮されていない

0 スペクトル 時系列データの前処理 法 平滑化 ( スムージング ) と微分 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

0 スペクトル時系列データの前処理法平滑化 ( スムージング ) と微分明治大学理学部応用化学科データ化学学研究室弘昌