J. Comput. Chem. Jpn., Vol. **, No. **, pp. ** ** (****) 2014 Society of Computer Chemistry, Japan Microsoft Excel (6) PLS 吉 村 季 織 *, 高 柳 正 夫 技 術 論 文 国 立 大 学 法 人 東 京 農 工 大 学 農 学 府, 183-8509 東 京 都 府 中 市 幸 町 3-5-8 *e-mail: yosimura@cc.tuat.ac.jp (Received: January 8, 2014; Accepted for publication: March 7, 2014; Advance publication: May 17, 2014) 近 年, 化 学 データを 数 学 的 統 計 的 手 法 により 解 析 する ケモメトリクス が 頻 繁 に 用 いられるよう になってきた.しかし, 日 本 の 大 学 の 化 学 教 育 の 場 ではほとんど 取 り 上 げられていない.ケモメトリク スや 数 値 計 算 の 専 用 ソフトウェアを 使 うことなく, 現 在 最 も 普 及 しているソフトウェアのひとつである Microsoft Excel (Excel)の 基 本 機 能 を 用 いてケモメトリクス 計 算 を 行 うことができれば, 多 くの 教 育 研 究 機 関 で 役 立 つものと 思 われる.シリーズ6 回 目 は,ケモメトリクスの 多 変 量 による 定 量 モデル 作 成 におい て, 最 も 頻 繁 に 用 いられるPLS (partial least squares) 回 帰 (PLSR)を 取 り 扱 った.これまでと 同 様 に,スペク トルの 解 析 を 例 に 挙 げた.モデル 構 成 試 料 および 未 知 試 料 のスペクトルの 生 成, 潜 在 変 量 を 抽 出 するPLS1 (1 化 学 種 の 場 合 ) とPLS2 ( 多 化 学 種 の 場 合 ) の 実 行,PLSRによる 濃 度 定 量 モデル 作 成 を 行 うワークシート を 作 成 した. 生 成 したスペクトルを 使 いPLSRとPCRの 定 量 性 能 について 比 較 を 行 った.その 結 果,PLS1 によるPLSRでは 特 定 の 化 学 種 の 濃 度 データを 用 いるため, 目 的 とする 化 学 種 に 関 して 少 ない 因 子 数 で 良 好 なモデルが 得 られた. 一 方 PLS2 によるPLSRでは, 複 数 の 化 学 種 に 対 して 安 定 して 濃 度 予 測 できるモデ ルが 得 られることが 分 かった. 少 ない 因 子 数 においてPLSRがPCRと 比 較 して 優 位 であることは 示 された が, 最 適 なモデルが 得 られるとは 限 らなかった.モデル 化 手 法 と 因 子 数 を 変 えて 予 測 性 能 を 比 較 しながら 最 適 なモデルを 得 る 必 要 があることが 示 唆 された. キーワード: Microsoft Excel, ケモメトリクス, partial least squares, PLS, PLSR 1 実 験 的 に 得 られた 化 学 データを 数 学 的 統 計 的 手 法 に より 解 析 する ケモメトリクス が 近 年 盛 んに 用 いられ るようになってきた.しかし,ケモメトリクスに 関 する 教 科 書 類 がいくつか 出 版 [1 4]されている 一 方 で, 大 学 等 の 授 業 ではほとんど 扱 われていないのが 実 情 である. そこで 本 シリーズは,より 多 くの 学 生 や 研 究 者 がケモメ トリクスを 用 いることができるようにするために, 最 も 普 及 している 計 算 ソフトMicrosoft Excel( 以 後 Excelと 記 す)によるケモメトリクス 計 算 法 を 考 案 することを 目 的 としている. 今 回 は,PLS 回 帰 (partial least squares regression: PLSR) [5]をExcelワークシート 上 で 実 行 する.PLSR はこれま で 扱 ってきた, 重 回 帰 (multiple linear regression: MLR) [6] や 主 成 分 回 帰 (principal component regression: PCR) [7] と 同 様 に, 多 数 の 説 明 変 量 から 目 的 変 量 を 求 める 定 量 モデ ルを 作 成 する 手 法 である.しかし,MLRは 説 明 変 量 の 数 が 測 定 数 を 超 えるとモデルを 求 めることができなくな る, 多 重 共 線 性 の 問 題 がある.このことを 解 決 するため に, 有 効 な 説 明 変 量 を 選 択 して, 説 明 変 量 の 数 を 減 らす 変 量 選 択 を 行 う. PCRでは 説 明 変 量 を 減 らす 代 わりに, 主 成 分 分 析 (principal component analysis: PCA)を 用 いて 説 明 変 量 を 組 み 合 わせて 新 たな 変 量,すなわち 潜 在 変 量 を 作 り 出 す. 潜 在 変 量 の 数 は 必 ず 測 定 数 以 下 となるため, 潜 在 変 量 を 説 明 変 量 として 回 帰 を 行 うことで 定 量 モデルを 作 成 する ことができる. DOI: 10.2477/jccj.2014-0001 1
PLSRはPCRと 同 様 に 潜 在 変 量 を 作 り 出 して 回 帰 を 行 うことで, 多 重 共 線 性 を 回 避 して 定 量 モデルを 作 成 する 方 法 である.PCRでは 説 明 変 量 のみを 使 って 潜 在 変 量 を 作 り 出 すが,PLSRでは 説 明 変 量 と 目 的 変 量 を 組 み 合 わ せて 潜 在 変 量 を 作 り 出 す.このことにより, 潜 在 変 量 と 目 的 変 量 間 の 関 係 性 がより 強 くなるため,PCR と 比 較 し てPLSRのほうが 良 好 な 定 量 モデルが 得 られると 期 待 さ れる. 特 に 近 赤 外 スペクトルの 解 析 の 例 が 多 く, 例 えば 熟 成 中 のブドウの 皮 中 に 含 まれるフェノール 化 合 物 の 定 量 [8],ナシ [9]やリンゴ [10] 中 の 糖 の 定 量 といった 果 実 の 分 析, 血 糖 の 定 量 [11], 魚 油 中 の 脂 肪 酸 量 の 定 量 [12], 混 紡 繊 維 中 の 繊 維 混 用 率 の 測 定 [13]など 様 々な 分 野 に 渡 っている.これらの 研 究 ではPLSRを 単 独 で 用 いるこ とは 少 なく, 数 値 微 分 などによるスペクトルの 前 処 理 や, 解 析 波 長 領 域 の 選 択,PLSR を2 段 階 に 用 いるなど の 処 理 と 組 み 合 わせて 用 いられている.しかしPLSRは その 中 核 となる 手 法 であるため,PLSRを 理 解 すること は 重 要 である. ここで,PLSRとPLS という 用 語 について 本 稿 での 用 い 方 を 定 義 しておく. 統 計 学 的 に 正 しい 解 釈 ではない が, 本 稿 ではPCAをPCRにおける 潜 在 変 量 算 出 法 とみ なすこととする.これに 倣 い,PLSRにおける 潜 在 変 量 算 出 法 のことをPLS (partial least squares)と 呼 ぶことにす る. 一 般 にはPLSとPLSRという 用 語 は 明 確 に 使 い 分 け られていないようであるが, 本 稿 ではPLSR の 手 順 の 見 通 しをよくするため, 潜 在 変 量 作 成 部 分 をPLS,その 後 の 目 的 変 量 との 回 帰 を 合 わせたところまでをPLSRと 称 する. 本 稿 ではまず, 既 報 [6, 7]と 同 様 に 吸 光 スペクトルを 用 いた 定 量 分 析 を 想 定 する.この 報 告 で 作 成 したPCA, PCRのワークシートに,PLS の 実 行 およびPLSR 検 量 モ デル 作 成 および 定 量 を 行 うためのワークシートを 追 加 す る.さらにPCRとの 比 較 を 行 う. 本 稿 の 内 容 は,Microsoft Windows 上 のExcelを 想 定 し ている.そのため,Mac OS 上 のExcelにより 計 算 を 行 う 場 合 には,キー 操 作 などを 適 宜 読 み 替 えてほしい.ま た, 本 稿 中 の 図 では,Excelのワークシートは 列 幅 を 初 期 状 態 より 狭 い5.0 (45 ピクセル)にしてあるので,その 点 に 注 意 して 計 算 値 ( 最 終 桁 の 値 など)の 桁 数 を 見 てほし い. Figure 1. 2-dimensional image of relation between a new axis a 1 and scores t 1j used in PLS. he scores t 1j are the coordinates on the new axis a 1. he variance of t 1j is found to be larger than that of x 1j, which are the coordinates on x 1 axis. herefore, a 1 axis can explain the plots more than x 1 axis. 2 PLSR PLSRはMLRやPCRと 同 様 には 目 的 変 量 yを 複 数 の 説 明 変 量 x m の 線 形 結 合 で 表 される 定 量 モデル, M y = f x (1) m m m= 1 を 作 成 すること,すなわち 係 数 f m を 求 めることが 目 的 である (y' は y の 予 測 値 ).PCR では PCA によって x m の 代 わりに 用 いる 潜 在 変 量 を 見 つけ, 回 帰 を 行 う.PLS は PCA とは 異 なる 原 理 によって 潜 在 変 量 を 得 る.よって, 得 られる 潜 在 変 量 は PLS と PCA では 異 なっており, 当 然 これらを 回 帰 して 得 られる PLSR と PCR は 異 なる 定 量 モデルとなる. 2.1 PLS -PCA 2 次 元 ( 説 明 変 量 の 数 2)の4 点 ( 測 定 点 4)の 場 合 を 図 示 するとFigure 1のようになる.MLRでは 各 点 のx 1j, x 2j 座 標 (jはデータの 番 号 : j = 1 ~ 4) が 説 明 変 量 にあたる.1 変 量 のみ 選 択 するということは,x 1 軸 の 座 標 であるx 1j のみ 2 J. Comput. Chem. Jpn.
を 用 いて(x 2j は 用 いないで) 回 帰 するということになる. しかしx 1 軸 だけではこれら4 点 の 情 報 を 完 全 に 捉 えるこ とはできず,x 2 軸 の 座 標 ( 各 測 定 点 からx 1 軸 までの 距 離 ) だけ 情 報 が 残 ることになる. そこでPCRやPLSRでは,まずPCA やPLS によって 説 明 変 量 の 変 動 を 強 くとらえることができるa 1 軸 を 探 す. このa 1 軸 に 対 する4 点 の 座 標 がFigure 1で 示 されるt 1j に なる.PCAやPLSではこの 座 標 t 1j のことをスコアと 呼 ぶ.そしてPCRや 後 述 するPLSR では,このスコアを 潜 在 変 量 として 用 いる.a 1 軸 を 考 えることで, 測 定 点 の 情 報 を1つの 軸 だけでより 多 くとらえられていることが 分 かる( 各 測 定 点 からa 1 軸 までの 距 離 が,x 1 軸 までの 距 離 と 比 較 して 短 くなる 傾 向 が 見 られる).またMLRではx 2 軸 の 座 標 を 完 全 に 破 棄 することになる.しかし,PCAや PLSではa 1 軸 自 体 がx 1 軸 とx 2 軸 両 方 の 成 分 を 持 っている ので,a 1 軸 の 座 標 値 である 各 スコアt 1j も 同 様 にx 1 軸 の 座 標,x 2 軸 の 座 標 の 情 報 を 持 つことになる.つまり, 測 定 した 情 報 を 無 駄 なく 使 うことができる 方 法 である. PCAではこのa 1 軸 を 求 めるために,スコアの 二 乗 和, つまりt 1j の 二 乗 和 s PCA n 2 PCA t1 j j = 1 s = (2) の 最 大 化 を 行 う.PCA では a 1 軸 方 向 の 単 位 ベクトルを p 1 と 記 し, 第 1 主 成 分 ベクトル,または 第 1 ローディン グベクトルと 呼 ぶ. これに 対 しPLSではa 1 軸 を 求 める 際 にスコアと 目 的 変 量 との 関 係 性 が 強 くなるようにする.このことが PCAと の 最 大 の 差 異 である.PLS によるa 1 軸 の 求 め 方 は, 単 一 の 目 的 変 量 (たとえば 単 一 の 化 学 種 の 濃 度 情 報 )を 用 いて モデルを 作 成 するPLS1 と, 複 数 の 目 的 変 量 ( 複 数 の 化 学 種 の 濃 度 情 報 )を 同 時 に 用 いて 予 測 するPLS2 の2 種 類 で 異 なる.PLS1では,スコアt ij と 目 的 変 量 y j 間 の 共 分 散 σ ty n σ = t y (3) ty 1 j j j = 1 を 最 大 化 する ( つまり t ij の 変 動 と y j の 変 動 の 同 調 性 を 高 くする ) ような a 1 軸 を 求 める. PLS2では 複 数 の 目 的 変 量 全 体 を 捉 えるために, 説 明 変 量 に 対 して 行 ったFigure 1と 同 様 の 操 作 を 目 的 変 量 のプ ロット 内 にも 適 用 する.つまり 目 的 変 量 をプロットした 空 間 に 対 し, 新 たにb 1 軸 を 考 える.このb 1 軸 に 対 する 目 的 変 量 のスコアをu 1j とする.このu 1j とt 1j の 間 の 共 分 散 σ tu n σ = t u (4) tu 1j 1j j = 1 を 最 大 化 する. PLSで 得 られるa 1 軸 方 向 の 単 位 ベクトルをウェイト (weight)ベクトルと 呼 び,w 1 で 表 す.w 1 はPLS1では 1 ( l)1 w1 = Xy (5), Xy 1 ( l)1 となることが 分 かっている. 一 方 PLS2 では XY YX w = λ w (6) 1 1 1 1 1 1 1 を 満 たすベクトル,つまり XY 1 1 YX の 固 有 ベクトルと 1 1 なる.w 1 が 求 まれば,X 1 よりスコアが 計 算 できるので, 得 られたスコアを 用 いて 目 的 変 量 および 説 明 変 量 を 回 帰 し, 各 変 量 から 今 回 のスコアでは 捉 えられなかった 残 差 部 分 を 取 り 出 す.この 残 差 部 分 は,PCA では a 1 軸 に 直 交 する 空 間 への 直 交 射 影 になるが,PLS では 斜 交 射 影 に なっているということも 両 手 法 の 相 異 の 一 つである. 残 差 部 分 に 対 し 上 述 した 操 作 を 繰 り 返 して, 説 明 変 量, 目 的 変 量 から 情 報 を 引 き 抜 き,スコアを 取 り 出 していく. 2.2 PLS PCAの 場 合 と 同 様 に 吸 光 スペクトルを 想 定 する.L 種 の 化 学 種 (PCAの 主 成 分 と 紛 らわしいので, 化 学 種 と 記 すことにする)が 存 在 しているN 個 の 試 料 を,M 個 の 波 長 (λ 1 ~ λ M )で 測 定 してスペクトルを 得 たとする. 試 料 nの スペクトルをa n ( 列 ベクトル), 濃 度 情 報 ベクトルをc n ( 列 ベクトル)とする.スペクトルをまとめたM N 行 列 A を 説 明 変 量, 濃 度 情 報 をまとめたL N 行 列 Cを 目 的 変 量 とする.Cの 中 から 特 定 の 化 学 種 lに 関 する 濃 度 デー タを 取 り 出 した 行 ベクトルをc (l) とする. {1} 検 量 モデル 校 正 用 試 料 ( 以 後 校 正 用 試 料 と 記 す ) を 測 定 して 得 られたスペクトル 行 列 A cal, 濃 度 情 報 行 列 C cal から 平 均 ベクトル a avg, c avg,および 平 均 行 列 A avg, C avg を 求 める.また, 化 学 種 l の 平 均 濃 度 c (l)avg, および 平 均 ベクトル c (l)avg を 取 り 出 しておく.これら を 使 って 平 均 中 心 化 した 行 列 X 1, Y 1 及 びベクトル y (l)1 を 算 出 する. X1 = ( x1 xn ) = A Aavg Y1 = ( y1 yn ) = C Cavg (7) y = y y = c c ( ) ()1 l ()1 l () l N () l ()avg l DOI: 10.2477/jccj.2014-0001 3
平 均 中 心 化 されたX 1 が 説 明 変 量 であり,PLS1 の 場 合 はy (l)1,pls2の 場 合 はY 1 がそれぞれ 目 的 変 量 となる. ウェイトベクトルなどを 求 める 手 順 はPLS1 とPLS2 で 異 なるため, 分 けて 説 明 する. PLS1 の 場 合 i = 1 より 始 める PLS1 {2} ウェイトベクトル w i を 求 める. i () l i i () l i wi = Xy Xy PLS1 {3} スコアベクトル t i を 求 める. t= wx (9) i PLS1 {4} X i を t i に 回 帰 して 回 帰 係 数 ベクトル p i を 求 める. Xt p tt (10) i=, si = si PLS1 {5} y (l)i を t i に 回 帰 して 回 帰 係 数 q i を 求 める. () l qi = y t (11) s {7} に 進 む PLS2 の 場 合 i (8) 前 述 したように w i は XY YX の 固 有 ベクトルと して 求 めることができるが, 直 接 w i のみを 求 める のではなく, 反 復 計 算 の 過 程 で,t i, p i, q i が 同 時 に 求 まる 方 法 を 採 用 した.これは, 式 (6) 左 辺 の 一 部 を 分 解 して 計 算 しているとも, 一 般 的 には 用 いられる nonlinear iterative partial least squares (NIPALS) [4] の 一 部 をまとめている 計 算 法 とも 解 釈 することができる. i = 1 より 始 める PLS2 {2} ウェイトベクトル w i に 適 当 な 値 を 代 入 する ( ただし w i = 1). PLS2 {3} スコアベクトル t i を 求 める t= wx (12) i PLS2 {4} X i を t i に 回 帰 して 回 帰 係 数 ベクトル p i を 求 める. Xt p tt (13) i=, si = si PLS2 {5} Y i を t i に 回 帰 して 回 帰 係 数 ベクトル q i を 求 める. i s i q = Yt (14) PLS2 {6} w i を 求 めなおす i i w i = XY q XY q (15) 計 算 が 収 束 していない 場 合 は, w i = w i として PLS2 {3} に 戻 る. 収 束 している 場 合 は {7} に 進 む. {7}X i+1 を 求 める X = i+ 1 X i pt (16) この 操 作 が 前 述 したように,ウェイトベクトル w i (a i 軸 方 向 の 単 位 ベクトル ) に 直 行 する 空 間 への 斜 交 射 影 となる.この 斜 交 射 影 は,ベクトル p i に 沿 った 方 向 で 行 われる.つまり,PCA における p i と 同 様 に 射 影 の 方 向 を 決 めるベクトルである.そのため,PLS で も PCA と 同 様 に p i を 第 i ローディングベクトルと 呼 ぶ. {8}y (l)i+1, Y i+1 を 求 める PLS1 の 場 合 y = y q t () l i+ 1 () l i (17) もしくは y y (17') = () l i+ 1 () l i PLS2 の 場 合 Y = i+ 1 Y i qt (18) もしくは Y Y (18') = i+ 1 i i = i+1 として PLS1 {2} もしくは PLS2 {2} に 戻 る. 式 (16), (17) および (18) は 説 明 変 量, 目 的 変 量 か ら w i で 説 明 できる 情 報 を 最 小 二 乗 法 によって 引 き 抜 く 作 業 ( デフレーションまたは 減 次 などと 呼 ばれる ) である.しかし,スコアベクトルの 直 交 性 により, このデフレーションは 必 ずしも 必 要 ではないことが 分 かっている [14].そこで 本 稿 では,ほかの 計 算 に 支 障 がない 目 的 変 量 のデフレーションを 省 略 する. すなわち, 式 (17), (18) の 計 算 の 代 わりに, 式 (17'), (18') の 計 算 を 用 いる. このようにして 順 次 w i を 求 めていく.M > Nならばw i 4 J. Comput. Chem. Jpn.
は 多 くてi = Nまでしか 求 まらない.これ 以 上 求 めよう としても,X i の 各 要 素 が0(もしくはほぼ0)になってしま うため,もはやw i を 正 しく 求 めることができなくなる. また, 化 学 種 の 数 が 少 なく(L < N),スペクトルにノイズ が 含 まれていない 場 合 などは,i = Lまでしか 求 まらない. 求 まりうるウェイトベクトル(w i )の 最 大 数 を 最 大 因 子 準 位 (maximum factor level)と 呼 びFL max と 表 すこととする. 2.3 PLSR 一 般 にPLS1は 単 化 学 種 専 用,PLS2 は 多 化 学 種 同 時 定 量 モデルを 作 成 するために 用 いられるように 示 されて いる.しかし,PLSがlatent structure decomposition (LSD) [15]を 基 にした,latent variable regression (LVR) [16]の 一 種 であることを 考 慮 すると,PLS は 説 明 変 量 行 列 X 1 の 分 解 を 行 っているのであり, 濃 度 予 測 モデルの 作 成 におい てPLS1で 注 目 していた 化 学 種 lのみに 限 定 しなくてもよ いことが 分 かる.そこで 本 稿 では 化 学 種 lに 関 して 行 っ たPLS1の 結 果 を 用 いて,PLS2 の 場 合 と 同 様 に,すべて の 化 学 種 の 濃 度 を 予 測 する 検 量 モデルを 構 築 する.する と 検 量 モデル 作 成 のPLSRはPLS1, PLS2 に 関 係 なく 共 通 した 手 順 となる. {9}w i, t i, p i を,i=1 から FL ( FL max ) までまとめた 行 列 W,, P を 作 成 する. {10} = RX 1 となるような X 1 と を 関 連 付 ける 行 列 R を 求 める. 1 R= ( WP) WX 1 (19) {11}Y 1 と の 回 帰 係 数 行 列 Q を 求 める. Y 1 の 予 測 値 Y を による 1 回 帰 式 Y = 1 Q (20) を 立 てる. 係 数 Qを 重 回 帰 により 算 出 する. Q = Y S S = (21) 1 1, {12} 係 数 行 列 F を 求 める. F = QR (22) {13} 定 数 ベクトル f 0 を 求 める. f0 = cavg Fa avg (23) ゆえに,スペクトル a と 濃 度 情 報 c の 関 係 として, c = Fa + f (24) 0 というモデル 式 が 得 られる. 2.4 {14} 濃 度 情 報 未 知 の 試 料 ( 以 後 未 知 試 料 と 記 す ) の スペクトル a un から, 式 (21) を 用 いて, 濃 度 情 報 の 予 測 値 c un を 計 算 する. c un = Faun + f 0 (25) N un 個 の 未 知 試 料 のスペクトルをまとめた 行 列 A un を 同 時 に 計 算 する 場 合,f 0 を N un 列 並 べた 行 列 F 0 を 用 意 して, C un = FAun + F 0 (26) とすることで 未 知 試 料 の 予 測 濃 度 行 列 ことができる. 3 Excel PLS C un を 求 める これまでのシリーズ 同 様 スペクトルデータを 取 り 扱 う ことにする.そのためスペクトルの 生 成,PLS1, PLS2お よびPLSRを 行 うシートが 必 要 となる.そこで 本 シリー ズ 第 4 回 のPCR [7]で 用 いたExcelブックに 必 要 なシート を 追 加 して 用 いる.このブックではSheet1をスペクトル 生 成,Sheet2をPCA 計 算,Sheet3はPCRモデル 作 成 およ び 定 量 計 算 に 用 いた. 本 稿 ではSheet4, Sheet5, Sheet6 を 追 加 し,それぞれPLS1, PLS2, PLSRに 用 いることとす る. 3.1 スペクトル 生 成 を 行 っているSheet1とその 作 成 手 順 を それぞれFigure 2とable 1に 示 す.Sheet1はPCRのとき に 作 成 したシートとほぼ 同 じであるので,シリーズ 第 4 回 [7]も 参 照 してほしい. 化 学 種 1, 2 及 び 化 学 種 3( 汚 染 種 )のスペクトルのパラ メータ( 化 学 種 lのピークの 高 さh l, 波 長 λ l0, 幅 w l )をC2:E4 に 入 力 することで,それぞれの 化 学 種 の 純 スペクトル がC12:E32に 算 出 される.モデル 作 成 用 試 料 中 の 化 学 種 1, 2および3の 濃 度 C cal をI3:M3に 指 定 することで,スペ クトルA cal がI12:M32に 求 まる.さらにC cal およびA cal を 平 均 中 心 化 したデータY, XがそれぞれI8:M9, I35:M55と なる.PCRからの 追 加 として,PLS1は 単 化 学 種 の 濃 度 DOI: 10.2477/jccj.2014-0001 5
Figure 2. Preparation of a worksheet (Sheet1) for generating the spectra for calibration and of unknown samples. he ranges surrounded by dashed lines have to be filled by values following this figure for getting the same results shown in this paper, but can be change arbitrary values. he values in the ranges surrounded by bold solid lines are calculated by formulas shown in able 1. データを 用 いるため,Yを 化 学 種 1のy 1 と 化 学 種 2のy 2 に 分 け,それぞれに 対 応 するI8:M8およびI9:M9の 範 囲 に y_1, y_2 という 名 前 を 付 けた(able 1 手 順 18, 19). 未 知 試 料 の 濃 度 C un に 関 しては, 化 学 種 1と2の 濃 度 をP3:4に 任 意 に 設 定 することができる. 汚 染 種 に 関 しては7で 設 定 するc un3max ( 汚 染 種 の 最 大 濃 度 )を 基 にし て,P5:5にランダムに 設 定 される. 未 知 試 料 のスペク トルA un は,C un と 9に 設 定 するノイズレベルに 基 づいて P12:32 にノイズを 含 ませて 生 成 することができる. 本 論 文 では, 検 量 モデル 作 成 にXとYを 用 い,モデル の 検 証 にA cal とC cal を 使 用 する. 3.2 PLS1 Figure 3にPLS1 計 算 を 行 うためのワークシートSheet4 を 示 した.その 作 成 手 順 はable 2である.Figure 3では 第 1ウェイト,スコア,ローディングベクトルを 求 めて いる. 式 (7)からわかるように,PLS1 はPCAやPLS2の ように 反 復 計 算 を 必 要 としないため,X 1 とy 1 から 直 接 w 1 が 求 まる.Figure 3では,さらにt 1, p 1, q 1, X 2 も 同 時 に 求 まるようになっている.PLSRで 用 いるw 1, t 1, p 1 をSheet6 の 所 定 のセル( 後 述 する)に 保 存 したのち,X 2 である B29:F49をコピーし,B4:F24に 値 貼 り 付 けすることでw 2, t 2, p 2 の 各 ベクトルが 求 まる.より 高 次 の 各 ベクトルが 必 要 な 場 合 は, 上 記 作 業 を 繰 り 返 すことで 得 られる. 3.3 PLS2 PLS2 計 算 を 行 うためのSheet5をFigure 4,その 作 成 手 順 をable 3にそれぞれ 示 した. 第 1ウェイトw 1,スコア t 1,ローディングp 1 を 求 めるための 初 期 状 態 になってい る. Sheet5を 用 いて 反 復 計 算 を 行 い, 値 を 収 束 させるこ とでw 1, t 1, p 1 を 求 める.Excelによる 反 復 計 算 法 は 既 報 [17]にて 示 してあるので,ここでは 簡 単 に 解 説 する.(1) Figure 4の 状 態 まで 完 成 させたら, w i であるJ5:J25を 選 択 してコピーする.(2)w i の 先 頭 であるG5を 選 択 し, 値 貼 り 付 け( 例 :[Alt] [E] [S] [V] [Enter])を 行 う. 6 J. Comput. Chem. Jpn.
able 1. Procedures to construct worksheet (Sheet1) for simulating spectra. Figure 3. Preparation of a worksheet (Sheet4) to get weight vectors (w i ), loading vectors (p i ) and score vectors (t i ) by PLS1. In this figure, w 1, p 1 and t 1 related to the first chemical species, i.e. l = 1, are obtained. By copying B29:F49 to B4:F24, the vectors of the second stage, w 2, p 2 and t 2 can be obtained. Figure 4. Preparation of a worksheet (Sheet5) to get weight vectors (w i ), loading vectors (p i ) and score vectors (t i ) by PLS2. his figure shows the initial state to get w 1, p 1 and t 1. he iteration calculation is proceeded by copying J5:J25 and pasting to G5:G25 as value. hen press [F4] key until reaching convergence. DOI: 10.2477/jccj.2014-0001 7
able 2. Procedures to construct worksheet (Sheet4) of initial state for PLS1. able 3. Procedures to construct worksheet (Sheet5) of initial state for PLS2. (3) 値 が 収 束 するまで[F4]キーを 押 し 続 ける. 収 束 は 数 式 バーを 観 察 することで 判 定 できる. 収 束 したらw i, t i, p i を, 後 述 するようにSheet6にコピー し, 結 果 を 保 存 しておく.B30:F50に 計 算 されているX i+1 をコピーし,B5:F25に 値 貼 り 付 けする.w i を 初 期 化 し, 再 度 反 復 計 算 を 行 う. PLS1,PLS2ともに 今 回 の 例 では 第 2 因 子 (w 2 )まで 求 め ると,X 3 はすべての 要 素 がほぼ0になるため 計 算 を 終 了 する. 試 料 数 は5であったので 第 5 因 子 まで 求 まる 可 能 性 があったが, 各 試 料 中 に 存 在 する 化 学 種 が2 種 である うえ,スペクトルにノイズが 含 まれていないので, 第 2 因 子 までしか 求 まらなかった. 化 学 種 3を 含 めたり,ス ペクトルにノイズを 設 定 したりすると 第 3 因 子 以 降 も 求 まるようになる.ただし,X 1 が 中 心 平 均 化 されているた め, 第 4 因 子 までしか 求 まらない. 3.4 PLSR Figure 5にPLSR 計 算 および 未 知 試 料 の 濃 度 予 測 を 行 う ためのSheet6を 示 した. 因 子 順 位 は 第 2 位 まで 用 いた. この 例 では,Sheet4(Figure 3)で 求 めた 化 学 種 1に 対 する PLS1の 結 果 を 用 いて,PLSRを 行 い 両 化 学 種 の 定 量 モデ ルを 作 成 し, 濃 度 予 測 を 行 っている. 作 成 手 順 はable 4に 示 した. PLS1は 化 学 種 1の 濃 度 を 用 いて 行 ったが, 化 学 種 1, 化 学 種 2 双 方 の 濃 度 を 予 測 するモデルを 作 成 するので, 目 的 変 量 であるY(C2:G3)には 全 目 的 変 量 を 使 うため =Y を 入 力 した. Sheet6のW,, Pに 該 当 す るC5:G6, B10:C30, F10:G30 には,Sheet4のそれぞれの 因 子 順 位 ごとにw i, t i, p i である B26:F26, h4:h24, I4:I24からコピーして 値 貼 り 付 けして おく.D10:E11に 求 めているのはW Wで,この 計 算 結 果 8 J. Comput. Chem. Jpn.
Figure 5. Preparation of a worksheet (Sheet6) to construct PLSR and predicting the concentrations. In this figure, PLSR model using the results of PLS1 for chemical species 1 is obtained and the concentrations of both chemical species in unknown samples are predicted. In the range above the double-solid line, PLSR model is constructed. he values of w 1, w 2, t 1, t 2, p 1 and p 2 are copied from Sheet4 after convergence on each step. he concentrations of unknown samples are predicted in the range below the double-solid line. able 4. Procedures to construct worksheet (Sheet6) for PLSR using the result of PLS1 for the first chemical species and predicting the concentration of the unknown samples. DOI: 10.2477/jccj.2014-0001 9
が 単 位 行 列 になっていることを 確 認 するためである.つ まり,ウェイトベクトルは 互 いに 直 交 していることがわ かる.またI5:J6で 求 めているS = が 対 角 行 列 になっ ていることから,スコアベクトルも 互 いに 直 交 している ことがわかる.これらのことは,PLS で 一 般 に 成 り 立 つ ことが 証 明 されている [5]ので,スコアを 説 明 変 量 とし た 重 回 帰 は 多 重 共 線 性 を 回 避 できることがわかる. I2:J3にはによるYの 回 帰 係 数 Qが 求 まる.2つの 化 学 種 の 係 数 が 同 時 に 求 まっている.このワークシートの I2の 値 と, 化 学 種 1のi=1のときの 係 数 {Figure 3(Sheet4) の 中 のI2の 値 } がどちらも0.606となっている.さらに i=2のときも 同 様 にSheet4のI2とSheet6のJ2が0.035と 等 くなることを 確 かめることができる.このことから, 各 iのステップで 回 帰 係 数 を 求 める 式 (13)での 計 算 は 必 須 ではなく, 式 (21)によっても 得 られることがわかる.つ まりPLSRはPCRと 同 様, 元 の 説 明 変 量 から 作 り 出 した 潜 在 的 な 変 量 であるスコアによる 重 回 帰 に 帰 着 している ことが 示 される.これによって, 目 的 変 量 Yとスコア の 関 係 が 求 まったことになる. M5:AG6は 式 (19)で 求 められる 行 列 Rで, 説 明 変 量 X との 積 でスコアを 直 接 求 めるために 用 いられる.すな わち 説 明 変 量 とスコアを 結 びつける 行 列 である. 行 列 QとRを 用 いることで, 説 明 変 量 と 目 的 変 量 が 結 びつくこととなる.そのようにして 求 めた 係 数 行 列 Fが M8:AG9である.さらに 定 数 項 のベクトルf 0 をM10:M11 に 求 めた. 3.5 得 ら れ たFとf 0 を 使 っ て 未 知 試 料 の ス ペ ク ト ル A un (Sheet1 のP12:32)か ら 濃 度 をSheet3のC34:G35に 推 定 した(Figure 5). 今 回 用 いた 校 正 用 試 料 のスペクトル A cal と 未 知 試 料 A un は 汚 染 成 分 やノイズを 含 ませていな かったので, 算 出 された C た 値 と 等 しくなった. un 4 PLSR PCR はSheet1のP3:4で 設 定 し ここまでの 例 では, 汚 染 成 分 やノイズの 無 い 校 正 用 試 料 および 未 知 試 料 のスペクトルを 用 い,さらに 得 られた 第 2 因 子 まで 使 って 予 測 モデルを 構 築 したため, 前 章 で 示 したように 完 全 な 予 測 となった.しかし,これでは PLSRとPCRの 性 能 の 違 いが 判 らないので, 汚 染 やノイ ズを 含 ませた 条 件 にて 比 較 を 行 った. 校 正 用 試 料 中 の 化 学 種 1 及 び2の 濃 度 はFigure 2(Sheet1 にのI3:M4)で 示 された 状 態 を 保 持 し, 汚 染 成 分 の 濃 度 を 0.03, 0.06, 0.09, 0.06, 0.03と 想 定 しI5:M5に 入 力 した.こ のようにして 得 られたスペクトルと 濃 度 情 報 を 用 いて, PLS, PCAの 各 手 法 でウェイト(PCAではローディングと 等 しい),ローディング,スコアの 各 ベクトルを 求 めた. 化 学 種 3 種 でスペクトルにノイズが 無 いので, 因 子 順 位 は 第 3 位 (FL max = 3)まで 求 まった.PLSR, PCRでは, 第 1 因 子 だけの 場 合 から, 第 1と 第 2 因 子 を 用 いた 場 合, 第 1 から 第 3 因 子 までを 使 った 場 合 のそれぞれについてモデ ル 作 成 を 行 った. 未 知 試 料 に 関 しては 汚 染 化 学 種 を 想 定 したうえで,さ らにスペクトルにノイズを 含 ませるため,c un3max (Sheet1 の7)に0.1,noise (Sheet1の9)に0.01を 設 定 し た. 汚 染 種 の 濃 度 とスペクトルのノイズは,これらの 値 を 基 に 乱 数 で 割 り 当 てられる.この 条 件 で1000 通 りの 試 行 を 行 った. k 回 目 の 試 行 における 未 知 試 料 nの 中 の 化 学 種 lの 濃 度 を, 想 定 濃 度 ではc unln, 予 測 濃 度 では c unln とする.c unln を 基 準 とした c unln の 平 均 相 対 誤 差 (average of relative errors : ARE)を 以 下 の 様 に 定 義 する. ARE = 1000 5 c un ln, k cun ln, k cun ln, k k= 1 n= 1 (27) 1000 各 因 子 数 での ARE をそれぞれのモデルで 求 めた. さらに, 今 回 のSheet1では 求 められないが, 校 正 用 試 料 のスペクトルA cal にもノイズを 含 ませた 場 合 について も 同 様 に 解 析 を 進 めた.この 場 合, 第 4 因 子 まで 求 まる (X 1 は 中 心 平 均 化 されているので, 第 5 因 子 は 求 まらな い)ので, 第 1から4 因 子 までを 用 いたモデルも 作 成 し 評 価 を 行 った. 手 法 や 因 子 数 間 の 比 較 は AREの 大 小 を 見 ればよい.し かし, 例 えばAREが 最 大 である 第 1 因 子 までを 用 いた 化 学 種 2のPCRモデルであっても,AREが0.87078と 小 さ な 値 であるため,AREの 大 小 が 比 較 しづらくなってし まう.そこで,AREが 最 小 である 第 3 因 子 までを 用 いた 化 学 種 1のモデル( 手 法 によらずAREが 等 しくなる)の ARE(0.00363)を 基 準 値 と し, 相 対 的 ARE(relative ARE: RARE), ARE RARE = (28) 0.00363 10 J. Comput. Chem. Jpn.
able 5. Comparison of precisions of the results obtained by three PLSR's and PCR. に 変 換 した.RARE の 値 が 小 さいほど 定 量 性 能 が 高 くな る.able 5 に PLSR と PCR モデルの 予 測 性 能 の 比 較 を 示 した. 用 いた 因 子 数 ( 用 いたローディングの 順 位 の 小 さいほうからの 数 :factor level: FL) ごとに, 化 学 種 1(C.S.1) と 化 学 種 2(C.S.2) の 結 果 を 分 けて 示 した. 手 法 と 因 子 数 が 同 じであれば, 化 学 種 1の 方 が 化 学 種 2よりもRAREが 小 さい,つまり 予 測 性 能 が 高 いことが わかる.この 原 因 として, 化 学 種 1の 方 がバンド 強 度 が 強 い{Sheet1 (Figure 2)のC2とD2を 比 較 }こと, 校 正 用 試 料 の 濃 度 範 囲 が 化 学 種 1のほうが 広 いこと,さらに 化 学 種 2では 未 知 試 料 の 想 定 濃 度 が 校 正 用 試 料 の 濃 度 範 囲 を 大 きくはみ 出 していることなどが 考 えられる.このこ とより, 予 測 したい 濃 度 範 囲 を 考 慮 したうえで 校 正 用 試 料 の 濃 度 を 決 定 することの 重 要 さがわかる. 第 1 因 子 のみを 使 ったモデル 化 では, 化 学 種 1に 関 す る 予 測 は, 校 正 用 試 料 のスペクトル 中 の 誤 差 の 有 無 に 限 らず,PLS2-R(PLS2でウェイト,スコア,ローディン グを 求 めてから, 回 帰 モデルを 作 成 するPLSRであるこ とを 示 す)でRAREが5 程 度 と 最 も 小 さくなり, 次 いで PLS1(1)-Rの13 程 度 となった(カッコ 内 の 1 は 化 学 種 1の 濃 度 データを 用 いてPLS1を 行 ったことを 示 す).さ らにPCRでは17 程 度 であり,PLS1(2)-Rでは185 程 度 と 桁 違 いに 大 きくなった. 化 学 種 2に 関 しては,PLS1(2)-RでRAREが82 程 度 で 最 も 小 さく,PLS2-Rで231 程 度,PLS1(1)-Rで238 程 度, PCRで240 程 度 という 順 になっていた.PLS1(l)-Rは 一 種 類 の 化 学 種 lの 濃 度 データのみを 使 ってモデルを 構 築 す るため, 化 学 種 lに 関 して 予 測 性 能 が 高 いものと 期 待 さ れる.このことは 化 学 種 2においてPLS1(2)-RのRARE が 最 も 小 さかったことに 関 しては 成 立 していたが, 化 学 種 1の 場 合 にはPLS2-Rが 最 も 小 さく 成 立 していなかっ た. 最 適 な 定 量 モデルを 得 るためには, 様 々な 手 法 間 の 比 較 が 必 要 であることがわかる. Figure 1に 示 したようにローディングベクトルは,ス ペクトルをプロットした 高 次 元 空 間 内 の1つのベクトル として 表 わされる.そのため,スペクトルと 同 じように 表 示 することで,ローディングがどの 化 学 種 のスペク トルの 影 響 を 強 く 受 けているかがわかり,そのローディ DOI: 10.2477/jccj.2014-0001 11
Figure 6. he spectrum-like representation of the first loading vectors obtained by PLS and PCA. C.S.l: spectrum of chemical species l. PLS1(l): loading obtained from PLS1 using the concentration of chemical species l. ングを 用 いて 作 成 した 定 量 モデルの 性 能 を 考 察 するこ とができる.Figure 6には 各 モデル 化 手 法 で 得 られた 第 1ローディングを 示 した. 特 徴 として,PLS1(1), PLS2, PCAでは 化 学 種 1のバンドであるλ=2994 付 近 で 正 に 大 き なピークとなり, 化 学 種 2のバンドであるλ=3004 付 近 で 負 に 小 さなピークが 見 られた.つまりこれら3つの 手 法 によって 得 られた 第 1ローディングは, 化 学 種 2よりも 化 学 種 1のスペクトルの 影 響 を 強 く 受 けていることがわ かる. 一 方 PLS1(2)のローディングでは,λ=2994 付 近 は 他 の 3 手 法 の 場 合 と 差 がなかったが,λ=3004 付 近 で 負 により 大 きなピークとなった.PLS1(2)は 化 学 種 2の 濃 度 情 報 を 用 いるので, 他 手 法 に 比 べて 第 1ローディングが 化 学 種 2のスペクトルの 影 響 を 強 く 受 けたものと 思 われる. これら4つの 手 法 の 第 1ローディングはλ=2994 付 近 ではほぼ 重 なっており,λ=3004 付 近 に 差 が 見 られた. λ=3004 付 近 の 強 度 は,PLS1(2)-R, PLS2-R, PLS1(1)-R, PCRの 順 となった(PLS1(1)-RとPCRの 差 は 小 さくFigure 6で 見 て 取 ることはできない).この 序 列 は, 第 1 因 子 の みを 用 いた 化 学 種 2のRARE の 昇 順 と 一 致 する.つまり, 化 学 種 2のバンドをより 強 くローディングに 取 り 込 むこ とで, 化 学 種 2の 定 量 性 能 が 高 くなることが 示 されてお り, 前 述 した PLS1(l)-Rは 一 種 類 の 化 学 種 lの 濃 度 デー タのみを 使 ってモデルを 構 築 するため, 化 学 種 lに 関 し て 予 測 性 能 が 高 い という 期 待 と 一 致 していた.RARE が 化 学 種 1に 比 べ 大 きくなったのは, 化 学 種 1のバンド の 影 響 が 強 いことによると 考 えられる. 一 方, 化 学 種 1のRAREとλ=3004 付 近 のピークの 大 き さの 序 列 は 一 致 していなかった.しかしこれらの 結 果 は 次 のように 解 釈 することができる.Figure 6から 読 み 取 ることができるように, 化 学 種 2のスペクトルは 化 学 種 1と 比 較 して 幅 が 広 く, 化 学 種 1のピークであるλ=2994 でも0.2 程 度 の 強 度 がある.これに 対 し, 化 学 種 2のピー ク 位 置 λ=3004での 化 学 種 1の 強 度 は0.01 程 度 である. 化 学 種 2の 濃 度 変 動 の 影 響 は,λ=2994に 現 れることが 分 かる.そのため, 化 学 種 1に 対 して 正 しく 情 報 を 得 る ためには, 化 学 種 1のピークであるλ=2994だけでなく, λ=3004にピークを 持 つ 化 学 種 2のスペクトルの 情 報 を 考 慮 する 必 要 がある.しかし,PLS1(2)-Rでは 化 学 種 2の 情 報 をローディングに 強 く 取 り 込 みすぎたため, 化 学 種 1 の 定 量 性 能 が 落 ちている.PLS2-RがPLS1(1)-RやPCRと 比 較 してRAREが 小 さいのは, 化 学 種 2の 影 響 を 適 度 に 取 り 込 んだためと 思 われる.このことは, 第 1ローディ ングのλ=3004において,PLS1(1)のほうがPCAに 比 べて わずかに 負 に 大 きく,つまり 化 学 種 2の 影 響 をわずかだ が 強 く 受 けており,これに 対 応 してPLS1(1)-RのRARE がわずかに 小 さいことと 対 応 している. これらのことより,PLS1-Rは 注 目 している 化 学 種 の 濃 度 情 報 のみを 用 いてモデルを 作 成 するため,スペクト ルに 化 学 種 間 の 重 なりがない 場 合 にすぐれたモデルが 作 成 されること,PLS2-Rではすべての 化 学 種 の 濃 度 情 報 を 使 うので,スペクトルの 重 なりがある 場 合 に 有 利 であ ることが 示 された. 第 2 因 子 まで 使 った 場 合, 化 学 種 1のPLS2-Rの 場 合 を 除 き,どのモデル 化 手 法 でも 定 量 性 能 が 向 上 し, 手 法 間 の 差 が 小 さくなった.Figure 7に 各 手 法 で 得 られた 第 2 ローディングを 示 した.PLS1(1), PLS2, PCAではλ=3004 付 近 に,PLS1(2)ではλ=2994 付 近 にピークを 持 っている. これらは,それぞれ 第 1ローディングでは 捉 えられな かったり, 過 剰 に 捉 えたりしていた 情 報 の 補 正 に 役 立 っ ていると 思 われる. 第 3 因 子 までをモデル 化 に 用 いると,さらに 定 量 性 能 が 向 上 した. 汚 染 種 を 含 めた3 化 学 種 系 を 想 定 している 12 J. Comput. Chem. Jpn.
Figure 7. he comparison of the second loading vectors. ため, 校 正 用 試 料 のスペクトルにノイズが 無 い 場 合 で は,すべての 因 子 準 位 を 用 いることになり,どのモデル 化 手 法 でも 同 じモデルが 得 られるためRARE が 等 しく なった. 校 正 用 試 料 のスペクトルにノイズがある 場 合, 第 3 因 子 まででモデル 化 した 場 合 のほうが, 第 4 因 子 まで 用 い た 場 合 よりも 定 量 性 能 が 高 かった.これは3 化 学 種 系 で あるために, 第 4 因 子 はノイズなどの 変 動 をとらえてお り, 過 剰 な 因 子 を 組 み 込 んだモデルができてしまった ため, 定 量 性 能 が 悪 化 したと 考 えられる.このように, PLSRやPCRでは 得 られた 因 子 すべてを 用 いても 最 適 な 定 量 モデルが 得 られるわけではなく, 最 適 な 因 子 数 を 決 定 する 必 要 があることがわかる. ここまで 見 てきたように,PLSRはPCRと 比 較 してよ り 少 ない 因 子 数 でより 良 好 な 定 量 モデルが 得 られること が 分 かった.たとえば 第 1 因 子 のみでモデルを 作 成 した 場 合, 化 学 種 1に 関 してはPLS2-R が, 化 学 種 2に 関 して は PLS1(2)-Rが 最 も 適 しているといえる.しかし, 第 3 因 子 まで 用 いることができるのであれば,どの 手 法 でも 同 程 度 のモデルができることがわかる(あえて 言 うなら PCRが 一 番 良 い). このように,どの 手 法 を 用 いるか,そしてどの 因 子 準 位 まで 用 いるかは 定 量 性 能 を 左 右 する 重 要 な 要 因 とな る.ローディングが 定 量 性 能 を 左 右 することもわかっ た.しかし,ローディングから 定 量 性 能 を 直 接 測 ること は 難 しく, 数 値 的 なモデルの 検 証 が 必 要 となる. 今 回, 因 子 数 や 手 法 の 比 較 を 行 うために, 校 正 用 試 料 とは 別 に 検 証 用 の 試 料 を 用 意 し,その 濃 度 を 予 測 する 外 部 検 証 を 用 いた. 外 部 検 証 は 校 正 用 と 検 証 用 の 試 料 が 分 かれてい るため, 客 観 性 のあるモデル 評 価 ができる.しかし, 検 証 用 試 料 のスペクトルは,モデルに 組 み 込 まれないので モデル 作 成 という 意 味 からは 無 駄 になってしまう.その ため, 十 分 な 数 のスペクトルが 得 られないときなど, 検 証 用 スペクトルの 確 保 が 難 しく 外 部 検 証 を 適 用 すること が 望 ましくない 場 合 がある.こういった 場 合 に 最 も 頻 繁 に 使 われる 方 法 として, 校 正 用 のスペクトルのみで 内 部 検 証 を 行 うクロスバリデーション(cross validation: CV)が ある(クロスバリデーションについては 本 稿 末 の 付 に 記 した). 因 子 数 の 決 定 だけでなく,さらには 数 値 微 分 な どのスペクトルの 前 処 理 や, 必 要 な 波 長 領 域 を 選 び 出 す 波 長 選 択 などを 組 み 込 んで 比 較 することが 良 好 な 定 量 モ デルを 得 るためには 必 要 である. 5 本 稿 ではまずPLSの 概 念 をPCRと 比 較 しながら 述 べ た.そして 第 5 報 のPCRのExcelブックに 追 加 すること で,PLSRを 実 行 する 手 法 を 示 した.また, 教 科 書 では 述 べられることが 少 ないウェイトベクトル 同 士 やスコア ベクトル 同 士 が 互 いに 直 交 しているということを 調 べ た.この 直 交 性 もPLSの 重 要 な 点 である.ローディング ベクトルをスペクトル 表 示 することで,PLS1は 注 目 化 学 種 の 影 響 を 強 く 受 け,PLS2では 考 慮 している 化 学 種 全 体 からの 影 響 を 取 り 入 れていることが 考 察 できた. PLSはPCAと 異 な り 目 的 変 量 を 用 い て い る た め, PLSRはPCRと 比 較 して 少 ない 因 子 数 で 良 好 な 定 量 モデ ルが 得 られることを 示 した.ただし,PLSRによって 最 適 なモデルが 作 成 できることを 保 証 するものではなく, 外 部 検 証 やクロスバリデーションなどを 用 いてPLS1-R, PLS2-R, PCRその 他 の 手 法 を 比 較 したうえで,どのモデ ルを 用 いるかを 決 める 必 要 がある. PLSは 多 変 量 解 析 の1つであるが,PCAとは 異 なり 一 般 的 な 統 計 学 の 書 籍 で 扱 われていない.しかし,PLSで 扱 う 説 明 変 量 や 目 的 変 量 が 化 学 に 関 連 したデータでなく てはならないという 制 限 はなく,そしてPLSが 元 は 計 量 経 済 学 から 発 展 していることからも, 化 学 の 問 題 だけ でなく 他 の 分 野 で 重 回 帰 モデルを 得 る 手 法 の 一 つとし DOI: 10.2477/jccj.2014-0001 13
て 用 いることも 可 能 である. 実 際,さまざまな 統 計 ソフ トウェアにもPLSが 実 装 されている.こういったソフト ウェアを 使 うときなどにあたって どんな 計 算 をしてい るのか? を 理 解 するために 本 稿 が 役 立 てたらと 思 う. 本 稿 で 示 しているExcelのブックファイルは,http:// www.tuat.ac.jp/~mt2459/chemom/ にてダウンロードできる ので 利 用 してほしい. [1]. hasegawa, Supekutoru eiryô Bunseki, kodansha Scientific Ltd. (2005) [2]. Mitsui, kemometorikkusu no kiso to Ôyô, Bunseki kagakuto ahenryô kaisekihô, IPC Inc. (2003) [3] Y. Ozaki, A. uda,. Akai, kagakusha no tameno ahenryô kaiseki, kodansha Scientific Ltd. (2002) [4] Y. Miyashita, S. Sasaki, kemometorikkusu kagaku Patân Ninsiki to ahenryô kaiseki, kyotitsu Shuppan Co., Ltd. (1995) [5] J. Agnar höskuldsson, J. Chemometrics, 2, 211 (1988). [CrossRef] [6] N. Yoshimura, A. Shigetani, M. akayanagi, J. Comput. Chem. Jpn. 9, 109 (2010). [CrossRef] [7] N. Yoshimura, k. Fukuhara, k. Mitsuki, M. akayanagi, J. Comput. Chem. Jpn. 10, 32 (2011). [CrossRef] [8] R. Ferrer-Gallego, J. M. herández-hierro, J. C. Rivas- Gonzalo, M. eresa Escribano-Balión, LW, Food Sci. echnol. (Campinas.), 44, 847 (2011). [9] h. Xu, B. Qi, X. Fu, Y. Ying, J. Food Eng. 109, 142 (2012). [CrossRef] [10] L. Yan-de, Y. Yi-bin, FuXiaping and Lu huishan, J. Food Engineering. 80, 986 (2007). [11] Z.-M. Chuah, R. Paramesran, k. hambiratnam, S.- C. Poh, Chemom. Intell. Lab. Syst. 104, 347 (2010). [CrossRef] [12] D. Cozzolino, I. Murray, A. Chree, J. R. Scaife, LW, Food Sci. echnol. (Campinas.), 38, 821 (2005). [13] A. Shigetani, N. Yoshimura, M. akayanagi, J. Spectrosc. Soc. Jpn. 58, 268 (2009). [14] B. S. Dayal, J. F. MacGregor, J. Chemometr. 11, 73 (1997). [CrossRef] [15] O. M. kvalheim, Chemom. Intell. Lab. Syst. 2, 283 (1987). [CrossRef] [16] O. M. kvalheim, Chemom. Intell. Lab. Syst. 8, 59 (1990). [CrossRef] [17] N. Yoshimura, A. Shigetani, M. akayanagi, J. Comput. Chem. Jpn. 8, 183 (2009). [CrossRef] 14 J. Comput. Chem. Jpn.
Chemometrics Calculations with Microsoft Excel (6) PLS Regression Norio Yoshimura*, and Masao akayanagi Graduate School of Agriculture, okyo University of Agriculture and echnology, 3-5-8 Saiwaicho Fuchu, okyo 183-8509 Japan *e-mail: yosimura@cc.tuat.ac.jp Although chemometrics has become widely used recently for analyzing experimental chemical data, there exist only a few instructions for the proper usage of chemometrics other than those in some introductory books. As the sixth step of chemometrics calculations with Microsoft Excel (Excel), the partial least-squares (PLS) regression (PLSR) is performed on worksheets. he worksheets were prepared for generating the spectra of model calibration samples and unknown samples, obtaining latent variables by PLS1 (single objective variable model) and by PLS2 (multi objective variable model), and constructing quantitative model by PLSR. he quantitative performances of PLSR and PCR were compared by using the generated unknown spectra. PLSR model with PLS1 has good performance with a small number of factors for the chemical species using objective variable. PLSR modeling with PLS2 computes stable results for each chemical species. hese results indicate that PLSRs are superior to PCR, when a small number of factors are used. However, it is not obvious which method produces the best quantitative model. For getting the best model, it is necessary to compare the methods using various factors. Keywords: Microsoft Excel, Chemometrics, Partial least squares, PLS2 and PLSR DOI: 10.2477/jccj.2014-0001 15
: (CV) CVでは 次 のような 手 順 で 検 証 を 行 う(leave-one-out 法 の 場 合 ). n = 1 より 始 める. {1} スペクトル 行 列 Aと 濃 度 情 報 行 列 Cから 試 料 nの スペクトルa n と 濃 度 情 報 c n を 抜 いてA ( n), C ( n) を 得 る. {2}A ( n) とC ( n) をPLS やPCA を 用 いてウェイト,ロー ディング,スコアベクトルを 求 める. f = 1 より 始 める {3} 第 f 因 子 までを 用 いて 検 量 モデルを 構 築 する. {4} 構 築 した 検 量 モデルにa n を 適 用 し, 試 料 n 中 の 化 学 種 lの 濃 度 c ln の 予 測 値 c lnf を 求 める. {5} 化 学 種 lの 予 測 濃 度 の 相 対 誤 差 (relative error: RE) = (I) RE lnf c lnf c ln c ln 最 大 の 因 子 数 になるまでiを1つ 増 やし{3}に 戻 る すべての 試 料 について 行 われるまで,nを1つ 増 やし{1}に 戻 る. {7} 因 子 数 ごとにAREを 求 める. ARE lnf N RElnf n= 1 (N は 試 料 数 ) (II). = N AREが 最 小 となる 因 子 数 の 場 合 を 最 適 モデルとし て 採 用 する. ここでは, 本 文 の 内 容 と 合 わせるために 評 価 基 準 としてAREを 用 いたが, 一 般 には 予 測 残 差 二 乗 和 (prediction residual sum of squares: PRESS) N 2 c lnf cln (N は 試 料 数 ) (III). n= 1 PRESS = ( ) が 用 いられる. を 求 める 16 J. Comput. Chem. Jpn.