球面SOM法による仮想3Dでのクラスタ解析
ここでは,球面SOM法による仮想3Dでのスペクトルデータの 見事なクラスタ解析結果を示します.

1. PCAと球面SOM法によるTOF-SIMSスペクトル解析


1-1 はじめに

 有機物をTOF-SIMSで分析すると多くの分子種が検出されるが,それらを迅速に分類することが実用上 重要であります.
 多くの変量(この場合は分子種)を解析する方法として多変量解析法が用いられますが,ここでは多変量解析法の中で,分類分けに適した手法である主成分解析(Principal Component Analysis: PCA) と自己組織化マップ(Self-Organizing Maps: SOM)[1-3]を用いてTOF-SIMSで得られたPETフィルムのデータを解析し,両者の手法を比較検討しました[4].


1-2 解析に使用したTOF-SIMSデータ

 試料数は23個,同定した分子種は26種です.
 代表的なスペクトルを図1に示します.


図1 TOF-SIMSの元データ


1-3 主成分解析( PCA)の結果


図2 主成分分析の説明

 ある問題に対して,いくつかの要因が考えられるとき,それらの要因を一つ一つ独立に扱うのではなく, 総合的に取り扱うのが主成分解析(Principal Component Analysis: PCA)であります.
 変量がp個あったときには主成分はp個とりえますが,主成分解析は多くの変量(x)の値をできるだけ情報の損失なしに, 1個または互いに独立な少数個の総合的指標(z)で代表する手法であります.
 例えば図2に示すように,二次元のデータが与えられたときに,出来るだけ情報損失量が少なくなるように一次元の直線を引き, それを新しい軸(主成分)として,その直線上の値で二次元データを表すことです.
 これにより二次元データを一次元データとして扱うことが出来ます.
 このように次元を小さくするためには,データの「ばらつき」を基に分散・共分散行列を作り,その行列の固有値の大きい順に, 対応する固有ベクトルの軸を主成分(第1,第2,・・・)としていけば,情報量の損失が 最も少なくなるように軸を選定することができます.


図3 第1,第2主成分分析での結果

 第1主成分の軸の値は下式より求められる.[ ]はそれぞれの試料の各成分の強度です.
0.1910[C]-0.1302[CH3]-0.2489[C2H3]+0.1581[Si]-0.1792[C2H5]+0.2633[CF]‥‥
 第一主成分の固有ベクトルの各成分は右下の図のようになっています.
 これから第1主成分はSiやCFを含む分子が観測されたスペクトルに高得点を与える事が分かります.
 第2主成分では,Siを含むスペクトルには高得点を与え,逆にCFを含むスペクトルは減点します.
 試料ごとに第1主成分と第2主成分の値を前式に基づき計算して,2次元に表示した結果を図3に示す.
 この図から23個の試料は6種類に分類することができました.
 しかし,固有値の大きさを示すグラフから判定すると主成分は3個採用することが望ましいので,第3主成分まで考慮して3次元表示を行いました.


図4 第3主成分まで考慮した分析結果

 第3主成分まで考慮するとN16, N17, N18は二つに分離され,スペクトル群は7種類に分類されること が分かります.
 なお,第3主成分はSiを含むスペクトルに高得点を与え,C-H-を含むスペクトルを減点してい ます.

1-4 自己組織化マップ(SOM)の結果

 図1の元データを折れ線グラフで示します.


図5 図1の元データ23個を折れ線グラフで表示

 これを各行で正規化したものを図6に示します.


図6 図5を行で正規化

 図6を使った球面SOM法での結果を図7,8に示します.


 図7 (a) 図6データの学習結果,(b)球面をグリフ値1で歪ませ,ラベル座標の距離を群平均法でクラスタ分析結果は図8に示します


図8 PCAの結果群と合わすために非類似度距離(nsd=0.15)でクラス分け


 各群での色表示を以下に示します.


 図9 図8での各群の色表示を示します.
 図8での群の上から下をここでは上,続いて下の左から右に示します

 左上の球面SOMからN1, N2, N3, N5, N6, N7, N8は同一のグループに属していることが分かります.
 同様に,次の球面SOMからN4は孤立していること,次の球面SOMからN9, N10, N11, N12, N13は同一のグループに属していること,N14, N15は同一のグループに属していることが分かります.
 同様に他の領域も図に示します.
 大まかな比較としてG11,G12,G21,G22,でのスペクトルを比較します.


図10 図8での4群,G11,G12,G21,G22,でのスペクトルの比較


 図10にで図8での4群,G11,G12,G21,G22,でのスペクトルの比較をした.スペクトルの揃い具合は,G21>G11>G22=G12,と考えられます.

1-5 PCAと球面SOMの結果の比較

 PCAの結果は図4に示されています.
 PCAの場合は第3主成分まで考慮しないとN16, N17とN18が分離されませんが,SOMでは主成分という考え方はないので自動的にグループ分けができています.
 図8の樹形図を距離0.15でクラスタ分類しますと,そこでの分類はPCAでの結果と一致します.
 SOMでは似たようなデータを集めて,くくり出すという手法(クラスタ分析)をとるので,クラスタ間の相違を考慮してグルーピングすることになります.
 ここで使用した球面SOMソフトは,図7に示すようにグループ間の距離を強調させて表示し,クラスタの分離状態がわかりやすく示す事ができます.
 ユーザーはクラスタ間の距離の大きさを判定して,最終的にグルーピングすることになります.

1-6 まとめ

 (1)主成分解析(PCA)及び自己組織化マップ(SOM)はTOF-SIMSのスペクトルの分類に有効です.
 (2)スペクトルの分類に関して,PCAとSOMで同一の結果が得られました.
 (3)PCAは,考慮する主成分数により得られる情報が異なるが,SOMではそのようなことは起こりません. PCAでは考慮する主成分数が4個以上になると判別が困難になります.
 (4)ここでは第3主成分まで考慮したPCAでのクラス分けに合わすために図8の樹形図では,距離0.15でクラス分けをしました.
 (5)球面SOMは表示法に優れており,解析者の主観に左右されることなく,容易にスペクトルを分類することが可能です.


2.他のスペクトルデータでの球面SOM法による波形分類 [5]


2-1はじめに


図11 エネルギー範囲410-440eVの1-50個の正規化スペクトル

 多次元のデータセットを視覚化する新しいクラスタ分析法を提案しました[1-3].
 そこでは,ラベルデータの球面上での位相距離を計算し,ラベル間の距離計算によるデンドログラム(樹状図)を作成しました.
 そして,この作成した樹状図を基に,ラベルデータに基づいて球面上でのクラスタ群の色分けを試みました.
 この方法を,Cu上にSnメッキした試料のオージェ電子分光(AES)深さ方向分析波形データの解析に応用しました.
 本方法は,色々なデータに応用できますが,解析の手順と結果の詳細を以下に報告しますので各位のデータに応用して見て下さい.
 また,前回はPCA法でも検証したが今回はスペクトルの刻みが151次元と大量で第3主成分までしか使えないPCA法は解析には無理があるようです.

2-2 データの準備と解析手順

 エネルギー範囲410-440eV,151刻みでのスペクトルを使用した.
 上記エネルギーの範囲で,スペクトルを最大-最小で,行で正規化しました.
 図11に示すエネルギー範囲410-440eVの行で正規化(図11(a))したスペクトルを以下に解析します.


 図12 (a) 図11(b)の1-50までの正規化データでの球面SOMでの学習結果.
 中央の黒い線は学習後のデータ間の距離を表します.
 (b) その距離を,グリフ値0.5で強調.
 (c) その距離を,グリフ値の最大1.0で強調.
 (d) (c)のように球面を歪ませた状態で距離計算をし,そのグリフ値で群平均法を用い,デンドログラム(樹状図)をツールで描きます


 図13 デンドログラムは1-50,まで48番を除き,連続に並びました.
 標準材料のSnO,SnO2,Sn-Metalが該当する位置は矢印で示されています.
 まず,図4内で48に示す赤矢印は,ここだけ順序が乱れた部位です.
 1-50個で学習後,球面上でSnO,SnO2,Sn-Metalの位置を探しました.
 SnOはG111群にあります.
 SnO2はG112群の11番スペクトルと一致しました.
 Sn-Metalは,G222群の41番スペクトルと一致しました.
 ここから,球面上に1-50の正規化スペクトルとSnO,SnO2,Sn-Metal,を貼りつけた結果を述べます.


 図14 左上から右下まで,G111群からG222群を連続に各群を色付けて並べました.
 SnOはG111群,SnO2はG112群の11番スペクトルに貼りつきました.
 またSnMetalは右下でG222群の41番スペクトルに貼りつきました.


 図15 G11,G22群までの4群を示します.
 各群の右に示す数字は各群を構成するスペクトルの数であります.
 図13の樹状図の距離からG21>G11>G12=G22であります.
 見た目からはG22は離れているようですが,構成スペクトルが20と大きく各スペクトル当たりの距離は一番少ないと考えられます.

2-3 まとめ

 (1) エネルギー範囲は410-440eVを選んだ場合,スペクトルは一番滑らかで波形を0-1で正規化しました.Normで1-50までは,ほぼ連続な樹形図が画けました.
 (2) G111からG222まで8群に分かれました.各群でのスペクトルは良く似通っています.
 (3) 標準スペクトルSnOはG111群,SnO2はG112群に有り,試料11と一致しました.
 (4) 標準スペクトルSn-Metalは離れたG222群に有り,試料41と一致しました.
 (5) 同上の結果は,精度は少し落ちるが平面にも展開出来ました.ただ,平面でのクラスタ群の色分けには球面SOMでの結果を用いました.


3. 結論

 1.スペクトルのクラスタ分類をPCAとSOMで試みました.
 PCAでの第3主成分まで使った場合にはSOM法での結果と一致しました
 2.PCA法では,考慮する主成分数が4個以上になると判別が困難になります.
 また,表示の都合上,第3主成分まで考える場合が多いが,SOM法は任意の次元に容易に応用できます.
 ここでは151次元のスペクトルに適用しましたが,図15に示すようにスペクトル形状で見事に4群に分類出来ました.



参考文献

[1] 徳高平蔵,藤村喜久郎,大北正昭: 球面SOMを用いたクラスタ分析, バイオメディカル・ファジィ・システム学会誌, Vol. 8, No.1, pp.29-39, 2006.
[2] 大北正昭, 徳高平蔵, 藤村喜久郎, 権田英功:自己組織化マップとそのツール, シュプリンガー・ジャパン(株), 2008.
[3] http://www.somj.com
[4] 吉原一紘, 徳高平蔵: PCAと球面SOM法によるTOF-SIMSスペクトル解析, 第41回表面分析(SASJ)研究会,6月17日,名古屋,2013.
[5] 徳高平蔵: Cu上にSnメッキした試料のAES深さ方向分析波形データの球面SOM法による波形分類と標準試料による同定, 第41回表面分析(SASJ)研究会,6月17日,名古屋,2013.

>開発商品メインページ


ホーム
Copyright SOMジャパン