
- データサイエンティストが語るVol.3
製造業の相関分析はなぜ難しい?現場で使える解決策と実践ノウハウを公開
製造現場におけるKPIの基本はQCD(Quality, Cost, Delivery)にある。その中でも「Quality(品質)」の管理とは、即ち「バラツキとの戦い」だ。
最先端の半導体工場であろうと、数十年稼働し続ける化学プラントであろうと、この事実は変わらない。原料ロットの変動、装置状態の経時変化、作業員のスキル差、環境温度などの外乱。これらが複雑に絡み合い、最終製品の品質にバラツキを生じさせる。エンジニアの仕事は、常に変動するこれらの要因から真の原因(真因)を特定し、制御することに他ならない。
その際、最も初歩的かつ強力な武器となるのが「相関分析」だ。散布図を描き、相関係数を導き出す新入社員でも可能なこの手法だが、実はこれほど「分析者の力量」が問われる手法も少ない。明確な知見が得られることもあれば、何の意味もない砂嵐のようなプロットが生み出されることもあるからだ。
なぜ人によって結果が異なるのか。それは、単なる解析ソフトの操作スキルではなく、工場の「ドメイン知識(物理的意味)」と「データ解析スキル」の双方が高い次元で融合していなければ、データの背後にある物理現象を捉えられないからである。
本稿では、機械学習の基礎であり、あらゆるデータ解析の入り口となる「相関分析」に焦点を当てる。特に、要因系データ(X)を「温度」、結果系データ(Y)を「品質値」としたケーススタディを通じ、相関が見えない場合の具体的な打開策と、相関が見えたときにこそ疑うべき落とし穴について解説する。
▼前回のブログはこちら
相関分析とは何か?:機械学習の礎となる探索的アプローチ
そもそも相関分析とは、X軸に要因系データ、Y軸に結果系データ(品質)をプロットし、両者の連動性を可視化する手法だ。よく比較される「単回帰分析」が、特定の要因に対する感度(傾き)や予測精度を評価するものであるのに対し、相関分析は「どの要因が効いているか?」「その結びつきはどの程度か?」を探索的に洗い出す仮説構築フェーズで威力を発揮する。
現代の製造業において、AIや機械学習の導入が叫ばれて久しいが、相関分析を経ずに機械学習モデルを構築することはあり得ない。機械学習では必須な変数の選択において、相関の有無は最も基本的な判断材料となるからだ。
しかし、現場の実データは教科書のように綺麗ではない。特に「温度」と「品質」の関係においては、測定場所間の距離による温度勾配や熱容量によるタイムラグなど、一筋縄ではいかない要素が多々含まれる。以下に、現場で直面する「相関が見えない」という壁を乗り越えるための具体的なアプローチを示す。
相関が見えない時の処方箋①:ドメイン知識による物理的アプローチ
散布図に相関が見られない時、即座に「関係なし」と断じるのは早計だ。まずは、データそのものの「素性」を疑う必要がある。このフェーズで必要となるのは統計学ではなく、設備やプロセスに関するドメイン知識だ。
相関分析、特にピアソンの積率相関係数は、データが正規分布に近いことを前提としている。つまりは、正規分布から外れる要因、あるいは物理的な意味の整合性を再考することで、隠れた相関が浮かび上がってくる。
1. 測定分解能の問題
測定分解能の問題を見落としてはならない。例えば、品質変動に対して温度が0.1℃単位で影響を与えるプロセスにおいて、温度計のロギングデータが1℃刻み(整数値)で記録されていた場合、散布図は離散的になり、真の相関は埋もれてしまう。センサーの仕様、PLCのデータ型、ヒストリアンの圧縮設定まで遡り、必要な粒度が確保されているかを確認する必要がある。下は温度が1℃刻みの散布図とヒストグラムだ。このような離散値の散布図になっているとしたら要注意だ。
↓クリックで図版を拡大
2. 品質値が複合的な値の場合
Y軸に「歩留り」や「不良率」を設定していないだろうか。これらは総合的な品質の変動を検知する目的では優秀だが、相関分析の指標としては不適切だ。なぜなら、これらは膜厚異常、欠陥の発生、色むらなど、全く異なる物理現象の結果が「NG」として丸められた複合値である可能性が高いからだ。下のイメージのように相関分析は左側の「品質値が単体の値」が理想で、右側の「品質値が複合的な値」のような場合を想定していない。
↓クリックで図版を拡大
また、「歩留り」や「不良率」が単体の値として、どうしてもこれらを使いたい場合でも、これらは二項分布やポアソン分布に従うことが多く、正規分布に近づけるデータ変換が必要だ。いずれにしても、Y軸には何かの比率ではなく「膜厚」「屈折率」「密度」といった、単一の物理量を設定するのが鉄則である。
3. 生存バイアス
データセットに「全てのデータ」が含まれているとは限らない。例えば、後工程の品質検査データと前工程の温度データの相関を見る際、前工程ですでに明らかな不良として廃棄された製品のデータが含まれていないケースがある。バラツキの大きなデータこそが相関を形成するのに、それらが除外された「優等生データ」だけで分析を行えば、相関が見えなくなるのは当然だ。
下は「全てのデータ」(左側)とX軸の温度が40から60の間に絞り込まれた「優等生データ」(右側)の相関係数の違いだ。X軸やY軸に不自然なデータ分布が見えた時は現場でどのような廃棄ルールとなっているかの確認が必要だ。
↓クリックで図版を拡大
4. 物理的なデータ紐付けのズレ(距離・時間)
「温度」といっても、それは何を測定した温度なのか?どの場所を測定した温度なのか?は理解する必要がある。
下のようなバッチプロセスにおいて、要因系データの候補として製品温度、内壁温度、雰囲気温度、結果系データの品質値として膜厚との相関関係を調べたい場合、3つの散布図を描くだけでなく、それぞれについて、何を測定した温度なのか、どの場所を測定した温度や膜厚なのか?を理解する必要があるということだ。
特に重要なのは、測定された場所だ。温度を測定しているセンサーと膜厚の測定箇所の距離が離れていれば、温度勾配によって効果は薄まっているはずであり、さらに熱容量によるタイムラグによって実質的な熱量は異なるかもしれない。これは処理時間が短いプロセスでは顕著に表れるはずである。
本稿でX軸は温度、Y軸は品質値を選んだ理由はここにある。装置構造、センサー位置、熱容量などドメイン知識がないと見つかるはずの相関を見つけることができない。
↓クリックで図版を拡大
また、化学プラントのような連続プロセスでもタイムラグは存在する。
下は連続プロセスの1つであるロール・ツー・ロールの概念図であるが、温度測定をした時刻と膜厚測定をした時刻にはタイムラグが存在する。データを紐付けするにはこれらの差分を調整する必要がある。
↓クリックで図版を拡大
5. 集計による情報の損失
データの粒度(時間分解能)の違いも大きな壁となる。品質データは「1ロット(数時間)に1点」しか出ないのに対し、温度データは「1秒に1点」存在する場合、データの粒度を合わせるために、安易にロット単位で「平均」していないだろうか。
平均化は、温度のスパイクや振動といった重要な特徴量を消失させる。平均ではなく、最大値、最小値、あるいは標準偏差など、変動の特徴を捉える集計方法を選択すべきだ。
下のような温度プロファイルが代表的な例だ。オーバーシュートの特徴はその前後の時間における最大値、安定状態の特徴はその期間における平均値と標準偏差にすることで特徴を捉えた集計方法となる。
↓クリックで図版を拡大
6. プロセス制御(APC)のパラドックス
相関がないことが、逆に制御の優秀さを証明している場合がある。PID制御やAPC(高度プロセス制御)によって温度が完璧に一定に保たれている場合、X軸の変動はゼロに近づく。Xが動かなければ、当然Yとの相関は見えない。
プロセス制御が行われているかどうかは、測定値だけを見ても判断できない。設定値や操作値を同時に見ることや、現場の運用を含めたプロセスのドメイン知識が必要となる。
相関が見えない時の処方箋②:統計的手法によるデータサイエンス・アプローチ
ドメイン知識による精査を行っても相関が見えない場合、次に取るべきは統計的なアプローチだ。データの物理的な意味が不明瞭であっても、前処理、可視化、多変量解析などのデータ解析スキルを駆使することで、関係性をあぶり出すことが可能だ。外部のデータサイエンティストと協業する際などは、ここが共通言語となる。
1. 前処理とデータ変換
生データはノイズの塊だ。外れ値の除去、移動平均による平滑化といった基本的な処理に加え、対数変換やボックス・コックス変換を用いて分布を正規分布に近づけることで、ピアソン相関係数の感度を高めることができる。また、温度と圧力の掛け算(交互作用項)を新たな変数として導入するなど、特徴量エンジニアリングが突破口になることも多い。
2. 非線形相関の探索
一般的に使われるピアソンの「相関係数」は、あくまで「直線的な関係」しか評価できない。しかし、化学反応などは温度に対して指数関数的に反応することが多い。
散布図がU字型やS字型を描いている場合、ピアソンの相関係数はゼロに近くなるが、非線形な関係性も捉えられる「相互情報量(Mutual Information)」などの指標を用いるべきだ。
下の6つのグラフは上段が人工的に作られたU字型、S字型、指数関数型のグラフで、下段がそれぞれについて同等の誤差を加えたものだ。
ピアソンの相関係数は良く知られているように、単純に右上がり又は右下がりでなければ高い数値(+1又は-1)を得ることができない。しかし、相互情報量による比較を行うと、要因系データXと結果系データYに明確な関係性が見られれば、値は高くなり、誤差を増やすことで関係性が怪しくなると値は低くなる傾向が見られる。この特徴を上手く活用できれば、膨大な変数の中から、傾向が見られる変数をスクリーニングすることができる。
↓クリックで図版を拡大
3. データ不足への対処
立ち上げ直後のラインなど、そもそもデータ点数が少なすぎて相関が判断できない場合がある。画像処理分野で用いられるGAN(敵対的生成ネットワーク)などで擬似データを生成する手法もあるが、製造業においてはリスクが高い。
相関分析の目的が、工場内の要因系データに対して、「どの要因が効いているか?」「その結びつきはどの程度か?」を探索的に洗い出すことを目的にしている以上、できるだけ長期間のデータを取得して、あらゆるバラツキを含んだデータを使うことが理想的だ。
4. 密度過多の可視化
逆に、データが数万点以上あり、散布図が黒く塗りつぶされてしまうと、傾向が見えなくなる。この場合、点の透明度(Alpha値)を下げる、密度分布図(ヒートマップ)にする、あるいは等高線プロットを用いることで、データの集中度合いと傾向を可視化できる。
↓クリックで図版を拡大
5. 第三のパラメータによる層別
相関が見えない場合、最も有効なのが「層別」だ。装置Aと装置B、昼勤と夜勤、品種Xと品種Y。これらを混ぜたままプロットしていないだろうか。
カテゴリーデータ(質的変数)を用いてデータを分割し、個別に散布図を描くと、それぞれのグループ内では綺麗な相関が現れることが多い。これは外れ値除去と同様、解析の初期段階で必ず行うべき定石である。
↓クリックで図版を拡大
6. 多変量解析による誤差分解
単一のX(温度)だけでY(品質)を説明しようとするのがそもそも無理な場合がある。品質変動の要因が温度以外にも湿度や圧力にある場合、それらの影響は全て「誤差」として散布図上のバラツキになる。
決定木分析や重回帰分析、ランダムフォレストなどの多変量解析モデルを用いることで、他の要因の影響を分離し、残差として純粋な温度の影響度を抽出するという考え方が必要になる。
相関が見えた瞬間の落とし穴:因果関係を見誤らないための警鐘
苦労の末に散布図上に綺麗な右肩上がりのラインが見えたとしても、そこで思考停止してはならない。「相関関係は因果関係を意味しない」。この格言は、製造現場においてこそ重い意味を持つ。見つかった相関はあくまで「仮説」であり、物理的な裏付けがなければ、誤った対策へとミスリードする危険性がある。すべてはここの解釈で決まる。
1. まったくの偶然
時系列データによくある罠だ。季節変動で工場の室温が徐々に上がっている時期に、たまたまQCサークル活動で品質改善が進んでいたとする。この二つをプロットすると「室温が上がると品質が良くなる」という強い相関が出る。これを真に受けて「暖房をガンガン効かせよう」と判断するのがいかに愚かかは明白だ。
2. 擬似相関
温度と品質に相関があるように見えるが、実はその背後に「第三の因子(交絡因子)」が存在するケースだ。
下の図のように温度が下がると、品質が上がるという関係が見つかったとする。これを「品質を向上させるために、温度を低下させよう」と解釈し、対応してしまうことは危険だ。
正しい解釈は、第三の因子が「装置のメンテナンスからの経過時間」で、メンテナンス直後は「冷却効率が良い(温度が低い)」かつ「洗浄済みで品質が良い」、そして、メンテナンスからの経過時間と共に、温度は上がり、品質は下がるということかもしれない。つまりは、品質の変動も温度の変動も両方とも原因ではなく結果なので、まさに「相関関係は因果関係を意味しない」ケースだ。
擬似相関を見分けるのは難しい。相関分析はあくまで仮説構築のための手段であり、仮説を検証するためには、別の方向からの検証が必須であることを忘れてはならない。
↓クリックで図版を拡大
3. シンプソンのパラドックス
シンプソンのパラドックスとは下のグラフのように、全体データで見ると「温度が上がると品質が上がる」という正の相関があるのに、品種ごとに層別してみると、全ての品種で「温度が上がると品質が下がる」という負の相関になっている現象だ。
↓クリックで図版を拡大
これは、品種ごとに設定温度と目標品質のベースラインが異なり、それらが階段状に配置されている場合に起こる。全体集合だけを見て判断すると、真逆の制御を行うことになり、壊滅的な被害をもたらす。
4. 逆因果
「Xが変化したからYが変わった」のではなく、「Yが変化したからXが変わった」という可能性だ。温度が上がると、品質が上がる、の関係が見えた時に、温度上昇が原因、品質向上が結果と考えることが一般的に思えるが、品質が未知の原因で低下してしまったので、対策として温度を意図的に変化させた場合もあるかもしれない。これは測定値だけを見ていても判断はできない。プロセス制御の部分で説明したように、設定値や操作値を同時に見ることや、現場の運用を含めたプロセスのドメイン知識が必要となる。
これも相関分析の結果を実務に活用するための必須事項となる。
✅データサイエンティストが語るVol.3のPDFはこちら>>
コラム「データサイエンティストが語るシリーズ」





















