
- データサイエンティストが語るVol.6
製造業のデータ活用人材の育成はなぜ難しい?現場で使える解決策と実戦ノウハウを公開
製造業のデータ活用を料理に例えてみる。データは食材、データベース、解析ツールなどのITインフラは調理器具、データ活用のアウトプットは料理、データ活用人材(現場データサイエンティスト)は調理人に例えることができそうだ。しかし調理人が不在なレストランはありえないのに、データ活用人材が不在な会社や工場は意外と多い。それはなぜだろうか?それは単なる人材不足だろうか?データ活用の価値にいまだ懐疑的だからであろうか?
その答えは恐らく、製造業のデータ活用の難易度が高く、成功の確率が低いからだろう。料理であれば、どんな料理であってもレシピ本は存在する。しかし、製造業のデータ活用は一般的なレシピ本は役に立たない。その会社や工場特有のドメイン知識が必要となるからだ。本稿ではその会社や工場特有のドメイン知識を中心に何を学ぶべきか?の解説を試みる。
▼前回のブログはこちら
どのような人材が必要か?
最初に説明すべきは、製造業のデータ活用人材とはどのような仕事をする人材か?ということだ。それはデータから得た知見をもとに、現場のQCD改善をリードできる人材に他ならない。品質関係であれば、下のような例だ。
↓クリックで図版を拡大
SPC:検査データや装置データの集計値を活用して、異常や傾向を検知すること
異常検知:装置データを加工した特徴量を開発して、装置の異常を検知すること
予兆検知:装置データを加工した特徴量を開発して、装置のメンテナンス時期を予測すること
品質予測:検査データの予測モデルを開発して、要因分析や予測に役立てること
要因分析:検査データに異常が発生した場合に原因を追究すること
最適化、プロセス制御:検査データが最適になるように、処理条件を(手動、自動)変更すること
これらは取得したデータを単純に並べ直したり、何も考えずに可視化したりするだけでは実現しない。データはあくまで現実世界の射影に過ぎず、その背景にある文脈(コンテキスト)の理解や、問題提起、仮説、実現したいことが無い限り、一歩も前に進まない。そこには会社や工場のドメイン知識、データ解析のドメイン知識とスキルが必要だ。本稿では、データ活用(解析)のステップに従い、どのようなドメイン知識やスキルが必要であるか解説していく。
1. データ活用(解析)の流れとドメイン知識
下の図は、データ活用(解析)の流れと概要を示している。一般的なデータ解析のステップは「データ解析のゴール設定」から「結果の解釈とフィードバック」までであるが、データ活用人材の育成の観点から、その前後にある「会社や工場の目標の理解」から「現場への導入」までを網羅することにする。赤字で「ドメイン知識」と書いたステップは特にドメイン知識が必要となる。
↓クリックで図版を拡大
①会社や工場の目標の理解
会社や工場の目標は、基本的にはQCD(Quality Cost Delivery)の改善になる場合が多い。しかし、その改善の方向性や具体的な施策は、工場のフェーズ(稼働開始フェーズ、安定稼働フェーズ、増産フェーズなど)と製品のライフサイクル(開発段階、試作段階、量産段階など)によって異なる。
たとえば、ある工場の今年の目標は、「重要装置の稼働率を向上させること」だった場合、工場のフェーズが稼働開始フェーズであれば、作業員が装置に不慣れな場合もあり、メンテナンスや品種切り替えなどの段取り時間の改善が対策の可能性が高く、工場のフェーズが安定稼働フェーズであれば、データ量が増えていることもあり、予兆検知などの解決策が検討できるかもしれない。
また、目標が「ある品種の不良率低減」だった場合、製品のライフサイクルが試作段階であれば、少ないデータ数で行う製造条件の最適化やコストを犠牲にした検査の追加が対策の可能性が高く、量産段階であれば、大量のデータを使用した製造バラツキの低減が対策の可能性が高い。
これらはあくまで仮説や可能性であるが、データ活用は仮説からスタートする場合が多く、データ活用人材はこの仮説を立てられる人材に他ならない。そのためには、会社や工場の目標は、工場のフェーズ、製品のライフサイクルという文脈と一緒に理解する必要がある。
②データ解析のゴール設定
データ活用(解析)の最初のステップはゴール設定だ。ここでは会社や工場の目標に対して、データを活用した具体的なゴールに落とし込む。
データ解析のゴールとは何だろうか?データ解析自体はQCDを改善させることはない。データ解析から得られたアプトプットを使って、工場内の何かを変更しなければQCDは改善しない。つまりは、データ解析のゴール設定とは、QCDの改善の元となるアウトプットを何にするか?を決めることに他ならない。そして同時に、アウトプットを得るために「どのようなデータ」を使って、「どのような手法」を使うか、のシナリオを考え、さらには大まかなデータ解析フロー(手順)を決めることである。
下の図は「どのようなデータ」、「どのような手法」、「どのようなアウトプット」の具体例な部品だ。
↓クリックで図版を拡大
これらの部品を組み合わせて、アウトプットまでのシナリオを考える。ここでは不良発生時の要因分析と予兆検知のゴール設定を考えてみる。
1)不良発生時の要因分析のゴール設定:検査データを目的変数、装置データを説明変数とした相関分析を行うことで、検査データと相関した装置データを発見する。この時、「データ」は検査データと装置データ、「手法」はデータの紐付けと相関分析、「アウトプット」は相関関係の発見となる。この相関関係の発見から物理的な解釈を行い、管理値の変更などで対策を行う。
2)予兆検知のゴール設定:装置から取得した振動データを使って、フーリエ変換などを行い、メンテナンス時期を予測できるような特徴量を開発する。この時、「データ」は装置から取得した振動データ、「手法」はフーリエ変換など、「アウトプット」はメンテナンス時期を予測できる特徴量の開発となる。この特徴量に対して、実運用が可能かどうかの検証を行い、工場に導入を行う。
これらのゴール設定は全てデータ解析を行う前、データが無い時点で行う必要がある。データが無い時点で仮説やアイディアを得るためには、以下のようなドメイン知識が重要となる。
1)製品の流し方のドメイン知識
工場や製品のドメイン知識で基本となるのは、工場内での製品の流し方だ。大きく分類すると、下の図のような、大きな製品を分割していく「分割パターン」か、複数の部品を組み立てていく「統合パターン」に分かれる。前者はプロセス系の工場に多く、後者は組立て系の工場が当て嵌まる。
↓クリックで図版を拡大
ゴール設定が要因分析であった場合、このような製品の流し方(プロセス系、組立て系)は仮説を設定する際に必須な情報となる。
この図では、分割パターンの検査結果がA001-1ではOK、A001-2ではNGとなった時に、分割前の工程1から3までは不良原因とはならず、分割後の工程4から6が不良原因ではないか?という工程を絞り込んだ仮説を立てることができる。
統合パターンで検査結果がNGとなった場合は、どの工程でも不良が発生している可能性があり、工程を絞り込む仮説を立てることができない。
その他にも、ゴール設定で仮説を立てる上で必要となるドメイン知識は、以下のように2)製品のプロセスに対するドメイン知識、3)モノづくりに必要な物理現象の基本、4)現場のルールとあるべき姿、5)社内ドキュメントや暗黙知、となる。
2)製品のプロセスに対するドメイン知識
プロセスフロー(全工程)
全ての工程の目的と物理現象、化学現象、シミュレーション結果
全ての工程の理想像、あるべき姿(どのような状態になっていることが正しいのか?)
製品のQCDに大きな影響があるクリティカルな工程はどこか?なぜクリティカルか?
クリティカルな製品の部位や設計箇所
トレードオフとなっている関係性。例えば、検査頻度を上げると不良の流出は減るが、コストが上がり、スループットが低下するなど
3)モノづくりに必要な物理現象の基本
天然由来の原料は、生産地や生産年によるバラツキが発生しやすい
加熱するプロセスには、温度のバラツキ、膨張・収縮による問題が起きやすい
成膜プロセスには、膜厚・膜質のムラや、剥がれが発生しやすい
研磨プロセスでは、治具の消耗や劣化が発生する
乾燥させるプロセスでは、気温や湿度に影響を受けやすい
液体で洗浄するプロセスでは、薬液の劣化による残差が発生しやすい
塗布するプロセスでは、応力の変化による剥がれが発生しやすい
型を使うプロセスでは、型の劣化が起きる
重ね合わせるプロセスでは、ズレが問題となる
4)現場のルールとあるべき姿
製品の分割や統合のルール(どのようなルールで分割や統合が行われるのか?)
ディスパッチのルール(何を優先して製品を流すのか?)
待ち時間の制約の有無(待ち時間に制限があるのか?)
中間在庫の持ち方(どの工程にどのくらいの中間在庫を持つべきか?)
組立て系の場合、部品の特性によって組み合わせを変更するのか?
製品IDの付与ルール(どの工程から製品IDが付与されるのか?個別の製品にIDが付与されるのか?分割や統合における枝番の付与方法)
搬送方法(自動搬送の場合、どのような時に手動となるのか?)
プロセス制御の有無(どの情報から、何を変更するのか?)
5)社内ドキュメントや暗黙知
FMEA(Failure Mode and Effects Analysis:故障モード影響解析)
作業手順
トラブル報告書
プロセス、設計の変更履歴
QC活動などの工程改善履歴
技術論文(社内、社外)
過去に発見された相関関係や因果関係
③データ取得
ゴール設定で定めたデータを装置やサーバーから取得する。ここで課題となるのは、データのサイロ化や組織間の壁だ。付加価値の高いデータ活用は多くの種類、大量のデータが必要な場合が多く、このステップで時間や工数がかかる場合が多い。
データ活用基盤に一元管理を行い、自在にデータ取得できる環境が望ましい。
④データ整形
データ整形は、データの使い方(ゴール設定)によらずデータを活用できるフォーマットに変換することだ。製造業の現場には、そのままではデータ解析を行うことが難しいデータが存在する。下の図が代表的な例だ。下の図の左側は、測定装置や製造装置から直接取得したデータに良く見るフォーマットだ。必要な情報がファイル名やヘッダー部に分散していて、このままではデータ解析はできない。それぞれの情報は1つの列としてデータ本体に格納されている必要がある。
下の図の右側は、人間が読みやすいフォーマットに集計が行われているパターンだ。セルの結合が含まれており、このままではデータ解析はできない。さらには月別に集計されているが、どこかに生データが取得されているのであれば、生データを活用した方が付加価値のある結果になる可能性が高い。
↓クリックで図版を拡大
データ活用基盤が導入済であれば、この整形の手間は不要であるが、新規のデータを扱う場合、データ解析ができるフォーマットに整形するために簡単なプログラミングのスキルが必要となる。
⑤データ前処理
製造業のデータ解析において、データの前処理は非常に大きな意味を持つ。一般的な前処理は、外れ値の除外、欠損値の補完などデータの不完全さを補うものであるが、製造業で強く意識する必要があるのは、データの紐付けと、生データから新たにデータを作りだす特徴量の開発だ。これらはデータ解析のゴール設定(アウトプット)によって異なる。これらの元となるのは、装置のドメイン知識と検査のドメイン知識だ。
下の図はデータの前処理における特徴量の開発とデータ紐付けがポイントとなる例だ。成膜装置で加熱をしながら成膜を行い、次の途中検査で膜厚を検査し、幾つかの工程を経て最終検査では電気特性を測定するフローになっている。
↓クリックで図版を拡大
成膜装置で取得されるデータは、装置の中央付近に設置された温度センサーから取得される温度データで、1つの製品の処理に対して、左下のグラフのように処理時間に対して、昇温区間、安定区間、降温区間を繰り返す波形データになっている。
途中検査では、膜厚を測定しており、製品の5箇所(位置1から位置5)を測定している。最終検査では、製品が完成した後の電気特性を測定しており、製品の9箇所(P1からP9)を測定している。
ここでゴール設定は、成膜装置の温度、途中検査の膜厚、最終検査の電気特性の3つのデータに対して、データの紐付けと相関分析を行い、相関関係を見つけることだ。
ここで論点となるのは、
1)温度データは昇温区間、安定区間、昇温区間の波形データとなっており、どの区間のどのような統計値を代表値としたら良いのか? (波形データの特徴量開発)
2)相関分析をするためには、データの粒度を同じにして、紐付けをする必要があるが、どのようにデータの粒度を同じにするか?(データの紐付け)
の2点となる。
一番簡単な方法は、データの前処理として、①温度データは、1つの製品に対して、昇温区間、安定区間、降温区間をまとめて平均値にする。②途中検査も同様に5点をまとめて平均値とする。③電気特性も同様に9点をまとめて平均値として、全てを紐付けして相関分析を行う方法だ。
しかし、温度データは、安定区間だけを抽出して平均値にした方が良いかもしれないし、膜厚や電気特性に製品内のバラツキがあるのであれば、温度測定の場所と同じ、製品の中心のデータだけを使用して相関分析をした方が良いかもしれない。
このような仮説は、装置の構造や検査についての知識(ドメイン知識)が無ければ生まれてこない。
ここで温度データの安定区間だけを抽出するようなデータ前処理は、波形データの特徴量を開発することであり、データの紐付けは、何を紐付け情報とするか?を検討することだ。(この例では、製品IDを紐付け情報とする場合と、製品IDだけなく製品の中心も同時に紐付け情報とする場合になる)
その他、以下のような装置と検査についてのドメイン知識が必要だ。
装置についてのドメイン知識
生産方式と装置の構造
装置内の製品位置とセンサーの位置
データの意味
メンテナンスの頻度や判断(TBMの場合, CBMの場合)
機差の有無(使用装置に制約はあるか?)
日々の確認項目や監視項目
品種切り替えやチョコ停など、停止した時の確認方法
装置内の自動制御の有無
検査についてのドメイン知識
検査の目的
データの意味
途中検査の目的は何か?装置の異常判定か?製品の不良判定か?
サンプリング方法(ランダムか? 時間や場所を固定しているか?)
SPCルール(管理値の設定方法)
最終検査のデータ取得方法(全項目測定か?フェールストップか?)
最終検査によるグレード分け基準
不良発生時の対応
不良発生時の廃棄ルール(その製品だけを廃棄?同じバッチの製品を廃棄?)
リワークや手戻りルール
再測定のルール
不良品となってもデータが残るか?
⑥アウトプット
データ解析におけるアウトプットは、前述のような相関関係の発見、予兆検知用の特徴量の開発のような難易度が高いものだけでなく、KPIの算出や比較表の作成のような比較的難易度が低いものも含まれる。
ここで重要なことは、前提条件(どのデータを使ったか、どの手法を使ったか)を明確に再現できる仕組みの上で作られたアウトプットか?ということだ。データ解析は仮説からスタートする場合が多く、期待した結果にならないことが多い。その時にどこに問題があったのか、次に何をすべきかを議論する上では前提条件の再現が必須となる。データ解析を行った担当者が、「どうやって計算したか覚えていません」と言った場合、全てが無駄になる。
また、失敗した解析もノウハウとして残す仕組みになっていることが望ましい。失敗(トライ&エラー)を残すことが、同じ失敗を繰り返さない唯一の方法だ。
⑦結果の解釈とフィードバック
アウトプットの次に行うのは、結果の解釈とフィードバックだ。このステップはゴール設定と同様にドメイン知識が必須となる重要なステップだ。どのようなアウトプットも結果の解釈を間違えば全く役に立たず、工場に被害をもたらす可能性もある。また、アウトプットで期待した結果とならなかった場合、ゴール設定で仮説を再検討し、データ取得、データ前処理、アウトプットに戻りトライ&エラーをする必要がある。ドメイン知識が無ければ、そのアイディアも浮かんでこない。
具体例を下の図に示す。
↓クリックで図版を拡大
相関関係の発見をアウトプットとした場合、相関が発見できなかった場合には、一般的に相関関係が見られなかった場合に確認するデータ分布の見直しや、データ前処理で説明したドメイン知識による波形データの特徴量や紐付け方法の見直しが必要となる。ここのアイディア出しはまさにドメイン知識の集大成となる。一方で、相関が発見できた場合には、その相関は物理的に意味があるものなのか、疑似相関なのか、単なる偶然なのかの解釈が必須となる。
予兆検知の特徴量開発をアウトプットとした場合、装置の振動データを使用して、フーリエ変換を使って、特定の周波数が装置の劣化の特徴量であることを見つけることが特徴量開発となるが、その特徴量が開発できなかった場合には、振動センサーの設置方法やサンプリング周期の再検討や、運転モードによる差異の検討を行う必要があり、特徴量が開発できた場合は、再現性の確認や物理的な意味の裏付けが必要となる。
⑧現場への導入
データ解析ステップの結果の解釈とフィードバックが終わり、QCD改善のための運用の変更、処理条件の変更、予兆検知などの新しい仕組みが導入される前には、現場の理解が必要だ。まず重要視されるのは、安全性であることは間違いない。
製造業では、以下のような安全性以外にも制約やリスクは沢山ある。これも会社や工場のドメイン知識であることは間違いない。
制約やリスクのドメイン知識
プロセス変更、手順変更による社内、社外の承認ルール
社内ドキュメントの変更範囲
対象工程以外への影響
設計への影響
新たにSPC、予兆検知、異常検知、品質予測などを導入する場合、タスクや管理値の開発・更新の方法、異常発生時の対応方法
また、データ解析の結果はあくまで仮説構築に過ぎず、実際にどうなるか?を確認するためには、以下のような導入手法に対する知識も必要だ。
導入手法のドメイン知識
スモールスタートによる限定導入(ライン、品種、期間などを限定した導入)
実験計画法による確認
2. 育成に必要な環境
ここではデータ活用人材に必要な環境について説明する。
データ活用人材を育成するのは難しい。会社や工場の目標に対して、データを活用したゴール設定に落とし込み、導入までリードできるようになるには、相当な時間がかかることが予想される。生成AIの導入で効率化されていく可能性はあるが、逆に生成AIに騙されないより深い知識が必要となってくる可能性もある。
育成の時間を短縮し、効率化するためには、以下のような環境が必要だ。
①データ活用基盤
データ解析の最初のステップはデータの取得だが、これに時間がかかることは大きな阻害要因となる。データのサイロ化を解消し、データ活用基盤にデータを蓄積して自在に活用できる環境が必須だ。
②トレーニングコンテンツ
過去に行ったデータ解析結果は、使用したデータ、手順、アウトプットを1つのノウハウとして、共有される仕組みが必要だ。特に重要なのは前処理のステップだ。上記のデータ前処理で説明したように、装置データと検査データはどのように加工して、どのように紐付けするのか?は、装置の構造、製品の流し方、ゴール設定、アウトプットによって大きく異なる。実際に行った解析を追体験することが一番有用なトレーニングとなる。
下の図は、データ解析結果を、データ、前処理を含む手順、アウトプットを1つのデータ解析フローとして保存できるYDC SONARのイメージだ。
↓クリックで図版を拡大
このような仕組みを活用して、ノウハウを蓄積することがデータ活用人材育成には非常に有効な手段となる。
③経営層・マネージメントとのコミット
製造業のデータ解析は一度の解析で上手く結果を導くことは稀だ。ゴール設定の時点でアウトプットは仮説の構築や知見を得ることなので、トライ&エラーが必要となり、最終的に失敗することも多い。データ活用基盤の不備や、プログラムの開発などで時間が掛かることもある。そのような場合に重要となるのは、経営層やマネージメントとのコミットとなる。初めから大きな成果を期待するのではなく、小さな成功を積み重ねていく必要がある。
④データ解析のメンター
データ解析では、「ゴール設定」と「結果の解釈とフィードバック」のステップで高度なデータ解析のドメイン知識が必要となる。ゴール設定においては、予兆検知の導入など、これまで社内では経験のない仕組みを検討する必要があり、フィードバックでは、機械学習結果の解釈方法が分からず、停滞してしまう場合がある。このような時には、外部のデータサイエンティストをデータ解析のメンターとして採用することが必要となる。
コラム「データサイエンティストが語るシリーズ」


















