
- データサイエンティストが語るVol.2
[続]製造業の蓄積されたデータの活用はなぜ難しい?現場で使える解決策と実践ノウハウを公開
前回のブログでは、製造現場のデータ活用において最も関心の高い「要因分析」に焦点を当て、その難しさとドメイン知識の重要性について説いた。本稿では、前回の「要因分析」を包含しつつ、製造業のデータ活用全体を成功へ導くための3つの柱「データ解析スキル」「データ」「データ活用基盤」について徹底的に深掘りする。本ブログが、データ活用を一部の専門家の活動から「現場の武器」へと変えるための実践的なガイドとなることを目指した。
▼前回のブログはこちら
第1章:解析を「計算」で終わらせない真の「データ解析スキル」
製造業におけるデータ解析スキルは、単にツールを動かす能力ではない。工場の物理現象をデータに翻訳し、導き出された結果を再び現場のアクションへと還元する「翻訳能力」こそが本質である。一般的にイメージされる統計学の知識だけでは、製造現場の複雑な因果関係を解き明かすことはできない。
ここでは、製造業の技術者が身につけるべきスキルを3つに分類し、特に重要でありながら言語化が難しい「データ解析フローを構築し、結果の解釈からフィードバックを行い、結論に導くスキル」について詳述する。解析を単発の「数字遊び」に終わらせず、品質向上や稼働率改善という実利に結びつけるための思考プロセスを整理した。
スキル分類 | 概要 | 実践のポイント |
一般的なデータ解析スキル | 統計解析、機械学習、解析ツールを使いこなすスキルのこと。 | 基礎能力として習得は必須。目的に応じて手法を選択する姿勢が重要。 |
製造業特有のデータ解析スキル | QC7つ道具、各種管理図、工程能力、実験計画法などのスキルのこと。 | 現場の共通言語としてスキル。既存の改善手法と最新のデータ解析を融合させることで、現場の納得感を得やすくなる。 |
データ解析フローを構築し、結果の解釈からフィードバックを行い、結論に導くスキル | 5つのステップからなる「データ解析フロー」を構築し、一連のプロセスを完遂する、最も難易度が高いスキル。 | 解析を単発で終わらせず、トライ&エラーを前提とした循環構造を作る。物理現象(ドメイン知識)との整合性を常に確認する。 |
この中でも核心となるのが、以下の5つのステップで構成された「データ解析フロー」を構築し、結果の解釈からフィードバックを行い、結論に導くスキルである。
↓クリックで図版を拡大
1.ゴール設定
会社や工場の施策に対して、データを活用した具体的なゴールに落とし込むこと。
例えば、「○○(品種)の歩留りを○○%から○○%に向上させる」「予兆検知の仕組みを導入して、装置の稼働率を向上させる」「異常検知の仕組みを導入して、不良発生を未然に防ぐ」という施策があった場合、その言葉をそのまま「ゴール設定」としても何も進まない。もっと具体的なゴールが必要となる。それはつまり、どのようなデータが、どのようなアウトプットになれば、ゴールを満たしたことになるのか、を決めることである。
もちろん、この時点ではデータ解析は行われていない仮説の段階で、最終的にもゴールとしたアウトプットになるとは限らないが、データ活用には複数の人数が参加する可能性があり、そのメンバーとゴールを共有するためにも、どのようなデータが、どのようになった時にゴールを満たせるか、を示すことも必要となる。
また、技術的な側面だけでなく、データ解析が成功した時の費用対効果、失敗しないためのリスク管理、スケジュール管理、他部署とのすり合わせなど、プロジェクト的な側面の検討も必要だ。
2. データ収集と整形
文字通りデータを集め、データ解析が可能となる形に整形すること。
製造業のデータは、測定機から出力されるもの、手入力のスプレッドシート形式のデータなど様々なフォーマットがあり、それらはデータ解析に適していない場合が多い。さらにデータ解析の手法によっても必要とされるフォーマットもあるので、それに合わせたフォーマットに直す必要がある。また、データ収集についても、データ活用のゴールによって期間や種類も異なるので、それに適応する必要がある。このステップについては、トライ&エラーが必要なので、柔軟に対応できる仕組みが必要だ。データが後述する「データ活用基盤」に保存されている場合、このデータ収集と整形の手間は大幅に削減できる。
3. データ前処理
一般的に外れ値の除外、欠損値の補完などであるが、その他にも、データの集計、変換、複数データとの紐付けなどがある。「データの整形」はデータ解析のゴールによらずデータを活用できるフォーマットに変更することに対して、「データの前処理」はゴールによって大きく異なる。例えば外れ値の除外についても、「その外れ値は除外すべきか」「除外するとしたら、そこにはどのような補完にすべきか」のようなゴールを意識した対応が必要となる。前処理によって次のアウトプットの結果は大きく異なるので重要なステップだ。
4. アウトプット(可視化や機械学習など)
データ前処理が終わったデータについて、ゴール設定で決めたアウトプットを出力させること。
これは集計された表であったり、可視化の結果としての散布図やトレンドチャートであったり、統計的な解析(検定や推定)であったり、機械学習の予測モデルの結果だったりする。
データ解析フローにデータ前処理が複数含まれるような場合、例えば、データ変換→外れ値除外→欠損値の補足→集計→紐付け、などが連続するような場合、論理的な思考が必要となる。
5. 結果の解釈とフィードバック
アウトプットの結果を理解し、トライ&エラーとして、データ収集と整形、データ前処理、アウトプット(可視化や機械学習など)に戻り必要な処置を行うこと。
製造業のデータ活用において、このステップは非常に難易度が高い。例えば、「品質値を目的変数、装置データが説明変数とした散布図を描き、相関関係の有無から品質値バラツキの要因(仮説)を発見する」がゴール設定で決めたアウトプットであった場合、相関関係が見つかれば、その相関に物理的な意味があるのか、単なる偶然なのかを判断すること、相関が見つからなければ、次のアクションとして層別を行うことや、データ前処理に戻って紐付け方法を再検討することなどがこのステップとなる。統計解析、機械学習、製品知識など、総合的な知識が問われる、まさにデータ解析のスキルが試されるステップである。
第2章:製造現場の「データ」が持つ歪みと攻略法
データについては、データ活用に必要なデータが必要な粒度で揃っていることが必須となるが、製造業のデータについては、理想的な姿となっている場合は少ない。理由はデータを沢山取得することは、コストがかかりサイクルタイムを長くするからだ。特にそれは最終検査や工程の途中で行われる途中検査で顕著となる。
また、データ活用については、データの意味やどのように取得しているかの知識(ドメイン知識)を理解しておく必要もある。現場の論理を知らずに解析を行えば、誤った解釈を導き出すリスクがある。本章では、代表的なデータの特性と、解析時に気をつけるべきポイント、そして現場で直面する課題への解決策を解説する。
最終検査データ
製品が出荷前に行う検査。理想的には全ての製品に対して、全ての検査項目が検査される。しかし電子部品のような検査項目が多い製品の場合、例えば検査A、B、C、Dの4項目があった場合、検査Aで合格した場合に検査Bに進み、さらに合格であれば検査C……というルールとなっている場合がある。
このような場合には、全体に対して「検査D」の測定値データが少なくなり、解析対象となった場合に問題が発生する。量産工場ではコストの観点から仕方ない場合もあるが、まずはどのような実態となっているのか、どのようなルールでデータを取得しているのか、を理解する必要がある。
途中検査データ
工程内で行われる検査。目的は製品の出来ばえ確認と装置の状態確認だ。データの取得頻度も全数、サンプリング、定期確認など様々である。特に途中検査が破壊検査である場合や途中検査の結果をまって製品を流す必要がある場合、データ取得頻度は下がり、データを収集することが難しくなる。検査頻度を増やせばコストが上がり、少なくすれば不良流出に繋がるトレードオフのなかで、SPC管理を行うなどの変化に対する早急なアクションが求められる。データ活用の視点からは、全数検査が行われないため活用の難しいデータとなるが、まだ工程内の製品から取得しているデータであるため、その直後に装置を停止させたり変動に対してフィードバックする仕組みを構築できたりと、品質向上に役立てる活用が期待できる。
近年はこの途中検査を装置データで置き換える流れになっている。予兆検知、予知保全、異常検知、品質予測などだ。製品の出来ばえや装置の状態確認を実際の製品を流して確認するのではなく、データを見ることで確認することができれば、検査コストを削減し、不良流出も避けることができる。
製品履歴データ
製品が工場内を流れる時に取得される、4M(人、機械、材料、方法)情報に各工程の開始・終了時刻が加わったもの。製造業のデータ活用の基本だが、電子化されていなかったり、時刻の不正確さ、個体管理ができずロット単位の履歴になっていたりと不完全な場合が多い。要因分析、トレーサビリティなどのデータ活用を議論する場合、まずは製品履歴を整える必要がある。
また、その工場の生産方式(連続プロセス、バッチプロセス、ロール・ツー・ロール方式など)を再現できる必要がある。ロットや製品の統合や分割がある場合には、その動きをデータで再現できる必要がある。
原料データ
原料の成分などの検査結果。他社から購入するケースがあり、限られた検査結果だけの場合が多い。
解決策として、理想的には納入時の検査結果だけでなく、自社で使う時に再検査することが望ましい。同じバッチ内でもバラツキが大きいため、自社での測定値を解析に取り込むことが重要となる。
装置データ
装置から取得される秒単位やミリ秒単位のデータ。粒度が細かいことが理想だが、データ量が膨大となり保管・活用コストがかかるので、必要最小限の粒度への最適化が必要。また、測定されている温度が「製品処理中」なのか「アイドリング中」なのか、設定値はいくつなのか、という装置状態の情報もセットで保持する必要がある。
気温、湿度、気圧、浮遊ゴミの量など。乾燥を行うようなプロセスでは、気温と湿度とその場所に滞留した時間が品質に大きな影響を及ぼす。これらの環境変化と品質の相関を無視してはならない。
アラームデータ、メンテナンス記録、プロセス変更履歴などのイベント情報。
これらを装置データのトレンドや検査データのトレンドと一緒に使用することで、変化点があった場合にその原因を裏付ける情報として機能させる。
その他の工場や製品の情報(ドメイン知識)
数値データとなっていない物理化学現象、製造手順、FMEA(故障モード影響解析)のようなリスク評価ドキュメントも、解析結果の妥当性を検証するための重要な参照情報となる。
第3章:解析を加速させる「データ活用基盤」の真価
ここまで解析スキルとデータについて説明してきたが、それらを統合する仕組みが「データ活用基盤」である。これは単なるストレージではなく、「データ解析フロー」を実現し、複数のデータを自在に活用するためのインフラである。
理想的な基盤は、解析者の思考を止めず、組織の知恵を資産化する力を持つ。ここでは、現代の製造現場が求める基盤の機能要件について、現場が直面する課題とそれを突破する具体的な解決策を解説する。
↓クリックで図版を拡大
データ間連携・アプリ間連携
課題: データのサイロ化により、設計から最終製品までの紐付けに多大な時間がかかる。例えばSPC監視にて変動が見つかっても、データをCSVで取り出して別の統計解析ツールを立ち上げる必要があると効率が著しく悪い。
解決策: 同一のデータ活用基盤内で、データやアプリを自在に連携できる状態を作る。トレンドチャートや散布図からドリルダウンで統計解析ツールを直接活用できる仕組みを構築し、データ活用の効率を最大化させる。
課題: 検査装置や製造装置、あるいはMES(製造実行システム)から手動でデータを収集しているような場合、データの鮮度や網羅性が欠けている。
解決策: 外部とのインターフェースを確立し、自動的にデータを取得する仕組みを基盤に実装する。これにより、リアルタイムな監視と迅速な解析が可能となる。
課題: 解析結果のレポートは残っても、データ解析フローの中身(なぜその前処理をしたか、どのようにアウトプットを出力できたか、など)が残らず、ノウハウが属人化している。
解決策: 文章ではなく、基盤内でデータ解析フローを再現できる仕組みを持つ。特に、失敗や改善を行った履歴をデータとともに残すことで、組織の資産としてノウハウを共有する。
可視化・統計解析・機械学習
課題: 可視化、統計解析、機械学習を別々のシステムで使用しているため、ツールの行き来で思考が分断される。
解決策: 同一のデータ活用基盤内でこれら全ての機能をシームレスに連携させる。一貫した環境での解析が、効率を劇的に向上させ、ノウハウ共有を容易にする。
課題: 製品シリアルIDからの投入日抽出や、ノイズの多い測定値の平滑化など、製造現場特有の複雑なニーズに既存ツールが対応しきれていない。
解決策: 文字列操作や平滑化ロジックなど、多彩なニーズに対応できる前処理機能を基盤内に備える。これにより、解析にかかる時間を大幅に削減する。
課題: 大量データを取出し、可視化することに時間がかかり、解析者の意欲を削いでいる。
解決策: データ取出しと可視化のスピードを追求した設計を行う。製品ごとの最終検査データや1秒周期の装置データを半年分描画しても、瞬時に変化点やメンテナンスによる変動などが見えるレスポンスを確保する。










