IOT et industrie : Analyse IoT industrielle avec DeepIQ DataStudio et Databricks

Une étude récente de Bain & Company montre que plus de 30% des entreprises industrielles sont préoccupées par l'intégration des technologies de l'information et des technologies d'exploitation (IT&OT). Un autre rapport récent de McKinsey & Company indique que 70% des entreprises sont toujours en mode «Pilot Purgatory» avec des projets d'analyse industrielle, tels que l'utilisation de l'internet des objets industriel (iiot) et des appareils iot industriels pour réduire les coûts et / ou améliorer efficacité opérationnelle. De toute évidence, la mise en œuvre de l’analyse industrielle n’est pas une tâche insignifiante, qu’il s’agisse de l’intégration des données IT&OT ou de la création de modèles de machine learning (ML) à des fins de maintenance prédictive ou d’optimisation des actifs.
DeepIQ DataStudio est un outil d'analyse en libre-service pour les utilisateurs industriels et les applications IoT qui est optimisé par Databricks pour simplifier la création de pipelines d'analyse sur l'IT & OT. Avec DataStudio s'exécutant nativement sur Databricks, vous pouvez:

Créez et déployez des pipelines d'analyse sophistiqués en quelques minutes sans programmation nécessaire
Utilisez la capacité de calcul distribué du cloud pour des gains de performances 50x à l'aide de Databricks
Mise à l'échelle automatique du stockage et calcul indépendamment pour les volumes de données industrielles: de Ko à PB
Tirez parti d'une riche bibliothèque d'analyses natives pour les données OT pour créer des modèles prédictifs précis
Ingérer, traiter et analyser toute source de données opérationnelle à l'aide de connecteurs intégrés tels que:

Historiens et systèmes SCADA (par exemple, le partenaire DeepIQ ISV OSIsoft PI et Asset Framework)
Sources de données relationnelles (par exemple, AP Plant Maintenance (PM) et SAP Manufacturing Intelligence and Integration (SAP MII)
Données géospatiales

La fonctionnalité conviviale de glisser-déposer, associée à des fonctions mathématiques sophistiquées intégrées, vous permet de gérer vos données en toute simplicité – du nettoyage des données à la fusion de plusieurs flux de données, en passant par le traitement des données et la création d'un apprentissage automatique supervisé et non supervisé ( ML).
Cas d'utilisation de l'industrie manufacturière: améliorer la durée de vie des séchoirs industriels
Les séchoirs industriels sont couramment utilisés par de nombreuses industries, notamment la chimie, les aliments et les boissons, le papier et la pâte à papier, l'agriculture et les plastiques. Comme tout autre équipement de traitement, les séchoirs doivent être entretenus pour éviter les pannes imprévues qui pourraient entraîner des pertes importantes. Les programmes de maintenance prédictive peuvent vous aider à réduire votre OPEX en entretenant l'équipement en fonction des conditions réelles des divers composants du sécheur. Les composants de défaillance courants pour le sécheur industriel sont les roues et les arbres de tourillon, les pneus de tambour, les paliers de tourillon et les joints.

Figure 1: Un séchoir industriel typique
Dans cet article, nous présentons la maintenance prédictive des paliers de tourillon à l'aide de modèles ML sur des données de capteurs enrichies.

Nous commençons à ingérer des lectures de capteurs de séries chronologiques historiques à partir d'un système PI OSIsoft dans un format de stockage Delta évolutif et fiable.
Nous enrichissons ensuite nos relevés de capteurs machine-à-machine avec des données de rapport de maintenance extraites d'un système SAP Plant Maintenance à l'aide de simples pipelines glisser-déposer fonctionnant sur Databricks.
Enfin, nous analysons les données, identifions les anomalies et construisons un modèle ML de maintenance prédictive pour détecter les pannes avant qu'elles ne surviennent.

Étape 1: Consolidation des données
Nous commençons par connecter le serveur Asset Framework (AF) du système Pi avec DataStudio et nous ingérons toutes les balises de séries chronologiques pour le sécheur d'intérêt dans le lac Delta. L'interface glisser-déposer de DataStudio facilite la création de puissants pipelines d'ingestion et de consolidation de données.

Figure 3: Flux de travail DataStudio: SAP BAPI vers Delta Lake
Les ensembles de données historiques de séries chronologiques sont massifs et peuvent être d'un coût prohibitif à stocker dans des bases de données relationnelles traditionnelles. Delta Lake est un format de stockage open source qui réside et augmente les capacités du stockage d'objets dans le cloud (par exemple, Azure Data Lake ou Amazon S3) en fournissant un emplacement de stockage unifié, compatible ACID et extrêmement rapide pour les sources de données volumineuses en continu et par lots. Il s'agit du format de stockage recommandé pour l'ingestion, le traitement et l'apprentissage des modèles par rapport aux données de séries chronologiques.
Avec DataStudio, interroger OSIsoft PI AF est une tâche facile. Une fois les détails du serveur AF configurés, il suffit de spécifier l'élément racine de l'actif, les balises et la plage de temps d'intérêt – DataStudio gère les tâches complexes restantes. Recueillons les données pour les balises qui mesurent les taux de solides et de liquides, la température et l'humidité ambiantes, et le taux de rotation du sécheur au cours des 5 dernières années pour tous les roulements d'un sécheur dans Delta Lake. Puisque les vibrations des roulements sont disponibles à une fréquence de hertz, chaque roulement aura plus de 150 millions de valeurs! Beaucoup de nos clients ingèrent des centaines de milliers de balises générant PB de données. DataStudio atteint cette échelle en s'exécutant de manière native sur un cluster Databricks à mise à l'échelle automatique.
De même, extrayons les dates de panne du sécheur de SAP PM. Dans DataStudio, nous fournissons les paramètres du SAP BAPI que nous voulons interroger, et les données nous sont mises à disposition.
Étape 2: Traitement des données
À l’aide de l’outil de visualisation des données de DataStudio, nous remarquons qu’il existe peu de valeurs inopinément élevées et faibles et peut-être des lectures manquantes qui sont automatiquement remplies par le système SCADA. Ces valeurs aberrantes peuvent être filtrées à l’aide d’un algorithme de valeur aberrante MAD dans DataStudio.

(a) Avant l'élimination des valeurs aberrantes

(b) Après élimination des valeurs aberrantes

Figure 4: Séries chronologiques de suppression des valeurs aberrantes (a) avant et (b) après
Nous remarquons maintenant un bruit de fréquence extrêmement élevée qui obscurcit une partie du signal dans les lectures de votre capteur. Exécutons un algorithme de lissage exponentiel pour filtrer le bruit de fréquence.

Figure 5: Données lissées
Nous pouvons maintenant superposer les dates d'échec de SAP sur nos données chronologiques pour voir si l'un des signaux univariés a une signature directe d'échec.
Étape 3: Analyse des données
Nous utilisons un réseau de neurones auto-génératif pour mapper les données en petites dimensions et examiner à nouveau les dates d'échec par rapport aux tracés de séries chronologiques. L'une des dimensions cachées semble avoir un signal d'échec fort car elle montre une baisse significative avant l'échec.

Figure 6: Graphique des caractéristiques codées à partir d'un modèle de réseau neuronal auto-génératif, recouvert de la date d'échec
En vérifiant la présence de cette tendance avant d'autres échecs, on comprend le vrai taux négatif. De nombreuses pannes montrent cette dégradation au moins 2 jours avant une panne catastrophique. Pour améliorer notre analyse, développons un modèle d'apprentissage automatique supervisé pour prédire l'échec.
Étape 4: apprentissage automatique
On remarque qu'environ 2 jours avant la panne, les résidus pour le débit de liquide codé commencent à augmenter considérablement. Pour détecter les pannes avec le délai, nous formerons un modèle ML pour prédire les valeurs de cette balise en utilisant les autres balises extraites comme fonctionnalités dans des conditions de fonctionnement normales. Lorsque la valeur prédite de notre balise 2 jours plus tard est en dehors des conditions de fonctionnement normales, nous pouvons déclencher une alerte pour une panne prévue.

Figure 7: Score d'anomalie (résidus)
Étape 5: déploiement et surveillance du modèle
Nous pouvons désormais exécuter le modèle ML en mode batch ou streaming pour générer des alertes intelligentes en l'ajoutant simplement à notre pipeline dans DataStudio. Les alertes sont basées sur un écart par rapport à la valeur attendue pour les conditions de fonctionnement actuelles.
Au fur et à mesure que de nouvelles données sont générées; les flux de travail analytiques continueront de surveiller les performances du modèle par rapport à eux en utilisant les métriques que nous définissons. Les workflows de formation peuvent être planifiés pour recycler votre modèle régulièrement afin de garantir que vos modèles sont à jour avec les dernières données de défaillance.
Enfin, tout logiciel de visualisation tel que Spotfire, Tableau ou PowerBI peut être utilisé pour visualiser des informations exploitables en temps quasi réel.
Prochaines étapes: commencer
Nous avons montré la facilité d'utilisation de la création de pipelines d'ingestion, de nettoyage, de traitement et d'analyse de données à l'aide de DataStudio sur Databricks. Avec des intégrations natives à Delta Lake, DataStudio propose des pipelines de données à l'échelle péta-octet et l'apprentissage automatique. Recherchez un prochain webinaire Databricks où nous montrons DataStudio en action!
Si vous souhaitez obtenir des informations supplémentaires sur cet article de blog ou si vous souhaitez démarrer un projet pilote, veuillez visiter https://deepiq.com ou contacter info@deepiq.com. Vous pouvez nous suivre sur LinkedIn à l'adresse https://www.linkedin.com/company/deepiq16.

Laisser un commentaire