Internet Industriel des Objets IIOT : Comment utiliser Databricks pour mettre à l'échelle l'analyse IoT industrielle moderne – Partie 1

Cet article et la série en trois parties sur l'analyse IoT industrielle ont été rédigés conjointement par Databricks et des membres de l'équipe Microsoft Cloud Solution Architecture. Nous tenons à remercier l'architecte de solutions Databricks Samir Gupta et les architectes de solutions Microsoft Cloud Lana Koprivica et Hubert Dua pour leurs contributions à ce sujet et aux deux prochains articles.
L'Internet industriel des objets (IIoT) s'est développé au cours des dernières années en tant que pile technologique de base, principalement testée dans l'industrie pétrolière et gazière, pour une adoption et une utilisation à grande échelle dans les secteurs de la fabrication, de la chimie, des services publics, des transports et de l'énergie. Les systèmes IoT traditionnels tels que Scada, Historians et même Hadoop ne fournissent pas les capacités d'analyse Big Data nécessaires à la plupart des organisations pour optimiser de manière prédictive leurs actifs industriels en raison des facteurs suivants.

Défi
Capacité requise

Les volumes de données sont nettement plus importants et plus fréquents
La capacité de capturer et de stocker des lectures granulaires inférieures à la seconde de manière fiable et rentable à partir d'appareils IoT diffusant des téraoctets de données par jour

Les besoins de traitement des données sont plus complexes
Traitement des données conforme à ACID – fenêtres temporelles, agrégations, pivots, remplissage, décalage avec la possibilité de retraiter facilement les anciennes données

Davantage de personnalités d'utilisateurs souhaitent accéder aux données
Les données sont un format ouvert et facilement partageables avec les ingénieurs opérationnels, les analystes de données, les ingénieurs de données et les scientifiques des données sans créer de silos

Le ML évolutif est nécessaire pour la prise de décision
La capacité de former rapidement et en collaboration des modèles prédictifs sur des données historiques granulaires pour prendre des décisions intelligentes d'optimisation des actifs

Les exigences de réduction des coûts sont plus élevées que jamais
Plateforme gérée à la demande à faible coût qui évolue indépendamment avec les données et les charges de travail sans nécessiter de capital initial important

Les organisations se tournent vers des plates-formes de cloud computing comme Microsoft Azure pour tirer parti des technologies évolutives et compatibles IIoT qu'elles ont à offrir qui facilitent l'ingestion, le traitement, l'analyse et la diffusion de sources de données chronologiques telles que les systèmes Historians et SCADA.
Dans la partie 1, nous discutons de la pile technologique de bout en bout et du rôle qu'Azure Databricks joue dans l'architecture et la conception pour l'application industrielle de l'analyse IoT moderne.
Dans la partie 2, nous approfondirons le déploiement d'analyses IIoT modernes, ingérerons des données IIoT machine à machine en temps réel à partir d'appareils de terrain dans Azure Data Lake Storage et effectuerons un traitement de séries chronologiques complexes directement sur Data Lake.
Dans la troisième partie, nous examinerons l'apprentissage automatique et l'analyse avec des données IoT industrielles.
Le cas d'utilisation – Optimisation des éoliennes
La plupart des projets d'analyse IIoT sont conçus pour maximiser l'utilisation à court terme d'un actif industriel tout en minimisant ses coûts de maintenance à long terme. Dans cet article, nous nous concentrons sur un fournisseur d'énergie hypothétique essayant d'optimiser ses éoliennes. L’objectif ultime est d’identifier l’ensemble de paramètres de fonctionnement optimaux de la turbine qui maximise la puissance de sortie de chaque turbine tout en minimisant son délai de défaillance.

Les derniers artefacts de ce projet sont:

Un pipeline automatisé d'ingestion et de traitement des données qui transmet les données à tous les utilisateurs finaux
Un modèle prédictif qui estime la puissance de sortie de chaque turbine en fonction des conditions météorologiques et d'exploitation actuelles
Un modèle prédictif qui estime la durée de vie restante de chaque turbine compte tenu des conditions météorologiques et d'exploitation actuelles
Un modèle d'optimisation qui détermine les conditions de fonctionnement optimales pour maximiser la puissance de sortie et minimiser les coûts de maintenance, maximisant ainsi le profit total
Un tableau de bord d'analyse en temps réel permettant aux dirigeants de visualiser l'état actuel et futur de leurs parcs éoliens, comme indiqué ci-dessous:

L'architecture – Ingérer, stocker, préparer, former, servir, visualiser
L'architecture ci-dessous illustre une plate-forme moderne et de pointe utilisée par de nombreuses organisations qui tire parti de tout ce qu'Azure a à offrir pour l'analyse IIoT.

Un composant clé de cette architecture est l'Azure Data Lake Store (ADLS), qui permet le modèle d'analyse à écriture unique et à accès fréquent dans Azure. Cependant, les Data Lakes à eux seuls ne résolvent pas les défis du monde réel qui accompagnent les données de diffusion en continu de séries chronologiques. Le format de stockage Delta offre une couche de résilience et de performances sur toutes les sources de données stockées dans ADLS. En particulier pour les données de séries chronologiques, Delta offre les avantages suivants par rapport aux autres formats de stockage sur ADLS:

Capacité requise
Autres formats sur ADLS Gen 2
Format Delta sur ADLS Gen 2

Batch et streaming unifiés
Les lacs de données sont souvent utilisés en conjonction avec un magasin de streaming comme CosmosDB, ce qui entraîne une architecture complexe
Les transactions conformes à ACID permettent aux ingénieurs de données d'effectuer une ingestion en continu et, historiquement, des charges par lots dans les mêmes emplacements sur ADLS

Application et évolution du schéma
Les lacs de données n'appliquent pas le schéma, exigeant que toutes les données soient poussées dans une base de données relationnelle pour plus de fiabilité
Le schéma est appliqué par défaut. À mesure que de nouveaux appareils IoT sont ajoutés au flux de données, les schémas peuvent évoluer en toute sécurité afin que les applications en aval n'échouent pas

Upserts efficaces
Les lacs de données ne prennent pas en charge les mises à jour et les fusions en ligne, ce qui nécessite la suppression et l'insertion de partitions entières pour effectuer des mises à jour
Les commandes MERGE sont efficaces pour les situations traitant des lectures IoT retardées, des tables de dimensions modifiées utilisées pour l'enrichissement en temps réel ou si les données doivent être retraitées.

Compaction de fichiers
Le streaming de données chronologiques dans Data Lakes génère des centaines, voire des milliers de petits fichiers.
L'auto-compactage dans Delta optimise la taille des fichiers pour augmenter le débit et le parallélisme.

Clustering multidimensionnel
Les lacs de données fournissent un filtrage déroulant sur les partitions uniquement
ZORDERing des séries temporelles sur des champs tels que l'horodatage ou l'ID de capteur permet à Databricks de filtrer et de joindre ces colonnes jusqu'à 100 fois plus rapidement que de simples techniques de partitionnement.

Résumé
Dans cet article, nous avons passé en revue un certain nombre de défis différents auxquels sont confrontés les systèmes IIoT traditionnels. Nous avons parcouru le cas d'utilisation et les objectifs de l'analyse IIoT moderne, partagé une architecture reproductible que les organisations déploient déjà à grande échelle et exploré les avantages du format Delta pour chacune des capacités requises.
Dans le prochain article, nous ingérerons les données IIoT en temps réel des appareils de terrain dans Azure et effectuerons un traitement de séries chronologiques complexes directement sur Data Lake.
La technologie clé qui relie tout est Delta Lake. Delta on ADLS fournit des pipelines de données en continu fiables et des requêtes d'analyse et de science des données hautement performantes sur des volumes massifs de données chronologiques. Enfin, il permet aux organisations d'adopter véritablement un modèle Lakehouse en apportant les meilleurs outils Azure à un magasin de données à accès unique et souvent accessible.
Et après?
Apprenez-en plus sur Azure Databricks avec cette série de formations en 3 parties et découvrez comment créer des architectures de données modernes en participant à ce webinaire.

Laisser un commentaire