Data Engineers, Data Scientists, Data Analysts, ingénieurs DevOps, développeurs, architectes Big Data, chefs de projets.
Durée : 5 jours - 35 heures
Tarif : Nous contacter pour une formation INTER – INTRA ou en COURS PARTICULIER
La formation est délivrée en présentiel ou distanciel (e-learning, classe virtuelle, présentiel et à distance). Le formateur alterne entre méthodes démonstrative, interrogative et active (via des travaux pratiques et/ou des mises en situation). La validation des acquis peut se faire via des études de cas, des quiz et/ou une certification.
Cette formation est animée par un consultant-formateur dont les compétences techniques, professionnelles et pédagogiques ont été validées par des diplômes et/ou testées et approuvées par l’éditeur et/ou par Audit Conseil Formation.
Avoir des connaissances en langage Python pour l'analyse de données via Spark. Maîtriser le langage de requêtage SQL. Avoir des connaissances en ETL et en BI est un plus.
- Evaluation des besoins et objectifs en pré et post formation
- Evaluation technique des connaissances en pré et post formation
- Evaluation générale du stage
Introduction au Big Data : de quoi s'agit-il ?
Perspectives offertes par le Big Data
Les acteurs du Big Data
Exemples pratiques
Démystification du Big Data
Big Data et Cloud SaaS, PaaS et FaaS
Les différents métiers du Big Data
Data Lakes vs Data Warehouses vs Lakehouses
TCO (Total Cost of Ownership)
Opportunity Cost (coût d'opportunité)
ROI (retour sur investissement)
Travaux pratiques sur Hadoop
Aspects réglementaires (RGPD) et éthiques
Les outils de stockage
Les exigences de stockage
Le théorème de CAP
Le NoSQL
HDFS
MapReduce
Tez
Les outils d'ingestion et d'analyse de données (Spark, Pig, Hive, Impala)
La mise en qualité
Le stockage de données
Définition du Data Engineering
Cycle de vie et workflow du Data Engineering
Technologies du Data Engineering
Evolution du métier de Data Engineer
Compétences, activités et responsabilités du Data Engineer : Type A vs Type B
Le Data Engineer au sein d'une Data Team
Parties prenantes : producteurs upstream, consommateurs downstream
Data Maturity d'une organisation
Data Engineering, Agilité, DevOps et DataOps
Gouvernance et qualité des données
Nouvelles tendances du Data Engineering: Lakehouse, orchestration, Pipelines as Code
Ingestion des données avec NiFi
Différence entre données froides et données chaudes
Présentation des outils et technologies du Big Data
Installation et configuration de NiFi
Vue d'ensemble de l'architecture NiFi
Approches de développement
Outils de développement d'applications et état d'esprit
Extraction, transformation et chargement (ETL) des outils et de la mentalité
Préparer les données pour Elasticsearch
Construire un tableau de bord Kibana
Créer des visualisations
Comprendre comment Kafka utilise des logs
Les "Topics"
Les producteurs Kafka
Les "Brokers"
Les consommateurs Kafka
Différences entre traitement batch et traitement en streaming
Introduction à Apache Spark
Architecture de Spark
Apache Spark MLlib
Apache Spark Streaming
Apache Spark SQL
Apache Spark GraphX