Durée : 2 jours - 14 heures
Tarif : Nous contacter pour une formation INTER – INTRA ou en COURS PARTICULIER
La formation est délivrée en présentiel ou distanciel (e-learning, classe virtuelle, présentiel et à distance). Le formateur alterne entre méthodes démonstrative, interrogative et active (via des travaux pratiques et/ou des mises en situation). La validation des acquis peut se faire via des études de cas, des quiz et/ou une certification.
Cette formation est animée par un consultant-formateur dont les compétences techniques, professionnelles et pédagogiques ont été validées par des diplômes et/ou testées et approuvées par l’éditeur et/ou par Audit Conseil Formation.
- Evaluation des besoins et objectifs en pré et post formation
- Evaluation technique des connaissances en pré et post formation
- Evaluation générale du stage
Les fondamentaux : big data, data lake, data mining, intelligence artificielle, machine et deep learning, text mining.
Les nouveaux défis : l'émergence et la multiplication de nouvelles sources de données.
Hétérogénéité des données, flux temps réel et explosion des volumes de données, à prendre en compte.
L’écosystème technologique du big data.
Démystifier le monde de la data science : analyse descriptive, prédictive et prescriptive.
Le métier, les outils et les méthodes du data scientist.
Introduction au machine learning, à l’analyse supervisée et à l’analyse non supervisée.
Notions de sur et sous-apprentissage.
Collecte, préparation et exploration des données.
L’importance de la démarche de la qualité des données (nettoyer, transformer, enrichir).
Définition des métriques.
Les méthodes statistiques de base.
Les principales classes d’algorithmes supervisés : arbres de décision, K plus proches voisins, régression, Naive Bayes.
Les principales classes d’algorithmes non supervisés : clustering, ACP, CAH, réseaux de neurones.
Le text mining et les autres familles d’algorithmes.
Les langages de l’analyse statistique R et Python.
Leurs environnements de développement (R-Studio, Anaconda, PyCharm) et leurs librairies (Pandas, machine learning).
Les outils de DataViz (Power BI, Qlik, tableau, etc.).
Modélisation des données : représentation des processus, des flux, des contrôles et des conditions.
Modélisation des données : les outils (Orange, Power BI).
Communiquer les résultats par le data storytelling : organiser le visuel (diagrammes, classements, cartographies).
Communiquer les résultats par le data storytelling : restituer la signification des résultats.
Récapitulatif de la démarche.
Analyse de deux cas métier, à titre d'exemple la relation client et la détection des fraudes, mais peuvent être autres.
Cas métier 1 : la relation client dans l’assurance.
Cibler les campagnes marketing. Comprendre les causes d’attrition client. Quels produits pour quels clients ?
Cas métier 2 : la détection des fraudes.
Comparer la recherche par statistiques classiques et data mining.
Détection par méthode supervisée. Détection par méthode non supervisée.