Spark, développer des applications pour le Big Data — Traitement de données
Prochaines sessions (Boulogne-Billancourt / Paris / classe virtuelle)
Programme
Maîtriser les concepts fondamentaux de Spark
- Présentation Spark, origine du projet, apports, principe de fonctionnement
- Langages supportés
- Modes de fonctionnement : batch/Streaming
- Bibliothèques : Machine Learning, IA
- Mise en oeuvre sur une architecture distribuée
- Architecture : clusterManager, driver, worker, …
- Architecture : SparkContext, SparkSession, Cluster Manager, Executor sur chaque noeud
- Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
- Savoir intégrer Spark dans un environnement Hadoop
Intégration de Spark avec HDFS, HBase
- Création et exploitation d’un cluster Spark/YARN
- Intégration de données sqoop, kafka, flume vers une architecture Hadoop et traitements par Spark
- Intégration de données AWS S3
- Différents cluster managers : Spark interne, avec Mesos, avec Yarn, avec Amazon EC2
- Atelier : Mise en oeuvre avec Spark sur Hadoop HDFS et Yarn. Soumission de jobs, supervision depuis l’interface web
Développer des applications d’analyse en temps réel avec Spark Streaming
- Objectifs, principe de fonctionnement: stream processing
- Source de données : HDFS, Flume, Kafka, …
- Notion de StreamingContext, DStreams, démonstrations
- Atelier : traitement de flux DStreams en Scala. Watermarking. Gestion des micro-batches
- Intégration de Spark Streaming avec Kafka
- Atelier : mise en oeuvre d’une chaîne de gestion de données en flux tendu : IoT, Kafka, SparkStreaming, Spark. Analyse des données au fil de l’eau
Faire de la programmation parallèle avec Spark sur un cluster
- Utilisation du shell Spark avec Scala ou Python. Modes de fonctionnement. Interprété, compilé
- Utilisation des outils de construction
- Gestion des versions de bibliothèques
- Atelier : Mise en pratique en Java, Scala et Python. Notion de contexte Spark. Extension aux sessions Spark
Manipuler des données avec Spark SQL
- Spark et SQL
- Traitement de données structurées
- L’API Dataset et DataFrames
- Jointures
- Filtrage de données, enrichissement
- Calculs distribués de base
- Introduction aux traitements de données avec map/reduce
- Lecture/écriture de données : Texte, JSon, Parquet, HDFS, fichiers séquentiels
- Optimisation des requêtes
- Mise en oeuvre des Dataframes et DataSet
- Compatibilité Hive
- Atelier : écriture d’un ETL entre HDFS et HBase
- Atelier : extraction, modification de données dans une base distribuée. Collections de données distribuées. Exemples
Support Cassandra
- Description rapide de l’architecture Cassandra
- Mise en oeuvre depuis Spark
- Exécution de travaux Spark s’appuyant sur une grappe Cassandra
Spark GraphX
- Fourniture d’algorithmes, d’opérateurs simples pour des calculs statistiques sur les graphes
- Atelier : exemples d’opérations sur les graphes
Avoir une première approche du Machine Learning
- Machine Learning avec Spark, algorithmes standards supervisés et non-supervisés (RandomForest, LogisticRegression, KMeans, …)
- Gestion de la persistance, statistiques
- Mise en oeuvre avec les DataFrames
- Atelier : mise en oeuvre d’une régression logistique sur Spark
Profils des intervenants
Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs.
Modalités d'évaluation
Evaluation des acquis de la formation par le biais de cas pratiques et/ou mises en situation.
Attestation de formation remise à chaque participant.
Attestation de formation remise à chaque participant.
Démarche qualité
Questionnaire d’évaluation de satisfaction à chaud complété par chaque participant à l’issue de la formation.
Moyens pédagogiques
Salle équipée de PC (1 poste par stagiaire), vidéo-projecteur.
Espace de pause.
Espace de pause.
Dernière mise à jour le 09/01/2023