Les éditions Juvénal & Associés/Maîtrisez Spark pour le Big Data avec Scala

  • 499 € ou 4 paiements mensuels de 145 €

Maîtrisez Spark pour le Big Data avec Scala

  • Fermé

Programme de formation

1 - Installation et paramétrage d'un environnement Spark

Installation de Spark v3.5 sur votre PC
Installation de Spark sur votre PC
Installation et configuration d'Intellij
Installer Scala et son SDK pour le déploiement d'applications
Gérer le versioning de vos applications avec Git & GitHub
Déployer une application Big Data avec Apache Maven
MAJ Configurer Intellij 2025 pour Spark 3

2 - Programmation Scala pour le Big Data

Prise en main de Scala pour le Big Data
Prise en main de la programmation en Scala
Prise en main de la programmation en Scala - II

3 - Développer des applications Spark - les bases

Développer une session Spark
Comprendre les RDD - la base du développement en Spark
Savoir créer et manipuler les RDD
Comprendre le concept de lignage d'un RDD
Effectuer des transformations avancées de RDD - I
Effectuer des transformations avancées de RDD - II
Introduction aux data frames
Savoir créer les data frames
Manipulations de base du Data frame - I
Manipulations de base du data frame - II
Manipulations avancées de data frames : union et jointures
Manipulations avancées de data frames : agrégats et fenêtrage
Imposer une structure relationnelle à un data frame
Persister les data frame sur disque/HDFS
Spark et le HDFS - manipuler le HDFS via Spark
Manipuler les dates et le temps avec Spark
Textes et expressions régulières en Spark
Savoir construire et enregistrer des UDF
Cas d'usage professionnel : traiter les fichiers BANO

4 - Spark et les bases de données

Ecrire et exécuter des requêtes SQL en Spark
Interroger le Metastore Hive en Spark avec le HiveQL
Spark JDBC : interroger des bases de données distantes
Spark & MySQL : Interrogez les bases MySQL
Spark & PostgreSQL : Interrogez les bases PostgreSQL
Spark & SQL Server : Interrogez les bases SQL Server
Spark & SQL Server : Interrogez les bases SQL Server - II
Spark & Microsoft Excel - Tableau Software
Spark & les bases de données NoSQL
Spark & HBase - principes d'interrogation des tables HBase
Spark & HBase - Installation Standalone de HBase
Spark & HBase - Développer des applications HBase
Spark & Cassandra - Principes d'intégration de base
Spark & Cassandra - Architecture et fonctionnement
Spark & Cassandra - Installation Standalone de Cassandra
Spark & Cassandra - Développer des applications Cassandra
Spark & Elasticsearch - Comprendre la recherche de contenu
Spark & ElasticSearch - Architecture et fonctionnement
Spark & Elasticsearch - Installation Standalone d'Elasticsearch
Spark & Elasticsearch - Installation Standalone de Kibana
Spark & Elasticsearch - Développer des applications Elastic

5 - Rendre ses applications Spark robustes

Le logging avec Apache Log4J
Tracer une application Big Data avec Apache Log4J
Gérer les exceptions avec Try{} Catch{} Finally {}
Rendre vos applications Big Data tolérantes aux pannes
Développer des applications robustes via des tests unitaires
Effectuer des tests unitaires avec JUnit
Effectuer des tests unitaires avec Scala-Test
Mener des tests unitaires de ses applications Spark
Tests unitaires d'applications Spark avec Spark-Testing-Base

6 - Documenter ses applications Spark

modèles d'organisation applicative du code Spark
Bonnes pratiques du découpage du code Spark
Documenter un code Spark en interne
Rediger le readme d'une application Spark
Rédiger la page wiki d'une application Spark

7 - Déployer ses applications Spark en production

Introduction au déploiement d'applications Spark
le cycle de vie du déploiement d'une application Spark - I
le cycle de vie du déploiement d'une application Spark - II
Savoir construire le package d'une application Spark
Construire le package .jar d'une appli Spark avec Maven
Déployer une appli Spark en prod via client SSH & spark-submit

8 - Monitorer ses applications Spark déployées

Les 2 sources de monitoring d'une application Spark
Suivi d'applications Spark avec YARN ou Kubernetes
Suivi d'applications Spark avec Log4J et SparkContext WebUI

Ressources

sources de données.zip
script SQL for Spark DB.sql
Check-List d'installation de Spark.txt
Check-list Installation et configuration IntelliJ.txt
Check-list de programmation en Scala.txt
Check-list developpement d'application en Spark.txt
Template Log4J Config File pour Destination fichier.xml
Template Log4J Config File pour Destination console.xml
Template de readme.md
Utiliser Github avec IntelliJ.pptx
Winutils for Hadoop 2.7.zip
spark-2.2.0-bin-hadoop2.7.tgz