Trouvez votre prochaine formation en un clin d'œil !
Trouver ma formation
Je veux me former en
sélectionner
Gestion des Hommes
IT & Digital
Management de projets
Processus d'innovation
Stratégie et organisation des entreprises
Technologies & Systèmes
?
Dans quel domaine ?
et plus précisément en
sélectionner
?
Dans quel sous domaine ?
Automatique, Signaux
Big Data, Data Science & Intelligence Artificielle
Cloud Computing
Cybersécurité
Electronique de puissance
Electronique et instrumentation
Energie électrique et thermique
Industrie 4.0
Ingénierie Durable
Ingénierie Systèmes
Leadership d'équipe & développement personnel
Lean Management
Lean Six Sigma
Management de Projets
Manager dans un monde VUCA
Mécanique
Modern IT
Négociation
Processus d'innovation
Risk Management
Supply Chain Management
Télécommunications
grâce à une
sélectionner
?
Quel type de formation ?
Formation certifiante
Formation diplômante
Certificat établissement
Formation courte
DécouvrIR les formations

Contexte

Ce module aborde le traitement distribué des données. Hadoop est la technologie la plus connue dans l'univers des Big Data.

L’objectif de ce module est d’apprendre à utiliser cet outil et son écosystème qui est le moyen le plus robuste de lancer de larges calculs distribués sur un ensemble de machines. L'écosystème Hadoop est vaste et riche.

Ce module a pour but de délivrer la connaissance, sur le plan théorique et pratique, nécessaire pour être en mesure de faire les bons choix dans son utilisation. Le module donne ainsi la capacité de mener à bien un projet "Big Data".

ObjectifS

A l'issue de cette formation, le participant sera en capacité de :
- MAITRISER les outils techniques permettant les calculs distribués à grande échelle.
- POSITIONNER ET MANIPULER les outils de l'écosystème Hadoop (Hive, Pig, Spark).
- UTILISER les outils du Big Data.

PROGRAMME

  • Systèmes distribués et Hadoop
    - Tour d'horizon de l'écosystème Hadoop.
    - Motivations et introduction de la révolution "Hadoop" et son lien avec le big data
    - Hadoop Core : HDFS
    - Exercices pratiques : programmation Hadoop
  • MapReduce et Hive
    - Définitions
    - La philosophie de MapReduce associée au HDFS
    - Hive : analyse de données dans un framework Hadoop
    - Exercices pratiques Hive
  • Architecture
    - Les questions à se poser lors de la mise en place d'un cluster Hadoop.
    - L'organisation des données.
  • Spark (introduction)
    - Définition et positionnement de Spark par rapport à Hadoop MapReduce.
    - Les caractéristiques des RDD (Resilient Distributed Dataset).
    - Présentation des éléments clés du framework et mise en pratique.

Pré-requis

- Disposer de connaissances générales en informatique.
- Connaissance d'Internet et des enjeux posés par les nouvelles technologies.
- Notions générales en statistiques.
- Savoir manipuler un système de gestion de base de données (SGBD/R).
- Savoir manipuler un terminal unix (bash).
- Connaissance des bases de machine learning est un plus.

- Procédure d’admission à cette formation :
Entretien téléphonique avec le/la chargé/e d’affaires pour comprendre vos attentes et votre projet professionnel en lien avec la formation visée. Envoi de votre CV et/ou lettre de motivation au/à la chargé/e d’affaires puis transmission au responsable pédagogique du parcours qui étudie votre candidature et valide ou non les prérequis nécessaires à la formation. Retour sous 5 jours ouvrés. Si votre candidature est validée, vous pouvez procéder à votre inscription via le bulletin d’inscription transmis par le/la chargé/e d’affaires.

public concerné

- Managers des systèmes d’information
- Ingénieurs recherche et développement
- Experts en business intelligence
- Chefs de projet
- Consultants techniques, dataminers

en pratique

Méthodes pédagogiques

Méthode de formation «Learning by doing ».
Apports théoriques.
Utilisation de cas réels des participants.
Cas pratiques.
Travaux dirigés.

Moyens pédagogiques

Se prémunir d’un ordinateur portable (avec au moins 8GB de RAM).
Séance de formation en salle.
Séance pratique sur ordinateur.
Hortonworks sandbox HDP 2.6.4 https://hortonworks.com/downloads/#sandbox
VirtualBox 5.2.8 https://www.virtualbox.org/wiki/Download_Old_Builds_5_2.
Un éditeur de texte d(sublim text, emacs, vi, atom)
Si l’OS est windows, un client SSH (ex: putty https://putty.org/).
Navigateur internet chrome ou firefox.
Filezila.

Modalités d'évaluation

L'évaluation des connaissances acquises en formation s'appuie sur la réalisation de mise en situation et des études de cas mises en oeuvre par le formateur.

Statistiques

97%
de satisfaction globale pour 399 formations
(sur un panel de 2177 répondants sur les 4732 participants en 2022)

99,2%
de satisfaction globale relative aux formateurs en 2022 pour 399 formations
(sur un panel de 2177 répondants sur 4732 participants en 2022)

Votre contact pour cette formation

Virginia Pena Santos
Chargée d'affaires

+33 (0)1 75 31 60 06

Ils vous en parlent

« La valorisation des données est un enjeu stratégique pour les entreprises, quel que soit leur secteur d’activité. La compréhension des enjeux des technologies sous-jacentes est un levier fondamental. Nos programmes permettent de comprendre et maitriser les différentes facettes du « big data » : comment cadrer les projets, gérer la sécurité et les aspects juridiques, définir des usages, des architectures et aborder les technologies de stockage distribué, de traitement distribué ou encore d’analyse de données et de machine learning. Cette approche mêlant technologie, métier et juridique permet de prendre en compte toute la diversité du sujet des big data. »

Marie-Aude Aufaure
Responsable pédagogique des programmes Big Data

« Pour moi comme pour mon employeur, comprendre et mettre à profit le Big Data n’était pas une option, mais une obligation. Depuis ma formation à CentraleSupélec Exed, j’ai intégré l’équipe Big Data et ce changement d’affectation me place aux premières loges de son intégration progressive dans les activités de l’entreprise. Suivre cette formation a été un tremplin pour aller plus loin encore dans la création de valeur pour mon entreprise et pour moi-même. J’ai vraiment pris conscience de l’importance de maintenir mon employabilité. »

Damien Droisy, Promo 2016

Traitement distribué pour les Big Data

Ce programme est disponible en intra-entreprises pour former vos collaborateurs.
Référence :
SI33-23
Prix :
1 990€ (HT)
(Restauration offerte)
contact
  • Contactez-nous pour en savoir plus sur les prochaines dates de ce parcours.
    + Plus de dates
  • 2 jours - 14 heures
  • Paris (75015)

Ils parlent de cette formation

Vidéos
articles

Formations sur le même thème

Executive Certificate Big Data pour l’entreprise numérique

Concevoir et mettre en œuvre un projet big data

7 500€ (HT)
  • 15 jours - 106 heures
  • Paris (75015)
En savoir +
https://www.moncompteformation.gouv.fr/espace-prive/html/#/formation/recherche/33468834800070_SI30-23/33468834800070_SI30-23?contexteFormation=ACTIVITE_PROFESSIONNELLE
https://outlook.office365.com/owa/calendar/CentraleSuplecExed2@centralesupelec.fr/bookings/s/oT5pI0l1d0S2LyuCuyXJJw2
toutes nos formations
SI33-23
fr_FR
Aller au contenu principal