Julien Sopena

Hadoop, une plate-forme open-source de MapReduce.

Université :

Université Pierre et Marie Curie - Paris VI

Année :

PSIA - 2ème année de Master SAR

Sources :

Ce cours a été élaboré en collaboration avec Jonathan Lejeune de l'Université Pierre et Marie Curie.

Résumé :

Le modèle MapReduce est aujourd'hui l'un des modèles de programmation parallèle les plus utilisés. Définissant une architecture Maître-Esclave, dans laquelle s'exécute une succession d'ensemble de tâches indépendantes, il permet le traitement parallèle de grandes masses de données. Ces TP se proposent de mettre en pratique ce modèle au travers d'exemples simples (numériques et textuels). Il repose sur l'utilisation de la plate-forme Hadoop qui est l'implémentation open-source du MapReduce d'Apache (http://hadoop.apache.org/mapreduce/).

TP 01 : Prise en main d'Hadoop

Contenus :

Dans ce premier TP nous allons étudier la mise en œuvre et le fonctionnement de la plate-forme Hadoop. Nous verrons comment déployer la plate-forme et comment envoyer les données à traiter sur le HDFS. Nous étudierons aussi comment régler les différents degrés de parallélisme, ainsi que les rôles de différents processus assurant le fonctionnement du JobTracker et des TaskTrackers.

Ennoncé :

en ligne / pdf

TP 02 : Mise en œuvre du MapReduce

Contenus :

Après avoir étudié dans le premier TP, le fonctionnement de la plate-forme Hadoop à l'aide d'exemples fournis, nous allons maintenant mettre en œuvre le modèle MapReduce pour résoudre plusieurs types de problèmes. Ainsi, autour du calcul de nombre Π, nous verrons un exemple de calcul numérique et un exemple d'analyse de fichier. L'indexation et la parallélisation de calculs sont en effet très propices à l'utilisation du modèle MapReduce.

Ennoncé :

en ligne / pdf

Designed by OWSD.org. Valid CSS & XHTML
Ce site et l'ensemble de son contenu est mis à disposition sous un contrat Creative Commons.
Creative Commons License