Minimisation du temps de complétion pour les coflux
Youcef Magnouche  1@  , Sébastien Martin  1@  , Jeremie Leguay  1@  , Francesco De-Pellegrini  2@  , Rachid El Azouzi  2@  , Cedric Richier  2@  
1 : Huawei Technologies France [Boulogne-Billancour]
HUAWEI Technologies France
2 : Laboratoire Informatique d'Avignon
Centre d'Enseignement et de Recherche en Informatique - CERI

De nos jours, la plupart des fournisseurs de cloud proposent des services de traitement de données. Les clients peuvent lancer leurs tâches de calcul sur des logiciels Big-Data tels que MapReduce ou Spark. Ces logiciels reposent sur le modèle de calcul dataflow pour le traitement de données à grande échelle. Celui-ci est basé sur un paradigme de calcul distribué où chaque étape de calcul intermédiaire est répartie sur un ensemble de nœuds et sa sortie est transférée à d'autres nœuds pour l'étape suivante. Entre deux étapes de calcul, ces flux de données produisent un ensemble de flux, appelé coflux[2], qui sont liés entre eux par la même tâche applicative. Les coflux représentent une abstraction de modèle de trafic standard dans les datacenters. Dans MapReduce par exemple, un coflux est un ensemble de flux simultanés envoyés par des nœuds dits mappers, vers un ensemble de nœuds dits reducers. Ces flux sont lancés dès que les nœuds mappers ont terminé leurs tâches de calcul. Dans cet article nous considérons le problème de d'ordonnancement de coflux pour minimiser le temps de complétion, qui est, en général, fortement NP-difficile.


Personnes connectées : 6 Vie privée
Chargement...