Big Data : Qu’est-ce que c’est ?

Posted on 10 juillet 2012 by djub3r — Laisser un commentaire

Après DataViz, un autre terme en vogue en ce moment, BIG DATA.

Alors une première remarque concernant Big Data : ce n’est pas une technologie précise, mais plutôt un concept qui désigne des ensembles de données extrêmement volumineux. Et derrière ce concept se cache donc différentes technologies et différentes problématiques tels que le stockages à travers des systèmes de fichiers (chose aujourd’hui mature et relativement transparente pour un utilisateur de bases de données relationnelles), et la manipulation de ces données.

Big Data est apparu pour répondre à la problématique des 3V (Velocity, Volume, Variety), problématique commençant à essouffler les SGBDR classiques, vu l’explosion des volumes de données lors de la dernière décennie.

Stockage de Fichiers

Le stockage des données s’effectue via des systèmes de fichiers distribués tels que Google File System (GFS) pour Google ou Hadoop Distributed File System (HDFS) pour Hadoop. Pourquoi avoir redéveloppé un système de fichiers et ne pas utiliser une base de données relationnelle classique à ce niveau là ? J’avoue que la question est ouverte, les SGBDR étant matures sur les clusters. Une réponse est peut-être de ne pas vouloir transformer et modifier les données avant stockage vu la volumétrie, donc gagner du temps. Cela permet de garder le format initial des données et donc de répondre aux problématiques de vitesse, volume et variété (3V).

Manipulation de données

Ici on retrouve les programmes qui effectuent les traitements ou les calculs sur les données, toujours via un processus de distribution et de parallélisation, tels que le framework MapReduce. MapReduce a été introduit par Google, et Hadoop en utilise une implémentation via le programme Pig. Il sert à faire des comptages de données, des calculs statistiques ou des classifications.

On a trouve également d’autres outils plus en amont tels que Hive permettant de requêter et d’analyser les données. Il est implémenté dans Hadoop.

Base de données

En bout de chaîne, on a des bases de données. Je citerai par exemple BigTable , Cassandra ou HBase qui piochent dans les technologies précédemment citées pour leur système de fichiers (GFS, HDFS) ou leur outil d’analyse.

Conclusion

On a l’impression que derrière Big Data se cache tous les développements spécifiques des gros consommateurs de données d’aujourd’hui (Google, Facebook, …) et tout un tas de technologies différentes (systèmes de fichiers, frameworks, base de données) qui s’interconnectent totalement ou partiellement entre elles.

Le point à retenir du Big Data est la forte valeur donnée à la distribution et la parallélisation des traitements (Ce qui n’est pas une nouveauté en soi).
Les partenariats en cours vont-ils permettre de connaître une rationalisation des outils et la création d’une norme un peu plus claire dans l’avenir ? Rendez-vous dans deux ans 🙂

Big Data est un concept jeune et encore peu structuré, un peu comme ses bases de données finalement.