0saves

Le big data continue tous les jours de grossir, et les systèmes d’information des grosses entreprises, surtout celles ayant besoin de connaitre précisément les besoins de leurs clients, continue d’avoir de plus en plus de mal à traiter l’information pour les analyser et en sortir des éléments pour permettre une prise de décision stratégique. Et la situation devient de plus en plus critique. Pour autant, il existe peut être une solution sous la forme d’une nouvelle technologie en plein essor : Hadoop.

 

Ce phénomène du Big Data, terme pour la première fois utilisée par le cabinet Gartner en 2008,  est vite devenu la bête noire des architectes en systèmes d’information et des techniciens en support ti qui peuvent de moins en moins répondre à cette interrogation : Comment faire face au traitement d’une information de plus en plus importance en terme de volume mais aussi de sources et de format (images, vidéos, textes…) ? Le tout avec un flux désormais en temps réel, et demandant du côté du management, une disponibilité désormais quasi immédiate. Comment traiter autant de données si hétérogènes en temps réel pour pouvoir être exploitable ?

Les décideurs SI doivent désormais penser transverse avec la nécessité de travailler sur une structure permettant de  croiser des données très éparses pour en extraire une information qualitative (dépense, âge, sexe, déplacement, médias…) sans se faire submerger par le volume.

Bref, un problème quasi insoluble.

Cela implique évidemment de repenser complètement le stockage et la visualisation des données en adoptant un nouveau modèle technologique.

Et c’est là que le Hadoop pourrait  pourtant apporter un début de solution.  Créée en 2004 par Doug Cutting, créateur du moteur Nutch, ce projet est open-source (autre intérêt) fondé sur le langage Java et géré par la Apache Software Fundation (serveur apache), et s’inspirant très fortement de deux systèmes Google : le Google File System (GFS) et le Map Reduce, un format d’architecture informatique favorisant les calculs en parallèle: . Ce framework permet, de par sa structure même, stoker et traiter un grand volume d’informations  via sa structure d’explorateur et de stockage des fichiers, le HDFS, Hadoop Distributed File System, qui scinde les données en entrée de plusieurs blocs, qui sont ensuite répliquer sur les noeuds du réseau pour un traitement parallèle plus rapide, et facilitant la gestion des « backups »,

Concrètement, cela donne çà :

 

Comme la gestion de la base de données est non-directionnelle, ce système est donc parfaitement adapté pour des données non structurées, tel que celles composant le « big data », même si elle ne permet pas le traitement en temps réel. .A l’inverse, un tel système n’est pas recommandé pour des données non indépendantes demandant de puissante ressource en calcul. D’autant que l’administration d’un système Hadoop reste complexe, et difficile d’intégration avec d’autres systèmes informatiques car n’utilisant pas SQL mais un langage qui lui est propre. Sans compter que la sécurité n’est pas optimale.

C’est cependant l’une des meilleures solutions existantes à l’heure actuelle pour résoudre la question du traitement du flot de plus en plus important de données non structurées et non relationnelles.

Crédit photo : metaroll et MS&T

0saves
Si vous avez aimé ce "post", n'hésitez pas à laisser un commentaire ou vous abonnez à notre flux RSS.