Big data

De Wiki SIO EDM
Aller à : navigation, rechercher

Le Big data, littéralement « grosses données », ou mégadonnées, parfois appelées données massives, désignent des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information.

Chaque jour, nous générons 2,5 trillions d’octets de données. A tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteurs utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d'images numériques et de vidéos publiées en ligne, d'enregistrements transactionnels d'achats en ligne et de signaux GPS de téléphones mobiles, pour ne citer que quelques sources. Ces données sont appelées Big Data ou volumes massifs de données.

Big data.jpg

Histoire

Le terme « Big Data » a fait son apparition dans un article publié par Michael Cox et David Ellsworth, chercheurs à la NASA. Tous deux affirmaient que l’augmentation du volume des données devenait problématique pour les systèmes informatiques de l’époque. C’est ce que l’on a appelé le « problème du Big Data ».

Les quatres dimenssions du Big data

Volume : les entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets.

   .Transformer les 12 téraoctets de Tweets créés quotidiennement en analyse poussée des opinions sur un produit
   .Convertir les 350 milliards de relevés annuels de compteurs afin de mieux prédire la consommation d'énergie

Vélocité : parfois, 2 minutes c'est trop. Pour les processus chronosensibles tels que la détection de fraudes, le Big Data doit être utilisé au fil de l'eau, à mesure que les données sont collectées par votre entreprise afin d'en tirer le maximum de valeur.

   .Scruter 5 millions d'événements commerciaux par jour afin d'identifier les fraudes potentielles
   .Analyser en temps réel 500 millions d’enregistrements détaillés d’appels quotidiens

Variété : le Big Data se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux, etc.). De nouvelles connaissances sont issues de l’analyse collective de ces données.

   .Utiliser les centaines de flux vidéo des caméras de surveillance pour contrôler les points d'intérêt
   .Tirer parti de la croissance de 80 % du volume de données image, vidéo et documentaires pour améliorer la satisfaction client


Véracité : 1 décideur sur 3 ne fait pas confiance aux données sur lesquelles il se base pour prendre ses décisions. Comment pouvez-vous vous appuyer sur l'information si vous n'avez pas confiance en elle? Etablir la confiance dans les Big Data représente un défi d'autant plus important que la variété et le nombre de sources augmentent.

L'avenir du Big data

Michael Lesk déclare « on compte peut-être quelques milliers de pétaoctets d’informations en tout et pour tout, et la production de bandes et de disques aura atteint ce niveau en l’an 2000. Donc dans quelques années, nous serons en mesure de tout enregistrer (sans suppression d’informations); et la plupart des informations ne seront jamais examinées par un être humain ».

La production de données augmente à un rythme effréné. Les spécialistes penchent aujourd’hui pour une hausse de 4 300 % de la génération annuelle des données d’ici à 2020. Les facteurs de croissance incluent la transition des technologies analogiques vers le numérique, ainsi que la hausse rapide de la génération des données par les entreprises comme par les particuliers.