L’expression Big Data signifie littéralement, masse de données, ou données en masse ou encore analyse des « méga données ». Cette expression désigne la collecte, le stockage et le traitement des données numériques, structurées ou non, brutes ou méta données, produites chaque jour en flux continu (un véritable déluge numérique qu’il est devenu difficile de quantifier).
La définition officielle du Commissariat Général à la Stratégie et à la Prospective (juin 2013) est la suivante :
« Le Big Data peut être défini comme l’ensemble des technologies, des infrastructures et des services qui permettent la transformation des données numériques en information, et la transformation de cette information en connaissance »
La définition de Wikipédia est plus simple et directe :
« Désigne un ensemble de données devenu tellement volumineux qu’il nécessite de nouvelles techniques d’organisation et de traitement de l’information »
De nombreux auteurs parlent d’une technologie de rupture, parfois d’une disruption (J.M. Dru), un concept proche de la destruction créatrice évoquée par Schumpeter. En effet, les conséquences économiques et sociales de l’introduction de cette technologie sont immenses, quoiqu’encore méconnues. Pour mieux se rendre compte, il faut d’abord essayer de quantifier le phénomène (voir les 3V).
La donnée est une information numérique ou alphanumérique, codée (pour faciliter son traitement), figée et transmissible, produite souvent de manière inconsciente (notamment en ce qui concerne des données personnelles). On peut identifier deux grands types de données :
Parler de la donnée comme « pétrole du 21ème siècle » n’est pas une métaphore anodine. Le flux permanent de donnée est effectivement comparable à un flux de pétrole qui jaillit du sol.
Comme le pétrole brut, la donnée en soi, n’a aucun intérêt et présente même des inconvénients (comment faire face à cette masse croissante, parfois qualifiée de pollution numérique ?). Il faut encore trouver des moyens d’utiliser, d’exploiter efficacement l’information contenue dans les données, comme il a fallu trouver une utilisation de la masse d’huile malodorante et polluante, au 19ème siècle.
La métaphore présente encore un autre intérêt en ce qu’elle permet de souligner l’importance des transformations économiques que ce secteur économique de la donnée, peut entrainer. Le secteur spécifique du traitement des données, du datamining, comme le faisait le secteur de l’industrie pétrolière, va fournir une ressource clef à d’autres secteurs économiques, qui vont pouvoir se développer dans des directions inattendues (par exemples, les plateformes Web 2.0 comme en son temps, l’industrie automobile).
Selon le cabinet d'analyse marketing Gartner (l'analyste est Douglas Laney du groupe Meta ), les données du Big Data sont caractérisées par les 3V suivants : le volume, la variété et la vélocité.
La quantité de données échangées, donc conservées et traitées, progresse de manière quasi exponentielle.
Un Yottaoctet correspond à 1000 Zettaoctet, qui correspond à 1000 Exaoctet qui correspond lui-même à 1000 Pétaoctet, qui vaut 1000 Teraoctet, lequel vaut 1000 Gigaoctet, où on retrouve des échelles humaines (attention, l’octet est codé sur 8 bytes, 1024 octets, mais le préfixe en A, correspond à une puissance de 10).
Le Yottaoctet devient aujourd'hui l'unité de mesure pertinente, puisque le trafic mondial sur les réseaux double tous les deux ans (selon le Conseil d’Etat). D’autres sources, considèrent que le volume des données est multiplié par deux tous les ans.
Les exemples de statistiques impressionnantes sont nombreux. On relève ainsi qu’il y a en 2015, autour de 85 exaoctets de données échangées… chaque mois (soit 85 x 1000 x 1000 x 1000 Gigaoctet). On devrait atteindre 40 zettaoctets stockés en 2020 (contre 1 en 2010 ). Chaque jour, en 2015, Google doit traiter des milliers de fois l’équivalent de toute la Bibliothèque Américaine du Congrès ! On pouvait dire en 2012, que 90% des données numériques avaient été créés dans les deux dernières années. Aujourd’hui (en 2015) en 10 minutes, on produirait l’équivalent de l’ensemble des données produites par l’humanité jusqu’en 2003 1).
L'explosion des volumes stockés, est aussi liée à la progression exponentielle et parallèle, des capacités de stockage, et à la réduction du coût de stockage.
Les données sont de qualités et formes diverses.
Il faut pouvoir enregistrer des données structurées (bien organisées, et enregistrées sous un format tabulaire) mais aussi des données non structurées, hétérogènes, incomplètes, issues de conversations sur un réseau, de sons, d’images, de signaux enregistrés par des objets connectés, etc. Les capteurs de données sont ainsi de plus en plus nombreux, précis et exhaustifs, mais renvoient aussi des signaux de natures très diverses (des traces, des signaux, plutôt que des enregistrements tabulaires).
On peut proposer une rapide caractérisation des nombreuses sources de données numériques, pour saisir à la fois l’ampleur des volumes, mais aussi l’incroyable diversité des formes :
Le plus évident : la communication sur le Web, et les contenus générés par les interactions humaines sur le Web
Ajoutons les données produites par l’activité humaine
Les données ont une fréquence d’actualisation très élevée. Comme les données sont produites et captées en temps réel, il faut imaginer des procédés de traitements nouveaux.
Et justement, des procédés nouveaux et efficaces, fondés d'une part sur la statistique probabiliste, et d'autre part sur des technologies informatiques nouvelles, sont apparus.
D’autres instituts, ajoutent que cela crée de la Valeur (Value, qu’il faut pouvoir mesurer), sous condition de Véracité (sincérité, fiabilité) et de Visibilité (les données sont présentées dans des tableaux ou data-viz compréhensibles)
Aller vers la suite : les algorithmes A quoi sert un algorithme ?