le_monde_merveilleux_du_big_data:donnee_petrole [Wiki-BigData]

De quoi parlons nous ?

L’expression Big Data signifie littéralement, masse de données, ou données en masse ou encore analyse des « méga données ». Cette expression désigne la collecte, le stockage et le traitement des données numériques, structurées ou non, brutes ou méta données, produites chaque jour en flux continu (un véritable déluge numérique qu’il est devenu difficile de quantifier).

La définition officielle du Commissariat Général à la Stratégie et à la Prospective (juin 2013) est la suivante :

« Le Big Data peut être défini comme l’ensemble des technologies, des infrastructures et des services qui permettent la transformation des données numériques en information, et la transformation de cette information en connaissance »

La définition de Wikipédia est plus simple et directe :

« Désigne un ensemble de données devenu tellement volumineux qu’il nécessite de nouvelles techniques d’organisation et de traitement de l’information »

De nombreux auteurs parlent d’une technologie de rupture, parfois d’une disruption (J.M. Dru), un concept proche de la destruction créatrice évoquée par Schumpeter. En effet, les conséquences économiques et sociales de l’introduction de cette technologie sont immenses, quoiqu’encore méconnues. Pour mieux se rendre compte, il faut d’abord essayer de quantifier le phénomène (voir les 3V).

Les types de données

La donnée est une information numérique ou alphanumérique, codée (pour faciliter son traitement), figée et transmissible, produite souvent de manière inconsciente (notamment en ce qui concerne des données personnelles). On peut identifier deux grands types de données :

Les données structurées : les données tabulaires, que l’on peut organiser dans un tableau Excel lignes-colonnes par exemple, et qui sont placées dans des bases de données relationnelles (le principe est qu’un élément d’une base -un nom, par exemple dans une base d’adresse, est relié au même élément dans une autre base -le même nom dans une autre base, enregistrant un comportement).
Les données non structurées : celles qui apparaissent de manière anarchique, notamment dans les supports web et les médias sociaux (conversations, traces, messages…). Ce sont celles qui principalement, alimentent aujourd’hui le Big Data (plus de 90% des données).

Les données, pétrole du 21ème siècle

Parler de la donnée comme « pétrole du 21ème siècle » n’est pas une métaphore anodine. Le flux permanent de donnée est effectivement comparable à un flux de pétrole qui jaillit du sol.

Comme le pétrole brut, la donnée en soi, n’a aucun intérêt et présente même des inconvénients (comment faire face à cette masse croissante, parfois qualifiée de pollution numérique ?). Il faut encore trouver des moyens d’utiliser, d’exploiter efficacement l’information contenue dans les données, comme il a fallu trouver une utilisation de la masse d’huile malodorante et polluante, au 19ème siècle.

La métaphore présente encore un autre intérêt en ce qu’elle permet de souligner l’importance des transformations économiques que ce secteur économique de la donnée, peut entrainer. Le secteur spécifique du traitement des données, du datamining, comme le faisait le secteur de l’industrie pétrolière, va fournir une ressource clef à d’autres secteurs économiques, qui vont pouvoir se développer dans des directions inattendues (par exemples, les plateformes Web 2.0 comme en son temps, l’industrie automobile).

Les 3 V

Selon le cabinet d'analyse marketing Gartner (l'analyste est Douglas Laney du groupe Meta ), les données du Big Data sont caractérisées par les 3V suivants : le volume, la variété et la vélocité.

Volume

La quantité de données échangées, donc conservées et traitées, progresse de manière quasi exponentielle.

Un Yottaoctet correspond à 1000 Zettaoctet, qui correspond à 1000 Exaoctet qui correspond lui-même à 1000 Pétaoctet, qui vaut 1000 Teraoctet, lequel vaut 1000 Gigaoctet, où on retrouve des échelles humaines (attention, l’octet est codé sur 8 bytes, 1024 octets, mais le préfixe en A, correspond à une puissance de 10).

Le Yottaoctet devient aujourd'hui l'unité de mesure pertinente, puisque le trafic mondial sur les réseaux double tous les deux ans (selon le Conseil d’Etat). D’autres sources, considèrent que le volume des données est multiplié par deux tous les ans.

Les exemples de statistiques impressionnantes sont nombreux. On relève ainsi qu’il y a en 2015, autour de 85 exaoctets de données échangées… chaque mois (soit 85 x 1000 x 1000 x 1000 Gigaoctet). On devrait atteindre 40 zettaoctets stockés en 2020 (contre 1 en 2010 ). Chaque jour, en 2015, Google doit traiter des milliers de fois l’équivalent de toute la Bibliothèque Américaine du Congrès ! On pouvait dire en 2012, que 90% des données numériques avaient été créés dans les deux dernières années. Aujourd’hui (en 2015) en 10 minutes, on produirait l’équivalent de l’ensemble des données produites par l’humanité jusqu’en 2003 ¹⁾.

L'explosion des volumes stockés, est aussi liée à la progression exponentielle et parallèle, des capacités de stockage, et à la réduction du coût de stockage.

Variété

Les données sont de qualités et formes diverses.

Il faut pouvoir enregistrer des données structurées (bien organisées, et enregistrées sous un format tabulaire) mais aussi des données non structurées, hétérogènes, incomplètes, issues de conversations sur un réseau, de sons, d’images, de signaux enregistrés par des objets connectés, etc. Les capteurs de données sont ainsi de plus en plus nombreux, précis et exhaustifs, mais renvoient aussi des signaux de natures très diverses (des traces, des signaux, plutôt que des enregistrements tabulaires).

On peut proposer une rapide caractérisation des nombreuses sources de données numériques, pour saisir à la fois l’ampleur des volumes, mais aussi l’incroyable diversité des formes :

Le plus évident : la communication sur le Web, et les contenus générés par les interactions humaines sur le Web

Le « vieux » Web : les 20 milliards de sites web et leurs pages innombrables (30 000 milliards de pages … en 2013, indexées par Google, 500 à 1000 sites de plus par minutes en 2015), les requêtes sur Google (3 à 4 millions…par minute en 2015).., les courriels échangés (plus de 200 millions par minutes en 2015), les innombrables commentaires sur des sites webs ou forums…
Les réseaux sociaux et mobiles : tweets sur Twitter (plus de 400 000 par minutes en 2016), communications sur Skype, SMS envoyés (15 millions par minutes en 2015), contenus d’applications mobiles, des avis, des « j’aime, j’aime pas » sur des sites de recommandations, des messages sur Facebook (plus de 4 millions par minutes, avec 150 000 photographies en 2015) ou autres réseaux. On compte plus de plus de 6 milliards de possesseurs de smartphone (plus de 80% de la population mondiale).
L’upload et la consultation de documents numérisés sur le « Cloud » (qui sont en fait des serveurs physiques distants) : des images et photos (Whats Apps, Instagram, etc.), des textes, et des vidéos de plus en plus lourdes (60% du trafic web, 4 milliards de vue par jour pour YouTube, 300h de vidéo de plus par minute en 2015, 400h en 2016), des applications et jeux Web 2.0…
Les données de connexion, les historiques, fichiers journaux et autres logs, de chacun auprès des fournisseurs d’accès : il y a quand même plus de 3 milliards d’internautes en 2015.

Ajoutons les données produites par l’activité humaine

Les vidéos et sons archivés, produits par les chaines de TV et de Radios
Données industrielles et financières enregistrées et conservées chaque jour : transactions bancaires, transactions boursières, les trajets de métro, de bus, les enregistrements de trafic, d’appels téléphoniques, la production journalière d’électricité, les statistiques de production, d’objets fabriqués, etc…
Enregistrements scientifiques : les données météorologiques et sismographiques, les observations astronomiques et leurs tonnes de données par secondes, les observations satellites, les données du collisionneur LHC au CERN Genève, (avec 100 millions de collisions chaque seconde), sans oublier les données d’essais cliniques, les recensements de la faune et de la flore, les recensements démographiques, les études économiques et sociales, etc.
Données issues des objets connectés et capteurs : puces RFID, GPS, robots, boitiers individuels électriques, l’enregistrement de santé (e-sport, e-santé…), etc. Ce dernier poste présente la plus forte progression (on estime qu’il y aura 50 milliards d’objets connectés en 2020).

Velocité

Les données ont une fréquence d’actualisation très élevée. Comme les données sont produites et captées en temps réel, il faut imaginer des procédés de traitements nouveaux.

Et justement, des procédés nouveaux et efficaces, fondés d'une part sur la statistique probabiliste, et d'autre part sur des technologies informatiques nouvelles, sont apparus.

D'autres V ?

D’autres instituts, ajoutent que cela crée de la Valeur (Value, qu’il faut pouvoir mesurer), sous condition de Véracité (sincérité, fiabilité) et de Visibilité (les données sont présentées dans des tableaux ou data-viz compréhensibles)

Aller vers la suite : les algorithmes A quoi sert un algorithme ?

¹⁾ Au conditionnel, car les informations sont multiples et contradictoires sur ce sujet