Dire que les données sont toujours et en tout temps construites est presque un lieu commun dans la recherche en sciences sociales. Il s’agit par-là de signifier qu’une information statistique, qui se présente sous la forme apparemment objective du chiffre, est le résultat :
La mesure de la délinquance juvénile est un exemple éloquent et classique (voir par exemple, le travail de Mucchielli). Aux problèmes de mesure posé par la fiabilité des statistiques de la police et de la gendarmerie (par nature, dépendantes des pratiques d’enregistrement et des moyens d’investigation, soumis à des pressions diverses et variables, et n’enregistrant pas la délinquance non détectée -le chiffre noir-, à la différence des enquêtes de victimation), s’ajoute les problèmes de périmètre de l’objet d’étude : Qu’est-ce qu’un jeune ? Qu’est-ce qu’un acte délinquant quand la définition du légal et du licite évolue ? Comment mesurer « objectivement » quand interfère des logiques d’étiquetages (carrières délinquantes, renforcées parfois par la réponse policière et pénale) ?
Le problème est aujourd’hui renouvelé avec l’émergence du Big Data. Beaucoup de discours marketing insistent sur la qualificatif de « données brutes », affirmant implicitement que l’ontouche à l’objectivité avec le matériel initial, ce qui renforce les préconisations et résultats que l’on obtiendrait, après le traitement statistique. Le Big data serait une réponse radicale et définitive aux problèmes d'échantillonnage : la collecte exhaustive n'est elle pas une garantie d'objectivité imparable ? Il s’agit en réalité, comme toujours, d’un mythe : la donnée brute reste encore et toujours construite. La trace que l’on enregistre numériquement (par exemple, le nombre de pas par jour), est le résultat d’un projet (souvent mercantile), a nécessité un appareillage de mesure (parfois défaillant et trompeur), et ne mesure finalement que ce que l’on veut bien mesurer (qu’est-ce qu’un pas ?).
Contrairement à ce que répètent les adeptes du Big Data, la donnée « brute » n’est donc pas si facilement exploitable. La donnée structurée déjà disponible, suppose en effet au moins, deux opérations : choisir un modèle de construction (sélection) et des modalités de collecte d’une part, et réaliser des traitements statistiques particuliers pour en retirer une information utilisable, d’autre part. La donnée non-structurée, celle que l’on retire par exemple de l’enregistrement des commentaires de forums, d’échanges de messages sur réseaux sociaux…génère un autre problème que l’on qualifie de « bruit statistique ». En effet, quand la masse de donnée est importante, on repère des signaux au sens statistique, c’est-à-dire des évènements qui s’écartent de la normale. Le problème est qu’il est difficile de distinguer un véritable signal, qui suppose un évènement remarquable et que l’on peut extraire et étudier, d’un simple bruit aléatoire, qui n’a aucune signification. On comprend que cela nécessite des compétences particulières (celles du data-scientist), et des traitements particuliers.