Il est parfois des lectures intrigantes et stimulantes. Data is a singular noun est une de celles à marquer d'un tag blanc. Norman Gray, un astronome de l'université de Glasgow, nous propose une balade dans l'histoire du mot data, en anglais. En chemin, il nous fait découvrir des perspectives inattendues qui, de plus, devrait nous interroger, nous Français, sur des malentendus inconscients dus à une traduction impossible.

En résumé l'auteur démontre que le mot data, s'est paradoxalement imposé en anglais comme un nom au singulier et non au pluriel, comme pourrait le laisser croire une traduction littérale du latin. Il s'apparente à l'hypothèse d'un problème d'algèbre : "étant donnée telle situation, démontrer que...". L'usage du mot latin singulier datum a pratiquement disparu en anglais au 19e siècle (au même moment que documens en français, tiens, tiens..). Et c'est dans les années 60 que l'ambiguïté entre le singulier et le pluriel de data s'estompe. Extrait de la conclusion (trad JMS) :

Le mot duquel "data" est prétendument le pluriel a tout simplement disparu. Cela veut dire deux choses. Tout d'abord, il a créé un espace linguistique dans lequel "data" a sa place, il n'y a pas d'ambiguïté à utiliser "data" comme un mot au singulier. Ensuite et principalement, si "datum" a effectivement disparu, cela signifie que "data" ne peut être simplement son pluriel. Privé d'ancrage, il s'est éloigné de ce simple sens dérivé pour un sens en soi distinct et indépendant. Il a alors construit des règles d'usage pour lui-même, sans être entravé par son passé latin.

Data ne signifie plus juste une (foutu) datum après une autre. "Data" au vingtième siècle renvoie à une masse d'informations brutes (mass of raw information), que nous mesurons plutôt que nous comptons, et c'est aussi vrai maintenant que cela l'était au moment où le mot a fait ses débuts, en 1646. Cette acception universelle de data comme mesurable plutôt que comptable met sans ambiguïté le mot dans la même catégorie grammaticale que le "charbon", le "blé" ou le "minerai", qui est celle des noms de masse ou d'agrégat. Comme tel, il est toujours et inévitablement grammaticalement singulier. Nous ne saurions demander : ‘how many wheat do you have?’ (Quel nombre de blé avez-vous ?) ou dire ‘the ore are in the train’ (le minerai sont dans le train) si nous voulons être perçu comme des locuteurs anglais compétents. De la même manière et dans la même mesure, nous ne pouvons demander ‘how many data do you have?’ (quel nombre de data avez-vous ?) ou dire ‘the data are in the file’ (la data sont dans le fichier) sans faire une erreur grammaticale.

Beaucoup de choses à méditer, suite à cette découverte pour moi, par exemple :

  • la confusion entre mesurer et compter explique peut être bien des malentendus sur la mesure de l'information sur le web (p ex ici),
  • En français, nous ne faisons pas une différence aussi nette entre les deux verbes (combien traduit aussi bien how many que how much) et la traduction obligatoire du singulier anglais data par le pluriel français données (ajouté au fait qu'en anglais l'article the est invariable), réintroduit la confusion qui s'était effacée et est sans doute la source d'autres malentendus,
  • le Web of data, Web de données, raisonne sur des données discrètes et joue sur l'ambiguïté sans le dire. D'une certaine façon, l'anglais réintroduit en contrebande le sémantique qui n'apparaît pas dans le français alors qu'à l'inverse le français l'avait inclus dans informatique, contrairement à l'anglais computing...
  • Pour les promoteurs du Web de données, ces dernières jouent peut-être, inconsciemment ou non, le même rôle que les hypothèses dans un problème d'algèbre, et se rapportent à une certaine conception du monde qu'il faudrait peut-être mieux décrypter avant qu'elle nous envahisse.