Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Mot-clé -

Fil des billets

mardi 10 avril 2012

Singulière "data"

Il est parfois des lectures intrigantes et stimulantes. Data is a singular noun est une de celles à marquer d'un tag blanc. Norman Gray, un astronome de l'université de Glasgow, nous propose une balade dans l'histoire du mot data, en anglais. En chemin, il nous fait découvrir des perspectives inattendues qui, de plus, devrait nous interroger, nous Français, sur des malentendus inconscients dus à une traduction impossible.

En résumé l'auteur démontre que le mot data, s'est paradoxalement imposé en anglais comme un nom au singulier et non au pluriel, comme pourrait le laisser croire une traduction littérale du latin. Il s'apparente à l'hypothèse d'un problème d'algèbre : "étant donnée telle situation, démontrer que...". L'usage du mot latin singulier datum a pratiquement disparu en anglais au 19e siècle (au même moment que documens en français, tiens, tiens..). Et c'est dans les années 60 que l'ambiguïté entre le singulier et le pluriel de data s'estompe. Extrait de la conclusion (trad JMS) :

Le mot duquel "data" est prétendument le pluriel a tout simplement disparu. Cela veut dire deux choses. Tout d'abord, il a créé un espace linguistique dans lequel "data" a sa place, il n'y a pas d'ambiguïté à utiliser "data" comme un mot au singulier. Ensuite et principalement, si "datum" a effectivement disparu, cela signifie que "data" ne peut être simplement son pluriel. Privé d'ancrage, il s'est éloigné de ce simple sens dérivé pour un sens en soi distinct et indépendant. Il a alors construit des règles d'usage pour lui-même, sans être entravé par son passé latin.

Data ne signifie plus juste une (foutu) datum après une autre. "Data" au vingtième siècle renvoie à une masse d'informations brutes (mass of raw information), que nous mesurons plutôt que nous comptons, et c'est aussi vrai maintenant que cela l'était au moment où le mot a fait ses débuts, en 1646. Cette acception universelle de data comme mesurable plutôt que comptable met sans ambiguïté le mot dans la même catégorie grammaticale que le "charbon", le "blé" ou le "minerai", qui est celle des noms de masse ou d'agrégat. Comme tel, il est toujours et inévitablement grammaticalement singulier. Nous ne saurions demander : ‘how many wheat do you have?’ (Quel nombre de blé avez-vous ?) ou dire ‘the ore are in the train’ (le minerai sont dans le train) si nous voulons être perçu comme des locuteurs anglais compétents. De la même manière et dans la même mesure, nous ne pouvons demander ‘how many data do you have?’ (quel nombre de data avez-vous ?) ou dire ‘the data are in the file’ (la data sont dans le fichier) sans faire une erreur grammaticale.

Beaucoup de choses à méditer, suite à cette découverte pour moi, par exemple :

  • la confusion entre mesurer et compter explique peut être bien des malentendus sur la mesure de l'information sur le web (p ex ici),
  • En français, nous ne faisons pas une différence aussi nette entre les deux verbes (combien traduit aussi bien how many que how much) et la traduction obligatoire du singulier anglais data par le pluriel français données (ajouté au fait qu'en anglais l'article the est invariable), réintroduit la confusion qui s'était effacée et est sans doute la source d'autres malentendus,
  • le Web of data, Web de données, raisonne sur des données discrètes et joue sur l'ambiguïté sans le dire. D'une certaine façon, l'anglais réintroduit en contrebande le sémantique qui n'apparaît pas dans le français alors qu'à l'inverse le français l'avait inclus dans informatique, contrairement à l'anglais computing...
  • Pour les promoteurs du Web de données, ces dernières jouent peut-être, inconsciemment ou non, le même rôle que les hypothèses dans un problème d'algèbre, et se rapportent à une certaine conception du monde qu'il faudrait peut-être mieux décrypter avant qu'elle nous envahisse.

lundi 17 octobre 2011

«Record» et «data»

Pour poursuivre la réflexion amorcée dans le précédent billet, voici une interrogation sur le corpus anglophone de N-Gram des mots record et records.

N-Gram_Records-Record.jpg

On peut faire plusieurs constats :

  • Le mot est nettement plus utilisé dans la littérature anglophone que « document » dans la littérature francophone en 1800, sans doute à cause de la différence de culture juridique des deux mondes.
  • Au cours du 19e document rattrape record et les deux mots ont une fréquence comparable, chacun dans leur bassin linguistique.(document est beaucoup moins usité dans le monde anglophone).
  • Enfin, on aperçoit nettement l'arrivée de l'enregistrement sonore et visuel à partir de 1900.

Maintenant pour ajouter à la perplexité de Jean-Daniel, voici ce que cela donne lorsqu'on ajoute le mot data :

N-Gram-records-record-data.jpg

Le mot n'apparait qu'au début du 20e pour exploser après la seconde guerre mondiale, et il s'impose immédiatement dans la littérature, montrant à quel point l'informatique occupe brutalement nos écrits, du moins ceux récoltés par les bibliothèques, sinon nos pensées. Juste avec ce paramètre indirect, on subodore qu'il n'est pas anodin de passer du « web des documents » au « web des données »

samedi 01 avril 2006

Livre, mots-clés

Les mots-clés renvoient aux billets du blogue correspondant aux différents chapitres, parties et sous-parties du livre.