Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

mardi 10 avril 2012

Singulière "data"

Il est parfois des lectures intrigantes et stimulantes. Data is a singular noun est une de celles à marquer d'un tag blanc. Norman Gray, un astronome de l'université de Glasgow, nous propose une balade dans l'histoire du mot data, en anglais. En chemin, il nous fait découvrir des perspectives inattendues qui, de plus, devrait nous interroger, nous Français, sur des malentendus inconscients dus à une traduction impossible.

En résumé l'auteur démontre que le mot data, s'est paradoxalement imposé en anglais comme un nom au singulier et non au pluriel, comme pourrait le laisser croire une traduction littérale du latin. Il s'apparente à l'hypothèse d'un problème d'algèbre : "étant donnée telle situation, démontrer que...". L'usage du mot latin singulier datum a pratiquement disparu en anglais au 19e siècle (au même moment que documens en français, tiens, tiens..). Et c'est dans les années 60 que l'ambiguïté entre le singulier et le pluriel de data s'estompe. Extrait de la conclusion (trad JMS) :

Le mot duquel "data" est prétendument le pluriel a tout simplement disparu. Cela veut dire deux choses. Tout d'abord, il a créé un espace linguistique dans lequel "data" a sa place, il n'y a pas d'ambiguïté à utiliser "data" comme un mot au singulier. Ensuite et principalement, si "datum" a effectivement disparu, cela signifie que "data" ne peut être simplement son pluriel. Privé d'ancrage, il s'est éloigné de ce simple sens dérivé pour un sens en soi distinct et indépendant. Il a alors construit des règles d'usage pour lui-même, sans être entravé par son passé latin.

Data ne signifie plus juste une (foutu) datum après une autre. "Data" au vingtième siècle renvoie à une masse d'informations brutes (mass of raw information), que nous mesurons plutôt que nous comptons, et c'est aussi vrai maintenant que cela l'était au moment où le mot a fait ses débuts, en 1646. Cette acception universelle de data comme mesurable plutôt que comptable met sans ambiguïté le mot dans la même catégorie grammaticale que le "charbon", le "blé" ou le "minerai", qui est celle des noms de masse ou d'agrégat. Comme tel, il est toujours et inévitablement grammaticalement singulier. Nous ne saurions demander : ‘how many wheat do you have?’ (Quel nombre de blé avez-vous ?) ou dire ‘the ore are in the train’ (le minerai sont dans le train) si nous voulons être perçu comme des locuteurs anglais compétents. De la même manière et dans la même mesure, nous ne pouvons demander ‘how many data do you have?’ (quel nombre de data avez-vous ?) ou dire ‘the data are in the file’ (la data sont dans le fichier) sans faire une erreur grammaticale.

Beaucoup de choses à méditer, suite à cette découverte pour moi, par exemple :

  • la confusion entre mesurer et compter explique peut être bien des malentendus sur la mesure de l'information sur le web (p ex ici),
  • En français, nous ne faisons pas une différence aussi nette entre les deux verbes (combien traduit aussi bien how many que how much) et la traduction obligatoire du singulier anglais data par le pluriel français données (ajouté au fait qu'en anglais l'article the est invariable), réintroduit la confusion qui s'était effacée et est sans doute la source d'autres malentendus,
  • le Web of data, Web de données, raisonne sur des données discrètes et joue sur l'ambiguïté sans le dire. D'une certaine façon, l'anglais réintroduit en contrebande le sémantique qui n'apparaît pas dans le français alors qu'à l'inverse le français l'avait inclus dans informatique, contrairement à l'anglais computing...
  • Pour les promoteurs du Web de données, ces dernières jouent peut-être, inconsciemment ou non, le même rôle que les hypothèses dans un problème d'algèbre, et se rapportent à une certaine conception du monde qu'il faudrait peut-être mieux décrypter avant qu'elle nous envahisse.

mercredi 14 mars 2012

Le document à l'Académie (dictionnaire)

Mon collègue de l'ENS-Lyon, Jean-Philippe Magué (merci à lui), vient d'attirer mon attention sur l'évolution de la définition du mot document dans les différentes éditions du dictionnaire de l'Académie française depuis l'origine. Voilà le résultat qu'il a compilé :

  • 1ère édition (1694) : Enseignement. Vieux Documents. anciens documents. titres & documents. Ce mot vieillit.
  • 2ème édition (1718) : Terme de pratique. titres, preuves par escrit. enseignement. Vieux documents. anciens documents. titres et documents.
  • 3ème édition (1740) : Terme de Pratique. Titres, preuves par écrit, enseignement. Vieux Documens. anciens documens. titres & documens.
  • 4ème édition (1762) : Terme de Pratique. Titres, preuves par écrit, enseignement. Vieux documens. Anciens documens. Titres & documens.
  • 5ème édition (1798) : Terme de Pratique. Titres, preuves par écrit, enseignement. Vieux documens. Anciens documens. Titres & documens.
  • 6ème édition (1835) : Terme de Pratique. Titres, preuves par écrit, renseignement. Vieux documents. Anciens documents. Titres & documents. Un document précieux. Recueillir les documents qui peuvent servir à la composition d'une histoire.
  • 7ème édition (1878) : Titres, preuves par écrit, renseignement. Vieux documents. Anciens documents. Titres et documents. Un document précieux. Recueillir les documents qui peuvent servir à la composition d'une histoire.
  • 8ème édition (1932) : Titre, pièce écrite qui sert de preuve ou de renseignement. Titres et documents. Un document précieux. Réunir des documents en vue d'un travail, d'un livre d'histoire.
  • 9ème édition (1992) : XIIIe siècle. Emprunté du latin documentum, « exemple, modèle », « enseignement, ce qui sert à instruire », puis « acte écrit qui sert de témoignage, preuve ».
    • 1. Écrit ou, par ext., tout objet pouvant apporter un renseignement, établir ou infirmer un fait. Réunir des documents en vue d'un exposé. Document original. Document officiel. Document administratif. Documents photographiques. Ce sont là de précieux documents. Classer des documents. DROIT. Écrit ou objet susceptible de contribuer à établir la vérité au cours d'une instruction judiciaire ou d'un procès. Voici le dossier avec tous les documents. Des documents accablants. Un document établissant l'innocence de l'inculpé.
    • 2. COMMERCE. Pièce, titre accompagnant une marchandise en cours de transport et permettant son identification.

(On trouvera tous les liens sur Wikipédia. Pour la 2ème édition, seule le tome 2 est numérisé pour une raison que j'ignore. Si un des lecteurs de la BNF peut jeter un oeil sur la micro-fiche et compléter en commentaire... Complété, cf. commentaire)

Nos immortels ont écrit ainsi une petite histoire du mot qui vient compléter celle déjà notée. On constate qu'au 17ème siècle ils étaient prêts à l'enterrer, mais qu'il résiste. Ce n'est qu'à partir du 19ème que sa définition commence à s'élargir, pour brutalement prendre une vraie importance dans la dernière édition.

Et, consécration !, aujourd'hui le dictionnaire lui-même est devenu officiellement document puisque La matière du quatrième tome est publiée en fascicules dans les « Documents administratifs » du Journal officiel, au fur et à mesure de l'avancement des travaux. (ici).

La prégnance récente de la notion est ainsi confirmée ainsi que son importance actuelle. Le document est devenu essentiel à la régulation de nos sociétés. Il paraît alors difficile d'imaginer qu'il se dilue dans un Web qui ne serait plus que de données.

mardi 28 février 2012

Séminaire AI : Algorithmes, données et sens (9 mars Lyon)

Le prochain séminaire sur l'architecture de l'information se tiendra à Lyon le 9 mars 13h30 à l'IXXI à Lyon. Entrée libre.

Programe alléchant comme d'habitude :

Vers une sociologie des algorithmes (Toward a Sociology of Algorithms, présentation en anglais), Tarleton Gillespie, Cornell University

Les algorithmes jouent un rôle de plus en plus important dans la façon dont nous trouvons les informations les plus importantes pour nous. L'algorithme de recherche de Google, le Newsfeed de Facebook, les recommandations d'Amazon et les Trends de Twitter, tous les jours nous nous tournons vers des algoritmes informatiques conçus pour nous dire ce qui est le plus important pour nous et pour les autres. En réalité, les ressources informatiques que nous avons créées sont maintenant trop vastes et trop complexes. Seuls des algorithmes peuvent les gérer.

Pourtant cette emprise des algorithmes s'accompagne d'une vulnérabilité. Les algorithmes décident des informations à mettre en évidence, de quelles relations à faire ou ne pas faire entre elles. Et leur logique est opaque, construite dans des outils dont nous pouvons nous servir mais pas démonter. Les conclusions qu'ils dessinent ont des implications sociales et politiques pour les gens, les communautés et les organisations qui dépendent d'eux.

Nous avons besoin d'une sociologie des algorithmes. Cela va au delà des questions leur marche et leur perfectionnement. C'est une caractéristique essentielle de notre écosystème informationnel, et il faut se demander comment ces algorithmes façonnent la production et la mise à l'écart de l'information, de la connaissance et de la culture. A quelles obligations les designers et les développeurs d'algorithmes doivent faire face, puisque que leurs outils rendent de plus en plus de services vitaux pour des fonctions publiques dans la détermination de ce qui est vu et perçu comme pertinent et de comment nous nous reconnaissons nous même comme un public ?

Donner du sens aux données, Gautier Poupeau, Antidot

Open Data, Linked Data, Big Data, Data journalism... autant d'expressions qui ont remplacé sous les feux des projecteurs des professionnels du numérique le Web 2.0 et le Web social entré peu à peu dans leur pratique quotidienne, mais qu'en est-il réellement et, surtout, que faut-il attendre de ces concepts et des avancées sous-jacentes ? S'agit-il d'un effet de mode engendré par le buzz et le besoin de nouveautés constantes de ce milieu ou d'une tendance lourde qui marquerait un tournant dans la place accordée à la donnée et plus généralement à l'attention à l'information dans le système d'information ?

En définissant chacune de ces visions, nous en dresserons une cartographie pour mieux les critiquer et montrer leurs apports et leurs limites. Nous les analyserons en particulier à la lumière de la place accordée à la donnée elle-même et à sa logique. Ainsi, nous tenterons de montrer la nécessité d'accorder une place prépondérante à la question du sens que les données véhiculent, tant dans leur modélisation, leur mise à disposition, leur traitement, leur croisement, leur usage que leur visualisation.

vendredi 24 février 2012

Vu, Lu, Su par le design

Janet Murray, professeur design à Georgia Tech, vient de publier aux Presses du MIT un important livre sur le design du numérique : Inventing the Medium: Principals of Interaction Design as a Cultural Practice ici. Elle tient aussi un blog qui accompagne et actualise le livre (). On peut lire enfin un long et passionnant entretien avec H. Jenkins ().

Je retiens entre autres ceci dans l'entretien (trad JMS) :

J'ai deux éclairages sur ce qu'est un média que je peux présenter brièvement ici : le premier est que tout média est composé de trois parties : l'inscription, la transmission et la représentation ; le second est que le paradigme le plus productif pour le designer pour penser un média est, de mon point de vue, celui de l'attention captée (focused attention).

On retrouve ainsi sous sa plume les trois facettes Vu (inscription), Lu (représentation) et Su (transmission), ainsi que l'insistance sur l'économie de l'attention. Je suis heureux de constater cette convergence de la réflexion sur le design des médias avec mes propres réflexions, ce qui me conforte dans l'insistance sur la notion d'architecture de l'information.

Voici comment J. Murray décline sur le numérique les trois principes sur son blog (trad JMS) :

  • Toutes choses faites de bits et de codes informatiques relèvent d'un seul média, le média numérique avec ses affordances originales.
  • Concevoir un élément quelconque dans ce nouveau médium relève d'un effort collectif plus large consistant à construire du sens au travers de l'invention et de l'affinement de conventions du média numérique.
  • En élargissant les conventions de construction du sens qui composent la culture humaine, nous élargissons notre capacité à comprendre le monde et à entrer en relation avec les autres.

On y retrouve aussi la notion de contrat de lecture.

mardi 07 février 2012

Le monde selon Facebook et selon Google

Pour rebondir sur la discussion d'un précédent billet voici deux images révélatrices des conceptions documentaires du monde par Facebook et par Google. Il reste à trouver celle qui représenterait le monde d'Apple. La comparaison des deux images est en effet instructive.

Facebook-P-Butler-14-12-2010.jpg

WebGL-Globe-Search-2012.jpg

On connait l'emblématique image des relations de Facebook, qui ressemble à une carte des lignes aériennes que l'on trouve dans les magazines disponibles dans les avions ou encore à celles des flux migratoires ou des échanges commerciaux des manuels de géographie de ma jeunesse. Facebook, chantre de la connexion, représente son activité sur une carte par des flux d'échanges.








Google propose de son côté un service expérimental de visualisation de données géolocalisées sur un globe terrestre, The WebGL Globe, et, comme exemple, il présente les recherches sur son moteur (search) colorée par langue dans le monde. On trouvera ci-contre une copie d'écran, mais l'image animée en 3D est beaucoup plus spectaculaire. Google présente ici son activité comme cumulative. Il ne s'agit plus de flux, mais de stock. La richesse d'informations accumulées en un lieu. Sans doute, la représentation est contrainte par l'algorithme qui organise de cette façon la visualisation des données, mais l'exemple n'est pas du au hasard, c'est aussi une image fidèle du modèle d'origine de la firme, issu de la bibliothéconomie. Dans la construction du modèle de Webmédia qui croise télé (-phone et -vision) et bibliothèque ou archives. Facebook penche plus, lui, vers la première origine.

Dans les deux cas, sur les deux cartes, on peut aussi visualiser l'implantation comparable des deux firmes américaines avec des déserts pourtant habités dus soit à l'absence d'activité sur l'internet dans ces zônes (Afrique), soit à l'existence de concurrents mieux implantés (Russie, Chine).

- page 2 de 14 -