Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Mot-clé - 315. REINGENIERIES DOCUMENTAIRES ; Renouveau ; Les trois dimensions du Web sémantique

Fil des billets

mardi 10 avril 2012

Singulière "data"

Il est parfois des lectures intrigantes et stimulantes. Data is a singular noun est une de celles à marquer d'un tag blanc. Norman Gray, un astronome de l'université de Glasgow, nous propose une balade dans l'histoire du mot data, en anglais. En chemin, il nous fait découvrir des perspectives inattendues qui, de plus, devrait nous interroger, nous Français, sur des malentendus inconscients dus à une traduction impossible.

En résumé l'auteur démontre que le mot data, s'est paradoxalement imposé en anglais comme un nom au singulier et non au pluriel, comme pourrait le laisser croire une traduction littérale du latin. Il s'apparente à l'hypothèse d'un problème d'algèbre : "étant donnée telle situation, démontrer que...". L'usage du mot latin singulier datum a pratiquement disparu en anglais au 19e siècle (au même moment que documens en français, tiens, tiens..). Et c'est dans les années 60 que l'ambiguïté entre le singulier et le pluriel de data s'estompe. Extrait de la conclusion (trad JMS) :

Le mot duquel "data" est prétendument le pluriel a tout simplement disparu. Cela veut dire deux choses. Tout d'abord, il a créé un espace linguistique dans lequel "data" a sa place, il n'y a pas d'ambiguïté à utiliser "data" comme un mot au singulier. Ensuite et principalement, si "datum" a effectivement disparu, cela signifie que "data" ne peut être simplement son pluriel. Privé d'ancrage, il s'est éloigné de ce simple sens dérivé pour un sens en soi distinct et indépendant. Il a alors construit des règles d'usage pour lui-même, sans être entravé par son passé latin.

Data ne signifie plus juste une (foutu) datum après une autre. "Data" au vingtième siècle renvoie à une masse d'informations brutes (mass of raw information), que nous mesurons plutôt que nous comptons, et c'est aussi vrai maintenant que cela l'était au moment où le mot a fait ses débuts, en 1646. Cette acception universelle de data comme mesurable plutôt que comptable met sans ambiguïté le mot dans la même catégorie grammaticale que le "charbon", le "blé" ou le "minerai", qui est celle des noms de masse ou d'agrégat. Comme tel, il est toujours et inévitablement grammaticalement singulier. Nous ne saurions demander : ‘how many wheat do you have?’ (Quel nombre de blé avez-vous ?) ou dire ‘the ore are in the train’ (le minerai sont dans le train) si nous voulons être perçu comme des locuteurs anglais compétents. De la même manière et dans la même mesure, nous ne pouvons demander ‘how many data do you have?’ (quel nombre de data avez-vous ?) ou dire ‘the data are in the file’ (la data sont dans le fichier) sans faire une erreur grammaticale.

Beaucoup de choses à méditer, suite à cette découverte pour moi, par exemple :

  • la confusion entre mesurer et compter explique peut être bien des malentendus sur la mesure de l'information sur le web (p ex ici),
  • En français, nous ne faisons pas une différence aussi nette entre les deux verbes (combien traduit aussi bien how many que how much) et la traduction obligatoire du singulier anglais data par le pluriel français données (ajouté au fait qu'en anglais l'article the est invariable), réintroduit la confusion qui s'était effacée et est sans doute la source d'autres malentendus,
  • le Web of data, Web de données, raisonne sur des données discrètes et joue sur l'ambiguïté sans le dire. D'une certaine façon, l'anglais réintroduit en contrebande le sémantique qui n'apparaît pas dans le français alors qu'à l'inverse le français l'avait inclus dans informatique, contrairement à l'anglais computing...
  • Pour les promoteurs du Web de données, ces dernières jouent peut-être, inconsciemment ou non, le même rôle que les hypothèses dans un problème d'algèbre, et se rapportent à une certaine conception du monde qu'il faudrait peut-être mieux décrypter avant qu'elle nous envahisse.

mercredi 07 septembre 2011

La matrice du néodocument

Extrait d'un billet publié au printemps ici :

Précédemment nous trouvions une représentation du livre sur chacun des sommets du triangle, même si la différence de perspective soulignait les différences de dimensions. Cette fois, le document n’apparait plus qu’au centre, comme un navigateur qui le reconstruira à la demande de l’internaute. On pourrait dire que le système documentaire a réintégré la construction du document. La notion « parenthèse Gutenberg » prend alors une tout autre ampleur. L’imprimerie avait sorti la production documentaire des bibliothèques, des infrastructures épistémiques de l’époque. Le numérique réintègre la production documentaire dans l’infrastructure épistémique contemporaine : le web.

WS-dimensions-document.jpg

Il y aurait une thèse à écrire sur l'émergence et l'évolution du navigateur. En attendant qu'un étudiant futé s'y mette, voici une superbe infographie aussi intéressante par ce qu'elle présente que parce qu'elle cache. L'évolution du web, réalisée par une équipe de développeurs de Google Chrome. L'objectif est évidemment de montrer que le dernier né des navigateurs est celui qui s'appuie sur les technologies les plus performantes parce que les plus actuelles.

L'infographie a l'avantage de résumer l'évolution des navigateurs et des langages, méthodes et logiciels qui les portent. Depuis l’ancêtre Mosaïc, qui a posé le concept, seuls six navigateurs se sont imposés, dont cinq sont encore en fonction. Les dernières tendances montreraient une montée de Chrome au détriment d'Explorer, toujours leader, et surtout de Firefox. Le navigateur est le principal instrument de la constitution du néodocument du nouveau millénaire, sa matrice.

Quelles leçons tirer de ce graphique ? En voici quelques-unes sans prétendre du tout épuiser le sujet :

  • Le très petit nombre d'alternatives et l'énorme succès de quelques-unes souligne l'importance de la normalisation de fait. Le néodocument remplace de plus en plus les anciens documents qui règlent notre vie en société et il a naturellement a envahi notre quotidien et suppose un contrat de lecture pour être repéré, décrypté et éventuellement transmis. Il nous serait insupportable d'avoir à apprendre plusieurs contrats de lecture. Passer d'un navigateur à un autre, aux fonctionnalités pourtant très proches est souvent agaçant, sans compter que nous devons aussi apprendre à gérer d'autres services concurrents (messageries, applications des mobiles, etc.).
  • Tous les navigateurs sont gratuits, et pourtant, ils sont le fruit d'un intense travail de recherche-développement, d'ajustements et d'intégration de fonctionnalités continues. Cette gratuité est significative. On paye sa connexion, mais on n'imagine pas payer la matrice du néodocument.
  • La difficulté du navigateur Opéra, un des plus anciens et, on le voit bien sur l'animation, un des plus innovants, souligne l'importance d'un écosystème pour le développement du néodocument. Explorer, Safari et tout récemment Chrome profitent de leur inclusion de fait dans le système documentaire de l'internaute, par la bureautique, le design ou la recherche. Firefox se place dans une position d'alternative libre, mais était de fait soutenu par Google. L'arrivée de Chrome le fragilise.
  • L'inclusion progressive des services au navigateur mériterait d'être étudiée de près. Depuis le multimédia, la dynamique, l'interactif, le partage, etc., elle marque l'évolution de la typographie numérique, du texte et de la fonction de transmission, les trois dimensions du néodocument.

mercredi 30 mars 2011

La redocumentarisation en quatre images

Pour avancer dans les réflexions sur la redocumentarisation et la théorie du document dans la continuité du travail collectif sur Roger II, voici quatre images et quelques réflexions. Tous les commentaires et critiques sont bienvenues, j'avance sur un terrain encore à défricher.

Documentarisation

La première image est issue du livre testament de P. Otlet, premier théoricien de la documentation, et date de 1934 :

Otlet-1934.jpg

Les quatre premières lignes veulent présenter la construction des documents. À partir de l’univers, se forment les représentations grâce aux intelligences humaines particulières qui ensuite s’organisent et se confrontent dans la dynamique de la science et sont consignées dans des livres eux-mêmes réunis dans les bibliothèques.

Les trois lignes suivantes présentent les principaux éléments de l’ordre documentaire nouveau selon P. Otlet. Il s’agit d’abord de rédiger des notices bibliographiques et de les réunir dans un répertoire bibliographique universel. L’ensemble de ces fiches réunies dans les meubles à tiroirs a constitué le catalogue de la bibliothèque jusqu’à l’arrivée de l’informatisation à la fin des années soixante-dix. Il s’agit d’abord de l’outil de repérage des documents dans une collection de bibliothèque. La notice bibliographique est donc un substitut du document qui le remplace avantageusement dans le système documentaire du fait de son formalisme, aujourd’hui nous dirions qu’il s’agit de ses métadonnées. Le système documentaire est piloté par des catalogues normalisés et reliés entre eux. Pour P. Otlet, il doit même être centralisé dans un répertoire universel. L’auteur suggère un instrument supplémentaire, l’Encyclopédie, constituée d’une série de dossiers de synthèse sur tous les sujets constituant le savoir humain, réalisés et actualisés par les documentalistes à partir des documents existants et diffusables à la demande. Dernier élément essentiel à l’ordre documentaire : la classification. La classification joue pour P. Otlet un rôle central, organisant et reliant l’ensemble des instruments.

Ce modèle systématise et justifie le rôle de la bibliothèque qui l'appliquera et le perfectionnera jusqu'à aujourd'hui. Il sépare clairement la production du livre de la documentarisation qui vient ensuite.

Redocumentarisation

La seconde image est celle du «cake» du Web sémantique.

Web-semantique-2007.jpg

Dans le schéma de P. Otlet, on trouvait tout en haut les auteurs qui pensaient le monde, le représentaient en concepts grâce à la science et le consignaient dans des documents. Le schéma du W3C met à leur place des utilisateurs qui, plutôt que représenter le monde, vont reconstruire selon leurs besoins des réponses à leurs questions à partir des ressources documentaires existantes. On pourrait dire en raccourci le monde n’est plus représenté par un travail scientifique préalable, mais chacun se représente le monde à partir de données récoltées préalablement. On pourrait discuter longtemps de la pertinence épistémologique de l’une ou l’autre posture. Là n’est pas mon propos, je voulais simplement souligner que d’un point de vue documentaire celles-ci sont inversées : l’une part des producteurs de documents et classe ces derniers ; l’autre part des lecteurs qui reconstruisent les documents à partir de ressources classées.

Les trois dimensions

De plus sans discuter les détails d’un schéma qui n’est pour ses auteurs même qu’illustratif, on peut remarquer que l’on retrouve dans la succession des couches les trois dimensions du document . Déjà présentées pour le livre ainsi :

3-dimensions-document.jpg

Les couches les plus basses (URL/URI, XML, RDF) concernent les adresses et les formats des ressources, c’est à dire le repérage par la forme. Les couches intermédiaires (SPARQL, OWL, RDFS, RIF) s’occupent de la recherche, de l’indexation, de la sémantique, de la représentation des connaissances, c’est à dire un traitement à partir du contenu, du texte. Enfin les couches supérieures supportent des règles sociales (Unifying logic, Proof, Trust), celles-là même qui supportent la fonction du document, transmission et preuve. J’ai donc découpé le « cake » en tranche que j’ai redistribué sur les trois dimensions du document. Cette présentation, comparée à celle que j’avais présenté pour le livre souligne l’ampleur de la réingénierie documentaire. Précédemment nous trouvions une représentation du livre sur chacun des sommets du triangle, même si la différence de perspective soulignait les différences de dimensions. Cette fois, le document n’apparait plus qu’au centre, comme un navigateur qui le reconstruira à la demande de l’internaute. On pourrait dire que le système documentaire a réintégré la construction du document. La notion « parenthèse Gutenberg » prend alors une tout autre ampleur. L’imprimerie avait sorti la production documentaire des bibliothèques, des infrastructures épistémiques de l’époque. Le numérique réintègre la production documentaire dans l’infrastructure épistémique contemporaine : le web.

WS-dimensions-document.jpg

Cette représentation triangulaire a la vertu supplémentaire de casser l’empilement et sa lecture linéaire en montrant notamment les liaisons fortes qui existent entre les formats et les adresses et la confiance et la preuve.

mercredi 07 avril 2010

Problématiques et stratégies sur le document numérique

À l'occasion de la préparation de la 13ème et dernière séance à venir du cours 2010 sur l'économie du document (ici), j'ai actualisé et ajouté une colonne à un ancien tableau que tous ceux qui ont participé à l'aventure de Roger Pédauque connaissent.

Pour les non initiés à la réflexion pédauquienne, tout est expliqué dans ce livre. On peut en consulter en ligne l'intro et les trois textes collectifs (1, 2, 3). Malheureusement tout le travail du RTP-DOC n'est plus accessible.

Problematique-doc-num.png

Je rappelle que les lignes représentent les trois dimensions constitutives d'un document selon les réflexions pédauquiennes.

  • La colonne Chercheurs liste quelques disciplines, sans souci d'exhaustivité ni d'exclusivité, qui, lorsqu'elles abordent la notion de document, privilégient plutôt l'une de ces trois dimensions.
  • La colonne Objet/résultats indique l'objet particulier sur lequel portent les principaux efforts de recherche
  • La colonne Étape/interrogation souligne l'avancement des travaux, mais aussi en italiques le principal dilemme.
  • Enfin la dernière et nouvelle colonne montre que des stratégies industrielles peuvent aussi se lire à partir de cette grille.

Il est utile de décrypter ainsi à partir des sciences de l'information les stratégies des principales firmes. On se rend clairement compte qu'elles ont choisi des «avantages concurrentiels» différents.

On peut aussi y lire une gradation de haut en bas : Apple et Amazon ont les stratégies les plus traditionnelles, celles qui se rapprochent le plus des industries anciennes où le document n'était pas isolable de son support. Google a utilisé le Web comme un seul texte, sans gros souci de son ordre documentaire, il a ainsi rebrassé les cartes en trouvant avec la vente de mots clés aux annonceurs une source de revenu cohérente et indépendante des supports. Facebook va encore plus loin en inversant la problématique : ce n'est plus l'ordre documentaire ancien, ni même le contenu qui prime, mais bien les lecteurs qui forment l'ordre et sont documentés en conséquence et pour lesquels les documents traditionnels ne sont que des objets de trocs parmi d'autres. Reste que Facebook n'a pas encore trouvé un modèle d'affaires vraiment en phase avec son fonctionnement.

Mais il faut, à mon avis, se garder de conclure à un sens de l'histoire où le dernier arrivé serait le plus à même de l'emporter. La notion de document est trop importante pour une société pour qu'elle ne soit pas réordonnée. Si l'on suit Roger : celui qui devrait l'emporter est celui qui arrivera le mieux à mettre en cohérence les trois dimensions.

mercredi 05 mars 2008

Le Web sémantique est documentaire

Repéré grâce à E. Broudoux sur la liste RTP-DOC

Un excellent diaporama de Fabien Gandon, plein d'humour, qui vise à répondre à ceux qui critiquent l'absence supposée de la dimension sociale dans le Web sémantique. Son intérêt est moins à mon avis dans son objectif premier (la polémique est, en effet, un peu vaine) que dans la clareté de sa présentation qui, en creux, montre combien la problématique et les interrogations du Web sémantique croisent celles, plus anciennes, des professions documentaires et des sciences de l'information..

Il n'y manque que le son pour préciser certaines diapositives trop allusives.

Gandon Fabien, Le web sémantique n'est pas antisocial, 2006, 28 diapos. ici

- page 1 de 2