Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Recherche - historien wikipédia

mardi 04 octobre 2011

Protodocument, document et néodocument

Hervé Le Crosnier dans le commentaire d'un billet récent me reproche d'avoir détourné la notion de protodocument telle qu'initiée par Pédauque. Je plaide (presque) coupable, pour la bonne cause. Mais le commentaire de Hervé et le rebond de Jean-Daniel Zeller qui le suit ouvre, à mon avis, d'autres questions, non sur le(proto)document mais plutôt sur le (néo)document qui nait sous nos yeux et au sujet duquel l'analyse reste encore bien faible.

Je reprends les propos de Hervé (en italiques) suivis de mes réponses :

D'après ma lecture de Pédauque, j'avais une autre vision du "protodocument". Non pas le prototype qui sera soumis au processus industriel de la duplication, mais un ensemble informel de "sources" (un terme utilisé par les historiens et les éditeurs de classiques, curieusement absent de ton texte), regroupés par un(e) "auteur(e)" (i.e. une entité responsable de la création du document, si l'on reprend la formule abstraite de définition du Dublin Core... qui peut donc être machinique, créative-personnelle, ou anonyme, notamment "par excès d'auteurs", comme dans Wikipédia) en vue de produire un "document" (une trace "intentionnelle" portant mémoire d'un événement ou de son interprétation). Tu proposes ici une autre définition (en tout cas différente de celle que j'avais compris/interprété), qui me semble peu opérationnelle.

Oui, j'ai peut-être employé le terme protodocument dans un sens (légèrement) différent de celui de Pédauque. Le terme est apparu dans le 3ème texte de Pédauque qui distinguait les proto-documents (collection de matériels documentaires, plus ou moins cohérents et organisés) du document (entité transmissible et socialement instituée).

Mais non, le terme ne se réduit pas dans mon esprit à la notion de prototype nécessairement reproduit industriellement. Bien des protodocuments, dans le sens que je suggère, ne seront pas reproduits. Les sources d'un historien, comme les tessons d'un archéologue, sont bien pour ces derniers des protodocuments, c'est à dire des entités uniques qu'ils sont capables de «lire» car ils ont acquis les compétences nécessaires à cet effet, intégré le contrat de lecture commun à leur spécialité. Le protodocument est ici le document de S. Briet, celui qui fait preuve. Dès lors, mon acception est surtout plus précise et plus claire que celle de Pédauque qui laisse largement place à l'interprétation.

J'ai compris dans cette notion aussi la première épreuve d'un texte car elle est bien aussi la preuve de la production de son auteur.

Mon premier objectif était de comprendre et non d'être opérationnel. Néanmoins, cette distinction éclaire, par exemple, la proximité et la différence entre l'archivistique et la muséologie, d'un côté, qui s'occupent de protodocuments et la bibliothéconomie, de l'autre, qui privilégie les documents et donc tous les outils associés aux uns et aux autres.

Les FRBR (Functional Requirements for Bibliographic Records) distinguent une frontière qui ne vaut pas forcément pour une définition globale, mais qui semble opérationnelle dans le monde des "documents édités" : il y aurait d'un côté les travaux "intellectuels" de création du document (ce qui au passage signifie que les bibliothèques ne considère comme tels, i.e. comme méritant l'insertion dans un catalogue de bibliothèque, que les "lus" qui relèvent d'une production "intellectuelle"), dans laquelle on distinguerait les "œuvres" (en général l'original) et ses "expressions" (par exemple les diverses traductions)... et de l'autre côté les "incarnations" de ce travail intellectuel dans des "manifestations", éventuellement multiples ("items").

On trouvera ici et une bonne présentation des FRBR. Les FRBR marquent en fait, mais de façon partielle en mettant en avant la notion d’œuvre et celle de manifestation, la différence entre les dimensions du document (Vu, lu, su), et non celle entre un protodocument et un document. Ces derniers ont bien toujours les trois dimensions.

Oui les bibliothèques mettent plutôt l'accent dans leur modèle sur le «lu», le contenu, du fait de l'utilisation de la non-rivalité de l’œuvre, c'est-à-dire des possibilités de partage des documents. C'est ce que j'ai tenté de montrer dans le dernier numéro du Documentaliste ou à Marseille récemment.

La tendance à confondre traces/protodocuments (i.e. recueil organisé de traces ou de sources, ou encore de "témoins") et "documents" (relevant d'une "décision" auctoriale, fut-elle machinique et algorithmique) ne me semble pas porteuse. Notamment quand on regarde les effets du côté du "su" : quels sont les droits (y compris le droit d'appartenir au Domaine public) associés à de tels "documents" sans "intention" ? Comment va-t-on leur associer un "droit moral", surtout si'l est "inaliénable" ? N'est-ce pas trop dangereux pour l'avenir tant du domaine public que du partage "volontaire" de la connaissance ? (..)

Il ne s'agit pas de confondre traces et protodocuments. Si toute trace, comme tout objet, peut devenir un protodocument, toutes les traces et tous les objets ne sont pas des protodocuments. Au contraire, rares sont celles et ceux qui ont acquis ce statut. Pour cela il faut bien, en effet, qu'il y ait eu une intention, c'est à dire un auteur ou un «inventeur» qui ait intégré la trace ou l'objet dans un système documentaire par un contrat de lecture lui donnant une signification pour une communauté. Donc la question du droit moral ou du domaine public n'est pas différente de celle qui est débattue aujourd'hui.

Il me semble néanmoins que les réactions de Hervé comme de Jean-Daniel soulignent d'une autre difficulté de plus en plus manifeste avec les développements du web (web 2.0 et web des données) et que ne lève en effet pas la distinction entre protodocument et document.

En réalité nous sommes de plus en plus confrontés à des néodocuments construits à la volée à partir de sources diverses et visant à répondre à nos requêtes ou même à les prévenir grâce aux calculs réalisés sur les traces que nous laissons. Dans ce nouveau régime documentaire, l'intention, l'auteur ou l'inventeur est le lecteur lui-même. Il gagne en efficacité et surtout en dépenses cognitives, du moins c'est l'objectif, mais il est pris dans un processus qui lui échappe et dont il ne peut mesurer les termes car il lui reste opaque.

Une version radicale de ce mouvement vers des néodocuments est présentée par le rapport sur les produits de données signalé et commenté récemment par Hubert Guillaud.

Dans cet horizon, les protodocuments sont réduits à des unités documentaires, les données, réunies en bases de données. Il s'agit bien ici de traces intentionnellement collectées et réunies selon un protocole qui s'apparente à un contrat de lecture permettant de les interpréter en croisant les bases entre elles. Mais les documents s'effacent progressivement pour un pilotage de services censés répondre à nos besoins sans dépense cognitive de notre part. L'exemple le plus parlant est peut-être celui de la carte géographique pour piloter une automobile. Celle-ci est remplacée d'abord par un GPS qui calcule la position et les itinéraires en temps réel et l'affiche sur un écran, puis par une voiture automatique capable de se rendre toute seule d'un point A à un point B, en tenant compte du trafic.

Intégrer un processus complexe et donc effacer les documents qui le décrivait n'est pas nouveau, c'est le propre même d'une machine. La différence est qu'aujourd'hui, la machine est une machine documentaire, c'est à dire une machine qui s'appuie directement sur des protodocuments qu'elle lit et interprète toute seule pour engager l'avenir. Il y a là matière à réflexions.

Actu du 12 octobre

À lire absolument le billet de A-M Chabin et la discussion qui le suit sur la traduction de record en français, russe, espagnol, allemand, roumain. Une superbe discussion sur la notion de document d'archive. Traductibilité, 10 oct 2011

mardi 03 avril 2007

Économies de Wikipédia : 1. la cognition

Pour analyser lucidement l'économie de Wikipédia, il est prudent d'en distinguer trois dimensions. Dans ce billet, j'aborde l'une d'entre elles : l'économie de la cognition. Je traiterai les deux autres dans deux billets ultérieurs. Celui-ci n'épuise donc pas la question, il n'en effleure qu'un seul volet.

Dans nos sociétés, l'économie de la cognition est régulée par des institutions très solides : écoles, universités et toute une série de satellites dont les professeurs et les chercheurs sont les clercs et dont l'activité et la régulation sont issues de siècles de pratiques. En moins de deux années, Wikipédia est devenue dans un grand nombre de pays occidentaux un des principaux outils de référence, peut être pas pour tous les clercs, mais à coup sûr pour leurs ouailles : les élèves et les étudiants ainsi que pour bien d'autres internautes ayant quitté les structures éducatives. Ceci est vrai quelque soit le niveau de formation comme le montre une enquête récente réalisée au Royaume-Uni : du primaire au doctorat entre 70 et 80% des enquêtés (l'échantillon concerne les usagers du service Web de formation à distance de l'université d'Oxford) consultent Wikipédia, très loin devant les autres services du Web 2.0.

‘David White, JISC funded ‘SPIRE’ project 2007’.

Cette bascule brutale n'est toujours pas du goût des clercs qui voient leur rôle contourné et soulignent alors les insuffisances de l'encyclopédie en ligne. Wikipédia n'est pas, en effet, sans défaut, ni à l'abri des jeux de pouvoirs et d'influence traditionnels de toute publication. Ses déboires sont nombreux, proportionnels à son succès croissant, et le Web est plein d'exemples d'erreurs, parfois scandaleuses, soulignées par des critiques, sincères ou hypocrites.

L'étonnant n'est pas d'y retrouver les mêmes errances que dans toutes les activités de publication, mais de voir celles-là se régler d'une façon tout à fait inédite. En effet, pour Wikipédia les critiques font partie de la construction et paradoxalement plus les plus vives, les plus fondées et précises sont les plus efficaces. Plus un intellectuel ou un expert dénonce publiquement des manques sur tel ou tel item, plus il est précis, rigoureux, pertinent et publicisé dans son argumentaire, plus il contribue à l'amélioration de celui-ci. La réactivité wikipédienne est à la hauteur du nombre de ses contributeurs et les corrections sont intégrées au fur et à mesure que les erreurs sont pointées. Ainsi, les plus sévères critiques de Wikipédia sont ses meilleurs serviteurs. Wikipédia a beaucoup plus à craindre de l'indifférence ou de la malveillance que des assauts des clercs qu'elle a, au contraire, intérêt à susciter.

Je n'insiste pas sur ces questions déjà très documentées. On trouvera sur le site de veille de l'INRP une bonne synthèse de tous ces débats et sur Wikipédia lui-même celle sur sa fiabilité.

La vitesse d'adaptation est favorisée par les outils, la robustesse et la simplicité du Wiki. Mais la technologie n'explique pas le phénomène, elle n'a été que l'opportunité qui lui a permis d'émerger. La rapidité avec laquelle les usagers du système traditionnel se sont mis à utiliser cette offre extérieure radicalement nouvelle, et pour nombre d'entre eux à y contribuer, implique que les institutions cognitives traditionnelles n'étaient plus tout-à-fait en phase avec les attentes de ceux qu'elles devaient servir.

Roger a montré combien la redocumentarisation en cours, dont Wikipédia est un des plus beaux exemples, accompagnait des changements profonds, le passage d'une modernité à une autre. Sans y revenir ni prétendre à une analyse très fouillée, il est facile de pointer quelques illustrations d'une adaptation de Wikipédia pour de nombreuses opérations cognitives contemporaines :

  • La rapidité et facilité d'accès en phase avec un savoir utile omniprésent pour s'orienter dans la vie quotidienne et tout particulièrement dans les situations d'apprentissage de plus en plus courantes.
  • La nécessité de trouver un socle commun et partagé, le plus exhaustif possible, de savoirs de référence reliés entre eux pour une société qui en fait sa richesse première. Les informaticiens diraient une ontologie, ici textuelle.
  • L'importance de l'actualisation dans un monde fondé sur l'innovation continuelle.
  • La possibilité d'accéder à des savoirs éclatés et hyperspécialisés dont plus personne ne saurait prétendre avoir la maîtrise.
  • L'adaptation aux pratiques de connexion et partage des générations montantes, tout particulièrement les liens hypertextuels et le copier/coller.

Il faut reconnaitre que l'école et l'université, ces vieilles dames, ont du mal à répondre aux exigences nouvelles de ce savoir plus en surface qu'en profondeur. Pour autant, cela ne déqualifie pas leurs pratiques ancestrales. Pour reprendre une expression de Michel Serres, nous avons autant besoin d'alpinistes que de déposes en hélicoptère. Les deux rapports au savoir sont utiles, l'ancien permet de comprendre, le nouveau de s'adapter.

Dès lors le défi n'est pas de remplacer ou de déqualifier l'un par l'autre, mais de les articuler. De plus en plus de voix le suggèrent. J'ai cité dans un billet précédent l'étude d'un historien. Tout récemment, suite à une polémique concernant un collège américain qui suggérait d'interdire les citations de Wikipédia, Cathy Davidson a publié un article dans le même sens. Extraits :

I urge readers to take the hubbub around Middlebury's decision as an opportunity to engage students — and the country — in a substantive discussion of how we learn today, of how we make arguments from evidence, of how we extrapolate from discrete facts to theories and interpretations, and on what basis. Knowledge isn't just information, and it isn't just opinion. There are better and worse ways to reach conclusions, and complex reasons for how we arrive at them. The "discussion" section of Wikipedia is a great place to begin to consider some of the processes involved.

Même si il y a et il y aura des grincements, je crois que l'on peut être optimiste sur l'évolution de l'institution. Les débats y sont déjà très riches et ils continueront de se développer (voir le billet d'O. Ertzscheid par exemple). Malgré ses défauts, elle s'est déjà adaptée à bien des évolutions de la société et dispose d'une reconnaissance et d'une économie solide.

Mais cette évolution passe aussi par une reconnaissance officielle de Wikipédia. Là encore l'évolution est en route par une organisation de plus en plus éditoriale de sa production (voir l' exposé récent de Laure Endrizzi sur cette question). Le risque est que cet assagissement tarisse son économie cognitive dont un des ressorts est l'opposition à l'institution.

vendredi 23 juin 2006

Wikipédia et les historiens

Les analyses, débats et polémiques autour de l'encyclopedie en ligne Wikipédia sont très nombreuses et souvent passionnées. On en trouvera une bonne synthèse dans le dossier de la cellule de veille scientifique et technologique de l'INRP, réalisé en mars 2006. Depuis l'excitation n'est pas retombée. Elle ne retombera pas rapidement dans la mesure où le modèle s'est clairement imposé (sa réussite en terme de contenu et d'audience est spectaculaire), sauf dans sa dimension économique. Cette lacune laisse présager encore bien des évolutions et des discussions.

De ce débat public, je relève deux tendances :

- du côté de Wikipédia, la mise en place progressive et délicate d'un système de contrôle et de filtrage qui préserve les apports de l'ouverture. Rien de plus logique, nous sommes dans un processus éditorial. Mais sa richesse, à la fois en terme d'image de marque et en terme d'efficacité, repose sur l'apport en écriture et expertise des internautes. Le défi pour Wikipédia est d'organiser ce filtrage et à terme de rémunérer au moins une part du travail de ses contributeurs sans casser le bénévolat.

- du côté de ses détracteurs, les arguments qui visent justement ces carences éditoriales cachent parfois mal des arrières-pensées qui relèvent du dénigrement d'un concurrent. La concurrence se tient à deux niveaux : celui du marché de la réputation (les experts patentés), celui de l'édition (les médias et les encyclopédies).

Jusqu'à maintenant, Wikipédia est financé par des fondations. Ce type de budget le protège, mais il est fragile. Il est protégé car il préserve son indépendance et lui permet de garder une orientation tournée vers l'intérêt général. Il est fragile car il est soumis au bon vouloir et aux ressources des donateurs. Ce financement et la vocation de Wikipédia ne sont pas sans rappeler une autre institution : l'université.

Une nouvelle pièce, repérée par if:book, vient alimenter utilement la réflexion. Il s'agit d'un long article d'un universitaire historien, Roy Rosenzweig : Can History be Open Source? Wikipedia and the Future of the Past.

Illustrant les tendances rappelées plus haut, l'article mérite qu'on s'y arrête. En effet, il illustre très clairement les relations et les contradictions entre la construction du savoir académique et celle du savoir "wikipédien", y compris dans ses aspects économiques, dans une discipline concernée au premier chef : l'histoire. L'article, après une présentation de Wikipédia, fait une comparaison nuancée et précise entre plusieurs sources des historiens. Cette citation en résume bien, je crois, l'esprit général :

"If the unpaid amateurs at Wikipedia have managed to outstrip an expensively produced reference work such as Encarta and provide a surprisingly comprehensive and largely accurate portrait of major and minor figures in U.S. history, professional historians need not fear that Wikipedians will quickly put them out of business. Good historical writing requires not just factual accuracy but also a command of the scholarly literature, persuasive analysis and interpretations, and clear and engaging prose. By those measures, American National Biography Online easily outdistances Wikipedia."

La dernière partie de l'article, cherche à tirer les leçons pour les historiens du développement de l'encyclopédie en ligne. Voici celles qui me paraissent alimenter la thématique de ce blog :

La première leçon est le succès manifeste de Wikipédia chez les étudiants lié à l'accessibilité des données. L'auteur en tire une conclusion économique radicale :

"If historians believe that what is available free on the Web is low quality, then we have a responsibility to make better information sources available online. Why are so many of our scholarly journals locked away behind subscription gates? What about American National Biography Online—written by professional historians, sponsored by our scholarly societies, and supported by millions of dollars in foundation and government grants? Why is it available only to libraries that often pay thousands of dollars per year rather than to everyone on the Web as Wikipedia is? Shouldn’t professional historians join in the massive democratization of access to knowledge reflected by Wikipedia and the Web in general?55 American National Biography Online may be a significantly better historical resource than Wikipedia, but its impact is much smaller because it is available to so few people."

La seconde leçon concerne l'innovation d'un système de révision ouvert, à la fois proche de la révision par les pairs académique, mais ouvert et peu compatible avec ce dernier, par le temps à y consacrer, le nombre d'intéractions de qualité variable et les critères de sélection. Il semble que les historiens qui participaient au processus au démarrage l'aient abandonné.

La troisième leçon est l'impressionnante armée de bénévoles participants au processus, autorisant une récolte de données hors de la portée des forces limitées du monde académique. L'auteur compare ce mouvement à la "légion des généalogistes" amateurs, bien connue des historiens.

Enfin, il conclut sur la différence entre le modèle de Wikipédia et celui de la construction de la science basée sur la controverse, y compris dans son économie (fonds de recherche).