Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Mot-clé - 222. LES MUTATIONS DU DOCUMENT ; Petite histoire de la notion ; Bibliothécaires et documentalistes

Fil des billets

jeudi 13 octobre 2011

« Record », document, information, données

Ce billet m'a été inspiré par celui très stimulant de Marie-Anne Chabin sur la difficulté de traduction de l'anglais record en français et de la discussion nourrie qu'il a suscité. Le débat a tourné principalement autour de la validité de l'équivalence entre record et document, décliné en plusieurs langues, russe, espagnol, allemand, roumain...

En réalité, le débat entre archivistes avait une vocation opérationnelle immédiate et essentielle : comment nommer les objets que l'on manipule pour bien se faire comprendre et lever les ambiguïtés. Dans ce contexte, il a toute sa légitimité. Mais vu de l'extérieur de ce monde il prend une tournure différente et est révélateur d'autres questions.

Le postulat de départ est que l'anglais record a une signification précise de « document probant », illustrée par la différence entre la liste de course et le ticket de caisse qui valide l'acte d'achat. Si l'on se réfère à l'''Oxford Dictionnary'', on retrouve bien cet accent mis d'abord sur la preuve (même s'il faut ajouter l'élargissement à toutes formes d'enregistrement, comme le disque).

Il est intéressant de constater qu'il a donné en français le « record sportif » : Empr. à l'angl. record « enregistrement, document écrit (pour conserver un témoignage) » (av. 1300 ds NED), d'où « fait exceptionnel (notamment un exploit sportif) digne d'être enregistré » (1883, ibid.), de l'a. fr. recort, record (v. recors). (ATILF).

Mais l'aller et retour entre les deux langues est plus ancien. Voilà ce que nous dit sur l'étymologie du mot l'Oxford Dictionnary : Middle English: from Old French record 'remembrance', from recorder 'bring to remembrance', from Latin recordari 'remember', based on cor, cord- 'heart'. The noun was earliest used in law to denote the fact of being written down as evidence. The verb originally meant ‘narrate orally or in writing’, also ‘repeat so as to commit to memory’

On peut comparer cette étymologie avec celle du mot « document ». Voilà ce que nous dit l'ATILF à ce sujet : Empr. au lat. class. documentum « enseignement », b. lat. « acte écrit qui sert de témoignage, preuve », dér. de docere « enseigner, informer ». Le même article signale comme première signification : Enseignement, oral ou écrit, transmis par une personne.

Ainsi selon leur étymologie, le « record » anglais et le « document » français ont quasiment la même signification, mais proviennent de deux mots latins différents : le premier fait référence à la mémoire et la preuve, le second à la transmission et la leçon.

J'ai déjà eu l'occasion de montrer que la popularisation du mot « document » s'est accomplie au XIXe siècle, très vraisemblablement sous la poussée de la révolution scientifique qui avait besoin d'artefacts qui confondent justement ces deux fonctions. La preuve est une leçon pour l'avancement de la science et mémoire et transmission vont de pair. Le mot à partir de ce moment a pris un sens plus large et de plus en plus vague, qui après la seconde guerre mondiale a été de plus en plus remplacé par le polymorphe « information », privilégiant toujours la transmission plutôt que la mémoire.

Le record anglais n'a guère trouvé que dans les techniques d'enregistrement du son et de l'image, apparues à la fin du XIXe, l'occasion d'élargir ses horizons. Ainsi, mis à part le disque et la bande magnétique, le record a gardé son sens précis attaché à la preuve qui sied aux archivistes.

Aujourd'hui avec le numérique et la relation différente à la vérité qui l'accompagne, d'autres notions émergent en phase avec les capacités de calcul comme ressources (resources) puis surtout données (data), directement traduites de l'anglais par les échanges entre informaticiens. Ces mots ne sont pas anodins non plus. Ils font référence à des entités déjà existantes, déposées, neutres, sans plus de relations avec les fonctions de mémoire et preuve, ni transmission et leçon. Il y a là matière à réflexion.

Actu du 7 décembre 2011

Voir aussi la discussion sur « document d'ativité » sur la page GSI de Linked'in

dimanche 03 août 2008

P. Otlet et S. Briet numérisés

Les livres fondateurs du père et de la mère de la « documentologie », ancêtre des sciences de l'information francophones sont accessibles sous format numérique.

Le livre de Paul Otlet est enfin accessible en ligne sur les archives institutionnelles de l'Université de Gand (Ghent en flamand), en Belgique bien sûr (avec un peu de patience : certificat de sécurité déficient, Pdf trop lourd. La numérisation est peu soignée, L'OCR y est totalement déficient). P. Otlet, en plus d'exposer en détail les méthodes de documentation et de classification, y avait entre autres prévu la convergence multimédia ou encore un réseau ressemblant étrangement au Web.

Paul Otlet, Traité de documentation. Le livre sur le livre. Théorie et pratique, Editiones Mundaneum. (Bruxelles: D. Van Keerberghen & fils, 1934), 432p. ici

Extrait de la conclusion, je rappelle que nous sommes en 1934, la radio telle que nous la connaissons vient de rencontrer un succès foudroyant, la télévision n'est qu'une utopie de laboratoire n'en est qu'à sa préhistoire comme média de masse (voir commentaires) :

De grands moyens sont devenus nécessaires et on doit noter les suivants : 1) la division plus grande du travail; 2) le travail en coopération; 3) l'établissement de centres d'informations spécialisés où l'on aura le droit de s'adresser pour toutes les questions spéciales; 4) la systématisation ou synthèse qui remplace des millions de détails par quelques centaines de lois ou propositions générales; 5) la mathématique qui fournit avec ses formules des moyens de condensation puissants; 6) la visualisation par le développement des moyens instructifs de représentation et notamment schématique; 7) le développement des machines intellectuelles; 8) le livre irradié fait pour la lecture pour tous soit par la lecture individuelle et l'audition d'un livre désiré, soit par la demande radiophonique de renseignements individuels; 9) la télévision, le livre, le document que sur demande on présentera à la lecture sur le téléviseur, soit pour tous, soit pour chacun. On peut imaginer, en attendant la télévision, des livres transcrits sur plaque phonographique a mettre sur débit constant, chaque livre aurait sa longueur d'ondes et serait rendu audible. p.430.

On lira aussi avec intérêt cet article de présentation du NYT :

Alex Wright, The Web Time Forgot, The New York Times, Juin 17, 2008, sec. Science, .

Par ailleurs, Laurent Martinet, traducteur de Suzanne Briet en anglais, vient de rendre accessible le traitement OCR de :

Suzanne Briet, Qu'est-ce que la documentation, EDIT. (Paris, 1951), 43p.

Le résultat est remarquable, il comprend une préface de mise en contexte de L. Martinet et les notes traduites de l'édition anglaise. Un petit regret : la perte de la pagination qui complique la référence des citations.

Outre les premières tentatives sérieuses de définition d'un document, on trouve chez S. Briet l'explication de la notion de « documentaliste » à la française, souvent mal connue des nord-Américains. Extrait (début de la partie intitulée : Une profession distincte) :

L'« homo documentator » est né des conditions nouvelles de la recherche et de la technique.

Alors que dans certains pays, comme la Grande-Bretagne, le métier d'archiviste est traité à bon droit de « profession nouvelle », les archives modernes s'apparentent de plus en plus étroitement aux centres de documentation proprement dits, comme Raganathan n'a pas manqué de le souligner. La plupart des actes administratifs sont distribués sous forme dactylographiée ou imprimée. La plupart des publications officielles prennent une forme périodique. Le dossier, la circulaire, le rapport se traitent comme des éléments documentaires, et non comme les livres d'une bibliothèque. Les bibliothègues, frustrées des formes les plus mobiles de la documentation imprimée, dactylographiée ou photographiée, etc, demeurent les distributeurs de la documentation du passé, mais voient leur échapper la recherche à tous ses stades pour ne retenir que l'exposé des faits acquis. Instruments majeurs de fixation et de conservation de la culture, les bibliothèques générales suivent avec un retard inévitable les progrès des connaissances et les progrès de la technique d'approche des documents. Les bibliothèques spécialisées sont plus près des centres de recherche, et la plupart d'entre elles tendent à se transformer en centres de documentation, avec ou sans l'appellation. Les « information » ou « intelligence officers » que l'on a vus se multiplier dans les centres industriels de Grande-Bretagne et des Etats-Unis, sont les cousins germains des « documentalistes » français. Formés ou non dans les écoles de bibliothécaires, ils sont issus des mêmes milieux culturels spécialisés que l'établissement dont ils font partie. Ils satisfont à toutes les exigences du credo d'après lequel le documentaliste: 1º est un spécialiste du fond, c'est-à-dire qu'il possède une spécialisation culturelle apparentée à celle de l'organisme qui l'emploie; - 2º connaît les techniques de la forme des documents et de leur traitement (choix, conservation, sélection, reproduction); - 3º a le respect du document dans son intégrité physique et in tellectuelle; - 4º est capable de procéder à une interprétation et à une sélection de valeur des documents dont il a la charge, en vue d'une distribution ou d'une synthèse documentaire. p.19.

Actu 10 août 2008

À titre de comparaison, on visionnera avec intérêt ce film de 10mn qui montre comment était perçu le métier de bibliothécaire aux États-Unis à l'époque de S. Briet. Il s'agit d'un film du gouvernement destiné aux étudiants.

Your Life Work: The Librarian, 1946, ici. (repéré par Bloggidoc)

jeudi 31 juillet 2008

Livre et journal : danseuse et entraineuse de Google

Jean-Claude Guédon, dans une de ses (saines) colères, réagit avec un même argument à deux récentes actualités de Google Books :

  • La première réaction, Who Will Digitize the World's Books?, New York Review of Books, Volume 55, Number 13 · August 14, 2008 (ici, repéré par A. Pierrot qui le commente), concerne l'article de R. Darnton publié dans le numéro précédent de la même revue et déjà critiqué avec un tout autre argumentaire sur ce blogue ().
  • La seconde réaction (ici) suit l'annonce de l'accord signé par la Bibliothèque municipale de Lyon sur la numérisation par Google de son important fonds patrimonial (communiqué de l'AFP 10 juillet 2008 ici).

Dans les deux cas Jean-Claude dénonce ce qu'il considère comme une complaisance ou un aveuglement vis-à-vis de la stratégie de Google qui imposerait un monopole sur la mise en ligne des fichiers textes. Je le cite :

Ce que Google recherche actuellement, c'est un monopole sur la capacité d'appliquer toute forme d'algorithmique à la documentation numérique mondiale. En bref, Google veut devenir le système d'exploitation de la documentation numérique et pourra ainsi contrôler toutes les opérations de récupération, identification, analyses sémantiques, etc. que l'on peut effectuer ou imaginer dans le monde numérique.

Je crois qu'il se trompe, à la fois sur la stratégie particulière de numérisation des livres et sur l'idée d'une stratégie globale de la firme. J'ai pu par le passé faire la même analyse sur le même sujet (voir, par ex ), mais mon opinion a changé, comme d'ailleurs peut-être aussi la stratégie googlienne.

C'est l'occasion de revenir sur le sujet, de tenter quelques éclaircissements sur la dite stratégie et son articulation avec l'économie d'anciens médias. Pour bien comprendre la stratégie de Google vis-à-vis des documents publiés, il faut d'abord intégrer le fait que la firme est une organisation apprenante, c'est à dire qu'elle tire rapidement les leçons des ruptures qu'elle provoque par sa capacité d'innovation, leçons dont les conséquences sont parfois divergentes. Je prendrai brièvement deux exemples, celui du livre et celui de la presse.

Le livre est devenu la danseuse de Google

Le programme de numérisation de Google a très vite rencontré des difficultés. Les premières sérieuses ont été d'ordre juridique. Suite à la réaction des éditeurs, le moteur ne peut offrir un service significatif de lecture continu en ligne des livres sous droit, seulement des extraits souvent sans utilité. Les secondes ont été d'ordre technique avec les problèmes difficiles d'une numérisation de qualité, tout particulièrement la reconnaissance optique des caractères (voir à ce sujet l'intéressant point fait par A. Pierrot, ). Les troisièmes sont d'ordre bibliographique avec l'indexation et le repérage des éditions (voir ici).

Ces difficultés ne sont pas résolues, il ne semble pas non plus que Google malgré ses capacités financières ait vraiment pris les moyens pour qu'elles le soient. Le soupçon de J-Cl Guédon paraît alors quelque peu exagéré, même si on peut critiquer, du fait justement des limites notées, les positions de R. Darnton ou de la ville de Lyon.

On peut alors s'interroger sur les motivations véritables de la firme dans le domaine du livre. Faut-il y voir un cheval de Troyes pour attaquer le marché du livre (numérique ou papier) ? C'est bien peu probable, compte-tenu de la position dominante prise par Amazon. Tout au plus peut-on considérer ici qu'il s'agit de contenir celui-là en intervenant sur son terrain. Faut-il y voir une volonté de réaliser une nouvelle bibliothèque d'Alexandrie dont la firme aurait le monopole ? Il manquerait alors vraiment un bibliothécaire à la tête d'un projet qui ne paraît même pas connaitre la notion de collection, mais, là, en intervenant massivement sur ce terrain, Google met une barrière à l'entrée trop haute pour les autres acteurs et évite ainsi à d'autres la tentation de bâtir une bibliothèque qui le concurrencerait. Le retrait récent de Microsoft de son projet de numérisation de livres est caractéristique.

Je crois plutôt que le livre est devenu, bon gré mal gré, une danseuse pour Google. Son arrivée sur ce terrain n'a pas modifié l'économie du livre, ni celle des bibliothèques. Il en tire prestige grâce l'aura toujours forte de l'ordre du livre, se fait quelques alliés prestigieux dans l'intelligentsia et du côté des bibliothécaires, quelques ennemis aussi mais l'important est qu'on associe son nom à la culture. Et il reste que, bien entendu malgré ses défauts, il s'agit d'un service supplémentaire accessible par son moteur, parfois très utile.

La presse est une des entraineuses de Google

Les relations entre la presse et Google sont un autre sujet de polémique. Et la stratégie a été fort différente. Ici, pas de plan massif, pas de réel partenariat, sinon pour faire taire les plus grincheux (AFP..). Mais le développement d'un outil de traitement pour proposer automatiquement un panorama de presse (Google News) et une concurrence/complémentarité sur le marché publicitaire.

Il y a bien eu un conflit avec les éditeurs de presse belges (voir ici). Mais globalement, la presse ne peut se passer de Google News qui est devenue une des principales alimentations du trafic de ses sites et donc, malgré la grogne, un consensus s'est installé. Là encore, on peut s'interroger sur la motivation réelle de la firme à développer un service qui ne lui procure pas de revenus directs puisqu'il n'y a pas de publicité sur les pages du service. La réponse vient d'être donnée par Marissa Mayer, responsable des recherches sur les produits et les usages de la firme à un déjeuner du journal Fortune qui la résume ainsi (trad JMS) :

Google News est gratuit et n'a pas de publicité. Alors combien rapporte-t-il à Google ? Environ 100 millions de $. (..) Le géant en ligne compte sur Google-News pour orienter les lecteurs vers le principal moteur de recherche de Google, où ils font des recherches qui, elles, génèrent de la publicité.

What’s Google News worth? $100 million, Fortune, 22 juillet 2008 (ici) repéré par Abondance ().

Ainsi, on trouve clairement la possibilité de faire des recherches sur l'ensemble du Web par le moteur en haut de la page de Google News, (par ex ici), alors que cette possibilité n'existe pas sur Google Books (p ex , voir en commentaire sur ce point la remarque de M. Lessard et ma réponse). Il n'y a bien évidemment aucun monopole possible de Google sur la capacité de traitement des pages des journaux, mais une rentabilité certaine, si l'on en croit les chiffres indiqués, d'un service qui reprend la classification et le filtrage réalisé par les journaux, y adapte la puissance de traitement sémantique de la firme, et ne demande in fine qu'une maintenance légère.

Ainsi les relations entre Google et les médias traditionnels ne peuvent être analysées sans une référence précise à leur mode d'organisation (on pourrait faire encore une troisième analyse sur la vidéo ou une quatrième sur l'encyclopédie, par exemples). La firme, même quand elle bouscule les positions établies, ne peut faire table rase de la situation et doit y adapter chaque fois sa stratégie. On aurait tort de l'analyser globalement.

MAJ du 3 août 2008

Sur les difficultés de Google avec la justice. Voir l'intéressante synthèse des étudiants de l'INTD :

Jérome Constant, Denis Madelaine, et Carine Sébast, Les rapports de Google avec la justice, Synthèse documentaire (Paris: INTD-CNAM, Mai 20, 2008), ici .

MAJ du 5 août 2008

Sur un thème complémentaire :

How Google Used Librarians…and Got Away With It, Library Stuff, June 29th, 2008 (ici, repéré par Des Bibliothèques 2.0 )

Steven Cohen remarque que Google après avoir déployé une large campagne de communication en direction des bibliothécaires a tout arrêté depuis un an. Le blog qui était dédié à cette tache n'est même plus alimenté depuis ce temps. Extrait (trad JMS) :

Ainsi, Google continuera à utiliser les bibliothécaires, numériser leurs livres, en tirer profit, et ensuite nous laisser pourrir dans la poussière de l'information comme une vieille machine à microfilms.

Réponse de W. Crawford en commentaire :

Google Book Search permet une recherche d'éléments dans les livres qu'aucune bibliothèque ne peut réaliser seule. Il ne procure pas le livre, mais révèle tout spécialement un élément (un paragraphe sur un thème dans un livre de 300 pages), il fait ressortir des références qui sans cela resteraient cachées. (..)

Un accès plus large au domaine public. Une recherche sur le texte intégral des livres que les bibliothèques ne peuvent fournir. Comment vraiment cela nous "laisse dans la poussière de l'information"?

MAJ du 12 août 2008

Grâce à JD Zeller, merci à lui :

Benoit Raphael fait la synthèse de plusieurs billets de Jeff Jarvis, qui suggère que les journaux se recentrent sur la production de contenu et laissent à Google la distribution. Il lel traduit et cite :

"Voici mon conseil, journaux ("papers") : Sortez le plus vite possible du buisiness de la fabrication, de la distribution et de la technologie. Eteignez les rotatives. Externalisez les ordinateurs. Externalisez l'editing en Inde ou chez vos lecteurs. Collaborez avec le public. Et, ensuite, demandez vous qui vous êtes. La réponse importe vraiment..." (J.Jarvis)

Benoit Raphael, “La nouvelle économie des rédactions du futur,” Demain tous journalistes ?, ici.

C'est une provocation qui a le mérite de faire réfléchir, mais mon avis, il y a là une double erreur d'analyse. Il ne faut pas confondre journal et agence de presse. Les médias se sont construit d'abord par le contact avec le lecteur. La mise en page en est un exemple, l'objet et la distribution en sont d'autres. D'autre part, Google n'est pas un simple distributeur, la recherche d'information est aussi une activité médiatique.

Complément du 9 septembre 2008

Belle illustration de la différence de traitement des journaux et du livre par Google, le nouveau service d'archives de la presse qu'il vient d'ouvrir (ici). Voici deux présentations critiques mais avec un parti-pris assez net, car écrites par des journalistes :

Narvic, “Google News Archive Search : Google met à jour ses archives de presse,” Novövision, ().

Emmanuel Parody, “Google Archives : vers la bibliotheque universelle,” ecosphere, ().

Complément du 27 septembre 2008

Repéré grâce à A. Pierrot :

Adam Hodgkin, “How many publishing CEOs know what an API is?,” Exact Editions, Septembre 23, 2008, ici.

samedi 01 avril 2006

Livre, mots-clés

Les mots-clés renvoient aux billets du blogue correspondant aux différents chapitres, parties et sous-parties du livre.