Rêves d'archithèque

Ma proposition de nommer « archithécaires » les professionnels du document numérique a suscité sur différentes listes, blogs ou dans les commentaires du billet initial des réactions diverses.

Mon propos en réalité est moins d'imposer ce nom particulier que de souligner la naissance d'un nouveau modèle de média, comme en leur temps sont nées la radiodiffusion ou la télévision, qui n'avaient évidemment pas de nom auparavant, et de remarquer que les savoirs professionnels du document s'y trouvent en bonne place, avec d'autres venus d'autres horizons. Aussi ce terme, que je trouve personnellement sonner bien (bien mieux que l'ambiguë « bibliothèque numérique »), a la vertu de placer ceux-ci clairement au centre, mais je suis ouvert à toute autre proposition. Pour conforter celui-là en attendant, le plus simple est de préciser ce que pourrait être une « archithèque ».

Celle-ci existe déjà partiellement à petite échelle dans de nombreuses bibliothèques ou centres d'archives ayant intégré une dimension numérique et elle se construit sous nos yeux à très grande échelle dans des batailles commerciales et industrielles impressionnantes qui mettent aux prises Google, Yahoo!, Microsoft et bien d'autres.

Je voudrais ici pousser le raisonnement en rêvant d'une archithèque idéale, au risque de me tromper. Mais en des périodes de ruptures comme celle que nous vivons, les rêves ont une grande importance. C'est aussi à partir d'eux que l'on s'oriente, faute de trouver dans la réalité, passée et présente, les balises suffisantes pour se repérer.

La mission d'une archithèque est de gérer le patrimoine informationnel numérique de la communauté qu'elle sert et qui lui fournit ses moyens. Ainsi il peut exister toutes sortes d'archithèques, comme il y a toutes sortes de bibliothèques ou de centres d'archives, car il y a toutes sortes de couple information/communauté. Il est très important de noter la relation à une communauté particulière. Celle-ci peut être petite ou très grande (comme un pays par exemple ou des communautés linguistiques entières). Son économie peut-être publique (payée par l'État dans l'une de ses composante), institutionnelle (payée par la communauté particulière ou ses représentants) ou marchande (payée par les annonceurs). Mais comme elle repose sur l'exploitation de la longue traîne un marché direct est peu envisageable (voir le troisième texte de Roger, p. 24-25)

Son organisation comprend trois niveaux : le fonds, l'empreinte et la navigation. En voici quelques éléments sans prétendre tout embrasser ni être pertinent sur tout :

Le fonds Celui-ci est constitué de tous les documents et données du patrimoine de la communauté, que ceux-ci soient accessibles à tous les membres ou non (pourvu qu'ils dépassent une documentation personnelle). Une archithèque en effet n'est pas limitée par la taille de ses magasins ou le coût de gestion des documents physiques. Ce fonds provient à la fois des productions de la communauté (ex dépots institutionnels), des collections et bases de données pour lesquelles on aura acquis une license ou encore de tous les documents ou données repérés sur le Web et pertinents pour la profession. Il est alimenté par le patrimoine documentaire initial et les membres de la communauté, par les négociations avec les détenteurs de droits et par la veille sur le Web. Il est géré avec un calendrier de conservation qui permet notamment d'ouvrir et de fermer les droits aux différentes catégories d'utilisateurs, internes et externes à la communauté. Dans la mesure du possible l'ensemble de ces documents et données sera conservé sous forme de copie-cache, y compris les documents dont on ne dispose pas des droits. En effet, d'une part il est essentiel de disposer à tout moment et rapidement des textes afin de pouvoir y faire tourner tous les outils de traitement possible sans difficulté ni retard, d'autre part la très grande volatilité du Web rend incertaines les constructions pérennes et enfin il est nécessaire de rendre interopérables des ressources venant d'horizons divers. Mais, bien entendu, ces copies caches ne sont là que pour les traitements internes et la conservation. L'usager a accès à l'adresse normale du document.

L'empreinte V. Tesnière et N. Lesquins précisent dans un article du BBF sur la bibliothèque numérique européenne : L’analyse des attentes et des plus-values par rapport à l’existant conduit à la définition d’une bibliothèque numérique comme un ensemble organisé de contenus en ligne sélectionnés et non comme un entrepôt. Si l’on admet qu’un individu, un groupe ou même un pays sont aussi définis par les documents qu’ils produisent, consultent ou réunissent, ces réflexions pourraient déboucher sur l’idée d’une « empreinte cognitive numérique », produite par les traces documentaires, qu’il s’agisse des documents eux-mêmes ou des métadonnées, des ontologies ou encore des traces laissées par l’activité du lecteur, y compris les tags. Les possibilités de calcul de l’outil permettent d’envisager dans cette orientation des développements inédits dont certains sont ponctuellement déjà mis en œuvre par les industriels du domaine (moteurs, libraires en ligne..). Cette idée ouvrirait largement les perspectives des institutions documentaires traditionnelles, bibliothèques et archives, ébranlées par les multiples développements du numérique. Leur vocation première est bien de mettre en relation les communautés qu’elles servent avec les documents qui leur sont utiles et leurs outils principaux sont bien l’organisation, la gestion et l’exploitation de ces traces : catalogue, inventaire, plan de classement, collection, statistiques de consultation, etc. Mieux, elles disposent déjà, par leur expérience dans les institutions traditionnelles de collections d’autorité, c'est-à-dire des documents recueillis, classés et conservés pour les besoins de la communauté qu’elles servent. Un traitement automatique de ces collections, croisé avec les traces de l’activité des usagers fournirait un corpus de données de départ qui pourrait ensuite s’affiner par itérations successives. On voit tout l’intérêt de ce repérage. Une fois cette empreinte numérique récoltée, il sera possible de retourner le processus et d’en faire un outil de repérage ou de traitement pour de nouveaux documents ou de nouvelles données, qui, puisqu’ils sont homologues à la collection initiale, devraient être utiles pour la communauté.

La navigation L'archithèque propose une série d'outils aux membres de la communauté desservie pour naviguer, lire, dans les trois sens rappelés par P. Schweitzer (v. son commentaire de ce billet), mais aussi pour effectuer tout calcul et traitement sur les documents et informations proposés par l'archithèque, et enfin des outils bureautiques pour gérer sa propre bibliothèque personnelle et faciliter les relations entre son espace privé et l'espace communautaire.

Commentaires

1. Le lundi 11 septembre 2006, 07:29 par Jean-Daniel Zeller: Autant l’archithécaire me posait problème, autant l’archithèque, pour les mêmes raisons étymologiques me paraît par contre approprié, si tant est que le contenu soit clarifié.

« La mission d’une archithèque est de gérer le patrimoine informationnel de la communauté qu’elle sert… »
Il me semble qu’avec le web, les communautés traditionnelles qui fondaient les thèques antérieures vont progressivement tendrent à fusionner, avec les questions de financement que cela pose. Le modèle de financement exploitant la longue traîne (basé sur la publicité ciblée et semblant servir de modèle économique à Google-print,) s’il paraît être le plus efficace à l’heure actuelle, n’est pas forcément le seul viable, même s’il apparaît aujourd’hui l’un des plus praticable. La vague de réaction initié par le directeur de la BNF et menant au projet de bibliothèque numérique européenne montre bien que des alternatives sont souhaitées (à défaut d’être trouvées).

Quelles que soient les alternatives, elles ne pourront pas faire l’économie d’une réflexion sur les droits d’auteur. S’il apparaît vraisemblable que la (les) communauté(s) scientifique(s) basculera(ont) progressivement vers des archives ouvertes selon le modèle OAI-PHP, les informations d’ordre « non-scientifiques » (à défaut d’une appellation contrôlable homologuée) ne pourront probablement pas suivre ce modèle, à moins d’en arriver à un financement étatique généralisé, non pas de l’information, mais de l’infrastructure permettant son stockage et son accès. On peut aussi imaginer que ces coûts soient répercuté sur les consommateurs via l’augmentation des coûts d’abonnement versés aux fournisseurs d’accès.

Les fonds

Ce derniers point renvoie à la gestion des fonds. La représentation sous-jacente de la gestion de l’information oblitère largement la question des coûts de constitution de l’information. Le coût d’une base de données, par exemple, est généralement estimée en additionnant les coûts matériels et logiciels et les coûts de maintenance associés ; on ignore la plupart du temps totalement les coûts d’alimentation de la base, qui sont principalement des coûts humains et qui, sur la durée, peuvent représenter peut-être cinq fois plus que les coûts matériels et logiciels (je m’avance un peu en articulant ces chiffres car ces calculs ont très rarement été effectués).

Se pose alors la question du calendrier de conservation. Si cette notion est maintenant assez bien maîtrisée par les archivistes en ce qui concerne la production documentaire interne des organisations, elle est encore peu explorée dans le domaine du savoir (qu’il soit qualifié de scientifique ou non). Ce choix dépend de critères multiples qui ne font pas consensus actuellement. A titre d’exemple, une statistique de prêt/consultation d’ouvrages montre une non-consultation de certains ouvrages. Sur cette base on peut soit décider de « désherber » c’est à dire d’éliminer l’ouvrage « inutilisé » pour faire la place pour d’autres plus « actifs », soit de promouvoir ces ouvrages méconnus en organisant diverses actions (vitrine, exposition, etc.). On voit bien que ce type de décision dépend d’un position politique, elle-même modulée par des considérations économiques explicites ou implicites. La dématérialisation créé une nouvelle donne mais n’exclu pas le besoin de réflexion à ce niveau.

L’empreinte

Actuellement, la gestion des traces heurte de plein fouet les dispositions sur la protection des données personnelles. Le traitement des forums de discussion et des blogs par les moteurs de recherche permet de former des profils de personnalité dont les services de sécurité n’osaient pas rêver il y a encore 10 ans. Cette traçabilité mériterait un débat à elle toute seule, d’autant que par ailleurs les instruments statistique de consultation des sites internet pêchent par leur imprécision. Il n’est toujours pas possible de dire qu’un page accédée a été lue. A ce titre là l’option de Google de privilégier les liens (attribués par des êtres humains) comme indice de notoriété (à défaut de pertinence) semble provisoirement être le choix le plus pertinent.

Faut-il définir l’empreinte numérique du côté des fournisseurs de contenus ou peut-on penser que le l’étiquetage (tag) selon la folksonomie propre des usagers permet la constitution de cette empreinte, mais du côté de l’usager….

La navigation

La définition des outils utiles mérite aussi à lui seul un débat. Pour moi les deux points problématiques sont les suivants :
- Il n’existe pas d’ontologie universelle et mon expérience me dit qu’elle est irréalisable. La conséquence en est que seul un découpage du savoir est efficace alors qu’en même temps ce cloisonnement est généralement reconnu comme un obstacle à la compréhension du monde.
- Tant qu’un logiciel d’annotation et de catégorisation aussi universel et fonctionnel que windows n’existera pas une gestion conviviale des documents/données ne sera pas possible.

Ces questions renvoient à des questions épistémologiques beaucoup plus fondamentales. Dans un monde numérisé quel est la structure documentaire la plus efficace. Les structures éditoriales du livre et du périodique ne sont peut-être plus adéquates, mais par quoi les remplacer ?

Economie du document (Bloc-notes de Jean-Michel Salaün)

Commentaires

Recherche

À retenir

Catégories

Liens

Cours Ecodoc

Master Archinfo (ENS)

Maîtrise SI (EBSI-UdeM)