BNUE, Quaero : erreur de communication ou de casting ?
Par Jean-Michel Salaun le samedi 27 mai 2006, 12:26 - General - Lien permanent
Ces derniers jours, les annonces, publications, manifestations se sont multipliés en France autour du projet de Bibliothèque numérique européenne (BNUE) et de son petit frère, le dit-moteur européen Quaero (pour les débuts de l'aventure, voir mon article). Cette accumulation, dont je ne relèverai ici qu'une petite partie, s'explique sans doute par de prochaines décisions de la Commission européenne sur le sujet. Extrait d'un communiqué de la Commission :
La Commission a l’intention de présenter une proposition de recommandation pour la mi-2006 afin de s’attaquer, en collaboration avec les États membres et le Parlement européen, aux obstacles à la numérisation et à l’accessibilité en ligne. Dans le courant de cette année, la Commission présentera aussi sa stratégie pour la création de bibliothèques numériques consacrées au contenu scientifique et universitaire. Avant la fin de l’année, une communication de la Commission sur le «contenu en ligne» traitera des questions plus vastes telles que la gestion des droits de propriété intellectuelle à l’ère numérique.
À lire les différentes interventions, il ressort d'abord que la communication autour de ces mouvements en France a été désastreuse et ensuite que les deux projets sont en fait complètement distincts et sans doute très différents de ce qu'on a pu dire.
Du côté de la BNUE "made in France", disons d'abord que JN Jeanneney, président de la BNF, propose un nouvel article dans Le Monde. Il prend date, sans doute, mais ne dit rien. Plus intéressant est le long, très long, article de Valérie Tesnière et Noémie Lesquins faisant le point sur la réflexion française. C'est sans doute une bonne synthèse pour ceux qui n'ont pas suivi la question. Personnellement, j'en retiens surtout deux leçons :
1) La volonté de poser tous les problèmes, dans toutes leurs dimensions, a le mérite de souligner leur complexité qui avait été quelque peu caricaturée auparavant. Mais elle est plus proche d'une logique administrative que d'une logique entrepreneuriale, qui suppose la prise de risque. Or le Web se nourrit d'expérimentations et de tâtonnements. Le défi pour les bibliothèques est d'assumer cette prise de risque, la BNF en est-elle capable ? Elle l'avait fait avec Gallica, les initiatives annoncées paraissent sages, trop sages pour emporter l'adhésion des internautes. On peut mettre en balance la récente mise à disposition par l'INA de 100.000 émissions, même pas citée dans l'article.
2) L'insistance martelée sur la différence entre une logique de stock, d'accumulation, qui serait celle de Google ou encore des partenaires de l'Open Content Alliance et la logique proposée par la BNF, de choix raisonné pour la numérisation, disons de collection. Ce thème, très souvent rappelé, presque comme un slogan, dans de nombreuses interventions sur le sujet me paraît présenté d'une façon réductrice. Sans doute les bibliothèques qui sont au service d'une communauté, grande ou petite, doivent mettre à sa disposition une collection raisonnée, c'est leur raison d'être. Mais il ne faut pas confondre le catalogue et le magasin. Dans le magasin, on gère un stock, en cataloguant on construit une collection. Autrement dit, le processus de numérisation est bien une constitution de stock que l'on a intérêt à partager, à mutualiser et `rendre interopérable, chaque structure se donnant les priorités qui lui semblent les plus pertinentes et, si possible, engageant un processus d'échelle industrielle. Par ailleurs, sur la base de ce stock, et à l'échelle du Web, il faut construire des collections et sans doute aussi les outils qui permettront de les rendre les plus pertinentes pour telle ou telle communauté que l'on doit desservir.
Par ailleurs, une récente table-ronde s'est tenue au Sénat français pour faire le point sur le projet Quaero, jusqu'ici présenté comme un volet complémentaire de la BNUE, le moteur permettant l'accès aux contenus en ligne. Un compte rendu est disponible ici. Didier Durand en profite pour réïtérer son scepticisme, chiffres à l'appui, sur le développement d'un moteur européen.
Mais la lecture du compte-rendu témoigne plus une communication désatreuse que d'une stratégie absurde. En réalité, Quaero apparaît plutôt comme le nom de code donné au soutien à toute une filière de R&D allant de la recherche multilingue jusqu'à la recherche sur les images en passant par la traduction automatique de l'écrit à l'oral. Pas grand chose à voir donc avec un moteur intégré sinon qu'Exalead est l'un des protagonistes. Dès lors, on peut se réjouir du soutien donné sur des thèmes en effet essentiels, on peut s'interroger sur le peu de transparence de ce processus qui a tout du "fait du prince" et pour juger les options choisies et les résultats, il faudra (encore) attendre de vraies données.
Commentaires
On peut comprendre une part de la méfiance de certaines bibliothèques vis-à-vis de Google, dans la mesure où il construit une base fermée de textes validés. L'accumulation du stock à son seul profit lui donne un capital qu'il peut valoriser mieux que n'importe qui d'autres compte tenu de sa puissance en R&D. Cela à deux conséquences au moins :
- Sans doute chaque bibliothèque pourrait construire de son côté une bibliothèque numérique à partir de ses livres numérisés, mais quel internaute l'interrogerait puisqu'il aurait bien plus sur Google ? Déjà, les bibliothèques ont perdu la bataille de la recherche d’informations (84% des recherches commencent par un moteur, 1% par un site de bibliothèque, données OCLC..). Faut-il aussi abandonner la maîtrise des textes validés ? Je crois que l’article du BBF pose les bonnes questions sur ce point.
- La validation des textes est une plus value, construite par d’autres, mais exploitable pour une firme comme Google. Pour donner un exemple de l'utilité d’un corpus validé pour les outils automatiques, il semblerait que Google a perfectionné son outil de traduction automatique à partir du corpus de textes multilingues de l'UNESCO..
On peut se réjouir de voir se développer tant d'outils. On peut aussi se méfier de les voir se concentrer dans une seule main et aussi penser que l'intérêt général ne saurait dépendre simplement d'une firme privé.
Sur l'efficacité des outils de recherche de Google sur le texte imprimé, je ne suis pas spécialiste mais je crois qu’il faut se méfier des jugements à l’emporte-pièce. Voilà ce qu'en disait J. Véronis le 29 janvier 2005, soit avant que les polémiques sur le droit d'auteur ne démarrent et que Google bride l'accès aux textes.