Google Book Search, les frustrations d'un narcisse
Par Jean-Michel Salaun le mercredi 06 février 2008, 18:05 - Moteurs - Lien permanent
H. Guillaud s'émerveille (ici) à juste titre du moins pour l'exemple qu'il donne sur l'interface et le contenu de Google Book Search. Mais, étant narcissique comme tout blogueur qui se respecte, j'ai essayé avec mon nom.. et j'ai eu quelques surprises qui ont refroidi mon enthousiasme.
L'intérêt en effet de travailler sur soi-même est de pouvoir faire une comparaison avec la connaissance fine que l'on a de sa propre production. Ma bibliographie basique d'enseignant-chercheur comprend à la rubrique «Livre» 27 items. Il s'agit de livres dont je suis auteur, co-auteur ou seulement auteur d'un chapitre ou encore que j'ai dirigé.
La requête «jean-michel salaün» amène 34 titres à 18h le 6 février 2008 et 32 à 22h (je ne sais combien vous en aurez, c'est là). Parmi ces derniers, il y en a 10 dont je suis effectivement auteur au sens du paragraphe précédent, 4 où je suis cité (dont un dont j'ai fait la préface). A`ceux-là s'ajoutent 1 revue que j'ai co-dirigée, 1 mémoire d'étudiant que j'ai dirigé, 1 vieux polycopié d'un cours, pourquoi ceux-là ? mystère. Tous sauf un, qui propose un affichage d'extraits (c'est à dire quelques lignes lisibles) ne sont que des éléments bibliographiques vraisemblablement tirés de Worlcat. Le reste n'est que bruit d'homonymes et, curieusement, quelques pages numérisées de Livre-Hebdo.
La requête «jean-michel salaun», sans le tréma, amène 55 titres à 18h (54 à 22h20, c'est là), un peu de bruit, pratiquement aucun dont je suis l'auteur mais surtout beaucoup de citations dans des livres dans diverses langues dont j'ignorais jusqu'ici l'existence et dont 18 proposent un aperçu limité, c'est à dire quelques pages.
Conclusion : Je peux comprendre et excuser le bruit, on n'attend pas d'un moteur un tri parfait. Je comprends un peu moins le silence, mais, bon, le catalogage des bibliothécaires n'est pas non plus sans défaut. Je veux bien comprendre aussi qu'un seul livre soit numérisé, il faut du temps au temps, d'autant que ce n'est pas le plus mauvais ;-), mais j'ai un peu de mal à accepter qu'il ne soit pas accessible en texte intégral alors qu'il est depuis fort longtemps épuisé.
Mais ce qui me parait peu admissible, c'est le mélange des genres entre fiches de catalogue, livres numérisés, auteurs, citations, etc. Pour Google, le Web n'est qu'un vaste texte où tout se mélange. Cela se comprend pour le Web ordinaire, c'est difficile à admettre pour des documents inclus dans un ordre documentaire aussi structuré que celui des livres. Encore moins quand les bibliothécaires prêtent aussi complaisamment leurs outils. Que fait OCLC dans ce bic-à-brac ? Qu'a-t-il à y gagner ?
Sans doute les bibliothèques peuvent faire ainsi numériser leurs livres à faible coût. Mais le lecteur gagne-t-il quelque chose ? Pour ce qui concerne mon exemple en tous cas les seules informations que je n'aurais pas trouvées dans WorldCat sont les citations de mon nom, mais à part une minuscule satisfaction personnelle, elles n'apportent rien, car à ce niveau d'imprécision on ne peut en tirer de leçon. À vouloir jouer la rapidité à tout prix et la quantité, j'ai le sentiment que l'on ajoute surtout au bordel ambiant..
Sans doute l'exemple donné par H. Guillaud est différent.. sauf qu'il s'agit là d'un éditeur qui a choisi de donner un large accès à ses publications, autrement dit une exception.
Commentaires
Vous êtes très narcissique effectivement Jean-Michel ;-).
Je suis assez d'accord avec vous sur les limites du moteur, mais ce n'est pas ce dont je parlais. Je parle effectivement de ce qui va arriver dans Google Books, quand certains éditeurs vont y donner un large accès à leur catalogue.
Je voulais juste montrer l'avantage de l'accès. Ce qui est tout autre chose. ;-).
@ Hubert
Oui, j'ai abusivement utilisé l'allusion à votre billet pour des plaisirs coupables ;-)
Mais, comme les célébrations de Google par les bibliothécaires semblent reparties de plus belles, il m'a semblé utile de nuancer un peu. Pour le dire plus pompeusement, il y a, me semble-t-il, un vrai problème à laisser utiliser et dévoyer un ordre documentaire ancien au profit d'une firme privée sans le moindre esprit critique.
Savez-vous WorldCat Identities? orlabs.oclc.org/identitie...
votre page: orlabs.oclc.org/identitie...
Waoh ! Merci Éric, je ne vais plus pouvoir passer par les portes !
Mais alors, je ne vois plus du tout l'intérêt de Google Book Search, en tous cas dans sa version actuelle.
Et puis-je vous poser la question des relations entre OCLC et Google ?
You can answer in English. What are the relationships between OCLC and Google? Is there any deal about Google Search Book? If yes, what is the interest for OCLC? If not, how could you explain the use of Worldcat by Google, if any?
Je vous félicite ; pour commencer.
Vous testez Google books sur l'ensemble que vous connaissez le mieux ; il n'en est pas d'autre où votre critique pourrait être plus pertinente. Il m'arrive de reprocher à Jean Véronis de tester les moteurs sur des ensembles trop vastes pour être maitrisés.
Mais ...
Vous deviez bien vous y attendre.
Il ne suffit pas de savoir sur quoi chercher ; il faut aussi savoir chercher !
J'ais demandé à Google de quoi vous étiez l'auteur. Il m'a fourni 13 (treize) références.
Ce qui veut dire que les 14 qui manquent, soit ne vous ont pas été attribuées car vous n'y étiez pas suffisament auteur ; soit n'ont pas été jugées dignes d'être cataloguées par aucune des sources qu'a exploré Google. Vous seul (à priori) étes a même d'en juger.
Comment j'ai fait ?
J'ai cliqué sur le bouton "Recherche avancée". C'est fait pour les gens doués ; mais aussi pour les nuls qui ne connaissent pas les mots clés des requêtes pointues. Ce qui est mon cas.
Le mot clé pour avoir les textes dont l'auteur est le nom fourni (entre "" pour bien lier prénom et nom), a l'exclusion des simples citations, est «inauthor:».
Vous pouvez répéter l'expérience. C'est même la base de toute démarche scientifique !
Aprés, c'est vous qui voyez ...
PS : vous dites «j'ai un peu de mal à accepter qu'il ne soit pas accessible en texte intégral alors qu'il est depuis fort longtemps épuisé.». Ben, ya comme un petit problème de droit d'auteur.
Pour donner libre accés, il faut que le texte soit tombé dans le domaine public.
Ce qui n'adviens que 60 ou 80 ans (j'suis pas auteur !) aprés la mort de l'auteur.
Brieffez bien votre fantôme si vous voulez surveiller la bonne conduite de Google.
@ Pilou
Merci pour ces bons et ironiques conseils.
Mais l'objectif de ce billet n'est que de montrer le résultat de ce que font la quasi-totalité des internautes sur Google : une recherche en texte libre sur du plein texte, d'autant plus pertinente sur ce service qu'il est présenté comme un accès à des livres en théorie numérisés, donc avec un texte analysable.
La démarche que vous proposez est pertinente pour vraiment chercher les livres dont je suis l'auteur, mais elle montre bien que le service Google Search Book s'appuie d'abord sur les catalogues de bibliothèques. On peut s'interroger sur l'intérêt que peuvent avoir ces dernières à laisser un acteur commercial utiliser leurs outils pour proposer un service moins performant que celui qu'elles peuvent rendre, comme le montre le commentaire du collègue d'OCLC.
Bien sûr, c'est la question du droit d'auteur qui coince pour l'affichage complet du texte. Mais, l'auteur, à qui on n'a pas demandé son avis, a l'effronterie de le donner tout de même et d'affirmer que l'on tombe dans le comble du ridicule en ne donnant accès qu'à quelques lignes, alors que son livre est numérisé (le seul a-priori parmi les titres affichés sous son nom d'auteur), n'est plus disponible et ne sera évidemment jamais réédité. Il n'est pas besoin d'attendre que le texte tombe dans le domaine public, il suffit que les détenteurs des droits (ici l'éditeur Flammarion et l'auteur donnent leur autorisation, la moitié est déjà acquise).
Voici les résultats d'une recherche dans Google Scholar sur le même sujet :
Jean-Michel Salaün = 464 résultats en 0,04 sec.
"Jean-Michel Salaün" = 237 résultats en 0,48 sec.
Toutes mes félicitations! Mais il faut souligner que Google Scholar repêche les articles, les actes de conférences, les livres ainsi que les citations.
Dans la recherche avancée, avec le nom dans le champ auteur de l'article :
Jean-Michel Salaün = 71 résultats en 0,09 sec.
Je vous savais polyvalent, mais de là à publier dans Nature un article intitulé : Production and Neurotropism of Lentivirus Vectors Pseudotyped with Lyssavirus Envelope Glycoproteins je suis très impressionné et vraiment content de travailler avec vous.
Enfin, pour l'expression "Jean-Michel Salaün" on retrouve 63 résultats en 0,10 sec. Malheureusement, vous perdez la paternité du texte sur le Neurotropism of Lentivirus …
En résumé, l’emploi des guillemets est efficace, mais réduit grandement la rapidité de traitement de la requête :o)
L’une des principales forces de Google réside d'ailleurs dans la puissance et la rapidité de traitement des requêtes. Personnellement, je ne me souviens pas avoir effectué une recherche qui prenne plus de 0,5 seconde. Je me demande parfois si le système est conçu pour traiter l’information au-delà de cette limite absolue. Pour beaucoup de gens, trouver 3 267 435 résultats en moins de 0,5 seconde est un gage de performance et donc de qualité (dans le domaine informatique la puissance de la machine est souvent perçue comme un critère d’excellence et nous vivons dans une société ou plus c’est mieux). Et ce, malgré que de nombreuses études démontrent que seules les 2 ou 3 premières pages de résultats sont consultées. La recherche en bibliothèques repose sur le concept de relevance, une notion complètement différente de celle de performance. Une recherche de 15 minutes qui repêche entre 10-15 résultats pertinents (en fonction des besoins du client) est souvent considérée comme un succès.
Je connais moins Google Book, mais j’utilise beaucoup Google Scholar qui offre des fonctions intéressantes. Par exemple la possibilité de sauvegarder les références en format EndNotes. Il offre également la recherche dans les bibliothèques via WorldCat et bien que j’apprécie cette fonctionnalité, comme vous je m’interroge sur la stratégie de l’OCLC. La situation est similaire lors du moissonnage par Google des archives ouvertes, puisque tout le travail documentaire effectué par les bibliothèques n’est pas visible. Dans un article intitulé « The invisible library: paradox of the global information infrastructure » (disponible sur Google Scholar avec ou sans guillemets) Christine Borgman explique que les bibliothèques sont le plus souvent les premières victimes de leur succès. Plus elles sont efficaces, plus elles ont tendance à disparaître aux yeux des usagers qui ignorent les coûts importants liés au développement et à la mise à jour d’une collection qu’elle soit publique, universitaire ou privée.
"A paradox of the networked world is that as libraries become more embedded in the information infrastructure of universities, communities, governments, corporations, and other entities, the less visible they may become to their users, funders, and policy makers."
Les infrastructures informationnelles comme tous les autres types d’infrastructure d’ailleurs (aqueduc, électricité, transport, etc.) ont la caractéristique de disparaître à l’usage. Ce n’est que lorsqu’elles se brisent qu’elles nous apparaissent dans toute leur complexité. On peut ainsi mesurer notre degré de dépendance envers elles et l’importance qu’elles ont dans nos activités les plus « ordinaires ». La crise du verglas en est un exemple frappant. On en parle toujours après 10 ans.
Salut Dany,
C'est ça le problème avec le Web. On écrit un article dans sa jeunesse sur un truc qui n'intéresse personne.. et paf 20 ans après un étudiant curieux vous le ressort !
Plaisanterie à part, d'accord avec l'analyse. Il va falloir réfléchir à cela sérieusement.
Bonjour
@ Dany
"Pour beaucoup de gens, trouver 3 267 435 résultats en moins de 0,5 seconde est un gage de performance et donc de qualité (dans le domaine informatique la puissance de la machine est souvent perçue comme un critère d’excellence et nous vivons dans une société ou plus c’est mieux)."
C'est sans doute vrai pour ceux qui aiment les gros chiffres, mais force est de constater que Google ne renvoie pas plus de 1000 réponses/liens dans la réalité. (Quand on va au bout de la dernière page, à 100 liens par page ça va vite à vérifier)
Au-delà de 1000, toute réponse se révèle donc totalement fantaisiste, puisque inaccessible.
Sans aucun doute réelle, mais fantaisiste... comme tout vendeur informatique qui voudrait vous faire croire que plus c'est gros, mieux c'est.
La réalité est tout autre.
Plus la réponse vous est adaptée, mieux c'est.
Et très souvent, cogiter ses requêtes google pendant une minute permet de gagner plus de temps que de lire 20 réponses.
Bien cordialement
Bernard Majour