Livre et journal : danseuse et entraineuse de Google
Par Jean-Michel Salaun le jeudi 31 juillet 2008, 20:50 - Moteurs - Lien permanent
Jean-Claude Guédon, dans une de ses (saines) colères, réagit avec un même argument à deux récentes actualités de Google Books :
- La première réaction, Who Will Digitize the World's Books?, New York Review of Books, Volume 55, Number 13 · August 14, 2008 (ici, repéré par A. Pierrot qui le commente), concerne l'article de R. Darnton publié dans le numéro précédent de la même revue et déjà critiqué avec un tout autre argumentaire sur ce blogue (là).
- La seconde réaction (ici) suit l'annonce de l'accord signé par la Bibliothèque municipale de Lyon sur la numérisation par Google de son important fonds patrimonial (communiqué de l'AFP 10 juillet 2008 ici).
Dans les deux cas Jean-Claude dénonce ce qu'il considère comme une complaisance ou un aveuglement vis-à-vis de la stratégie de Google qui imposerait un monopole sur la mise en ligne des fichiers textes. Je le cite :
Ce que Google recherche actuellement, c'est un monopole sur la capacité d'appliquer toute forme d'algorithmique à la documentation numérique mondiale. En bref, Google veut devenir le système d'exploitation de la documentation numérique et pourra ainsi contrôler toutes les opérations de récupération, identification, analyses sémantiques, etc. que l'on peut effectuer ou imaginer dans le monde numérique.
Je crois qu'il se trompe, à la fois sur la stratégie particulière de numérisation des livres et sur l'idée d'une stratégie globale de la firme. J'ai pu par le passé faire la même analyse sur le même sujet (voir, par ex là), mais mon opinion a changé, comme d'ailleurs peut-être aussi la stratégie googlienne.
C'est l'occasion de revenir sur le sujet, de tenter quelques éclaircissements sur la dite stratégie et son articulation avec l'économie d'anciens médias. Pour bien comprendre la stratégie de Google vis-à-vis des documents publiés, il faut d'abord intégrer le fait que la firme est une organisation apprenante, c'est à dire qu'elle tire rapidement les leçons des ruptures qu'elle provoque par sa capacité d'innovation, leçons dont les conséquences sont parfois divergentes. Je prendrai brièvement deux exemples, celui du livre et celui de la presse.
Le livre est devenu la danseuse de Google
Le programme de numérisation de Google a très vite rencontré des difficultés. Les premières sérieuses ont été d'ordre juridique. Suite à la réaction des éditeurs, le moteur ne peut offrir un service significatif de lecture continu en ligne des livres sous droit, seulement des extraits souvent sans utilité. Les secondes ont été d'ordre technique avec les problèmes difficiles d'une numérisation de qualité, tout particulièrement la reconnaissance optique des caractères (voir à ce sujet l'intéressant point fait par A. Pierrot, là). Les troisièmes sont d'ordre bibliographique avec l'indexation et le repérage des éditions (voir ici).
Ces difficultés ne sont pas résolues, il ne semble pas non plus que Google malgré ses capacités financières ait vraiment pris les moyens pour qu'elles le soient. Le soupçon de J-Cl Guédon paraît alors quelque peu exagéré, même si on peut critiquer, du fait justement des limites notées, les positions de R. Darnton ou de la ville de Lyon.
On peut alors s'interroger sur les motivations véritables de la firme dans le domaine du livre. Faut-il y voir un cheval de Troyes pour attaquer le marché du livre (numérique ou papier) ? C'est bien peu probable, compte-tenu de la position dominante prise par Amazon. Tout au plus peut-on considérer ici qu'il s'agit de contenir celui-là en intervenant sur son terrain. Faut-il y voir une volonté de réaliser une nouvelle bibliothèque d'Alexandrie dont la firme aurait le monopole ? Il manquerait alors vraiment un bibliothécaire à la tête d'un projet qui ne paraît même pas connaitre la notion de collection, mais, là, en intervenant massivement sur ce terrain, Google met une barrière à l'entrée trop haute pour les autres acteurs et évite ainsi à d'autres la tentation de bâtir une bibliothèque qui le concurrencerait. Le retrait récent de Microsoft de son projet de numérisation de livres est caractéristique.
Je crois plutôt que le livre est devenu, bon gré mal gré, une danseuse pour Google. Son arrivée sur ce terrain n'a pas modifié l'économie du livre, ni celle des bibliothèques. Il en tire prestige grâce l'aura toujours forte de l'ordre du livre, se fait quelques alliés prestigieux dans l'intelligentsia et du côté des bibliothécaires, quelques ennemis aussi mais l'important est qu'on associe son nom à la culture. Et il reste que, bien entendu malgré ses défauts, il s'agit d'un service supplémentaire accessible par son moteur, parfois très utile.
La presse est une des entraineuses de Google
Les relations entre la presse et Google sont un autre sujet de polémique. Et la stratégie a été fort différente. Ici, pas de plan massif, pas de réel partenariat, sinon pour faire taire les plus grincheux (AFP..). Mais le développement d'un outil de traitement pour proposer automatiquement un panorama de presse (Google News) et une concurrence/complémentarité sur le marché publicitaire.
Il y a bien eu un conflit avec les éditeurs de presse belges (voir ici). Mais globalement, la presse ne peut se passer de Google News qui est devenue une des principales alimentations du trafic de ses sites et donc, malgré la grogne, un consensus s'est installé. Là encore, on peut s'interroger sur la motivation réelle de la firme à développer un service qui ne lui procure pas de revenus directs puisqu'il n'y a pas de publicité sur les pages du service. La réponse vient d'être donnée par Marissa Mayer, responsable des recherches sur les produits et les usages de la firme à un déjeuner du journal Fortune qui la résume ainsi (trad JMS) :
Google News est gratuit et n'a pas de publicité. Alors combien rapporte-t-il à Google ? Environ 100 millions de $. (..) Le géant en ligne compte sur Google-News pour orienter les lecteurs vers le principal moteur de recherche de Google, où ils font des recherches qui, elles, génèrent de la publicité.
What’s Google News worth? $100 million, Fortune, 22 juillet 2008 (ici) repéré par Abondance (là).
Ainsi, on trouve clairement la possibilité de faire des recherches sur l'ensemble du Web par le moteur en haut de la page de Google News, (par ex ici), alors que cette possibilité n'existe pas sur Google Books (p ex là, voir en commentaire sur ce point la remarque de M. Lessard et ma réponse). Il n'y a bien évidemment aucun monopole possible de Google sur la capacité de traitement des pages des journaux, mais une rentabilité certaine, si l'on en croit les chiffres indiqués, d'un service qui reprend la classification et le filtrage réalisé par les journaux, y adapte la puissance de traitement sémantique de la firme, et ne demande in fine qu'une maintenance légère.
Ainsi les relations entre Google et les médias traditionnels ne peuvent être analysées sans une référence précise à leur mode d'organisation (on pourrait faire encore une troisième analyse sur la vidéo ou une quatrième sur l'encyclopédie, par exemples). La firme, même quand elle bouscule les positions établies, ne peut faire table rase de la situation et doit y adapter chaque fois sa stratégie. On aurait tort de l'analyser globalement.
MAJ du 3 août 2008
Sur les difficultés de Google avec la justice. Voir l'intéressante synthèse des étudiants de l'INTD :
Jérome Constant, Denis Madelaine, et Carine Sébast, Les rapports de Google avec la justice, Synthèse documentaire (Paris: INTD-CNAM, Mai 20, 2008), ici .
MAJ du 5 août 2008
Sur un thème complémentaire :
How Google Used Librarians…and Got Away With It, Library Stuff, June 29th, 2008 (ici, repéré par Des Bibliothèques 2.0 là)
Steven Cohen remarque que Google après avoir déployé une large campagne de communication en direction des bibliothécaires a tout arrêté depuis un an. Le blog qui était dédié à cette tache n'est même plus alimenté depuis ce temps. Extrait (trad JMS) :
Ainsi, Google continuera à utiliser les bibliothécaires, numériser leurs livres, en tirer profit, et ensuite nous laisser pourrir dans la poussière de l'information comme une vieille machine à microfilms.
Réponse de W. Crawford en commentaire :
Google Book Search permet une recherche d'éléments dans les livres qu'aucune bibliothèque ne peut réaliser seule. Il ne procure pas le livre, mais révèle tout spécialement un élément (un paragraphe sur un thème dans un livre de 300 pages), il fait ressortir des références qui sans cela resteraient cachées. (..)
Un accès plus large au domaine public. Une recherche sur le texte intégral des livres que les bibliothèques ne peuvent fournir. Comment vraiment cela nous "laisse dans la poussière de l'information"?
MAJ du 12 août 2008
Grâce à JD Zeller, merci à lui :
Benoit Raphael fait la synthèse de plusieurs billets de Jeff Jarvis, qui suggère que les journaux se recentrent sur la production de contenu et laissent à Google la distribution. Il lel traduit et cite :
"Voici mon conseil, journaux ("papers") : Sortez le plus vite possible du buisiness de la fabrication, de la distribution et de la technologie. Eteignez les rotatives. Externalisez les ordinateurs. Externalisez l'editing en Inde ou chez vos lecteurs. Collaborez avec le public. Et, ensuite, demandez vous qui vous êtes. La réponse importe vraiment..." (J.Jarvis)
Benoit Raphael, “La nouvelle économie des rédactions du futur,” Demain tous journalistes ?, ici.
C'est une provocation qui a le mérite de faire réfléchir, mais mon avis, il y a là une double erreur d'analyse. Il ne faut pas confondre journal et agence de presse. Les médias se sont construit d'abord par le contact avec le lecteur. La mise en page en est un exemple, l'objet et la distribution en sont d'autres. D'autre part, Google n'est pas un simple distributeur, la recherche d'information est aussi une activité médiatique.
Complément du 9 septembre 2008
Belle illustration de la différence de traitement des journaux et du livre par Google, le nouveau service d'archives de la presse qu'il vient d'ouvrir (ici). Voici deux présentations critiques mais avec un parti-pris assez net, car écrites par des journalistes :
Narvic, “Google News Archive Search : Google met à jour ses archives de presse,” Novövision, (là).
Emmanuel Parody, “Google Archives : vers la bibliotheque universelle,” ecosphere, (là).
Complément du 27 septembre 2008
Repéré grâce à A. Pierrot :
Adam Hodgkin, “How many publishing CEOs know what an API is?,” Exact Editions, Septembre 23, 2008, ici.
Commentaires
Je suis d'accord avec vous lorsque vous dites que Google « ...est une organisation apprenante [qui] tire rapidement les leçons des ruptures qu'elle provoque par sa capacité d'innovation » et quand vous nous mettez en garde devant la tentation d'analyser tout ses projets dans un cadre trop global.
Il m'apparaît néanmoins important de nous interroger sur certaines différences fondamentales entre les projets de Google. Dans le cas des deux que vous évoquez, par exemple — News et Books —, qu'est-ce qui explique que dans un cas (News) Google accepte de rediriger les internautes directement vers les sites Web d'éditeurs (de presse) pour lire les documents alors que dans l'autre (Books) Google continue de refuser de donner accès qu'à des documents archivés ailleurs que sur ses serveurs (contraignant les éditeurs à lui confier leurs documents en vertu de contrats en bonne et due forme)?
@Clément
La raison peut être à chercher dans le fait que Google part de la notion (problématique! cf. le modèle FRBR www.bnf.fr/pages/infopro/...) d'œuvre et non de publication dans son projet 'Books', ce qui pose plus de problèmes pour rechercher les ayants droit et donner un lien sans problème de gestion dans le temps — surtout dans la culture du copyright.
La question est importante. Il est difficile d'y répondre sans hésitation, seul Google peut le faire.
Tout d'abord, il faut noter que la presse est numérique, d'un bout à l'autre de la chaîne, alors que le livre ne l'est pas la plupart du temps, même souvent pour le dernier maillon dans les éditions récentes d'ailleurs. Il est donc impossible d'avoir le monopole de traitement sémantique sur le plein texte pour la première. Inversement, il est indispensable d'effectuer une couteuse opération de retraitement pour le second. D'où la nécessité de disposer des exemplaires, papiers ou numériques.
Ceci pour autant ne répond pas à la question de savoir pourquoi Google souhaite garder les fichiers des livres et en interdire le traitement sémantique. Voici quelques éléments de réponse :
Même si les principes sont les mêmes, la problématique du droit d'auteur joue différemment dans la presse et dans le livre, où le principe d'affaires est que la rémunération est proportionnelle à l'usage. Dans ce dernier secteur, plusieurs instructions judiciaires sont en cours aux US et en France. Google poursuit son programme de numérisation, mais a éliminé tous les éléments qui pourraient laisser penser à une rémunération du service ou à une facilitation de la copie.
Pour le dire autrement si l'on raisonne sans modification des règles du jeu, tout ce qui permet de voir un article de presse augmente potentiellement la rémunération de la presse (captation de l'attention revendue aux annonceurs), par contre tout ce qui permet de voir un livre réduit la rémunération de l'éditeur (basée sur une transaction sur les exemplaires appropriés).
C'est pourquoi, il est utile de positionner clairement dans l'analyse, le Web par rapport aux autres médias. C'est ce que j'essaie de faire sur ce blogue, notamment en proposant un positionnement sous forme de pentagone : blogues.ebsi.umontreal.ca...
Je voudrais apporter une petite correction: la possibilité de faire des recherches sur l'ensemble du Web par le moteur en haut de la page de Google News _existe_ sur Google Books. (ref. avant dernier paragraphe avant MAJ)
En effectuant une recherche sur n'importe quel terme il est possible, sur la page de résultat, de passer, sans changer le terme, d'un service à l'autre (web, images, actualités, cartes, blogues, lives, etc) en choisissant le menu horizontal du haut.
Ce que Gnews offre de plus, et je me demande si c'est significatif, c'est la possibilité de changer de service _avant_ d'effectuer la recherche. On entre le terme de recherche dans le champs et il est possible de soi rester dans gnews ou de passer sur le web (bouton gris à droite).
Merci Martin pour cette précision.
Je crois que la différence est significative, car la place des boutons et surtout leur caractère intuitif induit des comportements à l'échelle statistique très sensiblement différents.
Mais mon analyse est peut-être aussi incomplète. Un rapide passage en revue montre que le bouton est présent sur la recherche d'actualités, de blogues, mais pas d'images, ni de cartes, de vidéos et de livres, comme si les premiers n'étaient pour Google qu'un sous-ensemble du Web, les seconds des collections particulières. Ou, sans contradiction et en cohérence avec mon propos initial, les premiers relevaient d'un même marché de l'attention tandis que les seconds suivaient des cheminements spécifiques.
Pour revenir à la remarque initiale de Clément Laberge, on peut en retenir que Google News joue sur le marché de l'attention, preuve en est sa rentabilité publicitaire (et il est là en concurrence directe avec le modèle économique journalistique), alors que dans Google Book ou Google Scholar on entre dans le marché de la connaissance (ou plutôt des connaissances), pour lequel les modèles alternatifs à la publication scientifique ne sont pas encore mûrs, sans compter le pan entier de la littérature qui est celui ou Google se heurte à la plus grande résistance (droit d'auteur oblige...). Pour schématiser les options en cours: - le modèle public avec les archives ouvertes (domaine scientifique) et Europeana (domaine littéraire) et - le modèle Google Scholar (scientifique) et Google Book (littéraire)qui avance masqué pour l'instant.
Réfléchissant actuellement à la construction des bases de connaissances, dont l'unité élémentaire semble être le paragraphe, je tendrais à prêter à Google une intention allant dans ce sens dans sa volonté d'offrir des "tranches" de livre. Là où le bât blesse c'est l'efficacité de l'algorithme. Si l'approximation est supportable dans les news, elle devient rédhibitoire dans le domaine scientifique. Si Google veut réellement aller dans cette direction, l'acquisition d'outils de type ontologique me semble une condition sine qua non de la réussite (il n'existe cependant pas d'ontologie universelle qui permettrait de traiter le fonds mondial que Google se propose de traiter). La liste des prochaines acquisitions boursières de Google pourrait servir pierre de touche pour cette hypothèse.
Autre piste, plus calculable celle-là: le chaînage des citations, mais quel est l'utilisateur de cet outil potentiel quand on sais qu'une citation peut être "pro ou contra" (voir à ce sujet le travail de Marc Bertin "Evaluation de la production scientifique et annotation sémantique" publié lors de la semaine du document numérique de 2006 à Fribourg / CIDE).
L'agilité de Google me paraît être très efficace quant il s'agit de documents né-numériques (en gros, le web), et dont le cycle de vie est très rapide. Mais comme le montre justement ce billet, cette stratégie (si s'en est une ?) semble nettement moins efficace pour des ouvrages s'inscrivant dans le temps long et demandant un effort de ressaisie considérable (mais capitalisable). N'oublions cependant pas que Google a attendu de nombreuse années avant d'avoir un business model rentable de son moteur via AdWords, il peut se permettre de thésauriser des livres en attendant de trouver un nouveau modèle.
Bonjour Jean-Daniel (décidément personne n'est en vacances, je me sens un peu moins seul ;-)
Deux remarques complémentaires à ton propos :
À côté de la stratégie googleienne sur l'information scientifique, il semble que nous soyons entrés dans un nouveau round de négociations entre les éditeurs scientifiques et les bibliothèques sur les licenses. Les premiers, après avoir calculé les licences à partir des anciens abonnements papiers + un montant variable, voudraient maintenant que les vrais usages commencent à être quantifiés revoir leurs tarifs par rapport à ceux-là. Nous sommes bien là dans une logique de vente de connaissance et non d'attention.
Sur le découpage des livres en extraits, qui renvoie à l'analyse de JCl Guédon et à l'argument de Crawford dans la seconde actualisation du billet, on ne comprend pas très bien comment Google pourra le monétiser. L'économie de l'attention parait peu efficiente et encore moins la vente à la pièce, la license est contraire à la logique de Google.. cela parait plutôt une impasse.
La question de Google comme entreprise de presse (ou non) semble être dans l'air du temps puisque le New York Times vient de sortir un article à ce sujet "Is Google a Media Company ?", en relation avec l'annonce de Knol (repéré via le Monde du blog).
Voici le lien.
www.nytimes.com/2008/08/1...
L'article pointe une question majeure, qui est celle de la position de plus en plus monopolistique de Google, indépendamment de son positionnement éditorial.