Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Recherche - web média

jeudi 31 juillet 2008

Livre et journal : danseuse et entraineuse de Google

Jean-Claude Guédon, dans une de ses (saines) colères, réagit avec un même argument à deux récentes actualités de Google Books :

  • La première réaction, Who Will Digitize the World's Books?, New York Review of Books, Volume 55, Number 13 · August 14, 2008 (ici, repéré par A. Pierrot qui le commente), concerne l'article de R. Darnton publié dans le numéro précédent de la même revue et déjà critiqué avec un tout autre argumentaire sur ce blogue ().
  • La seconde réaction (ici) suit l'annonce de l'accord signé par la Bibliothèque municipale de Lyon sur la numérisation par Google de son important fonds patrimonial (communiqué de l'AFP 10 juillet 2008 ici).

Dans les deux cas Jean-Claude dénonce ce qu'il considère comme une complaisance ou un aveuglement vis-à-vis de la stratégie de Google qui imposerait un monopole sur la mise en ligne des fichiers textes. Je le cite :

Ce que Google recherche actuellement, c'est un monopole sur la capacité d'appliquer toute forme d'algorithmique à la documentation numérique mondiale. En bref, Google veut devenir le système d'exploitation de la documentation numérique et pourra ainsi contrôler toutes les opérations de récupération, identification, analyses sémantiques, etc. que l'on peut effectuer ou imaginer dans le monde numérique.

Je crois qu'il se trompe, à la fois sur la stratégie particulière de numérisation des livres et sur l'idée d'une stratégie globale de la firme. J'ai pu par le passé faire la même analyse sur le même sujet (voir, par ex ), mais mon opinion a changé, comme d'ailleurs peut-être aussi la stratégie googlienne.

C'est l'occasion de revenir sur le sujet, de tenter quelques éclaircissements sur la dite stratégie et son articulation avec l'économie d'anciens médias. Pour bien comprendre la stratégie de Google vis-à-vis des documents publiés, il faut d'abord intégrer le fait que la firme est une organisation apprenante, c'est à dire qu'elle tire rapidement les leçons des ruptures qu'elle provoque par sa capacité d'innovation, leçons dont les conséquences sont parfois divergentes. Je prendrai brièvement deux exemples, celui du livre et celui de la presse.

Le livre est devenu la danseuse de Google

Le programme de numérisation de Google a très vite rencontré des difficultés. Les premières sérieuses ont été d'ordre juridique. Suite à la réaction des éditeurs, le moteur ne peut offrir un service significatif de lecture continu en ligne des livres sous droit, seulement des extraits souvent sans utilité. Les secondes ont été d'ordre technique avec les problèmes difficiles d'une numérisation de qualité, tout particulièrement la reconnaissance optique des caractères (voir à ce sujet l'intéressant point fait par A. Pierrot, ). Les troisièmes sont d'ordre bibliographique avec l'indexation et le repérage des éditions (voir ici).

Ces difficultés ne sont pas résolues, il ne semble pas non plus que Google malgré ses capacités financières ait vraiment pris les moyens pour qu'elles le soient. Le soupçon de J-Cl Guédon paraît alors quelque peu exagéré, même si on peut critiquer, du fait justement des limites notées, les positions de R. Darnton ou de la ville de Lyon.

On peut alors s'interroger sur les motivations véritables de la firme dans le domaine du livre. Faut-il y voir un cheval de Troyes pour attaquer le marché du livre (numérique ou papier) ? C'est bien peu probable, compte-tenu de la position dominante prise par Amazon. Tout au plus peut-on considérer ici qu'il s'agit de contenir celui-là en intervenant sur son terrain. Faut-il y voir une volonté de réaliser une nouvelle bibliothèque d'Alexandrie dont la firme aurait le monopole ? Il manquerait alors vraiment un bibliothécaire à la tête d'un projet qui ne paraît même pas connaitre la notion de collection, mais, là, en intervenant massivement sur ce terrain, Google met une barrière à l'entrée trop haute pour les autres acteurs et évite ainsi à d'autres la tentation de bâtir une bibliothèque qui le concurrencerait. Le retrait récent de Microsoft de son projet de numérisation de livres est caractéristique.

Je crois plutôt que le livre est devenu, bon gré mal gré, une danseuse pour Google. Son arrivée sur ce terrain n'a pas modifié l'économie du livre, ni celle des bibliothèques. Il en tire prestige grâce l'aura toujours forte de l'ordre du livre, se fait quelques alliés prestigieux dans l'intelligentsia et du côté des bibliothécaires, quelques ennemis aussi mais l'important est qu'on associe son nom à la culture. Et il reste que, bien entendu malgré ses défauts, il s'agit d'un service supplémentaire accessible par son moteur, parfois très utile.

La presse est une des entraineuses de Google

Les relations entre la presse et Google sont un autre sujet de polémique. Et la stratégie a été fort différente. Ici, pas de plan massif, pas de réel partenariat, sinon pour faire taire les plus grincheux (AFP..). Mais le développement d'un outil de traitement pour proposer automatiquement un panorama de presse (Google News) et une concurrence/complémentarité sur le marché publicitaire.

Il y a bien eu un conflit avec les éditeurs de presse belges (voir ici). Mais globalement, la presse ne peut se passer de Google News qui est devenue une des principales alimentations du trafic de ses sites et donc, malgré la grogne, un consensus s'est installé. Là encore, on peut s'interroger sur la motivation réelle de la firme à développer un service qui ne lui procure pas de revenus directs puisqu'il n'y a pas de publicité sur les pages du service. La réponse vient d'être donnée par Marissa Mayer, responsable des recherches sur les produits et les usages de la firme à un déjeuner du journal Fortune qui la résume ainsi (trad JMS) :

Google News est gratuit et n'a pas de publicité. Alors combien rapporte-t-il à Google ? Environ 100 millions de $. (..) Le géant en ligne compte sur Google-News pour orienter les lecteurs vers le principal moteur de recherche de Google, où ils font des recherches qui, elles, génèrent de la publicité.

What’s Google News worth? $100 million, Fortune, 22 juillet 2008 (ici) repéré par Abondance ().

Ainsi, on trouve clairement la possibilité de faire des recherches sur l'ensemble du Web par le moteur en haut de la page de Google News, (par ex ici), alors que cette possibilité n'existe pas sur Google Books (p ex , voir en commentaire sur ce point la remarque de M. Lessard et ma réponse). Il n'y a bien évidemment aucun monopole possible de Google sur la capacité de traitement des pages des journaux, mais une rentabilité certaine, si l'on en croit les chiffres indiqués, d'un service qui reprend la classification et le filtrage réalisé par les journaux, y adapte la puissance de traitement sémantique de la firme, et ne demande in fine qu'une maintenance légère.

Ainsi les relations entre Google et les médias traditionnels ne peuvent être analysées sans une référence précise à leur mode d'organisation (on pourrait faire encore une troisième analyse sur la vidéo ou une quatrième sur l'encyclopédie, par exemples). La firme, même quand elle bouscule les positions établies, ne peut faire table rase de la situation et doit y adapter chaque fois sa stratégie. On aurait tort de l'analyser globalement.

MAJ du 3 août 2008

Sur les difficultés de Google avec la justice. Voir l'intéressante synthèse des étudiants de l'INTD :

Jérome Constant, Denis Madelaine, et Carine Sébast, Les rapports de Google avec la justice, Synthèse documentaire (Paris: INTD-CNAM, Mai 20, 2008), ici .

MAJ du 5 août 2008

Sur un thème complémentaire :

How Google Used Librarians…and Got Away With It, Library Stuff, June 29th, 2008 (ici, repéré par Des Bibliothèques 2.0 )

Steven Cohen remarque que Google après avoir déployé une large campagne de communication en direction des bibliothécaires a tout arrêté depuis un an. Le blog qui était dédié à cette tache n'est même plus alimenté depuis ce temps. Extrait (trad JMS) :

Ainsi, Google continuera à utiliser les bibliothécaires, numériser leurs livres, en tirer profit, et ensuite nous laisser pourrir dans la poussière de l'information comme une vieille machine à microfilms.

Réponse de W. Crawford en commentaire :

Google Book Search permet une recherche d'éléments dans les livres qu'aucune bibliothèque ne peut réaliser seule. Il ne procure pas le livre, mais révèle tout spécialement un élément (un paragraphe sur un thème dans un livre de 300 pages), il fait ressortir des références qui sans cela resteraient cachées. (..)

Un accès plus large au domaine public. Une recherche sur le texte intégral des livres que les bibliothèques ne peuvent fournir. Comment vraiment cela nous "laisse dans la poussière de l'information"?

MAJ du 12 août 2008

Grâce à JD Zeller, merci à lui :

Benoit Raphael fait la synthèse de plusieurs billets de Jeff Jarvis, qui suggère que les journaux se recentrent sur la production de contenu et laissent à Google la distribution. Il lel traduit et cite :

"Voici mon conseil, journaux ("papers") : Sortez le plus vite possible du buisiness de la fabrication, de la distribution et de la technologie. Eteignez les rotatives. Externalisez les ordinateurs. Externalisez l'editing en Inde ou chez vos lecteurs. Collaborez avec le public. Et, ensuite, demandez vous qui vous êtes. La réponse importe vraiment..." (J.Jarvis)

Benoit Raphael, “La nouvelle économie des rédactions du futur,” Demain tous journalistes ?, ici.

C'est une provocation qui a le mérite de faire réfléchir, mais mon avis, il y a là une double erreur d'analyse. Il ne faut pas confondre journal et agence de presse. Les médias se sont construit d'abord par le contact avec le lecteur. La mise en page en est un exemple, l'objet et la distribution en sont d'autres. D'autre part, Google n'est pas un simple distributeur, la recherche d'information est aussi une activité médiatique.

Complément du 9 septembre 2008

Belle illustration de la différence de traitement des journaux et du livre par Google, le nouveau service d'archives de la presse qu'il vient d'ouvrir (ici). Voici deux présentations critiques mais avec un parti-pris assez net, car écrites par des journalistes :

Narvic, “Google News Archive Search : Google met à jour ses archives de presse,” Novövision, ().

Emmanuel Parody, “Google Archives : vers la bibliotheque universelle,” ecosphere, ().

Complément du 27 septembre 2008

Repéré grâce à A. Pierrot :

Adam Hodgkin, “How many publishing CEOs know what an API is?,” Exact Editions, Septembre 23, 2008, ici.

vendredi 13 juin 2008

Le tsunami internet

Deux publications récentes, l'une québécoise, l'autre française, précisent l'évolution des pratiques sur l'internet.

CEFRIO Léger Marketing, NETendances - Rapport abrégé Final. (Communiqué)

Pierre Berret, “Diffusion et utilisation des TI en France et en Europe”, Ministère de la Culture - DEPS, no. 2008-2, Culture chiffres (juin 2008): 4. ici

J'en ai tiré tout d'abord deux diagrammes convergents. Le premier concerne l'évolution de l'utilisation hebdomadaire de l'internet par les Québécois selon leur âge. L'évolution est très impressionnante et ne laisse aucun doute sur l'entrée du média dans la vie ordinaire des gens, de tout le monde en réalité.

Le second, tiré de la publication française, montre l'évolution du pourcentage de particuliers ayant utilisé l'internet au cours des trois derniers mois répartie aussi par tranche d'âge, dans l'Union européenne (réduite à 15 pays) et en France. Il montre un niveau d'utilisation un peu inférieur à celui du Québec, mais une même orientation des courbes. Il y a peu de doute que dans quelques années la saturation sera totale d'un côté et de l'autre de l'Atlantique.

Ces courbes fournissent de plus une réponse à la question posée sur l'évolution possiblement différente en âge et en génération (voir ). En réalité leur parallélisme laisse penser que nous sommes bien dans une vague de fond qui touche progressivement l'ensemble de la population et finira par la submerger toute entière.

Parmi bien d'autres, j'ai retenu deux leçons supplémentaires de la lecture de ces études : d'une part le commerce électronique se développe, mais moins vite que ce qui était souvent annoncé et on y achète des produits traditionnels, souvent culturels mais d'abord touristiques (voyages, hotels) ; d'autre part l'internet est utilisé principalement pour deux activités, rechercher des informations sur les biens et services et communiquer. Cela relativise l'idée d'un Web-média.

Actu 21 juin 2008

Voir aussi pour le Canada :

Enquête canadienne sur l'utilisation d'Internet, Statistiques Canada, 2007, ici

lundi 19 mai 2008

Archivistique et Cloud computing

L'expression consacrée pour le calcul parallèle est maintenant Cloud computing. Elle renvoie à une technique informatique ancienne visant l'amélioration de la performance des machines pour de très gros calculs scientifiques, mais elle est aujourd'hui appliquée pour notre communication et documentation ordinaire grâce aux centres de données mis en place par les firmes comme Google ou Amazon dans le cadre de leur activité.

Christian Fauré vient de prononcer une intéressante conférence à l'association Ars Industrialis sur le sujet. Il faut passer au-dessus de la tentative un peu agaçante de vouloir enfermer le propos dans une pensée globalisante, qui est le péché mignon de cette association pilotée par B. Stiegler. Je ne suis pas sûr, par exemple, que la théorie des coûts de transaction soit applicable à ce phénomène et encore moins d'A. Gramsci et son intellectuel organique aient vraiment un rapport, pour parler d'auteurs que je connais un peu. Néanmoins le propos de C. Fauré est important pour la thématique de ce blogue, très important même. Il rejoint des constatations faites par François Bourdoncle, responsable d'Exalead, entendues à la journée d'études évoquée dans le précédent billet.

Christian Fauré, La gigantomachie autour des data centers, 17 mai 2008, Vidéo (je n'ai réussi qu'à avoir le son sur ma machine)

La puissance des centres de données des firmes s'adressant au grand public, alliée à la facilité pour l'utilisateur (ergonomie, rapidité..) des outils documentaires et de communication disponibles tend à externaliser l'activité documentaire des organisations. Chacun peut en faire l'expérience quand il utilise Gmail ou Yahoo! plutôt que la messagerie mise à sa disposition par son organisation, ou quand il préfère un de leurs services partagés pour un travail collectif. Les demandes des utilisateurs, habitués à la facilité des outils qu'ils ont expérimentés dans leur vie quotidienne privée et dans leur loisir, sont de retrouver le même confort sur leur poste de travail. Or cette puissance de calcul est hors de portée de chaque organisation prise individuellement et les outils internes ne peuvent rivaliser avec ceux mis à disposition gratuitement par des firmes qui se rémunèrent sur un autre marché, en particulier celui de la publicité.

Toute organisation est confrontée à ce phénomène, y compris les universités où les étudiants, les chercheurs et les professeurs, font suivre leur courriel dans leur boite Gmail, ouvrent des blogues ou des services partagés pour leurs travaux à l'extérieur des services informatiques à leur disposition. Bien sûr cela pose des problèmes de confidentialité, mais l'essentiel est ailleurs.

Comme le souligne C. Fauré, l'organisation elle-même se trouve menacée, comme si des morceaux essentiels de son activité lui échappait de plus en plus. Il s'agit ni plus ni moins de ce qui la cimente : sa communication et sa mémoire. J'ajouterai pour ma part que le problème est d'abord archivistique, au sens québécois des archives intégrées. Les archivistes jusqu'à présent étaient confrontés avec le numérique à une explosion quantitative et qualitative, mais elle ne remettait pas vraiment en cause leurs principes fondamentaux. Ils font face avec ce phénomène à un défi beaucoup plus grand. Comme les bibliothécaires avant eux qui ont vu leurs fonctions principales s'externaliser (collection, traitement, accès..). les archivistes voient à leur tour les documents leur échapper.

Il y a là une réflexion à mener d'urgence et des pratiques nouvelles à inventer. Selon que l'on est optimiste, on dira que l'archiviste sera celui qui sauvera l'organisation de son éclatement documentaire en lui permettant de ne pas perdre sa mémoire vive et à long terme, ou pessimiste que l'archivistique va s'éclater et ses compétences se diluer avec l'organisation elle-même.

Actu du 20 mai 2008

Voir le billet de D. Durand sur l'investissement de MS dans le domaine :

Cloud computing: microsoft monte sur le nuage avec 100+ millions de boîtes à lettres Exchange pour 2012, Média & Tech, 20 mai 2008. Ici

Actu du 21 mai 2008

Repéré par le compte-rendu de Virginie Clayssen (ici), voir l'excellente synthèse :

Naugès Louis, Web 2.0, “On the cloud” : mais où ?, 13 avril 2008,.

et en suivant les liens, suite à la question d'A. Pierrot en commentaire :

Koomey Jonathan G., ESTIMATING TOTAL POWER CONSUMPTION BY SERVERS IN THE U.S. AND THE WORLD, Final report, February 15, 2007. Pdf (pas encore lu)

Actu du 31 mai 2008

Repérés par F. Pisani (ici) qui en fait une lecture un peu superficielle, deux articles de presse sur le sujet :

Down on the server farm, The Economist, 22 mai 2008. ici

Thompson Bill, Storm warning for cloud computing, BBC-News, 27 mai 2008.

Actu du 7 juin 2008

Repéré grâce à H. Le Crosnier, cet article ancien mais révélateur :

Stephen Baker, “Google and the Wisdom of Clouds,” BusinessWeek: magazine, Décembre 13, 2007, ici.

vendredi 02 mai 2008

Éco-doc : révision séquence 7

Poursuite des réflexions sur le cours sur l'économie du document, prévu à l'automne à distance (Plan et explications ici), avec la septième séquence.

Il s'agit de la seconde illustration du modèle de l'accès, le Web-média après la présentation du modèle bibliothéconomique de la séquence précédente (ici). Le principe est toujours, comme pour les deux séquences précédentes, une alternance entre un cours classique et un dossier présenté par un groupe d'étudiants.

Cette illustration suscite beaucoup la curiosité des étudiants puisque le modèle est en construction. Ses contours et sa logique restent parfois imprécis, néanmoins ils s'affirment avec le temps qui passe, la maturation des marchés et la banalisation des pratiques. Plus encore que précédemment, cette séquence défend une thèse qui avait été introduite dans la séquence 3 () : celle de la naissance progressive d'un nouveau média fondé sur l'accès et dont les caractéristiques sont à rapprocher de deux modèles bien assis qui ont été maintenant présentés et illustrés : la radio-télévision d'un côté par le réseau de diffusion électronique et la bibliothèque de l'autre par l'orientation service.

Pour défendre cette thèse, il s'agit d'abord de délimiter l'objet dont on parle. Le Web-média ne comprend pas toute l'activité du Web, mais seulement l'activité qui relève d'une économie documentaire. Ceci exclue, par exemple, ce que l'on met habituellement sous le vocable e-commerce (transactions commerciales entre particuliers, vente d'objets ou de services non documentaires, agences de voyage, banques, etc.). Cela exclue aussi ce qui relève d'une communication de personne à personne (courriel, tchat, etc.). Bien entendu, il est difficile de tracer une frontière trop précise entre ces mondes. Néanmoins si l'on est cohérent avec les éléments présentés dans la séquence 1 (ici), il faut admettre que l'activité documentaire relève d'une économie particulière radicalement différente de l'économie ordinaire des autres activités.

Une fois les contours du Web-média dessinés, je m'attacherai à en présenter quelques caractéristiques empruntées aux deux modèles cités en soulignant leurs aspects paradoxaux. Dans l'énumération qui suit des économies ou des valeurs construites, le premier terme est issu du modèle de la radio-TV, tandis que le second est issu de celui de la bibliothèque. Ils sont souvent contradictoires et pourtant ils cohabitent pour bâtir un Web-média d'un genre nouveau. Dans le Web-média, on retrouve en effet à la fois l'économie.. : de l'actualité et de la mémoire ; de la notoriété et du partage, de l'attention et du choix.

Mais cette parenté avec les deux modèles précédents est bâtie sur un ordre documentaire tout à fait différent, d'une efficacité sans pareille et inédit dans l'histoire : le calcul statistique des relations entre les items, items documentaires ou individus. Par comparaison, l'ordre documentaire de la télévision est fondé sur la coïncidence temporelle entre les programmes présentés et la disponibilité des téléspectateurs, concrétisé par la grille de programme ; celui de la bibliothèque est bâti sur le catalogue et l'enregistrement du lecteur.

Je conclurai cette présentation par quelques histoires d'acteurs exemplaires et montrant comment ils se sont installés brutalement en bousculant l'équilibre médiatique précédent : Google évidemment, Elsevier, Wikipédia et quelques questions sur les réseaux sociaux et sur les différences de culture.

Même si les analyses ne sont pas toujours complètement assurées, il ne manque pas de travaux, académiques ou de consultants, sur ces questions. Bien sûr, leur propos ne recoupent pas exactement la thèse précédente, mais ce blogue montre, semaine après semaine, qu'ils peuvent très largement l'inspirer et l'illustrer. Je n'ai donc pas de gros problème pour cette séquence qui s'alimente très directement du blogue.

Un ou deux dossiers d'étudiants, réalisés selon les modalités décrites en séquence 2 (ici) ont été remis par un ou deux groupes d'étudiants. Ils sont mis en ligne sur le site de partage du cours. Ils concernent des problématiques d'actualité permettant d'aborder la mise en place progressive du Web-média. Un débat en ligne est lancé à partir d'une ou deux questions proposées par le professeur sur chacun de ces dossiers. C'est à la suite de ce processus que chaque groupe pourra réaliser le billet à publier sur le blogue.


Séquence 7 : Économie de l'accès : 2. le Web-média

Objectif général

À la fin de la séquence l'étudiant(e) devrait connaitre :

  1. La définition du Web-média.
  2. Les principales caractéristiques de son économie.
  3. Quelques acteurs exemplaires.

Objectif spécifique

À la fin de la séquence l'étudiant(e) devrait être capable de :

  1. Repérer la signification des stratégies en cours sur le Web documentaire.
  2. Interpréter les débats sur le développement des aspects documentaires du Web.

Contenu de la séquence (base à réviser)

  • Où commence et où s'arrête le Web-média
    • Faire la différence avec le e-commerce
    • Un service de diffusion et d'accès documentaire
  • Entre radio-télévision et bibliothèque
    • Temporalité (actualité et mémoire)
    • Valeur (notoriété et partage)
    • Relation (attention et choix)
  • Un ordre documentaire fondé sur le calcul statistique
  • Accélérations
    • Comment Google s'est imposé sur la publicité en ligne
    • Comment Elsevier a confisqué les collections aux bibliothèques
    • Comment Wikipédia peut concentrer le trafic avec 16 salariés
    • Comment les «réseaux sociaux» se déclinent suivant les cultures

Évaluation

L'évaluation de cette séquence est différente selon les étudiants. Les auteurs du dossier sont évalués sur celui-ci. Les autres sur leur participation au débat en ligne.

Bibliographie (à venir)

mercredi 30 avril 2008

Glocalisation publicitaire

Didier Durand, qui décortique billet après billet le dernier rapport de Morgan Stanley, soulève une intéressante question :

Statistiques publicitaires nationales: troublées - faussées ? - par Google & Yahoo, D. Durand, Média & Tech, 30 avril 2008. ici

Internet Trends, Mary Meker, David Joseph, Anant Thaker, Morgan Stanley, 18 mars 2008, Pdf

Il fait remarquer en effet qu'une part importante des recettes publicitaires internationales des grands joueurs du Web revient aux États-Unis. Ainsi, la mesure nationale des marchés publicitaires pour le Web ou son interprétation serait incertaine. Nous en avons eu un exemple très récent avec l'interprétation des mesures de Comscore sur les clics de Google (voir les actualisations de ce billet).

Le paradoxe est d'autant plus fort que ce marché là est porté par de nombreuses micro-transactions, sur des commerces plutôt géographiquement situés. Le Web-média est donc «glocalisé». Mais cette glocalisation a quelques limites. La difficulté pour Yahoo!, comme pour Google à prendre pied sur le marché chinois en est un exemple. Les chiffres ci-dessous, tirés du rapport de Morgan Stanley, montrent clairement où se trouvent les réserves de croissance les plus fortes : là où les grands californiens ne sont pas implantés.

- page 20 de 38 -