Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Recherche - web média

samedi 03 décembre 2011

Pourquoi Google est un média

Dans un commentaire du précédent billet, Piotr conteste ma proposition de considérer Google comme un média. Voici ses arguments :

J'ai du mal à assimiler Google à un média : il me semble qu'un média diffuse des contenus, ce qui n'est le cas de Google qu'accessoirement. Enfin, rapprocher une indépendance qui serait revendiquée par Google de celle qui l'est effectivement par le New York Times est malheureux car cela suppose que Google soit animé par une éthique journalistique, ce qui n'est évidemment pas le cas. J'ajoute qu'un média a pour effet de rémunérer la production de contenus, ce qui n'est pas non plus le cas de Google.

Je dois le remercier de son commentaire, qui me donne l'occasion de préciser les choses. Je crois, bien sûr, qu'il se trompe mais son propos mérite discussion car il me semble être assez largement partagé et risquer de brider l'analyse. Reprenons ses arguments les uns après les autres (en italique-gras).

Un média diffuse des contenus, ce qui n'est le cas de Google qu'accessoirement.

Le moteur de recherche de Google donne accès à du contenu et ne le diffuse pas vraiment au sens strict, en effet. La diffusion et l'accès sont deux activités différentes et qui peuvent être économiquement antagoniques. Je l'ai montré dans deux billets anciens (ici et). Pour autant, elles ont été déjà articulées dans l'histoire. C'était le cas des bibliothèques avant la popularisation de l'imprimerie à caractères mobiles qui a marginalisé les scriptoria et donc éloigné l'activité de diffusion de celle de l'accès. Et c'est aujourd'hui le cas des médias de diffusion qui proposent sur le web une activité d'accès en ouvrant leurs archives, et aussi en direct dès qu'un article est mis en ligne et ne sera lu que si l'internaute prend la peine d'y accéder.

Ainsi la différence entre diffusion et accès s'estompe sur le web, même si elle ne disparait pas (on la retrouve par ex dans la différence entre le pull et le push). Dès lors, définir le média par la fonction de diffusion et non celle d'accès était déjà discutable, c'est inopérant aujourd'hui.

Rapprocher une indépendance qui serait revendiquée par Google de celle qui l'est effectivement par le New York Times est malheureux car cela suppose que Google soit animé par une éthique journalistique, ce qui n'est évidemment pas le cas.

Oui, Google n'est évidemment pas animé par une éthique journalistique. Cela signifie-t-il pour autant qu'il ne revendique pas une indépendance, que cela ne relève pas d'une éthique de média et que cette dernière ne puisse être comparée à celle du journalisme ? Ma réponse est non à ces trois dernières négations.

Commençons par l'éthique journalistique. J'ai eu déjà l'occasion sur ce blogue de rappeler combien elle était relative et récente (tournant XIXe-XXe) et combien le web la faisait évoluer(ici et .

Google, de son côté, revendique clairement une indépendance et a ce qu'il faut bien appeler une éthique, même si on peut (doit) la discuter. Cela était perceptible dès le premier papier de Brin et Page (ici), et est exprimé aujourd'hui sur le site de la firme en dix principes dans la page intitulée ''Notre philosophie'', dont je ne reprends ci-dessous que quelques brefs extraits :

" 1. Rechercher l'intérêt de l'utilisateur et le reste suivra

Depuis sa création, la société Google concentre ses efforts sur le confort d'utilisation des internautes. Lorsque nous concevons un nouveau navigateur Internet ou lorsque nous apportons un plus à l'aspect de notre page d'accueil, c'est votre confort que nous cherchons à satisfaire, et non un quelconque objectif interne ni les exigences de résultats de la société.

2. Mieux vaut faire une seule chose et la faire bien

Le cœur de métier de Google est la recherche sur Internet.

3. Toujours plus vite

4. La démocratie fonctionne sur le Web

La recherche Google fonctionne, car sa technologie fait confiance aux millions d'internautes qui ajoutent des liens sur leur site Web pour déterminer la valeur du contenu d'autres sites.

5. Vous n'êtes pas toujours au bureau lorsque vous vous posez une question

6. Il est possible de gagner de l'argent sans vendre son âme au diable

Pour assurer un service à tous nos utilisateurs (qu'ils soient ou non annonceurs), nous avons défini un ensemble de principes sur nos programmes et nos pratiques publicitaires :

Google autorise la diffusion d'annonces sur ses pages de résultats uniquement si ces annonces sont en lien direct avec les résultats obtenus.

Nous pensons que la publicité peut être efficace sans être envahissante. Google n'accepte pas les publicités sous forme de fenêtres pop-up, qui gênent la lisibilité des pages consultées.

Sur Google, les publicités sont toujours clairement identifiées comme "liens commerciaux". (..) Nos utilisateurs font confiance à l'objectivité de Google et rien ne pourrait justifier la remise en cause de cette confiance.

7. La masse d'informations continue de croître

8. Le besoin d'informations ne connaît aucune frontière

Notre société a été fondée en Californie, mais notre mission consiste à faciliter l'accès aux informations dans le monde entier et dans toutes les langues.

9. On peut être sérieux sans porter de cravate

10. Il faut toujours aller de l'avant

Même si vous ne savez pas exactement ce que vous recherchez, c'est notre rôle de trouver une réponse sur le Web, et pas le vôtre. "

On peut discuter du bien fondé, de la sincérité et de l'application de ces principes, tout comme on peut discuter de l'objectivité des journalistes ou de la position d'un journal, mais il est difficile de ne pas y voir l'affirmation d'une indépendance, qui relève bien d'une éthique de média. On y retrouve les grands classiques : la démocratie, l'information pour tous, le rejet des pressions, la recherche sans fin de l'information.

En réalité, l'importance d'une éthique pour ce qu'on appelle maintenant l'activité de "curation" commence à être discutée et c'est bien normal (par ex ici ou ou encore ). On peut aussi remarquer et regretter l'absence d'allusion à la protection de la vie privée dans les principes de la philosophie de Google, qui montre qu'il reste encore des débats et des combats à mener pour que l'activité du web prenne sa juste place dans l'espace public médiatique.

Sans doute, journalisme et moteur de recherche n'ont pas la même posture par rapport à l'information, mais on peut constater que les modèles culturels y pèsent tout autant. Ainsi, l'idéal du journalisme à la française est marqué par le rôle de l'intellectuel dans la dénonciation des scandales (Panama, Dreyfus) avec une forte connotation littéraire, tandis que l'idéal américain s'appuie sur l'exemple de la science pour mettre en avant l'objectivité (Lippmann). Comment ne pas voir le même type de clivages dans les débats et polémiques autour de Google, tout particulièrement au moment des polémiques sur Google-Book lancées, il y a quelques temps, par J.-N. Jeanneney ?

Enfin même s'il y avait une part de provocation de ma part, la comparaison entre le NYT et Google se justifie pleinement. L'un et l'autre sont les symboles du modèle nord-américain dans leur domaine et veulent faire école. Nous manquons de comparaison internationale sérieuse avec d'autres modèles (Naver en Corée, Baidu en Chine, Yandex en Russie).

Un média a pour effet de rémunérer la production de contenus, ce qui n'est pas non plus le cas de Google

La plupart des médias, sinon peut-être tous, ont démarré en ne rémunérant pas ou peu les contenus, voire en les piratant (à commencer par l'édition de livres). Il est probable qu'à l'avenir Google soit amené à rémunérer les contenus pour la part de son activité qui s'approche le plus de la diffusion. Cela est sensible pour YouTube, et ce fut au coeur des discussions sur Google-Book.

Mais il est vrai que Google, pour sa part principale (la recherche), se trouve du côté de l'accès et non de la diffusion, dans la même position que les bibliothèques. Cela le conduit à considérer le contenu comme une donnée librement accessible, dans un modèle proche de celui de la bibliothèque qui retire les documents d'une relation commerciale pour les mettre librement à disposition. On pourrait pour cette raison mettre les bibliothèques et Google en dehors du secteur des médias, mais alors on s'interdit de poursuivre lucidement l'analyse, comme je l'ai dit plus haut, et comme je l'ai présenté, par ex ici.

mardi 22 novembre 2011

Vu, lu, su, résumé et couverture

Sortie le 10 février 2012 en librairie, et j'espère avant en ebook.

(...) Le premier chapitre rappelle que la bibliothèque qui collecte les documents est, et de beaucoup, le plus ancien des médias. Si le numérique a ébranlé son modèle, il n’est pas le premier à l’avoir fait. L’imprimerie à caractères mobiles l’avait déjà privée de la fonction de reproduction et circulation des livres. Inversement, la bibliothèque a été, consciemment ou non, une des premières sources d’inspiration pour le développement du Web et, ironiquement, certains des acteurs du numérique ont réussi à faire de l’exploitation de son modèle une activité très profitable alors que celui-ci était depuis toujours fondé sur un écosystème non marchand.

Le deuxième chapitre revient sur la notion de document en montrant que si ses deux fonctions, transmettre et prouver, sont très anciennes, le document n’est devenu un objet familier qu’au XIXe siècle. Son émergence est contemporaine du développement de la science moderne. Son apogée coïncide avec la systématisation du modèle de la bibliothèque. Comme souvent dans les sciences humaines et sociales, c’est au moment où l’objet semble s’échapper que les efforts pour le comprendre sont les plus grands. Analysant l’éclatement du document au travers du numérique, un collectif de chercheurs, signant du pseudonyme Roger T. Pédauque, a proposé d’éclairer la nature du document à partir de trois dimensions : la forme, le texte ou le contenu, et le médium ou la transmission ; le « vu », le « lu » et le « su ». Cette partition servira de canevas pour la réflexion dans la suite du livre.

Le troisième chapitre montre combien l’organisation documentaire, hiérarchique et systématique, issue du XIXe siècle, a dominé le XXe en se perfectionnant, miroir d’une société issue de la révolution industrielle et scientifique. La construction du Web sous l’impulsion du consortium W3C a conduit à une réingénierie documentaire radicale qui met aux commandes l’internaute et modifie le document dans ses trois dimensions. Poussé au bout, le processus renverse notre régime de vérité en faisant de l’individu lui-même un document. Cette réingénierie documentaire est en phase avec les valeurs émergentes d’une société postmoderne.

Pour les documents publiés, trois marchés, et trois seulement, qui correspondent aux trois dimensions du document, ont été ouverts : l’édition avec la vente de biens (forme), la bibliothèque avec la vente de services d’accès (texte) et enfin le spectacle avec la vente d’attention (médium). Le Web s’insère entre la radiotélévision et la bibliothèque, comme la presse s’était insérée entre l’édition et le spectacle au XIXe. De l’édition à la radiotélévision en passant par la presse et le Web, on observe une modification progressive de la gestion de l’espace-temps de la production-consommation des documents publiés, régulée par l’organisation tarifaire. De plus, le Web s’impose aux médias et les transforme en industries de la mémoire, par leur accès transversal et leur archivage permanent. Dès lors, il est possible de reconsidérer les catégories traditionnelles de l’économie de la culture pour mettre en avant l’importance de celle du document. Cette relecture des industries culturelles à partir d’une entrée documentaire est l’objet du quatrième chapitre.

L’analyse tridimensionnelle du document permet enfin (cinquième chapitre) d’éclairer les stratégies des principaux acteurs industriels du Web et de les comparer avec les intentions des ingénieurs et les souhaits des internautes militants, soulignant la distance entre les utopies et les réalisations industrielles. Des verrouillages et des affermages ont été mis en place en privilégiant, là encore, l’une ou l’autre dimension du document : la forme, en maîtrisant les objets (Apple), le contenu, en navigant au travers des textes par des « lectures industrielles » (Google), ou encore la relation (Facebook), de façon à accaparer avec plus ou moins de succès le maximum de profits.

Le livre se conclut par le besoin de nouveaux professionnels de l’information, capables de comprendre les mouvements en cours pour construire et gérer les nouvelles infrastructures documentaires. Les iSchools en Amérique du Nord forment aujourd’hui des professionnels compétents aussi bien en informatique qu’en sciences de l’information. On appelle parfois ces nouveaux professionnels des « architectes de l’information ». En français, je suggère d’utiliser le terme d’« archithécaires » pour signifier ces nouvelles compétences, puisant leurs racines dans les savoirs bibliothéconomiques, mais les dépassant très largement.

En résumé, à partir de l’histoire du document et de son analyse tridimensionnelle, le livre propose un éclairage différent de ceux qui se discutent sur le Web. On y constate que cette invention du Britannique Tim Berners-Lee prend la suite des efforts d’indexation systématique lancés à la fin du XIXe, modifiant le document lui-même dans ses trois dimensions : la forme, le contenu et la fonction de transmission. Le Web est alors un média comme un autre, s’inspirant du modèle de la bibliothèque et de celui de la radiotélévision pour répondre aux aspirations documentaires d’une société qui a changé en profondeur. Les anciens médias eux-mêmes élargissent leur vocation en devenant des « industries de la mémoire » par l’archivage numérique continu et public de leur production. Les nouveaux venus, Apple, Google, Facebook, privilégient chacun une dimension différente du document pour tenter de prendre une position dominante dans la construction d’un « néodocument ». (...)

Vu_lu_su-couverture.jpg

lundi 14 novembre 2011

Les cinq modèles de l'industrie de la mémoire

J'ai déjà eu l'occasion de présenter sur ce blogue (ex) ou dans le cours la configuration en cinq modèles industriels.

Suite à l'explicitation des trois modèles de base de l'économie du document (édition, bibliothèque et spectacle), paru dans (Documentaliste 48/3, Cairn, AO Ebsi), voici une actualisation du tableau sur l'industrialisation de la mémoire par le web qui paraitra dans le prochain livre. Le web apparaît à la fois comme une colonne, un média avec sa logique empruntée à la télévision et à la bibliothèque, et comme une ligne, un méta-média, modifiant l'espace temps des médias traditionnels.

5-modeles-industries-memoire-2.jpg

(Pour les yeux de Bertrand, voici donc une version du tableau que j'espère plus lisible. J'en ai profité pour rajouter une ligne plus prospective sur le webmobile, qui fait référence à la spécialisation des terminaux mobiles, voir ici)

En passant d’une colonne à l’autre, les modèles industriels forment bien une continuité par la relation économique, temporelle et spatiale qu’ils entretiennent avec le lecteur. Mais les modèles se distinguent aussi les uns des autres par des ruptures représentées par les lignes verticales qui séparent les modèles, soit, de gauche à droite : ouverture d’un nouveau marché par la presse, inconnu dans l’édition (annonceurs) ; passage au signal pour la radiotélévision alors que l’on gérait encore des objets matériels dans la presse ; inversion du flux avec le Web où l’internaute est aux commandes ; retour aux objets dans la bibliothèque ; et enfin, pour boucler le tableau entre la dernière colonne de droite et la première de gauche, réinversion du flux entre la bibliothèque et l’édition. Ces ruptures impliquent que chaque modèle a aussi développé des savoir-faire originaux, différents des autres, et expliquent leur autonomie et leur stabilité. Chacun a développé une économie propre.

Mais le numérique et le Web ont aussi ouvert des opportunités nouvelles à chacun des modèles par la réingénierie documentaire. Celles-ci sont notées sur la dernière ligne. Ces opportunités sont différentes et spécifiques à chaque modèle, car le Web rencontre chaque fois les logiques particulières qu’il devra adapter. Ainsi, le Web est à la fois l’occasion de bâtir un modèle nouveau qui s’insère entre les anciens et celle de renouveler ces derniers. Ce double mouvement alimente son dynamisme et est aussi la source de bien des malentendus, puisque le Web est à la fois une plateforme ouverte au développement de chacun et l’occasion de l’arrivée d’un nouveau modèle concurrent.

mardi 08 novembre 2011

Vers des architectes de l'information

J'ai délaissé quelque peu ce blogue, car j'étais pris par le montage du dossier d'un master sur l'architecture de l'information que nous espérons pouvoir ouvrir à la rentrée prochaine à l'ENS-Lyon avec la collaboration de l'EBSI de l'Université de Montréal. Au delà de ce projet particulier, il s'agit de faire bouger les lignes des formations actuellement existantes dans la francophonie. Le manifeste ci-dessous, reproduit de l'argumentaire du master, en traduit l'ambition.

Vers des architectes de l'information

On compte aujourd’hui près de 500 millions de sites web et les dits « sites web » eux-mêmes ne sont que la partie la plus évidente d’un système beaucoup plus vaste d’accès à l’information basé sur les technologies web. Nous accédons aux ressources à partir de terminaux variés (ordinateurs, téléphones intelligents, tablettes et même objets ordinaires) au travers d’outils divers (moteurs, réseaux sociaux, blogues, messageries instantanées ou même sans outil apparent). Dans un environnement aussi compétitif, la fidélité de l’internaute à une interface ou à une ressource dépend en grande partie de l’expérience de sa visite : s’est-il senti immédiatement familier avec l’interface proposée ? A-t-il trouvé facilement l’information qu’il cherchait ? A-t-il pu interagir avec le système sans réticence ?

Aux États-Unis, le mouvement des information Schools (iSchools) vise à répondre à ce défi. Ce mouvement est issu des principales écoles en sciences de l’information nord-américaines, fondées à l’origine pour former des bibliothécaires, qui ont élargi et transformé leur offre de formation en s’alliant souvent avec les départements informatiques des universités. L’idée principale est que, puisque nous assistons à une forte valorisation du savoir notamment au travers du développement des technologies numériques, les professions qui gèrent ce savoir doivent être reconfigurées et revalorisées.

Les services documentaires étaient portés par des professions reconnues, aux compétences codifiées et à l’éthique forte mais qui ne répondent plus au défi numérique contemporain. Les nouvelles « infrastructures épistémiques » ne disposent pas de cette tradition et souvent même leur rattachement institutionnel est flottant. C'est donc aussi le constat que les « infrastructures épistémiques », autrefois bibliothèques, centres documentaires, voire musées, se sont déplacées vers les réseaux et les collections numériques et irriguent très directement tous les échelons de la société.

Le défi n’est pas mince. Il ne s’agit pas moins que de reconsidérer notre relation aux documents, c’est-à-dire notre rapport à la représentation des évènements passés pour envisager l’avenir. L’éducation est soumise à de profonds ajustements, non seulement parce que ses institutions sont confrontées à la prolifération d’outils numériques de transmission du savoir qu’elles doivent intégrer dans leurs pratiques, mais plus encore parce que l’accès direct au savoir par les internautes modifie considérablement la relation aux experts et à leurs institutions. La création voit ses protections juridiques remises en causes par les pratiques de partage, mais aussi ses processus renouvelés par un accès sans précédent au patrimoine et à des facilités de modelage et de mixage inconnues jusqu’alors. Les institutions de toutes sortes doivent réviser leur système d’information. La science, elle-même, construite pour une bonne part sur la confrontation des documents, bascule dans de nombreuses disciplines vers une e-science, c'est-à-dire une science où les outils numériques deviennent dominants ouvrant des possibilités inédites d’investigation, de calcul et d’analyse.

Il est aujourd’hui indispensable, pour des sites web riches en contenus, des sites de grandes institutions, à but lucratif ou non, de faire appel à des spécialistes de l’organisation et du repérage de l’information, de même qu’à des spécialistes de l’expérience des utilisateurs. Ces deux types d’expertises convergent vers un même objectif : garantir un accès intuitif et facile au contenu, pour l’utilisateur d’une application ou d’un portail web (ou, plus généralement, de tout système d’information). On appelle les professionnels détenant ces expertises des Information Architects, « des architectes de l’information » pourrait-on dire en français. Les Information Architects ont leur propre association professionnelle aux États-Unis, l’IA Institute (IAI), qui comprend une branche européenne. L’IAI compte plus de 2000 membres d’une soixantaine de pays. Une autre association regroupe aussi des professionnels aux compétences proches : Usability Professionals’ Association (UPA). Il n’existe en France à ce jour aucune formation en architecture de l’information, le terme lui-même est peu usité. Il figure seulement sur le Portail des métiers du web géré par le ministère comme une rubrique parmi treize autres à la famille de métiers « conception et gestion de projet » ou une parmi seize à celle « production et gestion de contenu », alors même qu’il s’agit d’une famille complète de métiers.

Mais le contexte numérique évolue très vite, élargissant l'intuition première des fondateurs de l'IA. Le défi du document numérique aujourd’hui est le traitement dynamique des grands nombres, en puissance et mémoire informatique, en surface de réseau, en taille des collections, en traces de navigation, en grandeur de populations touchées. Après la mise en place du web des documents dans les années 90 et la désillusion de la bulle internet, sont venus les outils de partage du web 2.0 et un engouement considérable pour ce nouveau média. Aujourd’hui un troisième chapitre s’ouvre avec d’un côté des projets du web des données impulsés par le W3C et de l’autre des appétits industriels féroces (Apple, Google, Amazon, Facebook, etc.) visant à contrôler les navigations pour en tirer un profit commercial maximum. Le web est maintenant le lieu de l'information dynamique, et les architectes de demain devront gérer plus les flux d'information que les informations elles-mêmes. Ils devront concevoir, préparer, organiser, présenter l’information pour des publics dans un environnement dynamique et de plus en plus numérique, intégrant à grande échelle les technologies du web et les technologies documentaires, mais aussi les technologies ambiantes, celles de la mobilité ou encore celles de l’information urbaine.

L’enjeu pour ces nouveaux professionnels sera de concilier les pratiques des différents mondes du document. Il leur faudra, de façon très pragmatique, construire à la fois des prestations et des institutions qui soient réellement dédiées à la communauté qu’ils servent, reprenant à leur compte la longue tradition des infrastructures épistémiques, sans l’inféoder aux stratégies industrielles qui visent à verrouiller le Web ni la réduire à la logique performative des ingénieurs.

lundi 17 octobre 2011

«Record» et «data»

Pour poursuivre la réflexion amorcée dans le précédent billet, voici une interrogation sur le corpus anglophone de N-Gram des mots record et records.

N-Gram_Records-Record.jpg

On peut faire plusieurs constats :

  • Le mot est nettement plus utilisé dans la littérature anglophone que « document » dans la littérature francophone en 1800, sans doute à cause de la différence de culture juridique des deux mondes.
  • Au cours du 19e document rattrape record et les deux mots ont une fréquence comparable, chacun dans leur bassin linguistique.(document est beaucoup moins usité dans le monde anglophone).
  • Enfin, on aperçoit nettement l'arrivée de l'enregistrement sonore et visuel à partir de 1900.

Maintenant pour ajouter à la perplexité de Jean-Daniel, voici ce que cela donne lorsqu'on ajoute le mot data :

N-Gram-records-record-data.jpg

Le mot n'apparait qu'au début du 20e pour exploser après la seconde guerre mondiale, et il s'impose immédiatement dans la littérature, montrant à quel point l'informatique occupe brutalement nos écrits, du moins ceux récoltés par les bibliothèques, sinon nos pensées. Juste avec ce paramètre indirect, on subodore qu'il n'est pas anodin de passer du « web des documents » au « web des données »

- page 5 de 37 -