Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Recherche - écosystème

vendredi 18 janvier 2013

La ville de Lyon a-t-elle eu raison de contractualiser avec Google ? OUI, MAIS !

Billet rédigé par Marine Vandermeiren, Cécile Etesse, Mathilde Dumaine et Julie Arros dans le cadre du cours Ecosystème du document de l'Enssib.

Numelyo.jpg

Il est des sujets d’actualité qui font couler de l’encre… même derrière un écran. Parmi eux, on peut citer le cas de la toute nouvelle bibliothèque numérique Numelyo, lancée par la Bibliothèque municipale de Lyon mi-décembre 2012. Celle-ci est le résultat d’un contrat passé entre la ville de Lyon et Google en juillet 2008, confiant au « géant tentaculaire » l’opération technique de numérisation du fonds ancien de la bibliothèque.

La ville de Lyon a-t-elle eu raison de contractualiser avec Google ? Telle est la question à l’origine de débats sur la blogosphère et des deux côtés, les arguments sont nombreux et souvent pertinents.

Un partenariat novateur et audacieux ...

Tout part du projet originel : y avait-t-il vraiment une alternative possible ? Un article de Télérama rappelle qu’un appel d’offre avait été lancé pour cette entreprise de numérisation auquel seul Google a répondu... Par ailleurs, l'ancien directeur de la BmL, Patrick Bazin, souligne la nécessité de ce partenariat sans lequel la bibliothèque n’aurait pas pris le virage numérique. Rappelons également, avec S.I.Lex que les clauses du contrat prévoiyaient que Google n’ait pas d'exclusivité d'indexation, ce qui constitue des conditions de négociations très favorables à la BM de Lyon, inédites jusqu’alors.



Et, en acceptant d’être résolument optimiste, ne pourrait-on pas dire que - en reprenant les termes de Robert Darnton dans un article de 2009 - ce contrat constitue un pas de plus vers la « démocratisation du savoir » ? Selon lui, la numérisation à grande échelle entreprise par Google participe pleinement de ce processus. A ce propos, il parle même de "pas tangible vers l’instauration d’une république des lettres et d’une citoyenneté universelle au sein de cette république". La valorisation des collections entreprise par la BmL relève de la même logique.

Mais R. Darnton nuance son propos, en insistant sur les regards croisés : se contenter d'un point de vue américain serait restrictif. Comme il l'exprime dans cet article, les Européens auraient tout intérêt à numériser leurs propres collections. Il précise à ce sujet que Google aurait une dévotion à l'intérêt public dont il se méfie.

Cela illustre bien l'ambiguïté de la phase de numérisation : loin de se réduire à une simple opération technique, celle-ci mêle toujours, de manière étroite, enthousiasme et incertitudes.

... encore loin de faire l'unanimité.

En effet, il ne faudrait pas oublier trop rapidement que « nouveau contrat » rime aussi avec problèmes techniques et enjeux juridiques. Au-delà de la menace d'un monopole du géant américain, différents points justifient que l’initiative de la BmL ne fasse pas l’unanimité.



Quid de l’opération de numérisation en elle-même ? En réalité, celle-ci pose deux questions toujours en suspend : celle de la pérennité et celle de la qualité. Il n’y a aucune garantie que les fichiers produits par Google puissent être lus dans quelques années, et l’entreprise numérise « uniformément », sans faire de différences entre les documents ni entre leurs éditions. En outre, les documents sont numérisés par des machines, donc pas à l’abri d’erreurs potentielles… R. Darnton émet lui aussi ses réserves quant à la pérennité des documents en parlant de la qualité de la numérisation, qui pourrait ne pas être complétement irréprochable, ainsi que des garanties de conservation.

D’un point de vue juridique, certains ont dénoncé les restrictions consenties par la BmL, en particulier la clause qui garantit l’exclusivité commerciale de 25 ans : jusqu’en 2033, la BmL ne pourra pas commercialiser les fichiers numérisés. Ce point n'est pas un obstacle majeur pour la BML qui n'a pas vocation à commercialiser ces données, mais cela pourrait devenir une possible menace en cas de changement de stratégie de la part de Google.



L’avenir dira si ces craintes sont fondées. Notons que la BnF - à l'époque de la signature du contrat - ne regardait pas ce partenariat d'un bon œil. Cependant, à l'heure actuelle, les tensions se sont apaisées et la BnF soutient le choix lyonnais, comme le note Rue89.

Mais un autre point mérite ici d’être noté : il semble bien que, contre toute attente, le débat qui avait pour origine la signature d’un contrat entre un service public et une entreprise privée se soit décalé. En lisant ici ou , on a le sentiment que les critiques portent moins sur le bien fondé de cet accord que sur la manière dont il a été mis en œuvre par la BM de Lyon. Citons notamment l’utilisation d’une licence Creative Commons sur les documents pourtant tous issus… du domaine public, ce qui mène certains à parler de copyfraud. A cela s'ajoute des conditions d'utilisation... étonnantes : "En cas de publication sur quelque support que ce soit (livres, revues, journaux, affiches cartes postales imprimés ou électroniques, objets divers, internet…), l’utilisateur est tenu d’indiquer clairement la provenance du document telle qu’elle figure sur le site de Numelyo, sous la forme Bibliothèque municipale de Lyon, cote du document et de prévenir la Bibliothèque municipale de Lyon de la publication". La question pertinente ici serait peut-être davantage : est-ce toujours légitime de raisonner à partir du binarisme public/privé, service public/entreprise, à l’heure où nombre de ces logiques convergent et où les fractures semblent ne plus être là où on les attend ?

lundi 07 janvier 2013

Conseils pour l'écriture d'un billet de blog (COOPT-Enssib 6)

Le dernier travail des étudiantes de l'Enssib pour le cours sur l'écosystème du document est la rédaction d'un billet de blog. Voici donc quelques conseils pour cette rédaction un peu particulière.

Contenu

Un billet sur un blogue ne présente pas le tour complet d'un sujet ou d'une question. Le propos ne doit pas être bouclé, sinon vous interdisez par avance tout commentaire, puisque tout a été dit. Vous ne devez donc pas reprendre tous les éléments du dossier dont vous rendez compte, mais seulement un ou deux. Vous pouvez aussi présenter votre sujet sous forme de questions dont vous n'avez pas la réponse, mais auxquelles vous amenez des éléments de contexte. Vous pouvez encore proposer des réponses en indiquant qu'il ne s'agit que d'hypothèses. Il s'agit d'un appel à la réflexion collective, la présentation de quelques idées qui vous ont personnellement surpris ou interrogé et que vous partagez avec ceux qui voudront bien les lire.

La présentation doit comporter les informations de contexte suffisantes pour être compréhensible. Mais le lecteur du blog est vraisemblablement déjà un initié du domaine, il n'est pas nécessaire de reprendre des éléments du cours directement.

Pour accrocher le lecteur, et compte-tenu de la forme du blog comme un « journal », il peut être opportun de s'appuyer sur un élément d'actualité ou récent, mais ce n'est pas obligatoire. Vous pouvez aussi reprendre, sous un angle inédit, des éléments anciens. Mais il s'agit bien d'amener quelque chose de nouveau pour que l’on ait envie de vous lire.

Forme

Ne faites pas trop long, sinon vous allez perdre votre lecteur, sur le Web, on picore. Il faut faire court, précis et percutant. Retenir l’attention..

Vous allez citer, reprendre des informations et les commenter, c'est aussi le principe du blog qui s'appuie largement sur la plasticité de l’information et ne cherche pas, sauf exception, à présenter de la littérature originale. L'originalité vient plus de la mise en avant et en relation, parfois inattendue, d'éléments disponibles par ailleurs.

Toutes les références doivent comprendre un lien. C'est encore un principe du blog. A la différence du journal, le lecteur doit pouvoir vérifier par lui-même la pertinence des sources. C'est aussi ce qui fait la vitalité de la blogosphère, les liens croisés entre blogues qui incitent à la conversation. Il faut donc des liens dans votre billet, pas trop tout de même pour que le lecteur ne perde pas le fil de votre propos. Il vous faut suivre régulièrement (= tous les jours) l'actualité des blogs du domaine, ou d’autres encore, notamment par Twitter ou fil RSS, pour alimenter les liens de votre billet.

Vous devez être particulièrement attentif au style. Il ne doit pas être trop académique, mais pourtant soigné. Votre lecteur peut facilement s'enfuir, il faut capter son attention, l'accrocher et l'intéresser. Il est opportun d’écrire à la première personne. Dans un blog vous vous engagez personnellement. Vous interprétez l’information.

Enfin le titre doit être choisi avec soin. Il sera repris sur les différents fils. Attractivité et sincérité, la promesse doit être suffisamment alléchante, mais ne pas tromper le futur lecteur.

samedi 05 janvier 2013

Annotations et pédagogie (COOPT-Enssib)

Pour le cours sur l'écosystème du document de l'Enssib (dernières séances et liens sur les précédentes ici), j'ai demandé aux étudiantes de commenter un texte sur les principes de l'économie du document. Les étudiantes ont joué le jeu puisque que plus d'une soixantaine d'annotations ont été déposées. J'ai pu aussi leur répondre. Voir ici le résultat.

Cette formule était pour moi une première expérience d'annotations dans un contexte pédagogique. Elle a montré une grande efficacité. En voici les deux principales leçons :

  • elle permet une interaction avec les étudiants et entre les étudiants à partir d'une lecture longue et approfondie. Ainsi on est assuré d'une lecture et d'une compréhension. On peut éventuellement rebondir ensuite en classe ou à distance par des exercices ;
  • elle permet, dans un second temps, d'améliorer le matériel pédagogique grâce aux réactions recueillies en repérant les explications insuffisantes ou les approximations. Voir la nouvelle version, améliorée et enrichie, du texte qu'il est possible d'annoter à nouveau et qui me servira pour le cours pour les étudiants de l'EBSI qui démarrera toujours en format ouvert à la fin de ce mois. Ainsi les traces recueillies fournissent un outil inédit d'amélioration du cours d'une prestation à l'autre.

J'ai utilisé cette formule aussi sur d'autres textes, y compris un quiz ou, dans un contexte fermé, avec des textes d'autres auteurs. La seule limite que je vois à la formule est qu'il faut des classes (éventuellement des groupes) ne dépassant pas 15 personnes pour ne pas gêner la lisibilité des annotations.

vendredi 14 décembre 2012

Economie du web (COOPT-Enssib-5)

Les cinquième et sixième séances de mon cours sur l'écosystème du document pour l'Enssib sont consacrées aux rapports de cet écosystème avec l'économie du web. En réalité le sujet dépasse largement ce que je peux présenter en si peu de temps, mon objectif est simplement d'attirer l'attention sur quelques mécanismes essentiels pour la compréhension des mouvements en cours dans la continuité des séances précédentes (1. Les sept piliers, 2. Modèles économiques, 3. Economie de la bibliothèque, 4. Etude de cas).

Pour ces dernières séances de ce cours ouvert, l’interaction en ligne passera par deux mécanismes : les commentaires sous ce billet sur les notions discutables ou à éclairer qui y sont présentées et, par la suite, des billets rédigés collaborativement par les étudiantes inscrites au cours.

Nous avons vu que le modèle du web se glissait entre celui de la bibliothèque et celui du flot. Du premier, il reprend la tradition de coopération et de mutualisation. Plusieurs penseurs ont proposé une interprétation de cette caractéristique du web, la présentant souvent comme inédite. J'en rappellerai brièvement quelques traits importants sous la dénomination économie de la contribution. Mais le web documentaire tire aussi la majorité de ses revenus de l'économie de l'attention en s'appuyant sur sa capacité à capter et fidéliser les internautes par un réseau électronique, tout comme l'ont fait avant lui la radio et la télévision (le flot).

En réalité, économie de la contribution et économie de l'attention s'articulent et conduisent à des stratégies industrielles fortes qui progressivement configurent le modèle du web en tentant d'en accaparer la valeur au profit de quelques firmes, non sans contradictions avec la nécessité d'ouverture du modèle.

Economie de la contribution...

Le terme économie de la contribution est dû à Bernard Stiegler (ici ou ). Il a, pour lui et ses collègues d'Ars industrialis, une acception très politique, marquée par une tradition française de philosophes engagés. Proche de ce courant, on peut aussi citer la notion de multitudes, proposée par Antonio Negri et reprise en France par Yann Moulier-Boutang (wkp) selon laquelle nous serions passés d'une organisation industrielle où les masses et les classes sociales fondaient la structure sociale à une organisation post-industrielle où la multiplication des consciences et actions individuelles serait le moteur du changement.

Je reprends ici le terme "économie de la contribution" d'une façon plus générique pour caractériser la pensée d'un mouvement plus large et ancien autour de l'économie des réseaux et de l'open source dont Yochaï Benkler est le représentant le plus célèbre suite à la publication de son livre :

Benkler, Yochai. La Richesse des réseaux. Marchés et libertés à l’heure du partage social. Presses Universitaires de Lyon, 2009 (première édition américaine 2006). (Introduction sur InternetActu)

Y. Benkler a résumé son analyse dans une intervention à TED en 2005 qu'il est indispensable de visionner (le texte de l'intervention est accessible en français sur le site).

Le tableau ci-dessous présente la clé de sa thèse :

Yochai-Benkler-TED.jpg

La colonne de gauche renvoie au raisonnement classique en économie depuis Ronald Coase (wkp) sur la nature de la firme. C'est lorsque les coûts de transaction augmentent qu'il devient avantageux de s'organiser pour produire en interne plutôt que d'acheter sur un marché les produits ou services, et donc le marché et la firme (ou l'entreprise) ne sont que deux manières complémentaires d'organiser les échanges économiques. L'originalité de Benkler (très largement en décalage par rapport à la pensée de Coase) est de tenter un raisonnement parallèle sur des transactions non-marchandes et l'économie sociale en montrant qu'avec le web il serait possible de coordonner des micro-actions non-marchandes à grande échelle.

ou économie de l'attention

Néanmoins cette vision généreuse de l'économie s'accompagne aussi dans notre domaine d'un déplacement des marchés, selon le principe vu dans les premières séances : plus l'offre documentaire s’agrandit, plus l'attention est sollicitée et devient un bien rare que l'on pourra revendre. Autrement dit, elle sous-estime l'importance du caractère multidimensionnel du document (vu, lu, su).

Un diaporama récent du cabinet de consultant Business Insider témoigne de l'importance du déplacement des marchés.

Future-of-Digital-Business-Insider-dec-2012.png

Pour vous faire mesurer ce phénomène à la fois sur le fond et par la pratique, voici un petit exercice.

Trouvez les diapositives qui vous permettront de répondre aux questions ci-dessous :

  1. Quelle proportion de la population de la planète est-elle connectée ? En quoi est-ce plus important qu'il n'y paraît ?
  2. Depuis quand les ventes de smartphones ont-elles dépassé celles des ordinateurs ?
  3. Quelle est la différence entre le marché américain et le marché chinois des smartphones ?
  4. Quels sont les principaux marchés médias pour la publicité ?
  5. Quelle a été l'évolution du marché publicitaire des journaux américains depuis les années 50 ?
  6. Pourquoi Facebook n'arrivera probablement pas à concurrencer Google sur la publicité en ligne ?
  7. Pourquoi le marché publicitaire sur le téléphone mobile est-il incertain ?
  8. Les usagers d'Androïd utilisent-ils les applications ?

Ces analyses sur les développements des marchés ne sont pas vraiment contradictoires avec l'économie de la contribution présentée plus haut, même si souvent ceux qui les portent paraissent s'opposer. En étant cynique on pourrait même dire que l'économie de la contribution joue le rôle que jouait l'économie de l'information auparavant : alimenter l'économie de l'attention, capter l'attention pour la vendre à des annonceurs intéressés. Mais à la différence de l'économie de l'attention précédente, dans l'économie de la contribution le lecteur est plus actif, tout comme le lecteur dans une bibliothèque est plus actif que le téléspectateur devant son poste de télévision. Ainsi, la captation de l'attention est plus efficace lorsque l'internaute est en train de chercher quelque chose puisque l'on pourra faire coïncider les annonces avec sa recherche (mots-clés de Google) que lorsqu'il échange avec ses amis, car les annonces viendront perturber la relation (difficultés de Facebook).

Stratégies industrielles

J'ai eu très souvent l'occasion de montrer que les principales firmes du web documentaire construisaient leur stratégie en privilégiant chaque fois une facette du document : la forme pour Apple, le texte pour Google et la relation pour Facebook.

On en trouvera un résumé sur cette vidéo, un développement dans la deuxième partie du chapitre 5 du livre Vu, lu, su. et une actualisation sur les billets de ce blog : Apple, Google, Facebook (lire au moins les deux derniers billets concernant chaque firme).

Questions d'actualité

Les prochains et derniers billets de ce cours seront rédigés par les étudiantes de l'Enssib autour de trois thèmes chauds de l'actualité de l'écosystème du document numériques :

  • La ville de Lyon a-t-elle eu raison de contractualiser avec Google ?
  • Google confisque-t-il la valeur créée par les journaux ?
  • Peut-on prêter des ebooks en bibliothèque ?

Vous pouvez les aider en suggérant références et réflexions en commentaire de ce billet.

mercredi 28 novembre 2012

De la pertinence des algorithmes (T. Gillepsie)

En écho aux interventions de D. Cardon et D. Kaplan au colloque archinfo et au webinaire Pédauque sur l'importance d'analyser de l'intérieur les conséquences de l'algorithme de recherche de Google, voici un article de Tarleton Gillepsie qui pose clairement la question du rôle éditorial des algorithmes et de la nécessité de mieux en comprendre les conséquences :

Gillespie, Tarleton. “The Relevance of Algorithms". forthcoming, in Media Technologies, ed. Tarleton Gillespie, Pablo Boczkowski, and Kirsten Foot. Cambridge, MA: MIT Press.

Extraits (trad. JMS) :

Les algorithmes jouent un rôle croissant dans la sélection des informations les plus pertinentes pour nous, devenant un élément crucial de notre participation à la vie publique. Les moteurs de recherche nous aident à naviguer dans les énormes bases de données d'information ou sur l'ensemble du web. Les algorithmes de recommandation cartographient nos préférences par rapport aux autres, suggérant de nouvelles informations ou des informations oubliées parmi les morceaux de culture qui comptent pour nous. Les algorithmes gèrent nos interactions sur les sites de réseaux sociaux, mettant en avant des informations d'un ami et excluant celles d'un autre. Les algorithmes construisent ce qui est "chaud" ou "tendance" ou "le plus discuté", écrémant le bavardage apparemment sans fin qui nous est présenté. Ensemble les algorithmes ne font pas que nous aider à trouver l'information, ils donnent le moyen de savoir ce qu'il y a à savoir et comment le savoir, de participer au débat social et politique, et de nous familiariser avec la chose publique à laquelle nous participons. Ils sont aujourd'hui la clé logique qui gouverne le flux d'informations dont nous dépendons, détenant "le pouvoir d'activer et d'affecter du sens, gérant la façon dont sont perçues les informations par les utilisateurs, la "distribution du sensible" (Langlois 2012)."

(...)

Nous avons besoin d'interroger les algorithmes comme un élément clé de notre écosystème informationnel (Anderson 2011) et des formes culturelles émergeant dans leur ombre (Striphas 2011), avec une attention particulière sur où et de quelle manière ils peuvent avoir des ramifications politiques. Cet essai est une carte conceptuelle pour y arriver. Je soulignerai six dimensions de la pertinence des algorithmes publics (cad ayant des conséquences publiques) qui ont un poids politique :

  1. Les schémas d'inclusion : les choix en amont qui mettent quoi à la première place dans un index, qui excluent quoi ? Et comment les données rendent l'algorithme opérationnel
  2. Les cycles d'anticipation : les implications des fournisseurs d'algorithmes pour tenter de bien connaître et prévoir les utilisateurs et comment leurs conclusions importent
  3. L'évaluation de la pertinence : les critères par lesquels les algorithmes décident de ce qui est pertinent, et comment ces critères nous sont cachés, et comment ils agissent sur les choix concernant les connaissances correctes et légitimes
  4. La promesse d'objectivité des algorithmes : la façon dont les caractéristiques techniques des algorithmes sont placées comme un gage d'impartialité, et comment cette affirmation est défendue face à la contradiction
  5. L'intrication avec la pratique : comment les utilisateurs réarrangent leurs pratiques en fonction des algorithmes dont elles dépendent et comment ils peuvent transformer les algorithmes en terrain de contestation politique, parfois même pour interroger la politique de l'algorithme lui-même
  6. La production de publics par le calcul : comment la présentation algorithmique des publics à eux-mêmes construit la compréhension qu'ils ont d'eux-mêmes, et qui est le mieux placé pour profiter de cette connaissance

L'auteur développe chacune de ces dimensions en les illustrant par des exemples et en rappelant les débats auxquels elles renvoient. On peut lui reprocher de rester en retrait, n'amenant pas de données ou d'analyses inédites, mais son essai a le mérite de proposer un canevas précis pour avancer. Il est plus que temps, en effet, que ces questions soient posées et que l'on sorte des deux ornières opposées de la neutralité ou l'objectivité des calculs d'un côté et de la manipulation ou les stratégies perverses de l'autre. Le programme proposé par Tarleton Gillepsie est autant un programme à grande échelle pour les chercheurs en SHS qu'une feuille de route pour un organisme public de régulation.

Cerise sur le gâteau : un tel programme nous permettrait peut-être aussi de sortir des polémiques convenues autour du droit d'auteur en comprenant plus lucidement le rôle éditorial du web et donc en repérant et mesurant plus lucidement les responsabilités des uns et des autres.

29-11-2012

Hubert Guillaud fait ce jour un cr beaucoup plus détaillé que le mien dans InternetActu.

Voir aussi : Algorithms are Decision Systems de T Striphas.

Le débat parait donc lancé. Il serait utile de ne pas le confiner juste à notre époque contemporaine. On pourrait aussi s'inspirer de l'important travail d'A. Desrosières sur l'histoire des statistiques qui préfigure celle des algorithmes :

''La constitution d’un espace rendant possible le débat contradictoire sur les options de la cité suppose l’existence d’un minimum d’éléments de référence communs aux divers acteurs : langage pour mettre en forme les choses, pour dire les fins et les moyens de l’action, pour en discuter les résultats. Ce langage ne préexiste pas au débat : il est négocié, stabilisé, inscrit, puis déformé et défait peu à peu, au fil des interactions propres à un espace et une période historique données.''

Alain Desrosières, La politique des grands nombres : histoire de la raison statistique. Paris : La Découverte, 2000,

J'avais proposé quelques pistes pour l'INRIA à l'occasion de son école sur le Web de données.

- page 2 de 6 -