Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Recherche - web média

samedi 29 août 2009

Les lecteurs des bibliothèques sous surveillance

Voici donc le second article signalé par Paulette Bernard :

Trina Magi, “A Content Analysis of Library Vendor Privacy Policies: Do They Meet Our Standards?” , à paraître dans College & Research Libraries. Pre-print

Le titre annonce clairement la couleur. Les bibliothèques aux États-Unis (et ailleurs) ont un grand sens de l'éthique. Un Code de l'éthique a été publié par l'American Library Association (ici). Parmi les éléments essentiels de ce dernier figure la confidentialité des lectures, dont on comprend facilement l'importance pour une démocratie. Les bibliothécaires américains ont mené plusieurs combats importants en ce sens, tout particulièrement ces dernières années contre le Patriot Act. L'auteure de l'article a d'ailleurs gagné un prix à cette occasion. Mais, fait-elle remarquer, il se pourrait bien qu'aujourd'hui par manque de vigilance, les bibliothécaires ne puissent plus assumer leurs devoirs d'anonymisation des lectures. Leurs fournisseurs en ligne ne sont pas tenus par le même sens des responsabilités. Ayant perdu la maîtrise des collections, les bibliothécaires n'ont plus la possibilité de contrôler l'éthique de leur utilisation.

Extraits de la conclusion de l'article (trad JMS) :

Cette recherche montre que la politique de protection des données privées des principaux fournisseurs de ressources en ligne des bibliothèques ne tient pas compte de nombreuses normes construites par les bibliothécaires et l'industrie de l'information sur la manipulation et la protection des informations sur les utilisateurs (..)

Il est aussi clair selon leur politique affichée que la plupart des fournisseurs ne suit pas le code d'éthique de l'ALA concernant la protection de la vie privée des utilisateurs et partage les informations sur les utilisateurs avec des tiers pour des raisons variées, certaines aussi vagues que « protéger le bien-être de la société commerciale». Ceci est particulièrement inquiétant dans la mesure où le gouvernement s'appuie sur les sociétés privées pour l'aider dans son effort de collectes de données. (..)

Les étudiants qui ont confiance dans les bibliothèques et dans leurs promesses de confidentialité peuvent être incités à divulguer facilement des informations personnelles pendant qu'ils utilisent les bases de données proposées par celles-ci. Si les bibliothécaires veulent rester en accord avec le Code d'Éthique et avec les principes qui font des bibliothèques des lieux particuliers pour des recherches libres et ouvertes, ils doivent examiner avec attention les politiques qui régissent ces bases de données, défendre la protection des données personnelles des utilisateurs et former ceux-ci qui ont mis toute leur confiance dans la bibliothèque.

J'ajouterai quelques éléments en résonance avec les préoccupations de ce blogue :

  • Au delà des bibliothèques, les universités devraient être beaucoup plus attentives à ces questions, en interne comme à l'externe. En interne, elles devraient aussi se doter de code d'éthique sur la non-divulgation des pratiques de lecture des étudiants, qui ne passent plus nécessairement aujourd'hui seulement par les bibliothèques. La tentation est forte, par exemple, pour un professeur de vérifier qui est allé lire les pages qu'il a conseillé dans son cours et mises en ligne sur le site particulier de ce dernier. En externe, la traçabilité autorise théoriquement des études scientométriques sur les lectures et non plus seulement sur les publications. Est-on vraiment sûr qu'il soit sain de surveiller qui lit quoi dans la science ?
  • Les bibliothèques, qui ont confié sans toujours trop réfléchir leurs collections à numériser à Google, ont dans le même élan autorisé cette firme à surveiller les lectures de ces collections. Ceci est clairement en violation avec leur code d'éthique. Ces interrogations commencent à poindre avec le débat sur l'accord en discussion avec les auteurs et les éditeurs aux US. On pourra consulter sur ce sujet et d'autres le compte rendu par Mark Liberman de tables rondes organisées récemment à Berkeley sur cet accord (ici).
  • Enfin, tout cela me conforte dans ma catégorisation des modèles de médias. Dans le modèle éditorial, le lecteur ne fait pas qu'acheter un objet, il achète aussi sa liberté de lecture. Il peut alors lire et faire lire sans demander la permission à personne, ni être surveillé par personne. Inversement, le Web-média fait «payer» sa pseudo-gratuité par un encadrement et une suveillance du lecteur qu'il monnaiera sur d'autres marchés. Pour approfondir cette dernière question voir les développements autour du pentagone (court, long)

Actu du 1 septembre 2009

Voir sur ce sujet le billet du blogue LibraryLaw du 28 août, repéré grâce à Calimaq :

How to negotiate with web 2.0 services for better terms of service - yes we can ici

lundi 24 août 2009

Sociétés de surveillance

Paulette Bernard, merci deux fois à elle, m'a signalé deux documents vraiment très éclairants sur la question de la gestion des données privées aux US. Je présente ici le premier et garde le second, qui concerne très directement les bibliothèques, pour un autre billet.

Joshua Gomez, Travis Pinnick, et Sahkan Soltani, KnowPrivacy (Berkeley, USA: School of Information, University of California, juin 1, 2009), Pdf.

Il y a aussi un site qui présente les mêmes éléments ()

Plusieurs enquêtes sont croisées : une analyse quantitative sur les mouchards (Web bug, en québécois «pixel invisible» déf), une autre sur les termes affichés sur les sites des politiques de confidentialité, une troisième sur les plaintes déposées par les internautes et enfin une analyse du contenu de la presse sur le sujet. Voici quelques extraits du résumé du rapport (trad JMS). Ils se passent, je crois, de commentaire :

Notre analyse des mouchards a montré qu'ils sont innombrables sur le web; cela est inquiétant car les utilisateurs sont peu susceptibles de connaître les mouchards, et qu'il manque de réel contrôle sur cette technologie de surveillance. Les 50 principaux sites web contenaient au moins un mouchard à un endroit dans le mois de l'enquête. Certains en avaient une centaine. Plus important encore fut l'ampleur de la couverture de surveillance de certaines sociétés. Plusieurs avaient un mouchard sur la majorité des 100 premiers sites. Google en particulier avait une large couverture. Il avait un mouchard sur 92 des 100 premiers sites, et sur 88% de l'ensemble compris dans l'échantillon de données de presque 400.000 domaines uniques.

Combined Google Trackers

Notre enquête sur les politiques de confidentialité affichées montre que la plupart des cinquante principaux sites webs disent récolter des informations sur leurs utilisateurs et s'en servir pour personnaliser les publicités. Au-delà, cependant, la plupart comprennent des informations peu claires (ou manquent d'information) sur la conservation des données, l'achat de données sur les utilisateurs provenant d'autres sources, ou le sort de ces données dans le cas d'une fusion de sociétés ou d'une faillite.

Le partage des informations est particulièrement problématique. Alors que la plupart des politiques indiquent que l'information ne sera pas diffusée à un tiers, beaucoup de ces sites permettent à un tiers de récupérer des données via des mouchards. (..)

La plupart des politiques indiquent que les informations peuvent être partagées avec des sociétés affiliées. (..) Pour avoir une impression générale du nombre de sociétés avec lesquelles chaque site web parmi les 50 premiers pouvaient potentiellement partager leur données selon leur politique, nous avons chercher leur société mère et compté leur nombre de filiales. Le nombre moyen de filiales était de 297 avec une médiane de 93. (..).

L'analyse qualitative des plaintes a suggéré que les utilisateurs étaient principalement préoccupés par une absence de contrôle sur les collections de données et sur la publicisation des données personnelles (..).

L'analyse des articles de journaux a montré que les utilisateurs étaient alertés sur le profilage des comportements et en général sur les questions relatives aux collections de données. Pourtant, la discussion de certaines pratiques était inexistante. Pratiquement aucune mention n'était faite sur les partages des données avec les sociétés affiliées ou sur l'utilisation de mouchards.

Libérez les données disait-il.. ici

Actu du 26 aout 2009

Repéré par J Futardo :

Balachander Krishnamurthy et Craig E. Wills, On the Leakage of Personally Identifiable Information Via Online Social Networks, SigComm Conference 2009. Pdf

Compte tenu du nombre de papiers sortant sur cette problématique, il est à prévoir des changements prochains.

dimanche 09 août 2009

La martingale de Google

On a déjà beaucoup glosé sur Google comme moteur de recherche ou encore sur l'«écosystème» de Google, c'est à dire l'ensemble des services documentaires interconnectés qu'il propose afin de développer l'activité sur le Web, si possible à partir de ses sites. On sait aussi la firme très rentable et ses revenus provenant à 97% de la publicité. Mais on s'interroge peu sur la réussite de Google sur le marché publicitaire. Comment se fait-il qu'il séduise autant les annonceurs ?

La réussite de la firme tient en effet à une double innovation : Celle de son métier de base, la recherche d'information et tous ses à-côtés très suivis par les observateurs du Web ; mais aussi une rupture gagnante et plus méconnue avec les règles traditionnelles du marché publicitaire des médias qui lui a permis de rentabiliser de façon spectaculaire son cœur de métier selon les principes du marché bi-face (Wkp). Il manque aux services qui tiennent la vedette aujourd'hui sur le Web, Facebook ou Twitter, cette seconde dimension innovante. C'est pourquoi on peut douter de la pérennité de leur modèle actuel.

On le sait, la publicité chez Google repose sur l'achat de mots-clés, AdWords, qui détermine l'emplacement de l'affichage de l'annonce sur la page de requête de l'internaute ou sur celle des sites de son réseau correspondants à ces mots clés et sur le paiement par clic (PPC), contrairement au paiement par page-vue traditionnel de la publicité. Déjà ces procédures utilisent astucieusement le savoir-faire d'indexation de la firme. Elles sont généralement mises en avant pour expliquer l'insolente réussite de Google dans le domaine mais elles ne représentent pas la seule originalité, ni même peut-être la principale. Je crois que deux autres innovations se sont avérées décisives : l'utilisation encadrée des enchères et la prise en compte de la servuction dans la production d'une annonce. Cet ensemble présente une rupture radicale avec le marché publicitaire traditionnel.

Je ne parlerai pas ici de l'autre volet de l'activité publicitaire de Google, celui de régie : AdSense, sinon pour dire qu'il constitue aussi dans le chiffre d'affaires une part importante mais minoritaire et qui diminue régulièrement (ici) et que son objectif est aussi de soutenir l'affermage des sites extérieurs et leur permettant de trouver facilement un revenu.

Le jeu optimum des enchères

Il faut être prudent dans l'analyse car toutes les informations proviennent de la firme, une firme qui connait la valeur de l'information et en contrôle étroitement la circulation. Mais un article du numéro de juin de la revue de Wired éclaire crument le premier volet :

Steven Levy, “Secret of Googlenomics: Data-Fueled Recipe Brews Profitability,” Wired Magazine, juin 17, 2009, 108-115 ici

Selon le journaliste, c'est à partir d'une réflexion de Hal Varian, alors professeur d'économie à l'Université de Californie et aujourd'hui recruté par Google comme chief economist, que la firme s'est rendue compte, en 2002 alors qu'elle ne comptait que 200 employés, que son modèle d'affaires était basé principalement sur les enchères. À partir de ce moment là, la firme a fait le pari risqué de basculer la totalité de son système de vente des mots-clés sous le système qui n'était alors qu'expérimental des enchères. Varian, en effet, avait remarqué que le système répondait parfaitement aux questions posées par la théorie des jeux où un acteur ne prend de décision qu'en fonction de l'anticipation qu'il fait des décisions de ses concurrents (Wkp).

Une difficulté des enchères est que les clients ont peur de surenchérir trop fort et donc de payer un prix très au-delà de ce qu'ils auraient pu obtenir. L'idée simple d'abord développée chez Google est que chacun ne paiera que le prix de l'enchère de celui qui le suit plus un centime. L'enchérisseur n'a donc plus à craindre de jouer trop au-delà de ses concurrents. Le paradoxe est que cette procédure encourage l'augmentation des enchères.

Mais le système d'enchères de Google est en réalité plus complexe. L'enchère n'est pas le seul paramètre pour déterminer le gagnant, Google y ajoute un indicateur de qualité de l'annonce. Et le prix payé est calculé selon cette formule : Formule-prix-pub-Google.jpg P1 : Prix payé par l'annonceur - B2 : Enchère la plus haute la plus rapprochée - Q2 :Qualité de l'annonce de l'enchère la plus rapprochée - Q1 : Qualité de l'annonce du gagnant

Toute l'astuce est que par l'indicateur de qualité Google reste ainsi maître des règles du jeu. La qualité est en effet calculée par la firme elle-même. Elle repose principalement sur la pertinence de l'annonce par rapport au mot-clé sur lequel l'enchère porte, sur la qualité de la page de destination du lien et avant tout sur le pourcentage de clics sur une annonce donnée quand elle apparait sur une page. Extrait de la présentation de la firme sur l'indicateur de qualité (ici) :

Nous continuons à affiner les formules de calcul du niveau de qualité sur Google et le réseau de recherche, mais leurs principaux composants sont toujours plus ou moins les mêmes :

  • l'historique du taux de clics (CTR) du mot clé et de l'annonce correspondante sur Google. Remarquez que le taux de clics sur le réseau Google a une incidence sur le niveau de qualité sur le réseau Google uniquement (pas sur Google) ;
  • l'historique de votre compte, déterminé par le taux de clics de tous les mots clés et de toutes les annonces qu'il contient ;
  • l'historique du CTR des URL à afficher contenues dans le groupe d'annonces concerné ;
  • la qualité de votre page de destination ;
  • la pertinence du mot clé par rapport aux annonces de son groupe d'annonces ;
  • la pertinence du mot clé et de l'annonce correspondante par rapport à la requête de recherche ;
  • les performances de votre compte dans la zone géographique où l'annonce sera diffusée ;
  • d'autres facteurs de pertinence.

Pour plus de précision, on peut se reporter aussi à la vidéo où Hal Varian lui-même présente la formule (ici). Comme l'indique le journaliste de Wired, on peut reprocher à Google son arbitraire, mais pas son manque d'équité. En effet, tous les annonceurs sont soumis à la même formule qui a pour objectif de maximiser l'efficacité globale de la publicité affichée.

Et ce n'est pas tout, le succès de la firme a fait qu'il a fallu gérer des millions d'enchères et Google a inventé une nouvelle discipline, la «physique des clics», c'est-à-dire l'observation des clics sur les pages. Les chercheurs de Google ont, entre autres, construit le keyword pricing index, littéralement l'indice des prix des mots-clés, de la même façon que l'on calcule l'indice des prix de l'économie d'un pays à partir du panier de la ménagère. Il alerte la firme quand apparaissent des bulles anormales sur les prix, indication que les enchères ne fonctionnent pas correctement. La firme peut aussi corréler ces données avec celles de la température, du climat et aussi des recherches des internautes afin d'affiner ses connaissances et ses outils.

Elle utilise des dizaines de tableaux qui s'affichent en temps réel tout comme la bourse. Sur un tableau on peut surveiller les recherches, le montant de l'argent récolté, le nombre d'annonceurs, sur combien de mots-clés ils surenchérissent et le niveau de retour pour chaque annonceur. Ainsi Google, sous l'impulsion d'Hal Varian, s'est mis à recruter des économètres. L'évolution est là encore tout à fait comparable à celle qui a suivi l'informatisation des places boursières avec l'arrivée massive de mathématiciens-statisticiens à la recherche de martingales pour optimiser les gains dans ce maelstrom de cours d'actions en perpétuel mouvement.

Ainsi quand on parle d'«écosystème» pour Google, le préfixe «éco-» est plutôt celui d'économie que d'écologie : la firme a mis en place une véritable économie parallèle, autonome dont elle a fixé les règles et qu'elle contrôle étroitement. Dans cette économie ses vrais concurrents sont les indexeurs qui tentent de faire remonter les pages en optimisant au maximum leur repérage par les moteurs (SEO, Wkp), réduisant d'autant l'intérêt des liens sponsorisés.

L'Ikéa de la publicité

La seconde innovation sur laquelle je voudrais insister est l'utilisation du travail du client. Dans l'économie mise en place par la firme, la co-production avec le client est utilisée au maximum.

Ikéa, on le sait, a utilisé de façon massive la notion de servuction, c'est-à-dire, le travail avec le client. Ce dernier feuillette le catalogue, est obligé de suivre l'ensemble des produits exposés, les sélectionne et les transporte et, last but not least, construit lui-même les meubles qu'il a amené chez lui. L'ensemble a été étudié, séquence par séquence, de façon à exploiter au maximum l'activité du client. En contrepartie ce dernier dispose d'une grande liberté dans ses choix et d'un excellent rapport qualité-prix.

Mutatis mutandis, Google a utilisé la même technique pour le marché publicitaire. L'annonceur fait lui-même l'ensemble du travail qui conduira à la mise en ligne de sa publicité. Il serait ici beaucoup trop long de détailler l'ensemble des étapes, mais tout est fait pour que le client puisse optimiser l'efficacité de son message publicitaire.

Google, en plus des outils d'aide traditionnels (ici), a mis en place un centre de formation où l'on peut obtenir tous les détails sur la façon de mener une campagne publicitaire et même, si on le souhaite, passer un examen de professionnel de la publicité (). On observera facilement que, comme pour Ikéa, chacune des séquences a été soigneusement étudiée de façon à utiliser au maximum le travail de client, et de la même façon celui-ci y gagne en liberté et en rapport qualité-prix, mesurée ici en retour sur investissement.

Actu du 11 août 2009

À compléter par la lecture de l'excellent article :

Guy Hervier, “Google devient-il un problème ?,” ITR News.com, juillet 23, 2009, ici

Actu du 8 mars 2010

Lire aussi le très polémique, mais instructif :

Publié Par J-c Féraud, “« L’objectif de Google n’est pas d’afficher l’information la plus pertinente »,” Sur Mon Ecran Radar, Mars 8, 2010, ici.

Actu du 22 septembre 2010

Voir aussi :

“Publicité : les secrets de Google France « La Social Newsroom,” ici

jeudi 11 juin 2009

Éloge du tracé

Comme me l’a fait justement remarquer une lectrice attentive et critique, ce billet est une sorte d'oxymore : la manière dont il a été écrit en contredit le propos. En tapant avec mes doigts sur un clavier ordinaire d’ordinateur et regardant l’écran où les lettres apparaissaient ou disparaissaient selon les commandes absconses du clavier, que j’ai intégrées avec plus ou moins de dextérité depuis bien des années aujourd’hui, je m’éloigne du «tracé» dont je voudrais pourtant souligner la grande vertu.

Le billet m’a été inspiré par une collègue de l’EBSI, Christine Dufour, qui a acheté récemment un ordinateur portable muni d’un écran convertible en tablette graphique. Depuis elle en est devenue fan, son nouvel outil ne la quitte pas. En réunion suscitant la curiosité de ses voisins, elle prend des notes directement dessus en écriture cursive avec son stylet, immédiatement reconnue et intégrée par le logiciel. Dans son bureau elle lit les documents typographiés et les annotent de la même façon, comme autrefois le papier à plat sur la table et la main dessus.. sauf qu’il s’agit de documents électroniques et de signes intégrés dans la mémoire de l'ordinateur. Et, tout à la préparation de ses cours à cette époque de l’année, elle expérimente la possibilité d’intervenir avec son stylet directement sur l’image projetée, réglant la difficulté que connaissent bien des professeurs d’avoir à choisir entre projeter un PPT ou écrire au tableau, difficulté aggravée généralement par la superposition de l’écran et du tableau dans les amphithéâtres.

On oublie souvent que l’on écrit d’abord avec la main. Je veux dire que pour apprendre l’écriture, il faut domestiquer sa main de façon à ce qu’elle accompagne le mouvement du signe que l’on veut représenter. Les calligraphes le savent et des civilisations entières, comme la chinoise ou l’arabe, ont valorisé fortement la beauté du geste et sa traduction par une trace. Le geste épouse la forme des lettres en les traçant. La lecture, du moins dans sa forme moderne et compétente, réduit l’importante du geste.. sauf dans les annotations à la main qui permettent sa réappropriation en le caressant, pourrait-on dire. Mais l’apprentissage de la lecture passe par l’écriture et les ardoises ou cahiers sur lesquelles les enfants inscrivent et effacent laborieusement des lettres et des mots de mieux en mieux formés. Ces souvenirs restent enfouis dans notre mémoire, mais ils lient définitivement dans notre inconscient geste et écrit.

On pourrait aussi refaire l’histoire des documents au travers de cette relation, depuis les scribes, les moines copistes, l’imprimerie qui coupe la relation pour les documents publiés, la machine à écrire qui la coupe pour les documents non publiés.. et les tablettes qui permettent de retrouver le geste dans sa conséquence immédiate sur le signe par le tracé. Et je saute bien des étapes et des dimensions de l’analyse.

Cette dimension numérique nouvelle, au sens où elle entre maintenant dans un quotidien possible, est, je crois, d’une grande importance pour l’analyse documentaire, mais elle me parait oubliée des analyses sémiologiques du domaine numérique focalisées sur les e-books, le papier électronique ou encore l’étude des sites Web.

samedi 06 juin 2009

Quels rapports entre Twitter et Wikipédia ?

Voici un graphique fort instructif. Il s'agit d'une enquête menée par un étudiant et un chargé de cours de Harvard, Bill Heil et Mikolaj Piskorski, dans le cadre d'un cours intitulé Competing with Social Networks (voir présentation ici) sur un échantillon de 300.000 utilisateurs de Twitter. Il n'est pas précisé si l'échantillon est uniquement américain, mais on peut le supposer. Le trait plein représente les utilisateurs de Twitter, le pointillé ceux de Wikipédia et les tirets ceux d'un réseau social. L'ordonnée représente en pourcentage le nombre de contributions et l'abscisse les utilisateurs classés par leur total de contributions, toujours en pourcentage.

Utilisateurs classés par nombre de contributions

Extrait du billet des auteurs (trad JMS) :

En particulier, les 10% des utilisateurs les plus prolifiques de Twitter postent plus de 90% des messages. Sur un réseau social classique, ces mêmes 10% ne proposent que 30% de la production totale. Pour mettre Twitter en perspective, il faut faire une analogie inattendue avec Wikipédia. Là, 15% des éditeurs des plus prolifiques alimentent 90% de la publication de Wikipédia. Autrement dit, la répartition des contributions sur Twitter est plus concentrée que sur Wikipédia, même si Wikipédia n'est pas un outil de communications. Ceci implique que Twitter ressemble plus à un outil de publication unidirectionnel qu'à un réseau de communication pair à pair.

Il faut rester prudent, car il y a peu d'informations sur la méthodologie employée, néanmoins ces résultats semblent confirmés par d'autres enquêtes, en particulier une étude de Purewire sur Twitter dont on trouvera le compte rendu sur ReadWriteWeb ou sur TechCrunch (ici et ).

Ainsi le Webmédia continue pas à pas sa structuration. Voici rapidement quelques leçons à partir des ressemblances et des différences entre le microblogging et l'encyclopédie collaborative. Pour Wikipédia, on pourra aussi consulter d'anciens billets sur les différentes dimensions de son économie (ici).

Les deux sont des innovations radicales, il est difficile de les comparer à des modèles existants. Les deux se structurent comme des médias unidirectionnels avec une minorité de contributeurs et un grand nombre de lecteurs. Les deux fonctionnent sur l'économie du don du côté des contributeurs, on pourrait dire une petite bourgeoisie intellectuelle avide de prendre la parole face aux médias traditionnels auxquels ils n'ont pas ou difficilement accès. Les deux aussi n'ont pas de modèle d'affaires et on peut penser que cette caractéristique est aussi un élément de leur succès d'usages, car ils ne sont pas (encore) soupçonnés d'intéressement occulte. Les deux enfin ont réussi à se positionner comme des joueurs importants dans l'économie de l'attention, au point d'intéresser le plus gros des acteurs, Google.

Du côté des différences, la première qui saute aux yeux et que l'un fonctionne sur le flux et l'immédiateté, tandis que l'autre fonctionne sur l'accumulation et le patrimoine. Le premier est plus proche du modèle de la radiotélévision, le second de celui de la bibliothéconomie dans le pentagone. La seconde différence est évidemment la longueur des messages. Twitter prend l'air du temps en jouant sur le signalement subjectif et sur l'horloge quotidienne, tandis que Wikipédia explique le monde dans de longs développements qu'il souhaite les plus neutres et exhaustifs possible. En ce sens ils sont parfaitement complémentaires. La troisième différence est que l'un a fait le choix clair du non-profit (Wikipédia) tandis que l'autre se positionne dans le secteur commercial en faisant appel à la récolte de fonds avec comme perspective vraisemblable le rachat.

- page 15 de 38 -