Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

mercredi 12 mars 2008

Données privées : le débat décalé

Le New York Times a fait réaliser une intéressante étude par Comscore sur le nombre de données récoltées sur le comportement des internautes par différentes compagnies. Le tout est résumé dans le tableau ci-dessous.

Story Louise, To Aim Ads, Web Is Keeping Closer Eye on You, New-York Times, 10 Mars 2008. Html

La majorité des commentateurs et un certain nombre de politiques des deux côtés de l'Atlantique s'inquiètent de cette récolte de données pour la protection de la vie privée des internautes, face à des velléités de contrôles politique ou commercial. Sans minimiser ces risques et leur gravité ponctuelle, je pense que l'essentiel est ailleurs et que ces risques là relèvent plus d'une maladie infantile du média. Pour bien le comprendre, il est utile de comparer les pratiques des anciens médias et du nouveau.

La radio et la télévision s'intéressent depuis longtemps aux comportements des auditeurs et téléspectateurs. L'objectif est double : construire une grille de programmes permettant de réunir le plus grand nombre de personnes ; vendre l'attention captée à des annonceurs. Il est essentiel de constater que si ces deux objectifs sont évidemment liés, la liaison n'est pas bijective. Le second dépend du premier, mais le premier est indépendant du second. Une radio ou une télévision non-commerciale doit néanmoins réunir un auditoire et s'intéresser donc au comportement de celui-ci. Et, par ailleurs, les annonceurs, clients des médias, sont friands de données fines sur les comportements, réalisés par des consultants de marketing, données qui sont d'une importance secondaire pour les programmateurs. Les principaux acteurs du Web-média s'intéressent au comportement des internautes pour les deux mêmes raisons : pour améliorer l'efficacité de leurs outils (voir ici) et pour vendre de l'attention aux annonceurs. De la même façon, la relation entre les deux objectifs n'est pas bijective et bien éloignée d'un souci de contrôle des comportements. La différence avec les médias traditionnels vient du fait que le Web-média a accès directement à des données comportementales et peut être tenté de s'en servir comme un consultant de marketing. C'est le jeu que Facebook a essayé de jouer. Je ne suis pas sûr qu'il ne soit pas voué à l'échec, car en cette matière quand l'observateur est en même temps acteur, il fausse le jeu.

Mais, extrait de l'article du NYT (trad JMS) : Les principaux réseaux de télévision et firmes de presse «ne sont même pas dans dans la même catégorie» a déclaré Linda Abraham, une des vice-présidentes exécutives de Comscore. «Ils ne peuvent réellement jouer sur ce terrain». Les chiffres sont frappants, les médias anciens ne recueillent pas directement les données comportementales. Il y a deux raisons. La première tient au fait qu'il s'agit de médias de diffusion et non d'accès (voir ) et qu'en passant sur le Web ils n'ont pas encore vraiment changé leur tradition. Les médias d'accès sont, par nature, calés sur le comportement de leurs lecteurs puisque leur vocation est d'accompagner et faciliter leurs actions.

La seconde raison est aussi d'importance. Les données, pour les médias traditionnels, ne sont pas recueillies par le média lui-même, mais par un tiers de confiance (Médiamétrie en France, Nielson aux US). C'est ce tiers qui fournit l'étalon permettant la réalisation d'un prix de marché des annonces. Cet étage là n'existe pas, pas encore, dans le Web-média, même si des firmes justement comme Comscore ambitionnent de prendre cette place. Compte-tenu de la spécificité du Web-média, il n'est pas sûr que ces données puissent être partagées. Mais alors on peut se demander si le Web-média peut dépasser une structure oligopolistique ou si un prix de marché peut s'y construire raisonnablement.

Repéré par un article du Monde, qui commente celui du NYT ici.

Actu 17 mars 2008 Voir aussi ce vieux billet : Comment Google collecte vos données personnelles : cartographie des services Google, Par Youri REGNIER, vendredi 8 juin 2007 ici

L'Agrégateur de la bibliosphère

Étant d'une nature passablement paresseuse et, par ailleurs, pas mal occupé, je n'ai jamais vraiment pris le temps de me construire mon propre agrégateur, au delà d'un classement rudimentaire des fils RSS dans le service adhoc de Firefox. Aussi j'apprécie particulièrement ceux qui le font sur les sujets qui m'intéressent et qui les mettent en ligne.

Jusqu'ici, j'avais repéré Biblioflux, Biblioblogs, Bibliofusion, Biblioblogs (un autre), Docvibes et maintenant voilà ces outils rendus obsolètes par le miraculeux Bibliosphère du bibliobsédé.

Merci à lui. Je n'ai qu'un souhait : qu'il le tienne régulièrement à jour !

Repéré ici

jeudi 06 mars 2008

Les chiffres de l'économie numérique vus des deux côtés de l'Atlantique

Pour ceux qui en aurait la disponibilité, il y aurait une intéressante comparaison à faire entre les perspectives des deux côtés de l'Atlantique à partir de deux annuaires de statistiques, tous deux très complets et à vocation comparable : donner une photographie de l'économie du numérique dans le monde.

  • The Digital Economy fact book, The Progress Freedom Foundation, ici, repéré par M. Lessard qui le met en contexte ()
  • Digiworld 2007 les enjeux du monde numérique. de l'IDATE, ici

Actu du 29 mars 2008 Voir aussi le rapport de la banque mondiale :

Global Economic Prospects 2008: Technology Diffusion in the Developing World, Banque Mondiale, 2008, 220p., Rapport complet ici, synthèse

Repéré par O. Charbonneau ici

mercredi 05 mars 2008

Le trésor de Google

Hal Varian, ancien professeur d'économie à l'école de sciences de l'information de Berkeley et aujourd'hui Chief economist chez Google a régigé un billet éclairant sur le Blogue officiel de la société, non par les informations qu'il apporte, mais par la clarté du propos. En quelques paragraphes, il brosse une histoire américaine limpide des travaux sur les requètes, pour conclure sur les développements actuels de Google et insister sur l'importance de la collecte des données sur le comportement des utilisateurs. Pour comprendre l'enjeu, il faut se rappeler que les débats sur les données privées sont nourris aux US et que l'UE doit se prononcer justement sur cette question.

Varian Hal, Why data matters, 3/04/2008, Html

Extrait (Trad JMS, avec l'aide de Google, particulièrement performant sur ce texte ;-) :

Au fil des années, Google a continué à investir dans de meilleures fonctionnalités de recherche. Nos experts de la recherche d'information ont ajouté plus de 200 nouveaux critères aux algorithmes qui déterminent la pertinence des sites Web pour la requête d'un utilisateur.

Alors, d'où proviennent donc ces 200 critères supplémentaires ? Quelle est la prochaine étape de la recherche ? Et que nous devons faire pour trouver des informations encore plus pertinentes en ligne ?

Nous ne cessons d'expérimenter notre algorithme, le réglons et le précisons sur une base hebdomadaire pour améliorer la pertinence et l'utilité des résultats pour nos utilisateurs.

Mais pour trouver de nouvelles techniques de classement et évaluer si les utilisateurs trouvent leur bonheur, nous devons stocker et analyser les logs recherche. (Visionnez notre vidéo pour voir exactement quelles données nous conservons dans nos logs.) Sur quels résultats les gens cliquent-ils ? Quelle est le changement de leur comportement lorsque nous changeons des éléments de notre algorithme ? En utilisant des données des logs, nous pouvons comparer la façon dont nous vous faisons trouver l'information utile aujourd'hui par rapport à la façon dont nous le faisions il y a un an. Si nous ne gardons pas un historique, nous ne pouvons évaluer nos progrès et proposer des améliorations.

Pour choisir un exemple simple : le correcteur orthographique de Google est basée sur notre analyse des recherches de l'utilisateur compilées à partir de nos logs - et pas sur un dictionnaire. De même, nous avons eu beaucoup de succès en utilisant des requêtes de données pour améliorer nos informations sur les lieux géographiques, ce qui nous permet de fournir une meilleure recherche locale.

Repéré par D. Durand

Le Web sémantique est documentaire

Repéré grâce à E. Broudoux sur la liste RTP-DOC

Un excellent diaporama de Fabien Gandon, plein d'humour, qui vise à répondre à ceux qui critiquent l'absence supposée de la dimension sociale dans le Web sémantique. Son intérêt est moins à mon avis dans son objectif premier (la polémique est, en effet, un peu vaine) que dans la clareté de sa présentation qui, en creux, montre combien la problématique et les interrogations du Web sémantique croisent celles, plus anciennes, des professions documentaires et des sciences de l'information..

Il n'y manque que le son pour préciser certaines diapositives trop allusives.

Gandon Fabien, Le web sémantique n'est pas antisocial, 2006, 28 diapos. ici

- page 77 de 144 -