Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Recherche - web média

dimanche 27 février 2011

Le web-média entre radio-tv et bibliothèque

Décidément, la musique continue d'ouvrir la voie à l'affirmation du modèle du web-média (avec d'ailleurs la publication scientifique pour d'autres raisons).

OWNI a eu la bonne idée de signaler et traduire un billet de Evolver.fm : Free Music Can Pay As Well As Paid Music, Says YouTube (article original trad OWNI ici). L'argumentaire principal, interprété à ma façon, est qu'on ne peut comparer les mesures du modèle éditorial avec celles issues de l'économie de l'attention. Dans le premier cas, on mesure un achat que le client peut consommer à loisir. Dans le second cas, on mesure la consommation, c'est à dire le nombre de fois que l'amateur va écouter un morceau de musique pour vendre son attention à un annonceur. Il s'agit de mesures fondamentalement différentes : une personne pourra écouter de nombreuses fois un morceau acheté ; inversement une personne n'achètera pas forcément un morceau, s'il n'est pas gratuit.

Les dirigeants de YouTube indiquent qu'un vrai business est en train de s'installer pour la musique gratuite. Faute de chiffres précis et indiscutables, il faut rester prudent. La baisse des revenus de la vente de CDs est encore très loin de être compensée par celle du numérique (). L'insolente santé de Apple montre que la position est encore solide (ici et ). Et il y a longtemps que Google cherche vainement à rentabiliser YouTube ().

Mais leurs remarques sont une claire illustration du positionnement du web dans le business des médias entre la radio-télévision et la bibliothèque que j'ai essayé de décrire sous forme d'un pentagone (court, long). De la radio-tv il reprend l'économie de l'attention, de la bibliothèque, la collection et le service d'accès.

lundi 21 février 2011

Annotez « Le web sous tensions » !

Comme indiqué dans un précédent billet, un petit groupe franco-canadien de chercheurs propose de reprendre le processus d'écriture collective initié au sein du Rtp-doc sous la signature collective de Roger T. Pédauque. La première version du texte, Le web sous tensions, est maintenant en ligne et vous pouvez l'annoter. Et n'hésitez pas à le faire savoir auprès d'éventuels contributeurs. Plus le texte sera annoté, plus il pourra être amélioré. L'interface permet les annotations directes sur le texte.

Le web sous tensions, Roger II Pédauque Version du 18 février 2011

Résumé du texte :

Il faut prendre au sérieux l’interpellation de Tim Berners-Lee sur une science du web. Les humanités numériques, à condition de dialoguer étroitement avec les disciplines informatiques, pourraient être le creuset d’une réflexion véritablement transversale et interdisciplinaire sur le web.

Dans cette perspective, le web peut être analysé comme un média en émergence en tension entre deux pôles : information et communication. Tension qui se décline sur les dialectiques publication/conversation et signe/signal et qui donne lieu à des résolutions ou pose encore des défis que l’on peut lire au travers de la distinction pédauquienne forme-texte-médium.

Cette tension se concrétise notamment par, l’intégration dans le document d’une dimension temporelle affirmée. Celle-ci remet en cause les pratiques professionnelles de l’archivistique. Elle touche toutes les étapes de la vie du document et bouleverse sa notion même. Dès lors, on peut s’interroger pour savoir si un critère de sa définition ne serait pas une stabilité, même relative, que l’on peut repérer dans les réponses à une requête.

Même récent, le web a une histoire. Pour ses concepteurs, nous sommes aujourd’hui, après le web des documents, à l’étape du web de données qui est à la fois la réalisation pratique et une évolution de l’idée d’un web sémantique, lancée par T. Berners-Lee en 2001. Il est difficile de raisonner globalement sur le web comme un système à base de connaissance à cause de problèmes de cohérence ou encore de confiance, il est plus facile d’articuler des unités d’information élémentaires comme des données, moins dépendantes du contexte interprétatif. Dès lors, un effort est proposé pour rendre les données accessibles et les lier grâce à un langage commun. Deux pistes se poursuivent en parallèle : celle du web sémantique originel, mais réservé à des domaines limités et structurés, celle du web de données sur un web ouvert. Et malgré la difficulté d’échapper aux visions partielles, la couche de données apparaît de plus en plus comme une couche faisant la relation entre le web traditionnel et le web logique.

L’ensemble de ces éléments sont portés par un récit, une ou des utopies, qu’il faudrait mieux analyser et dont il faudrait mieux percevoir les effets et se concrétise par l’émergence d’une nouvelle profession, les architectes de l’information.

Pourquoi cette initiative alors qu'il existe déjà trois textes de Roger et que l'aventure accompagnait une organisation aujourd'hui oubliée du Cnrs-Stic en réseaux de chercheurs ?

  • Tout d'abord le contexte du web a changé. Sans être obsolètes, les précédents textes de Roger s'appuyaient sur la situation du numérique du début du millénaire en essayant de pointer les défis à venir. Les thèmes éclairent la situation actuelle. Mais le web bouge et il faut réajuster le projecteur pour les années à venir.
  • Ensuite, il existe toujours un besoin pour des réflexions réellement interdisciplinaires sur le web. De ce côté, il semble l'on n'a pas beaucoup avancé. Et pourtant, seul un dialogue approfondi et interdisciplinaire sera vraiment productif pour comprendre le web.
  • Enfin à côté de la publication qui régule aujourd'hui l'économie scientifique, la concurrence des carrières et des egos, il est utile de produire des textes collectifs, transversaux, indépendants, mettant en perspective les différentes dimensions disciplinaires sur ce média envahissant qui se construit sous nos yeux, non pas pour bâtir un consensus mais bien pour repérer où sont les accords, les différences ou les divergences et par là avancer chacun notre réflexion par une réelle confrontation interdisciplinaire.
  • Et puis, il existe aujourd'hui des outils et une pratique bien plus développée du dialogue sur le web que du temps de Roger 1er. Il faut poursuivre et élargir les expériences alternatives de production scientifique.

Les responsables de la première version et de la synthèse : Bruno Bachimont (UTC-INA), Valérie Beaudouin (Télécom ParisTech), Jean Charlet (Inserm), Dominic Forest (Université de Montréal), Benoit Habert (ENS-Lyon), Jean-Philippe Magué (ENS-Lyon), Yves Marcoux (Université de Montréal), Alain Mille (Université Claude Bernard - Lyon 1), Vincent Quint (Inria), Jean-Michel Salaün (Université de Montréal - Collegium de Lyon).

Souhaitons que, comme dans les rédactions précédentes, les scientifiques, académiques, professionnels et experts soient nombreux à lire et annoter ce texte. Le succès de la formule dépend du succès de cet appel. Les expériences précédentes ont montré que l'intégration des commentaires de la première version conduisait à un texte bien plus riche et sur certaines parties fort différent de l'original. Cette version sera disponible pendant un gros mois. Plus vous annoterez tôt, plus vous aurez la chance d'initier des réactions.

vendredi 18 février 2011

Le côté obscur des requêtes sur les moteurs

Paulette Bernhard a attiré mon attention sur un récent article du NYT, merci à elle.

David Segal, “Search Optimization and Its Dirty Little Secrets,” The New York Times, Février 12, 2011, rub. Business Day, ici.

L'article conte l'histoire d'une manipulation pas très propre des résultats de recherche de Google à des fins commerciales. La technique est connue et il existe même des professionnels spécialisés dans le domaine, les référenceurs ou SEO (pour Search engine optimization) qui jouent au chat et à la souris avec les moteurs pour placer au mieux leurs sites clients dans les pages de résultats de recherche. Mais l'ampleur de la manipulation, la méthode employée et la réaction de Google méritent en effet qu'on s'arrête à cette histoire.

Pendant quelques mois et donc pendant la période des fêtes, lorsque l'on tapait dresses, bedding ou area rugs (carpettes) ou encore “skinny jeans”, “home decor”, “comforter sets” (couettes),“furniture” et des douzaine d'autres mots ou phrases, y compris des marques comme Samsonite le même site sortait numero 1 ou dans les tous premiers : JC Penney une chaîne de magasins pour la famille implantés partout aux US, 1100 magasins, 17,8 Mds $ de CA.

Il y a en moyenne pour les US 11,1 millions de requêtes mensuelles sur dresses, si l'on considère que 34% cliquent sur la première réponse (ici), cela signifie que JC Penney a attiré ainsi 3,8 millions de visiteurs sur son site chaque mois, rien qu'avec ce seul mot.

Bien entendu, ces résultats sont la conséquence de techniques d'optimisation du PageRank du site, qui, si elles ne sont pas illégales, relèvent d'une manipulation peu conforme à la netétiquette. « Quelqu'un » a tout simplement payé pour que des milliers de sites pointent vers JC Penney et augmentent ainsi ses chances d'être bien classé par le moteur. L'enquêteur NYT a repéré, par exemple, 2015 pages de sites les plus divers contenant des liens sur “casual dresses” , “evening dresses” “little black dress” ou “cocktail dress” dirigeant vers le site JC Penney. Beaucoup de ces sites ne sont même pas actifs, juste des réservoirs de liens. Mais l'opération est gagnant-gagnant. Le journaliste a pu retrouver un responsable de site qui lui a indiqué qu'il gagne environ 150$ par mois, il ajoute : Je n'ai rien à faire, les annonces sont juste là et si quelqu'un clique dessus, je fais de l'argent. Il héberge 403 liens, tous placés par une régie (TNX).

Le plus surprenant, mais bien intéressant, est qu'il semble que Google ne se soit aperçu de rien avant d'être alerté par le NYT. Ils ont alors rétrogradé JC Penney à la main (!). Contrairement à ce qui s'était passé pour BMW, aucune autre sanction ne parait envisagée. Mais JP Penney fait aussi partie des meilleurs clients de Google avec un budget publicitaire mensuel de 2,46 million de $.

Il y a ainsi un côté obscur de la recherche sur le web où des « chapeaux noirs » (black hats) organisent en sous-main un commerce lucratif de liens. On n'est pas loin de pratiques mafieuses. Cet article permet de lever un coin du voile de cette économie souterraine proche de celle des spammeurs. Il montre aussi qu'il faudrait un jour (bientôt) introduire une déontologie pour séparer les intérêts commerciaux des intérêts informationnels de ce nouveau média.

Pour une bonne analyse du phénomène et en particulier les pratiques des chapeaux blancs, gris et noirs et les difficultés de régulation voir :

Trusting (and Verifying) Online Intermediaries' Policing, Frank Pasquale ici

Actu du 21 fév 2011

Voir aussi sur le sujet les interrogations d'Olivier Andrieu, une référence pour les SEO français, Abondance (ici), lire aussi les commentaires.

Actu du 27 févr 2011

Décidément le pb semble ardu. Google annonce un grand ménage et un changement dans son algorithme ici

Actu du 29 fev 2011

Ça n'a pas traîné ici

Ou le lendemain cet article de Libé qui fait le point ()

Actu du 13 mars 2011

Après l'UE, la commission antitrust du Congrès américain a mis la question à son ordre du jour. Communiqué ici.

Partie sur Google :

Competition in Online Markets/Internet Search Issues

Access to the wealth of information and e-commerce on the Internet is essential for consumers and business alike. As the Internet continues to grow in importance to the national economy, businesses and consumers, the Subcommittee will strive to ensure that this sector remains competitive, that Internet search is fair to its users and customers, advertisers have sufficient choices, and that consumers’ privacy is guarded. In recent years, the dominance over Internet search of the world’s largest search engine, Google, has increased and Google has increasingly sought to acquire e-commerce sites in myriad businesses. In this regard, we will closely examine allegations raised by e-commerce websites that compete with Google that they are being treated unfairly in search ranking, and in their ability to purchase search advertising. We also will continue to closely examine the impact of further acquisitions in this sector.

dimanche 16 janvier 2011

On n'achète pas une bibliothèque comme un livre

François Bon vient de baisser de façon conséquente le prix des livres sur Publie.net. Un livre téléchargé chez lui coûte désormais 3,49 Euros contre 5,99 auparavant (et même un peu moins pour les Québécois exonérés de TVA). Parmi ses explications, la plus trivialement économique qui est sans doute secondaire pour lui, mais nous intéresse ici au premier chef est celle-ci :

En baissant de façon conséquente ce prix standard de 5,99 à 3,49 (et 2,99 pour les formes brèves), j’ai l’intuition que ce ne sera pas pénaliser les auteurs – au demeurant, même sur un téléchargement à 3,49, une fois enlevés les 57 cts de TVA, reste 1,46 à l’auteur en vente directe, et 0,85 en vente avec intermédiaire - , mais au contraire déplafonner notre distribution, passer à une autre échelle.

Cela m'a rappelé deux autres billets assez spectaculaires. Le premier d'un auteur de roman policier américain prolifique, Joe Konrath, qui explique le 22 septembre 2010 comment il a vendu 103.864 ebooks. Extraits (trad JMS) :

Aujourd'hui, je vends une moyenne 7.000 e-books auto-édités sur le Kindle. Ces chiffres concernent les 19 titres auto-publiés, bien que les six premiers comptent pour plus de 75%, en gros 5000 par mois.

Cela signifie que ces six ont une moyenne de 833 ventes, ou rapportent 1.700$ par mois, chacun. Cela équivaut à 20.400$ par an et par livre pour mes meilleures ventes.

Il poursuit son exposé détaillé en expliquant comment il est arrivé à ce chiffre. En résumé, il a choisi de s'auto-éditer en réduisant drastiquement le prix de vente de ses livres à 2,99$. De ce fait, ses droits en pourcentage ont augmenté car ils sont partagés en moins d'acteurs, et en même temps l'augmentation des exemplaires vendus augmente mécaniquement les revenus de façon spectaculairement plus importante que le manque à gagner de la baisse du prix.

Cette aventure débute à peine. À la fin de 2010 j'aurai gagné plus de 100.000 $ sur mes livres auto-édités, et ce n'est rien comparé à ce que j'attends pour 2011. Et j'y réussis sans tournée, sans promotion non-stop, sans dépenser beaucoup d'argent, et sans compter sur personne d'autre.

Sans doute même s'il est exemplaire en particulier par la forte activité sur le web qui favorise certainement l'accès à ses œuvres, le cas de J. Konrath ne peut être reproduit pour l'ensemble des auteurs. C'est un auteur reconnu, expérimenté à succès de littérature populaire. Mais au delà du cas particulier, l'exemple pose la question de ce que l'on vend, sans doute un livre, mais un livre dans un écosystème fort différent et par là même dans un système de valeur très différent.

Avant d'y venir, il est utile de consulter un troisième billet, celui d'Evil Genius qui s'appuyant sur les chiffres de J. Konrath propose un petit modèle économétrique, dont le schéma ci-dessous résume bien la conclusion.

Evil-Genius-12-01-2011.jpg

Bien sûr la construction du modèle est critiquable, ne s'appuyant que sur un exemple. Mais la démarche est utile et pourrait être menée de façon systématique avec les chiffres des grands acteurs. Le modèle est d'autant plus simple que les coûts variables de distribution dans le numérique sont très réduits. On peut même ajouter que la constitution de la maquette pour les livres récents ont été aussi très réduits par le numérique comme le montre l'étude de H Bienvault pour le MOTif.

En réalité ce modèle pose une question de fond qui est une petite révolution par rapport à la conception actuelle de la valeur éditoriale d'un livre. Il suppose de mesurer l'élasticité de la demande globale de livres par rapport à leur prix. Autrement dit, de supposer qu'un livre, ou plutôt un titre, est concurrent d'un autre en fonction de son prix, que les livres sont peu ou prou interchangeables.

On a tendance au contraire à penser qu'un livre, comme œuvre unique, est une sorte de monopole. On souhaite lire tel livre de tel auteur et on ne sera pas satisfait si on nous en propose un autre à la place. Et le droit d'auteur confère bien à ce dernier un monopole sur l'exploitation de son livre, qu'il peut ou non déléguer. Cette conception trouve sa traduction économique dans le modèle éditorial qui permet d'équilibrer le système global par une sorte de péréquation entre les revenus des titres à succès et ceux plus confidentiels. L'élasticité de la demande par rapport au prix serait faible dans le livre.

Mais l'arrivée du web et surtout la montée des tablettes modifient considérablement la donne et l'attitude du lecteur. Sur un Kindle ou un iPad, on n'achète pas un livre, on se constitue une bibliothèque. On peut lire un livre de la première à la dernière page, mais on en lit souvent plusieurs en même temps et on pourra y revenir à tout moment, à la bonne page ; ou encore on se contentera de feuilleter un grand nombre de livres, zappant de l'un à l'autre, faisant des recherches. Et tout cela en tout lieu, à tout moment, du fait de la portabilité de sa bibliothèque réduite à une tablette. Nous retrouvons un propos souvent tenu ici : le modèle du web est hybride entre celui de la bibliothèque et celui de la télévision.

Dès lors, sans doute le lecteur sera attiré par tel ou tel titre particulier, mais la valeur principale est constituée par l'ampleur et l'adaptation de la collection qu'il pourra constituer et par la vitesse et la commodité de l'accès aux pages. Cette donnée nouvelle modifie vraisemblablement considérablement la sensibilité au prix et donc l'élasticité de la demande, d'autant que le web tend à tirer les prix du contenu vers le bas par l'abondance des ressources accessibles gratuitement et que constituer une collection est un investissement de départ non négligeable pour un e-lecteur.

Conclusion si cette analyse est juste, F. Bon a eu bien raison de baisser drastiquement ses prix.

Codicille : cela pose aussi des questions sur la place et l'économie des ebooks dans les bibliothèques comme institution. Il faudrait que j'y revienne. Voir aussi la table ronde de la SACD du 17 janvier ici.

Actu du 21 janv 2011

Sur le contrat d'édition, voir la synthèse de M de Battisti.

jeudi 13 janvier 2011

Tensions du web et architectes de l'information

Voici quelques nouvelles et résolutions pour l’année 2011.

Changement d'échelle

La grande différence entre les questionnements sur le numérique du début du millénaire et ceux de la fin de sa première décennie qui a vu l’explosion des usages du web est le passage à l’échelle. Ce qui relevait, il y a moins de 10 ans, d’un questionnement intellectuel, de montage de prototypes, d’expérimentations limitées, d’observation d’échantillons réduits, est devenu : numérisation de masse, gestion et traitement linguistique et formel de millions de documents ou de traces de navigation, préservation « de routine » de teraoctets, analyse de millions de connexions, usages de masse, stratégies industrielles internationales, investissements de millions et chiffre d’affaires de milliards d'euros ou de dollars, etc. Les mesures, sur les contenus ou les pratiques, sont désormais statistiques; les expérimentations se font directement dans le monde réel ; les retours sur investissement doivent être rapides ; les réussites sont spectaculaires, mais les échecs aussi sont nombreux, comme les ébranlements des structures plus anciennes. Les cartes se redistribuent sous nos yeux. Ce passage à l’échelle conduit à modifier les analyses, les pratiques professionnelles et, sans doute, les pratiques académiques de recherche elles-mêmes.

Sur la base de ce constat m'appuyant sur ma position transatlantique à mon petit niveau, j'ai pris quelques initiatives.

Roger et le web sous tensions

Un petit collectif de travail franco-québécois a décidé de reprendre la dynamique d’écriture de Roger T. Pédauque (pour les petits jeunes qui ne connaissent pas, une bonne explication ici). Le premier document-martyr sera soumis à vos critiques, ratures et annotations à la fin février. Voici son plan provisoire :

Titre : Le web sous tensions Parties : Humanités numériques ; naissance d’un média ; spécificité du web ; transformations des documents ; web sémantique, web des données ; architectes de l’information.

Les premiers rédacteurs sont :

  • Bruno Bachimont (UTC-INA, Sc de l’information-informatique),
  • Valérie Beaudouin (ParisTech ENST, Sociologie)
  • Jean Charlet (Inserm, Ing des connaissances-informatique)
  • Michael Eberle-Sinatra (UdeM, littérature et numérique)
  • Dominic Forest (UdeM, Sc de l’information-philosophie)
  • Benoit Habert (EDF-R&D, ENS-Lyon, linguistique et informatique)
  • Jean-Philippe Magué (ENS-Lyon, ingéniérie documentaire)
  • Yves Marcoux (UdeM, Sc de l’information-informatique)
  • Alain Mille (INSA, ingénierie des connaissances-informatique)
  • Jean-Michel Salaün (UdeM, Sc de l’information-économie)
  • Vincent Quint (Inria, Web)

Je suis persuadé qu’il nous faut continuer à inventer et expérimenter des processus collectifs de réflexion et d'expression scientifique et j’espère que vous participerez nombreux à cette aventure renouvelée.

Architectes de l'information

Le passage à l’échelle a conduit à faire appel à des spécialistes de l'organisation et du repérage de l'information, de même qu'à des spécialistes de l'expérience utilisateur pour les sites riches en contenus, des sites d'entreprise, de grandes organisations ou de commerce en ligne. Ces deux d'expertises, très inter-reliées, ont le même objectif : garantir un accès intuitif et facile au contenu du site, pour l'utilisateur d'un site Web (ou, plus généralement, de tout système d'information). Dans un environnement aussi compétitif, ce qui garantit que l'utilisateur d'un site y reviendra dépend en grande partie de sa première expérience. C’est ainsi que la notion d’architecte de l'information est apparue. Les architectes de l’information sont ces spécialistes de l'organisation et de la repérabilité de l'information, et leur pratique s'inscrit généralement dans la philosophie du design de l'expérience utilisateur. La préoccupation constante pour l'utilisateur est ce qui les distingue des informaticiens et architectes de systèmes, avec qui ils travaillent de près, mais qui agissent plutôt dans le «back-end», sur l'optimisation des processus, la structure des bases de données, etc.

À bien des égards, l'architecture de l'information s'apparente à la bibliothéconomie, dans ses objectifs et ses méthodes : classification, catégorisation, métadonnées, navigation. Selon un sondage mené par Morville et Rosenfeld (IA for the WWW, p. 338), 48.6% des architectes de l'information sondés avaient étudié en architecture de l'information et dans des domaines connexes (interaction homme-machine, utilisabilité, bibliothéconomie, etc.). Parmi ceux-là, 70% avaient une maîtrise, et le domaine d'étude le plus fréquent, rejoignant plus de la moitié des répondants, était la bibliothéconomie et les sciences de l'information.

Je n'ai pas, pour ma part, renoncé à l'appellation archithécaire, mais au niveau international, c'est bien celle d'architecte de l'information qui prime.

Une école d’été aura lieu conjointement des deux côtés de l’Atlantique sur ce thème.

  • À Montréal, il s’agit d’un cours crédité de la Maitrise en sciences de l’information, piloté par Yves Marcoux qui se tiendra du 24 mai au 3 juin 2011.
  • À Lyon, il s’agit d’un séminaire en résidentiel pour les doctorants, les chercheurs et les professionnels de l’information qui se tiendra du 21 au 27 mai sur sept jours consécutifs piloté par Jean-Philippe Magué. Ouverture des inscriptions fin février, places limitées, tarif environ 400€ pension complète comprise.

Le programme est en cours d’élaboration. Quatre demi-journées seront communes entre les deux volets. Retenez les dates si vous êtes intéressé(e)s.

D’autres initiatives sont à venir.

- page 9 de 38 -