Bloc-notes de Jean-Michel Salaün

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Mot-clé - 332. REINGENIERIES DOCUMENTAIRES ; D’une modernité à l’autre ; De la neutralité

Fil des billets - Fil des commentaires

jeudi 22 mars 2012

L'inversion du rapport au savoir à l'école

A lire et à faire lire absolument pour comprendre l'inversion du rapport au savoir sur le Web dès le lycée :

Comment j'ai pourri le web, 21 mars 2012, la vie moderne.

25-03-2012

Pour un contrepoint parmi d'autres :

Pourritures pédagogiques, Contrebande, 23 mars 2012.

26-03-2012

Petite remarque : l'écho qu'a rencontré cette histoire et les débats passionnés qu'elle a susités soulignent le hiatus qui s'est installé entre les "penseurs de l'école" et les "penseurs du web", souvent aussi péremptoires les uns que les autres et sans beaucoup d'écoute. Peut-être qu'un peu de modestie serait bienvenue.

L'école doit être un lieu d'émancipation où il est important d'apprendre aux élèves à penser par eux-mêmes et à citer leurs sources. L'erreur serait de croire que le Web pourrait la remplacer. Mais le web peut être très utile pour favoriser cette émancipation, il est même incontournable comme lieu principal aujourd'hui de récolte des informations, à condition de comprendre comment le savoir s'y construit. Et il s'y construit de façon sensiblement différente du savoir traditionnellement enseigné à l'école.

C'est pourquoi j'ai apprécié cette petite expérience.

vendredi 16 mars 2012

Le sens commun lu par Google

Google vient d'annoncer un important changement dans l'utilisation de ses algorithmes à l'issu notamment du rachat récent de la firme Metaweb (Wsj repéré par Abondance). Il s'agit pour certaines questions simples de donner directement la réponse en haut de la page, plutôt qu'une liste de liens y conduisant.

Extraits de l'article du Wsj qui reprend la présentation d'Amit Singhal, un des responsables du moteur (trad JMS) :

Le moteur s'approchera plus de "comment les hommes comprennent le monde" a dit M Singhal, remarquant que pour de nombreuses recherches aujourd'hui "nous croisons les doigts en espérant qu'il y ait bien une page où se trouve notre réponse." (..)

Selon ce changement, quelqu'un qui cherche "Lac Tahoe" verra les principaux "attributs" connus du moteur sur le lac, comme la localisation, l'altitude, la température moyenne ou sa salinité. Aujourd'hui, ceux qui cherchent "lac Tahoe" ne trouvent que des liens vers le site Web des visites, ses rubriques Wikipédia et un lien sur une carte.

Pour une question plus complexe comme : "quels sont les 10 plus grands lacs de la Californie ?", Google donnera la réponse plutôt que des liens vers d'autres sites. (..)

Par exemple, des gens qui cherchent un auteur particulier comme Ernest Hemingway pourront trouver sous le nouveau système une liste des livres de l'auteur qu'ils pourront feuilleter et des pages d'information sur d'autres auteurs ou livres pertinents, selon une personne au courant des plans de la firme. On peut supposer que Google proposera aussi d'acheter des livres. (..)

Quelqu'un de bien informé a dit que ce changement vers une recherche sémantique pourrait toucher les résultats de recherche de 10 à 20% de toutes les requêtes, soit des dizaines de milliards par mois. (..)

M Singhal a dit que Google et l'équipe du Metaweb, qui comprend aujourd'hui environ 50 ingénieurs, ont augmenté la taille de leur index à plus de 200 millions d'entités, en partie grâce au développement d'algorithmes d'extraction ou des formules mathématiques capables d'organiser les données disséminées sur le Web. Les organisations et agences gouvernementales ont été aussi approchées pour l'accès à leurs bases de données, y compris le CIA World Factbook, qui hébergent des informations encyclopédiques actualisées sur tous les pays du monde.

Une étape supplémentaire s'ouvre donc dans l'industrie de la lecture, la priorité mise par Google sur la deuxième dimension du document, le lu, proche des efforts du Web de données. De plus en plus, Google et Wikipédia deviennent complémentaires dans la construction d'un "sens commun" à partir des multiples documents disponibles. Il faut entendre ici sens commun dans toutes ses acceptions et il faudrait des études plus sérieuses que celles que j'ai consultées jusqu'ici à propos des conséquences de cette évolution globale du "lu" sur notre rapport au savoir, sur "comment les hommes comprennent le monde ?". Est-il raisonnable de laisser la réponse à cette question aux aléas de la stratégie d'une firme commerciale ?

vendredi 18 février 2011

Le côté obscur des requêtes sur les moteurs

Paulette Bernhard a attiré mon attention sur un récent article du NYT, merci à elle.

David Segal, “Search Optimization and Its Dirty Little Secrets,” The New York Times, Février 12, 2011, rub. Business Day, ici.

L'article conte l'histoire d'une manipulation pas très propre des résultats de recherche de Google à des fins commerciales. La technique est connue et il existe même des professionnels spécialisés dans le domaine, les référenceurs ou SEO (pour Search engine optimization) qui jouent au chat et à la souris avec les moteurs pour placer au mieux leurs sites clients dans les pages de résultats de recherche. Mais l'ampleur de la manipulation, la méthode employée et la réaction de Google méritent en effet qu'on s'arrête à cette histoire.

Pendant quelques mois et donc pendant la période des fêtes, lorsque l'on tapait dresses, bedding ou area rugs (carpettes) ou encore “skinny jeans”, “home decor”, “comforter sets” (couettes),“furniture” et des douzaine d'autres mots ou phrases, y compris des marques comme Samsonite le même site sortait numero 1 ou dans les tous premiers : JC Penney une chaîne de magasins pour la famille implantés partout aux US, 1100 magasins, 17,8 Mds $ de CA.

Il y a en moyenne pour les US 11,1 millions de requêtes mensuelles sur dresses, si l'on considère que 34% cliquent sur la première réponse (ici), cela signifie que JC Penney a attiré ainsi 3,8 millions de visiteurs sur son site chaque mois, rien qu'avec ce seul mot.

Bien entendu, ces résultats sont la conséquence de techniques d'optimisation du PageRank du site, qui, si elles ne sont pas illégales, relèvent d'une manipulation peu conforme à la netétiquette. « Quelqu'un » a tout simplement payé pour que des milliers de sites pointent vers JC Penney et augmentent ainsi ses chances d'être bien classé par le moteur. L'enquêteur NYT a repéré, par exemple, 2015 pages de sites les plus divers contenant des liens sur “casual dresses” , “evening dresses” “little black dress” ou “cocktail dress” dirigeant vers le site JC Penney. Beaucoup de ces sites ne sont même pas actifs, juste des réservoirs de liens. Mais l'opération est gagnant-gagnant. Le journaliste a pu retrouver un responsable de site qui lui a indiqué qu'il gagne environ 150$ par mois, il ajoute : Je n'ai rien à faire, les annonces sont juste là et si quelqu'un clique dessus, je fais de l'argent. Il héberge 403 liens, tous placés par une régie (TNX).

Le plus surprenant, mais bien intéressant, est qu'il semble que Google ne se soit aperçu de rien avant d'être alerté par le NYT. Ils ont alors rétrogradé JC Penney à la main (!). Contrairement à ce qui s'était passé pour BMW, aucune autre sanction ne parait envisagée. Mais JP Penney fait aussi partie des meilleurs clients de Google avec un budget publicitaire mensuel de 2,46 million de $.

Il y a ainsi un côté obscur de la recherche sur le web où des « chapeaux noirs » (black hats) organisent en sous-main un commerce lucratif de liens. On n'est pas loin de pratiques mafieuses. Cet article permet de lever un coin du voile de cette économie souterraine proche de celle des spammeurs. Il montre aussi qu'il faudrait un jour (bientôt) introduire une déontologie pour séparer les intérêts commerciaux des intérêts informationnels de ce nouveau média.

Pour une bonne analyse du phénomène et en particulier les pratiques des chapeaux blancs, gris et noirs et les difficultés de régulation voir :

Trusting (and Verifying) Online Intermediaries' Policing, Frank Pasquale ici

Actu du 21 fév 2011

Voir aussi sur le sujet les interrogations d'Olivier Andrieu, une référence pour les SEO français, Abondance (ici), lire aussi les commentaires.

Actu du 27 févr 2011

Décidément le pb semble ardu. Google annonce un grand ménage et un changement dans son algorithme ici

Actu du 29 fev 2011

Ça n'a pas traîné ici

Ou le lendemain cet article de Libé qui fait le point ()

Actu du 13 mars 2011

Après l'UE, la commission antitrust du Congrès américain a mis la question à son ordre du jour. Communiqué ici.

Partie sur Google :

Competition in Online Markets/Internet Search Issues

Access to the wealth of information and e-commerce on the Internet is essential for consumers and business alike. As the Internet continues to grow in importance to the national economy, businesses and consumers, the Subcommittee will strive to ensure that this sector remains competitive, that Internet search is fair to its users and customers, advertisers have sufficient choices, and that consumers’ privacy is guarded. In recent years, the dominance over Internet search of the world’s largest search engine, Google, has increased and Google has increasingly sought to acquire e-commerce sites in myriad businesses. In this regard, we will closely examine allegations raised by e-commerce websites that compete with Google that they are being treated unfairly in search ranking, and in their ability to purchase search advertising. We also will continue to closely examine the impact of further acquisitions in this sector.

lundi 06 décembre 2010

De la transparence.. et des documents

Quelques remarques rapides pour accompagner le feuilleton WikiLeaks, à partir des préoccupations de ce blogue sur l'économie des documents.

P. Starr dans son livre The Creation of The Media rappelle la naissance de la notion d'objectivité dans la presse. Il cite Walter Lippman qui un des premiers en 1920 dans Liberty and The News l'a mise en avant. Extrait (trad JMS) :

Lippmann exhortait les journalistes à être plus « objectifs », un mot qui venait d'apparaître pour décrire le journalisme. Les critiques aujourd'hui dénoncent l'objectivité comme une idéologie professionnelle, mais il est important de comprendre les pratiques professionnelles que Lippmann voulait faire adopter aux journalistes. Il voulait que les journalistes s'inspirent de la science en développant un « sens de la preuve » et en reconnaissant franchement les limites de l'information disponible : il les exhortait de démonter les idées reçues et les abstractions et de refuser de laisser de côté des nouvelles ou de mettre la morale ou n'importe quelle autre cause avant la véracité. Ce que Lippmann demandait avant tout aux journalistes était la responsabilité (accountability). (..) Mais les journalistes ne pouvait pas faire tout seuls le travail indispensable ; ils avaient besoin d'experts pour organiser l'information à leur place et Lippmann suggérait la création de «observatoires politiques » - des instituts de recherche à la fois en dedans et en dehors du gouvernement - pour fournir les preuves systématiques qui pourraient servir, par exemple, pour évaluer les performances des agences gouvernementales. p.396-397

On retrouve bien des dimensions de ces fondations du journalisme moderne dans l'affaire Wikileaks, y compris dans l'évolution de la personnalité de son responsable. Mais ce que montre surtout Wikileaks est un déplacement de la notion de preuve vers l'évidence (au sens français et non anglais). On croit ce qui est publié non pas à cause d'une démonstration, mais parce que la méthode de publication des documents semble en garantir la véracité, à la fois parce qu'ils proviennent de témoins directs et qu'ils sont potentiellement visibles par tout le monde et donc vérifiables par tout un chacun. Cette évolution de l'« objectivité » vers la « transparence », avec les mêmes limites théoriques et la même efficacité pratique de l'une et l'autre utopie, est parfaitement en cohérence avec l'architecture anarchique et l'économie décalée du web et ses conséquences sur la transformation des médias. Les mêmes forces sont à l'œuvre dans la transformation de la science en e-science ou encore dans les débats sur la vie privée autour des réseaux sociaux.

Sans doute, ce succès est à mettre en résonance avec l'évolution même de nos sociétés dites post-modernes et leur rapport avec la vérité (sur ce point, voir Roger (ici et) : La seconde modernisation introduirait un effet de retour sur cette prétention à la maîtrise qui caractérisait la première car les conséquences ne peuvent plus être repoussées au-delà de nos générations. La prétention à la totalisation du savoir et au triomphe des autorités scientifiques seraient battues en brèche : la seconde modernisation introduit l'exigence d'une réflexivité, d'un savoir qui se déclare lui-même et qui se contrôle en connaissant ses limites et ses conditions de production. p.161

Néanmoins dans l'histoire de WikiLeaks la théorie du document permet de voir les limites de cette nouvelle idéologie. Même si les documents sont pour une part en accès libre, leur décryptage, c'est à dire leur accessibilité intellectuelle (lu), passe par cinq des journaux les plus prestigieux des États-Unis et d'Europe (ici). Et ainsi les données brutes, triées, mises en contexte et publiées par les journaux prennent le statut d'information journalistique avec toute la confiance attachée à ce statut (su). C'est la responsabilité journalistique (accountability), telle que définie dans les années vingt du siècle dernier qui l'a emporté.

L'erreur du raisonnement serait de croire que l'on transforme un ordre documentaire à partir d'une simple mise en accès (vu). L'abandon de la mise en ligne sans tri préalable des données brutes qui était pourtant le dogme initial du site () souligne a fortiori la prégnance d'un ordre documentaire pour la diffusion de documents d'archives d'institution.

Le passage de l'objectivité à la transparence modifie aussi les responsabilités d'une autre profession qui doit s'adapter très vite à la nouvelle donne du web. Il n'y a pas eu, en effet, d'enquête journalistique dans cette affaire, simplement la consultation par des journalistes de documents qui leur ont été proposés spontanément. On peut parier qu'à l'avenir la fonction archivistique, avec ses différents attributs va s'en trouver considérablement renforcée, pour le meilleur et pour le pire.

Je rappelle que, selon le manuel, les archivistes québécois évaluent, sélectionnent, acquièrent, conservent et mettent à disposition des documents d’archives, assurant leur intégrité intellectuelle et une conservation physique responsable, pour le bénéfice des utilisateurs actuels et celui des générations futures" (Association of Canadian Archivists 1999, notre trad.) comme leurs collègues ailleurs au Canada. Toutefois, à la différence de ces derniers, les québécois entendent aussi exercer des responsabilités sur « la gestion des documents qui consiste à assurer le contrôle systématique des documents pendant leur cycle de vie. »

Paradoxalement, il semble que dans cette histoire c'est bien l'ordre documentaire traditionnel, journalistique et archivistique, qui sortira renforcé, mais l'un et l'autre devront s'adapter à une nouvelle architecture de l'accès à l'information.

Actu un peu plus tard

Parmi les très nombreux billets sur WikiLeaks, deux proches de mes préoccupations Christian Fauré et Martin Lessard.

Actu du 15 déc 2010

Sur les chgts du journalismes, voir :

David Carr, “WikiLeaks Taps Power Of the Press — The Media Equation,” The New York Times, Décembre 12, 2010, rub. Business Day / Media & Advertising, ici.

Actu du 3 mars 2011

Pile sur le sujet, un papier de Y Benkler qui commence par une citation de T Roosevelt sur le journalisme à scandale et analyse en détail l'affaire Wikileaks, montrant à la fois les tentatives d'attaque contre le service et son responsable et ses capacités de résistance et constatant qu'il s'agit d'une évolution des formes du 4e pouvoir.

A FREE IRRESPONSIBLE PRESS: WIKILEAKS AND THE BATTLE OVER THE SOUL OF THE NETWORKED FOURTH ESTATE ici

jeudi 02 décembre 2010

Le web et l'espace public

Toujours dans la continuité des billets précédents sur la troisième dimension du web et les différentes stratégies industrielles à l'œuvre, et au moment où le monde des médias bruisse de l'affaire WikiLeaks, il est bon de revenir à quelques fondamentaux de l'analyse. Pour cela je prendrai quelques extraits d'un excellent livre sur la naissance des médias modernes (le livre s'arrête en 1941 au moment de l'entrée des États-Unis en guerre) et une intervention plus récente du même auteur.

Paul Starr, The Creation of the Media, Basic Books., 2004, ici.

Paul Starr, “Statement to the Federal Communications Commission Workshop on the Future of Media and Information Needs of Communities,” Mars 4, 2010,.

Deux extraits du livre (trad JMS). Le premier fait allusion à la notion habermassienne d'espace public à laquelle l'auteur n'adhère que partiellement, le second au début du vingtième siècle :

L'espace public public dans l'Europe moderne ne doit pas être confondu avec un idéal démocratique, comme si la raison avait atteint sa forme la plus élevée et cultivée parmi les arômes capiteux des cafés de Londres et les parfums des salons de Paris du dix-huitième siècle, pour glisser sur la voie de la dégradation au cours des siècles suivants. Alors que les débuts de l'espace public moderne représentaient un abandon du secret politique, il restait toujours socialement exclusif, limité par les pressions habituelles de l'argent et du statut, et régulièrement manipulé par les personnes au pouvoir. L'opinion publique a pu émerger comme une force nouvelle dans la politique, mais l'espace public, dont les États européens ont permis le développement dans le début des temps modernes, a fortement limité l'audience de cette opinion. Sauf dans certains domaines très limités, l'espace public n'a pas encore pu fournir à la société un moyen de gouvernance. p.46

La capacité des médias à exercer un pouvoir par eux même dépend à la fois de leur autonomie par rapport au pouvoir de l'État et de leur indépendance commerciale. Pour chacun des deux, l'Amérique a fourni au développement des médias un terrain fertile et quant à leur pouvoir, les médias ont été beaucoup plus avancés aux États-Unis que nulle part ailleurs : une presse puissante mais encore décentralisée, prônant un journalisme agressif et souvent porté sur le sensationnalisme ; une industrie du cinéma concentrée dans une poignée de sociétés qui dominaient les écrans aussi bien à l'étranger que localement ; et le seul réseau de radio-télévision significatif dans le monde, avec des centaines de stations locales et deux réseaux nationaux. Ces institutions ont été les signes avant-coureurs d'une époque où les médias sont devenus un facteur d'indépendance en politique aussi important, par exemple, que les partis politiques eux-mêmes qui avaient eu la haute main sur beaucoup d'entre eux. p.386

Extrait de l'intervention devant la FCC :

Les innovations dans les informations en ligne sont pleines de promesses, mais la tendance dominante est inquiétante. Le déclin à la fois de la publicité et de la distribution des journaux ne se renversera pas une fois la récession économique terminée. La presse survit grâce un lectorat vieillissant qui achète par habitude le journal et fait face à une perte catastrophique de lecteurs chez les jeunes adultes. Cette baisse n'est pas limitée aux seuls journaux. Entre 1998 et 2008 d'après les enquêtes du Pew Research Center le nombre d'Américains qui disaient qu'ils ne prenaient des nouvelles auprès d'aucun support au cours d'une journée moyenne est passé de 14 à 19%. Parmi les 18-24 ans durant la même période, il est passé de 25 à 34%.. Comme ces données le montrent, un environnement plus fragmenté se développe pour les médias où de plus en plus d'Américains n'ont plus accès aux nouvelles en partie parce qu'ils ne les croisent plus dans les journaux, ni à la radio, ni à la télévision.

Cette dernière citation est à mettre en relation avec cet autre billet.

Curieusement, il semble que P. Starr n'arrive pas à poursuivre son propre raisonnement sur notre période post-moderne en la considérant simplement dans la continuité des précédentes, sans en percevoir les changements qu'il analyse pourtant si bien pour celles-là. Je crois qu'il faut distinguer trois phénomènes interdépendants. D'une part la modification de l'architecture des médias par le web, d'autre part la stratégie des industriels et enfin la transformation de l'espace public, c'est à dire de l'échange public des idées qui l'accompagne. La question qui reste ouverte est de savoir quel sera le statut du document dans celui-là. Le modèle du journaliste avait mis en avant l'objectivité au vingtième siècle suite à l'histoire présentée par l'auteur. La transparence prendra-t-elle sa place au vingt-et-unième, avec quelles conséquences ?

Actu du 3 décembre 2010

Comparé à ses collègues des trois années précédentes, les revenus publicitaires de la presse américaine au 3ème trimestre de 2010 sont pour la première fois positifs voir ici.

Toutes les données sur la presse US sont accessibles sur la NAA.

- page 1 de 3