Le côté obscur des requêtes sur les moteurs

Par Jean-Michel Salaun le vendredi 18 février 2011, 12:11 - Moteurs - Lien permanent

Paulette Bernhard a attiré mon attention sur un récent article du NYT, merci à elle.

David Segal, “Search Optimization and Its Dirty Little Secrets,” The New York Times, Février 12, 2011, rub. Business Day, ici.

L'article conte l'histoire d'une manipulation pas très propre des résultats de recherche de Google à des fins commerciales. La technique est connue et il existe même des professionnels spécialisés dans le domaine, les référenceurs ou SEO (pour Search engine optimization) qui jouent au chat et à la souris avec les moteurs pour placer au mieux leurs sites clients dans les pages de résultats de recherche. Mais l'ampleur de la manipulation, la méthode employée et la réaction de Google méritent en effet qu'on s'arrête à cette histoire.

Pendant quelques mois et donc pendant la période des fêtes, lorsque l'on tapait dresses, bedding ou area rugs (carpettes) ou encore “skinny jeans”, “home decor”, “comforter sets” (couettes),“furniture” et des douzaine d'autres mots ou phrases, y compris des marques comme Samsonite le même site sortait numero 1 ou dans les tous premiers : JC Penney une chaîne de magasins pour la famille implantés partout aux US, 1100 magasins, 17,8 Mds $ de CA.

Il y a en moyenne pour les US 11,1 millions de requêtes mensuelles sur dresses, si l'on considère que 34% cliquent sur la première réponse (ici), cela signifie que JC Penney a attiré ainsi 3,8 millions de visiteurs sur son site chaque mois, rien qu'avec ce seul mot.

Bien entendu, ces résultats sont la conséquence de techniques d'optimisation du PageRank du site, qui, si elles ne sont pas illégales, relèvent d'une manipulation peu conforme à la netétiquette. « Quelqu'un » a tout simplement payé pour que des milliers de sites pointent vers JC Penney et augmentent ainsi ses chances d'être bien classé par le moteur. L'enquêteur NYT a repéré, par exemple, 2015 pages de sites les plus divers contenant des liens sur “casual dresses” , “evening dresses” “little black dress” ou “cocktail dress” dirigeant vers le site JC Penney. Beaucoup de ces sites ne sont même pas actifs, juste des réservoirs de liens. Mais l'opération est gagnant-gagnant. Le journaliste a pu retrouver un responsable de site qui lui a indiqué qu'il gagne environ 150$ par mois, il ajoute : Je n'ai rien à faire, les annonces sont juste là et si quelqu'un clique dessus, je fais de l'argent. Il héberge 403 liens, tous placés par une régie (TNX).

Le plus surprenant, mais bien intéressant, est qu'il semble que Google ne se soit aperçu de rien avant d'être alerté par le NYT. Ils ont alors rétrogradé JC Penney à la main (!). Contrairement à ce qui s'était passé pour BMW, aucune autre sanction ne parait envisagée. Mais JP Penney fait aussi partie des meilleurs clients de Google avec un budget publicitaire mensuel de 2,46 million de $.

Il y a ainsi un côté obscur de la recherche sur le web où des « chapeaux noirs » (black hats) organisent en sous-main un commerce lucratif de liens. On n'est pas loin de pratiques mafieuses. Cet article permet de lever un coin du voile de cette économie souterraine proche de celle des spammeurs. Il montre aussi qu'il faudrait un jour (bientôt) introduire une déontologie pour séparer les intérêts commerciaux des intérêts informationnels de ce nouveau média.

Pour une bonne analyse du phénomène et en particulier les pratiques des chapeaux blancs, gris et noirs et les difficultés de régulation voir :

Trusting (and Verifying) Online Intermediaries' Policing, Frank Pasquale ici

Actu du 21 fév 2011

Voir aussi sur le sujet les interrogations d'Olivier Andrieu, une référence pour les SEO français, Abondance (ici), lire aussi les commentaires.

Actu du 27 févr 2011

Décidément le pb semble ardu. Google annonce un grand ménage et un changement dans son algorithme ici

Actu du 29 fev 2011

Ça n'a pas traîné ici

Ou le lendemain cet article de Libé qui fait le point (là)

Actu du 13 mars 2011

Après l'UE, la commission antitrust du Congrès américain a mis la question à son ordre du jour. Communiqué ici.

Partie sur Google :

Competition in Online Markets/Internet Search Issues

Access to the wealth of information and e-commerce on the Internet is essential for consumers and business alike. As the Internet continues to grow in importance to the national economy, businesses and consumers, the Subcommittee will strive to ensure that this sector remains competitive, that Internet search is fair to its users and customers, advertisers have sufficient choices, and that consumers’ privacy is guarded. In recent years, the dominance over Internet search of the world’s largest search engine, Google, has increased and Google has increasingly sought to acquire e-commerce sites in myriad businesses. In this regard, we will closely examine allegations raised by e-commerce websites that compete with Google that they are being treated unfairly in search ranking, and in their ability to purchase search advertising. We also will continue to closely examine the impact of further acquisitions in this sector.

Commentaires

1. Le samedi 19 février 2011, 06:03 par sinklife

google et ses résultats par pertinance, on est en loin...

2. Le samedi 19 février 2011, 06:35 par Alain Pierrot

"And the company did. On Wednesday evening, Google began what it calls a “manual action” against Penney, essentially demotions specifically aimed at the company."

La simple possibilité de cette "action manuelle" fait voler en éclat une bonne partie du discours de Google sur la neutralité de ses algorithmes, non ?

3. Le samedi 19 février 2011, 12:31 par Marin Dacos

Le New York Times découvre quelque chose qui n'est vraiment pas nouveau.

Cela dit, il n'est pas inutile de remettre cette question dans le débat public. Ce qui me paraît surprenant, c'est l'absence d'initiative majeure de qualification des sites web par autre chose que par le PageRank. Au hasard : par des gens. Une stratégie s'appuyant sur le crowdsourcing me paraîtrait intéressante, surtout si elle n'était pas portée par les moteurs de recherche, mais par d'autres acteurs, de type Wikipedia ou bibliothèques ou autres.

L'initiative la plus réussie, en ce sens, me paraît aujourd'hui être WOT. http://www.mywot.com/ Je crois que la communauté scientifique pourrait organiser un telle collecte, en y intégrant ses valeurs et ses exigences de qualité.

4. Le samedi 19 février 2011, 20:28 par Electropublication

aujourd'hui les Professionnels du Black hat SEO utilisent des outils qui peuvent créer des centaines de blogs en 1 heure (avec billets et links optimisés), spammer des milliers de commentaires de blogs, de forums ou de réseaux sociaux en quelques heures, de manière automatique. Leurs résultats - à court terme - sont impressionnants (imbattables on pourrait dire).

Depuis quelques semaines Google fait des annonces pour lutter durement contre les "fermes de contenus" et le duplicate content, mais ce n'est déjà plus tout à fait de cela dont il s'agit...

Pour avoir une idée des ressources impressionnantes utilisées par ces référenceurs (et qu'ils utilisent donc dans le commerce pour leurs clients, comme dans l'exemple cité, et il y en a aussi de plus en lus en France) > il faut jeter un coup d'oeil aux résultats du dernier concours SEO qui a eut lieu en France : il portait sur le terme "seotons".
Toutes les techniques les + avancées (de spam et Black SEO) ont été utilisées par les vainqueurs durant 3 mois. Il suffit d'étudier les backlinks des gagnants pour se rendre compte de leurs méthodologie.
A ce niveau, Page rank, "autorité" ne veulent presque plus rien dire...

Et je crois que cela ne fait que commencer...

5. Le dimanche 20 février 2011, 15:20 par JM Salaun

@Sinklife et Alain

Je ne crois pas que cette histoire ne remette en cause ni la pertinence, ni la neutralité des algorithmes de Google. Sans intervention extérieure hostile, les algorithmes auraient sans doute fonctionné efficacement et de façon neutre.
Simplement, elle montre qu'à partir du moment où d'importants enjeux sont en cause une firme en position de monopole devient vulnérable. On pourrait comparer l'histoire avec les virus pour Windows, par exemple.
Mais ce qui est étonnant, et peut-être au fond rassurant, c'est la mise en difficulté de Google qui ne peut plus faire confiance à ses supercalculateurs, est alertée par une enquête journalistique traditionnelle et réagit manuellement.
Dès lors, le problème posé n'est pas ou plus la «neutralité» au sens technique, mais bien la neutralité au sens déontologique. La même question de neutralité s'est posée à Wikipédia ou, il y a cent ans, aux journalistes (objectivité). Autrement dit, ce sont des questions éditoriales. Je pense que cela passe par un débat public, des outils d'analyse transparent et aussi un peu de régulation.

@ Marin
Bien sûr la question n'est pas nouvelle, mais d'une part le NYT sait faire une vraie enquête, faisant remonter des faits, d'autre part, elle semble avoir changé d'échelle.
Je ne suis pas sûr qu'une qualification par le crowdsourcing évite les manipulations.

@ Electropublication
Merci pour ces infos. Pour les intéressés, le site du concours est ici : http://www.paidpr.com/concours-seo....

On est ici dans une logique typiquement libertarienne. La référence aux cow-boys n'est pas innocente.. J'ai le sentiment que cette logique gagne de plus en plus le web.

6. Le lundi 21 février 2011, 10:38 par PB

voir aussi cet article du Monde :
- Damien Leloup. Google s'attaque aux "fermes de contenus" LE MONDE, 15.02.11
http://www.lemonde.fr/technologies/...

7. Le lundi 21 février 2011, 12:14 par JM Salaun

Merci Paulette pour ce nouveau signalement. Décidément, le sujet est chaud. Il est de plus en plus clair que Google commence à assumer sa responsabilité éditoriale. Un pas de plus vers un web-média.

Voir aussi Presse-Citron http://www.presse-citron.net/seo-le... Lire aussi les commentaires.

8. Le lundi 21 février 2011, 17:43 par B.Simonnot

2011 est décidément un cru prometteur : cela fait deux fois (au moins) depuis le début de l'année que, chez Google, on nous informe avoir manipulé "manuellement" l'index du moteur pour modifier ses résultats dits "naturels". D'abord pour "confondre" un concurrent (voir http://googleblog.blogspot.com/2011...), et cette fois-ci pour lutter contre un "fraudeur" du commerce des liens que la compagnie a elle même institué.

Google Inc s'autorise désormais à afficher ces manipulations, après avoir longtemps affirmé ne pas s'y livrer puis reconnaître qu'elle s'en réservait le droit (voir http://www.google.com/explanation.h... : "Although Google reserves the right to address such requests individually [...]"). A chaque fois, c'est pour défendre son fonds de commerce (celui des liens publicitaires) et surtout son capital de confiance auprès des internautes, capital très lié à sa position monopolistique. La compagnie commencerait-elle à être sur la défensive ? En tout cas, on commence à toucher du doigt de manière plus palpable les limites du mélange des genres. En matière d'information, la neutralité de point de vue n'existe pas et, quelque que soit la puissance des algorithmes, elle ne peut être a fortiori calculée. Que ce soit par Google ou par d'autres.

9. Le mardi 22 février 2011, 05:01 par JM Salaun

Bonjour Brigitte,

Oui, il y a au minimum une conjonction de phénomènes et peut-être un tournant. Mais je nuancerais ton propos.

Sans doute dans l'absolu la neutralité de point de vue n'existe pas, mais à un moment donné, pour une collectivité donnée, il existe un un socle de croyances communes basées sur des régimes de vérité variable (religion, science, autorité, statistique etc.). Et cela construit une sorte de neutralité de point de vue. C'est d'ailleurs elle que recherche Wikipédia par d'autres moyens que Google.

De la même façon, on pourrait dire que l'objectivité en science ou dans le journalisme n'existe pas dans l'absolu. Et pourtant, la science comme le journalisme se sont donnés au 19-20e des méthodes pour y tendre.

Pour revenir à Google, son régime de vérité est statistique, grâce à la possibilité inédite de lecture industrielle. Mais il est intéressant, en effet, de voir que comme pour la presse il doit louvoyer entre les pressions des annonceurs et la confiance des internautes et que ces tâtonnements perturbent sa logique. Mais son objectif reste bien de la préserver au prix de quelques bidouillages.

Economie du document (Bloc-notes de Jean-Michel Salaün)

Le côté obscur des requêtes sur les moteurs

Commentaires

Recherche

À retenir

Catégories

Liens

Cours Ecodoc

Master Archinfo (ENS)

Maîtrise SI (EBSI-UdeM)