Le sens commun lu par Google

Par Jean-Michel Salaun le vendredi 16 mars 2012, 05:55 - Moteurs - Lien permanent

Google vient d'annoncer un important changement dans l'utilisation de ses algorithmes à l'issu notamment du rachat récent de la firme Metaweb (Wsj repéré par Abondance). Il s'agit pour certaines questions simples de donner directement la réponse en haut de la page, plutôt qu'une liste de liens y conduisant.

Extraits de l'article du Wsj qui reprend la présentation d'Amit Singhal, un des responsables du moteur (trad JMS) :

Le moteur s'approchera plus de "comment les hommes comprennent le monde" a dit M Singhal, remarquant que pour de nombreuses recherches aujourd'hui "nous croisons les doigts en espérant qu'il y ait bien une page où se trouve notre réponse." (..)

Selon ce changement, quelqu'un qui cherche "Lac Tahoe" verra les principaux "attributs" connus du moteur sur le lac, comme la localisation, l'altitude, la température moyenne ou sa salinité. Aujourd'hui, ceux qui cherchent "lac Tahoe" ne trouvent que des liens vers le site Web des visites, ses rubriques Wikipédia et un lien sur une carte.

Pour une question plus complexe comme : "quels sont les 10 plus grands lacs de la Californie ?", Google donnera la réponse plutôt que des liens vers d'autres sites. (..)

Par exemple, des gens qui cherchent un auteur particulier comme Ernest Hemingway pourront trouver sous le nouveau système une liste des livres de l'auteur qu'ils pourront feuilleter et des pages d'information sur d'autres auteurs ou livres pertinents, selon une personne au courant des plans de la firme. On peut supposer que Google proposera aussi d'acheter des livres. (..)

Quelqu'un de bien informé a dit que ce changement vers une recherche sémantique pourrait toucher les résultats de recherche de 10 à 20% de toutes les requêtes, soit des dizaines de milliards par mois. (..)

M Singhal a dit que Google et l'équipe du Metaweb, qui comprend aujourd'hui environ 50 ingénieurs, ont augmenté la taille de leur index à plus de 200 millions d'entités, en partie grâce au développement d'algorithmes d'extraction ou des formules mathématiques capables d'organiser les données disséminées sur le Web. Les organisations et agences gouvernementales ont été aussi approchées pour l'accès à leurs bases de données, y compris le CIA World Factbook, qui hébergent des informations encyclopédiques actualisées sur tous les pays du monde.

Une étape supplémentaire s'ouvre donc dans l'industrie de la lecture, la priorité mise par Google sur la deuxième dimension du document, le lu, proche des efforts du Web de données. De plus en plus, Google et Wikipédia deviennent complémentaires dans la construction d'un "sens commun" à partir des multiples documents disponibles. Il faut entendre ici sens commun dans toutes ses acceptions et il faudrait des études plus sérieuses que celles que j'ai consultées jusqu'ici à propos des conséquences de cette évolution globale du "lu" sur notre rapport au savoir, sur "comment les hommes comprennent le monde ?". Est-il raisonnable de laisser la réponse à cette question aux aléas de la stratégie d'une firme commerciale ?

Commentaires

1. Le vendredi 16 mars 2012, 10:27 par Patrick M. Lozeau

Tel que mentionné par Danny Sullivan de Search Engine Land, rien de nouveau dans ce que l'article du WSJ "annonce" : http://searchengineland.com/wsj-say...

2. Le vendredi 16 mars 2012, 14:27 par LGauvreau

Bonjour,

Dans ce projet que Google semble le seul à pouvoir financer, que représente la description bibliographique d'un document, son indexation et sa classification selon le système Dewey ou celui de la Library of Congress? On peut concevoir que le "livre-document" n'est qu'une seule des 200 millions d'entités que se propose de décrire Google (selon le système et les "ontologies" développés par l'équipe de Freebase). La bibliothéconomie et les bibliothèques ne produisent que le schéma descriptif et informationnel d'un seul (ou de quelques-uns) des millions d'objets et d'entités que le monde contient.
Pour comprendre le projet de Google, on peut imaginer que tous les mots-clés et sujet utilisés par la bibliothéconomie aient leur propre fiche et formulaire de données pour les décrire. Comment consulterait-on le catalogue alors? Comment la qualité et la performance des recherches seraient-elles augmentées? Google étend le champ du "descriptible" à tous les objets du monde. Il est prétentieux de penser qu'une seule entreprise puisse le faire, mais ce projet va encore davantage bouleverser le rôle et la place des systèmes bibliographiques, les marginaliser dans l'ensemble de l'économie de la recherche et de la quête d'informations. Quel rôle à la bibliothéconomie et aux bibliothécaires dans cette perspective? Les moteurs de recherche des bibliothèques sont de moins en moins consultés, le seront-ils encore moins une fois que Google fera de la recherche sémantique?

Luc Gauvreau (Montréal)

3. Le samedi 17 mars 2012, 11:49 par JM Salaun

@ Patrick,

Merci, pour la référence. Il en ressort surtout qu'il s'agit d'un effort de longue durée plutôt que d'une nouveauté. Mais cela ne change pas la tendance. J'ai apprécié le post-script qui signale cet ajout d'Amit Singhal du 15 mars 2012 sur G+ :

Let me just say that every day, we’re improving our ability to give you the best answers to your questions as quickly as possible. In doing so, we convert raw data into knowledge for millions of users around the world. But our ability to deliver this experience is a function of our understanding your question and also truly understanding all the data that’s out there. And right now, our understanding is pretty darn limited. Ask us for “the 10 deepest lakes in the U.S,” and we’ll give you decent results based on those keywords, but not necessarily because we understand what depth is or what a lake is.
https://plus.google.com/11574439968...

La sémantique par les machines, ce n'est pas gagné. Reste qu'il risque bien d'y avoir un substrat commun de réponses automatiques.

@ Luc

Compte-tenu de la remarque précédente, il reste de la place pour la médiation humaine. La place des bibliothécaires dans le Web des données/sémantique mérite une discussion approfondie. Sauf erreur de ma part, il y a un groupe piloté par E Bermès au W3C sur cette question.

Economie du document (Bloc-notes de Jean-Michel Salaün)

Commentaires

Recherche

À retenir

Catégories

Liens

Cours Ecodoc

Master Archinfo (ENS)

Maîtrise SI (EBSI-UdeM)