Bloc-notes de Jean-Michel Salaün

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

Mot-clé - 512. À LA RECHERCHE DU NEODOCUMENT ; Les paradoxes du néodocument ; Lecture et calcul

Fil des billets - Fil des commentaires

vendredi 16 mars 2012

Le sens commun lu par Google

Google vient d'annoncer un important changement dans l'utilisation de ses algorithmes à l'issu notamment du rachat récent de la firme Metaweb (Wsj repéré par Abondance). Il s'agit pour certaines questions simples de donner directement la réponse en haut de la page, plutôt qu'une liste de liens y conduisant.

Extraits de l'article du Wsj qui reprend la présentation d'Amit Singhal, un des responsables du moteur (trad JMS) :

Le moteur s'approchera plus de "comment les hommes comprennent le monde" a dit M Singhal, remarquant que pour de nombreuses recherches aujourd'hui "nous croisons les doigts en espérant qu'il y ait bien une page où se trouve notre réponse." (..)

Selon ce changement, quelqu'un qui cherche "Lac Tahoe" verra les principaux "attributs" connus du moteur sur le lac, comme la localisation, l'altitude, la température moyenne ou sa salinité. Aujourd'hui, ceux qui cherchent "lac Tahoe" ne trouvent que des liens vers le site Web des visites, ses rubriques Wikipédia et un lien sur une carte.

Pour une question plus complexe comme : "quels sont les 10 plus grands lacs de la Californie ?", Google donnera la réponse plutôt que des liens vers d'autres sites. (..)

Par exemple, des gens qui cherchent un auteur particulier comme Ernest Hemingway pourront trouver sous le nouveau système une liste des livres de l'auteur qu'ils pourront feuilleter et des pages d'information sur d'autres auteurs ou livres pertinents, selon une personne au courant des plans de la firme. On peut supposer que Google proposera aussi d'acheter des livres. (..)

Quelqu'un de bien informé a dit que ce changement vers une recherche sémantique pourrait toucher les résultats de recherche de 10 à 20% de toutes les requêtes, soit des dizaines de milliards par mois. (..)

M Singhal a dit que Google et l'équipe du Metaweb, qui comprend aujourd'hui environ 50 ingénieurs, ont augmenté la taille de leur index à plus de 200 millions d'entités, en partie grâce au développement d'algorithmes d'extraction ou des formules mathématiques capables d'organiser les données disséminées sur le Web. Les organisations et agences gouvernementales ont été aussi approchées pour l'accès à leurs bases de données, y compris le CIA World Factbook, qui hébergent des informations encyclopédiques actualisées sur tous les pays du monde.

Une étape supplémentaire s'ouvre donc dans l'industrie de la lecture, la priorité mise par Google sur la deuxième dimension du document, le lu, proche des efforts du Web de données. De plus en plus, Google et Wikipédia deviennent complémentaires dans la construction d'un "sens commun" à partir des multiples documents disponibles. Il faut entendre ici sens commun dans toutes ses acceptions et il faudrait des études plus sérieuses que celles que j'ai consultées jusqu'ici à propos des conséquences de cette évolution globale du "lu" sur notre rapport au savoir, sur "comment les hommes comprennent le monde ?". Est-il raisonnable de laisser la réponse à cette question aux aléas de la stratégie d'une firme commerciale ?

dimanche 12 février 2012

Le Web sous tension (2)

Voici enfin la nouvelle version du Web sous tension de Roger II Pédauque !

L'écriture collective du texte de Roger II a pris du retard. Le temps de la coordination entre les membres du groupe initial et celui de la maturation de la réflexion est très éloigné de la réactivité de l'internet.

Voici comment s'est déroulé le processus. Dans une première étape, les auteurs des différentes parties ont intégré les commentaires du texte initial et celui-ci a été largement remanié. Puis, constatant que cette nouvelle version ne répondait pas à notre attente, nous nous sommes réunis au cours d'un séminaire de deux jours, nous répartissant la critique du texte. Il y a été décidé de publier une nouvelle version du texte en deux temps :

  1. Tout d'abord un résumé soulignant l'essentiel de l'enjeu sur le ton d'un manifeste, c'est ce résumé qui est aujourd'hui mis en ligne et soumis à la critique.
  2. Ensuite, certaines parties, amendées et corrigées du texte initial serviront de développements et d'illustrations des propos du résumé. Le texte, alors complet, sera publié courant avril.

Nous avons aussi prévu une suite, sous une forme différente, intégrant toutes ces réflexions.

Je crois que cela valait de coup de prendre son temps... Le temps est justement la principale tension du Web que Roger II a fait ressortir. Le nouveau texte est là :

Et pour un accès direct, c'est ici.

mardi 17 avril 2007

E-science = redocumentarisation de la science

Si certains doutent encore de l'importance de l'e-science pour les bibliothèques ou de celle de la redocumentarisation en cours dans la science. La lecture de ce petit dossier sur l'expérience britannique devrait les convaincre.

Le programme e-science au Royaume-Uni, dossier réalisé par l'ambassade de France à Londres, mars 2007. 10p.

Introduction :

Il y a moins de 50 ans, l'avancée de la recherche se faisait par la collecte d'informations dans les bibliothèques, par un réseau de communication restreint à l'entourage proche des chercheurs et par des calculs essentiellement faits à la main ou à la règle à calcul. L'arrivée de l'informatique et de l'ordinateur a provoqué un énorme bond en avant dans la gestion de l'information. Plus besoin d'avoir d'immenses étagères pour stocker ses informations, plus besoin de passer du temps devant un monticule de brochures. Un seul ordinateur est capable de stocker davantage d'information qu'une bibliothèque « papier ». Les calculs se font instantanément ; l'ordinateur est capable d'effectuer plusieurs milliers d'opérations simples à la seconde.

A partir des années 70, Internet a provoqué un second bond pour la diffusion de l'information, offrant la possibilité aux chercheurs de mettre en commun leurs résultats et de communiquer plus facilement avec leurs collègues du monde entier. Cependant, les informations sont regroupées sous différents formats et leur qualité et leur pérennité ne sont pas garanties. Les chercheurs travaillent dans diverses universités et entreprises, dans diverses régions et différents pays. Les logiciels utilisés sont souvent incompatibles. Il leur est donc parfois difficile de communiquer directement entre eux.

L'e-Science est aujourd'hui à la veille de révolutionner la recherche et les échanges d'informations. (..)

Conclusion :

Le Royaume-Uni a déjà relevé beaucoup de défis pour la mise en place de l'e-Science et plusieurs avancées scientifiques ont été effectuées grâce à elle. Cependant, nous ne sommes qu'au début d'une nouvelle technologie qui devrait révolutionner le monde scientifique. Plusieurs pays du monde entier ont suivi l'initiative du Grid. En 2002, le ministère de l'éduction chinois a lancé le projet ChinaGrid. Les Allemands ont débuté en 2005 le DGrid dans une initiative pour l'e-Science. Au Japon, la National Research Grid Initiative (NAGERI) a été mise en place par le Ministère de l'éducation, de la culture, des sports, de la science et technologie. En 2003, la France lance le projet Grid5000 avec neuf centres répartis dans tout le pays ; ce projet devrait aboutir en 2008. Aux Etats-Unis, l'initiative pour le US TeraGrid a été lancée en 2000. La Commission Européenne est, depuis mars 2006, à la deuxième phase du projet Enabling Grids for e-Science in Europe lancé en 2004.

Le Royaume-Uni et les Etats-Unis ont été les pionniers d'une nouvelle technologie qui devrait bouleverser le monde de la science dans les prochaines années.

Repéré par Prosper.

samedi 01 avril 2006

Livre, mots-clés

Les mots-clés renvoient aux billets du blogue correspondant aux différents chapitres, parties et sous-parties du livre.