Economie du document (Bloc-notes de Jean-Michel Salaün)

Repérage de données sur l'économie des documents dans un environnement numérique

Aller au contenu | Aller au menu | Aller à la recherche

lundi 19 novembre 2007

La redocumentarisation du monde physique

Internet Actu rend compte d'un projet de Nokia (ici). Je cite :

Le principe est simple : où que vous soyez, si vous souhaitez une information sur un objet ou un lieu (une affiche, un livre, une statue, un restaurant…), il vous suffit de le prendre en photo et de l’envoyer sur les serveurs de cette application. Grâce à des algorithmes d’intelligence artificielle, au géopositionnement et à des logiciels d’analyse d’image, Point&Find est capable d’identifier l’objet que vous lui avez envoyé, de chercher de l’information sur celui-ci pour vous la renvoyer sur votre mobile.

Il s'agit donc, ni plus, ni moins, d'un objectif de redocumentarisation complète du monde physique.. à suivre. Mais mon pronostic est que l'on aura bien besoin de professionnels de l'information pour mettre de l'ordre dans tout cela !

samedi 17 novembre 2007

La résistance du livre

Puisque c'est le Salon du livre à Montréal, il est opportun de poursuivre l'interrogation sur ce support. J'ai, d'abord, été sensible à trois propos récents :

  • F. Pisani a donné un entretien sur l'avenir du livre.
  • Jeff Gomez a publié un livre papier au titre pour le moins paradoxal : Print is dead. Ici
  • Alain Giffard quant à lui s'interroge sur les effets de la Culture du libre sur la culture du livre, ici

Chacun à sa manière, avec sa position, son expérience, son analyse propre, des orientations parfois opposées, tire la même conclusion : le livre évolue, le livre doit s'adapter à la culture numérique. Mais si évidemment les médias anciens intègrent les formes nouvelles, la vrai question me parait inverse : pourquoi le livre résiste ?

Car le livre résiste. Il fut le premier dont le contenu à basculer sur le Web (le projet Gutenberg date de 1971). Il fut aussi le premier à disposer de terminaux dédiés (les tablettes eBooks sont bien antérieures au iPod). Sans doute certains secteurs n'ont pas résisté (encyclopédies, revues savantes), mais globalement et malgré les nombreuses Cassandres, le livre est encore là et bien là. Les principales maisons d'édition sont même plutôt prospères. Même si les tirages diminuent, le nombre de titres augmente.

Cette situation est d'autant plus étonnante que l'évolution sur la longue durée des pratiques de lecture ne sont pas encourageantes, que l'on raisonne par âge ou par génération, contrairement aux pratiques de la musique ou de l'audiovisuel, qui sont, elles, en forte croissance alors que leurs industries paraissent plus menacées (ici). Faut-il en conclure que les stratèges du livre sont plus habiles que leurs confrères ? Sans vexer personne, cela me semble une explication peu convaincante.

Sans prétendre avoir la totalité de la réponse, je crois que l'on a négligé jusqu'ici une dimension essentielle de l'explication : la mesure temporelle du livre, inscrite, cristallisée dans sa forme. Un lecteur qui parcourt un codex, lit et tourne les pages, a son attention accaparée par son activité. Autrement dit, un livre peut être mesuré autant par son nombre de pages que par son temps de lecture (qui variera selon l'habileté et la stratégie du lecteur). De ce point de vue, prenons un livre de 300 pages à 400 mots par page. Un lecteur moyen lisant 200 mots par minute, le livre représente, par exemple, 10 heures de temps de son lecteur.

Cette perspective permet de mieux comprendre la supériorité d'un livre papier sur le numérique, même sous forme de tablette, dans un grand nombre de genres. Elle permet aussi de comprendre pourquoi certaines pratiques de lecture sont, à l'inverse, plus adaptées au numérique. Elle permet enfin de comprendre notre attirance à détenir des livres et à les accumuler dans des bibliothèques personnelles, même à l'heure des mémoires numériques et des clés USB, alors que nous nous éloignons des CD audios. D'un point de vue plus théorique, elle autorise l'intégration de l'économie du livre dans l'économie de l'attention (mais je ne le développerai pas dans ce billet).

Contrairement à une idée reçue, on lit très bien sur une tablette, et ceci dès les premières tentatives (Cytale, Gemstar). J'en ai fait personnellement l'expérience et nous l'avions constaté, il y a déjà longtemps dans une expérience de prêts en bibliothèques (le rapport est ici. Pdf). On met souvent en avant comme avantage pour ces dernières, le fait que l'on dispose alors d'une bibliothèque portative, ou que l'on peut par les liens naviguer d'un texte à l'autre. Mais cet avantage n'est utile que pour un certain type de lecture, pas le plus courant, celui qui demande de passer d'un fragment de texte à un autre. Un livre traditionnel se lit tout seul, en continu du début à la fin. Il est exclusif et fini. Et son temps de lecture est long. L'accompagner d'une bibliothèque n'est en rien un avantage, c'est au contraire une source de distraction. Mieux, l'objet livre est une promesse pour le lecteur : la promesse d'un temps long de plaisir exclusif ou d'enrichissement offert par l'auteur. Comme bien des cadeaux, il gagne à être tangible, il a même son emballage la couverture. La tablette ou le eBook, en effaçant la promesse, réduit sa potentialité.

Mais dira-t-on le raisonnement est le même pour la musique ou la vidéo et pourtant les conséquences du numérique sont inverses. L'inversion résulte de la temporalité. Le temps de l'écoute de la musique ou de la vidéo est très court par rapport à celui du livre. Il est, au contraire, tout à fait avantageux de disposer une bibliothèque de morceaux musicaux dans son iPod. Dans le temps long de lecture d'un seul livre, nous pouvons écouter un très grand nombre de morceaux musicaux. Ici le numérique montre sa supériorité. Le même raisonnement vaut pour les livres qui se lisent par séquences comme les encyclopédies, pour lesquels le numérique est un avantage certain pour le lecteur.

Ainsi lorsque nous achetons des livres pour notre bibliothèque ou pour les offrir, nous achetons une promesse d'heures exclusives de plaisir. Une bibliothèque d'une centaine de livres est pour son propriétaire la promesse de mille heures de plaisir. Sa visibilité n'est pas anodine. En passant devant, il éprouve le frisson de cette promesse. Sa surface, son volume sont proportionnels au potentiel accumulé.

Alors, la littérature évoluera sans doute avec le numérique, mais sommes-nous vraiment prêts à renoncer à ces plaisirs anciens ?

Actu du 19-11-2007 Voir, a contrario, le lancement par Amazon de la prochaine version de tablette chez F. Pisani : Livre 2.0: nous y sommes presque, ici. Voir aussi Lorcan Dempsey et les liens qu'il donne, ici. Et plus de détails sur TechCrunch, .

dimanche 23 septembre 2007

Et si T. Berners-Lee avait été Chinois..

.. la face du Web aurait peut-être été changée ? En tous cas, la structure du Web sémantique, si l'on suit le raisonnement de L. Floridi (Billet, repéré par M. Lessard, merci à lui).

Extrait du billet (trad JMS) :

Il y a uns grande différence entre une langue indo-européenne (comme l'anglais) et le chinois. : la première est une langue qui privilégie plus le sujet, la seconde fait partie de celles qui mettent plutôt en avant le thème. (note)

En simplifiant beaucoup, dans un cas (sujet privilégié) on préfèrera les phrases comme « Marie aime la pizza » avec un sujet, un prédicat et un objet ; dans l'autre (thème privilégié), on préfèrera des phrases comme « pour se nourrir, Marie préfère la pizza », avec un thème et un commentaire approprié.

Cela ne vous rappelle rien ? Permettez-moi une autre simplification : les langues indo-européennes pensent comme le Web sémantique, le chinois comme le Web 2.0.

Dans un cas, le point essentiel est d'avoir une URI et une relation à trois pôles du type « X est Y », comme la bonne vieille philosophie grecque. C'est le fondement de toute ontologie.

Dans l'autre, vous définissez un thème et vous le taggez.

Je ne suis pas expert, mais j'aimerais bien avoir l'avis des amis du Rtp-Doc sur cette question (et je vais de ce doigt leur poser la question sur la liste). Si l'on pousse le raisonnement, on pourrait en conclure, en effet, que le Web sémantique est bridé par une structure trop marqué par son origine langagière. Ce serait une victime de ce que les historiens des techniques appellent à la suite de J. Perriault « l'effet diligence » (Wkp), la technicité du Web sémantique reprenant mécaniquement celle des langues indo-européennes. À vrai dire, la critique du WS développée dans le second texte de Roger, sans reprendre précisément cet argumentaire, ne me paraît pas si éloignée.


Actu du 28 sept 2007

On peut toujours compter sur ses amis.. voir les commentaires. J'ai intégré ci-dessous la contribution importante de Monique Slodzian, linguiste renommée, responsable du Centre de recherche en ingéniérie multilingue (prés) qu'elle m'a autorisé à reproduire ci-dessous :

Les langues pensent comme ceci ou comme cela….Voilà bien une thèse jugée problématique depuis près de deux siècles. On rappellera quelques faits.

D’abord, cette manière de concevoir les langues dans leurs rapports supposés à la connaissance relève d’un logicisme orthodoxe qu’on pourrait croire dépassé et qui postule :

  • La possibilité de discerner la signification d’une phrase directement et immédiatement en la réduisant à des éléments logiques;
  • L’existence d’un langage formel permettant de comparer et de paramétrer la valeur gnoséologique des langues en soi.

Il s’agit d’une philosophie linguistique, qui ne tient aucun compte de l’interlocution et, plus généralement, du fait que le sens se construit dans des productions discursives écrites ou orales convoquant toutes les dimensions du langage (morphologie, syntaxe, lexique, prosodie…). Déclarer que le chinois met davantage en valeur le thème que le sujet procède d’une vision réductrice de la langue et croire qu’il y aurait un mode de pensée chinois qui déterminerait des catégories conceptuelles susceptibles de modeler le Web sémantique est simplement naïf.

En effet, le raisonnement de L. Floridi incorpore tacitement des arguments inspirés d’une vision romantique du « génie de la langue », tirés superficiellement des travaux de Humboldt (thèse sur l’influence des formes grammaticales sur le développement des idées). Le programme de Humboldt sur l’étude comparée des langues (1820) entend bien fonder les principes de la classification des langues. Cependant, une controverse fameuse avec le sinologue Rémusat, conduit Humboldt à réviser sa position sur la supériorité cognitive des langues flexionnelles (notamment indo-européennes) par rapport aux langues dépourvues de formes grammaticales comme le chinois (la seule position des mots y marque les fonctions grammaticales). L’argument imparable du sinologue est que le supposé handicap de l’absence de formes grammaticales n’a pas empêché le chinois d’offrir l’une des plus puissantes littératures du monde. Se rendant à l’évidence, Humboldt en conclut que le contexte et les relations entre les mots jouent un rôle déterminant. S’il continue d’opposer le sanskrit et les langues flexionnelles au chinois, le cas du chinois le conduira à théoriser le rôle de l’interprétation et non à postuler des propriétés intrinsèques à telle ou telle famille de langue. Humboldt se garde bien de réifier en catégories absolues les spécificités morphosyntaxiques de la langue. La perspicacité de Humboldt paraît d’autant plus remarquable si l’on songe au mythe encore répandu du chinois comme langue idéale en raison de la supposée référentialité des idéogrammes et de la simplicité de sa grammaire.

Comme linguiste, il ne lui échappait pas qu’il fallait bien distinguer entre écriture, langue et parole. La leçon vaut toujours : si les caractères chinois sont des graphèmes constitués historiquement comme des signes moins arbitraires que les écritures alphabétiques, dans la production de la parole, ils jouent un rôle similaire aux signes de toute langue, qui imposent un lien indissoluble entre son et sens. De sorte que polysémie et homophonie y sont aussi inhérents qu’aux autres types de langues.

En l’occurrence, la dichotomie sujet/thème a été largement étudiée par la linguistique de l’énonciation dont elle relève et qui concerne toutes les langues, y compris indo-européeennes. Le « schéma actanciel » de Tesnière constitue, par exemple, une théorisation possible du rapport sujet/thème à partir de la position des actants dans les langues flexionnelles et sans cas. La syntaxe structurale considère que donner une information sur un événement à l’aide d’actants (sujet, objet, temps, lieu…) implique une activité conceptuelle, avec des idées de procès, de participants actif et non-actif du procès, de circonstance de l’action, etc., qui valent pour toutes les langues, mais qui, en eux-mêmes, n’autorisent pas à tirer des conclusions sur « la » sémantique d’une langue particulière.

Le raisonnement de L. Floridi paraît donc à la fois réducteur et anachronique. S’il n’y a pas de lien mécanique entre formes linguistiques et mode de pensée, pourquoi faudrait-il fonder dans cette dualité une quelconque logique du Web?

Sans doute, ces remarques sont importantes et relativisent le propos initial. Mais, ne peut-on penser que les promoteurs du WS ont simplement raisonné par analogie ? Cela ne présuppose pas un point de vue juste sur la réalité de la langue, mais simplement une reproduction mécanique de sa structure apparente.

vendredi 14 septembre 2007

Numérisation récentes, textes surannés..

Il y a des jours comme cela où cela fuse de toutes parts !

À lire ce billet de La Feuille Quand les oeuvres anciennes questionnent les oeuvres récentes qui renvoie lui-même à une critique de R-P Droit dans Le Monde des traductions surrannées mises en ligne par la numérisation de masse de livres des collections anciennes des bibliothèques et au commentaire qu'en fait F. Bon.

Le tout peut être mis en rapport avec le billet sur l'analyse de P. Duguid ou encore le précédent billet sur le rôle des bibliothèques dans la numérisation de masse.. on sent que le débat mûrit très rapidement !

Données, information et document

Deux billets en d'InternetActu à méditer :

Le premier chronologiquement est d'Hubert Guillaud. Intitulé Demain, l'intelligence des données, il montre comment la mise en place progressive du Web sémantique en reliant de plus en plus de données disponibles et en autorisant toutes sortes de calcul et de corrélation modifie l'information disponible.

Le second de Daniel Kaplan, répond au premier. Son titre est interrogatif Données malignes ?. Il constate que plus les données sont importantes, plus leur émission est un enjeu pouvant donner lieu à toutes sortes de manipulations. Sa conclusion, sous forme d'aphorisme est claire : “Plus une donnée est considérée comme susceptible d’être exploitée, moins il est possible de lui accorder confiance…”

Ainsi les deux billets explorent chacun une dimension du phénomène : la dimension technique avec le lien qui se fait entre les calculateurs, les capteurs et les mémoires ; la dimension humaine avec la maîtrise ou le contournement du dispositif, et donc la liberté, consciente ou fortuite, de produire du sens.

Il reste encore à creuser, à mon avis, une troisième dimension : la dimension documentaire, qui est sociale et permet de s'entendre collectivement sur une connaissance commune. Sans doute, les données peuvent être de plus en plus combinées et manipulées, sans doute chacun peut ou pourra en tirer des informations, mais pour vivre en société il faudra se donner les moyens de partager des vérités. Le document, ou ce qui le remplacera demain, est ce qui fait foi. C'est cette dimension qui, à mon avis, permettra de résoudre le problème pointé par D. Kaplan.

Actu du 17 sept

À la demande d'H. Guillaud, je tente de préciser un peu. L'idée, qui est simplement une ébauche et reste à creuser, est la suivante :

Construire un «document» suppose que l'on a un artefact (pour voir, c'est la forme) qui permet d'agréger des données en informations en leur donnant un sens (pour lire, c'est le texte) afin de le partager (pour comprendre et être compris au delà de l'ici et du maintenant).

Si l'on en reste aux notions de données ou d'informations, on s'interdit de penser la réalité de la communication documentaire. On est obligé de faire appel à des notions extérieures comme, par ex la confiance. Or dans un système documentaire élaboré, la confiance est déjà intégrée dans le document. Cela n'empêche pas une société de fonctionner, mais elle est moins efficace. Le problème aujourd'hui est justement que l'on n'a plus une notion claire de ce qu'est un document numérique ou, si l'on veut, que l'on a éclaté les trois dimensions précédentes sans trouver de substitut. Dès lors si l'on a (beaucoup) gagné en efficacité dans le traitement des données et sans doute aussi dans la construction d'informations, on a perdu au moins en partie l'ordre documentaire.

Pour le dire autrement et plus pompeusement : Une société documentée est une civilisation (sans jugement de valeur, une civilisation peut-être humainement effroyable). Si, de plus elle est documentarisée (c'est à dire si le système documentaire est structuré), alors elle pourra exploiter efficacement son capital cognitif et le transmettre à la postérité. Il n'est pas sûr que le numérique soit civilisé, mais cela viendra sans doute ;-).

- page 9 de 14 -