XML 10 ans.. d'une révolution documentaire
Par Jean-Michel Salaun le jeudi 14 février 2008, 01:59 - Sémio - Lien permanent
Le consortium W3C fête les 10 ans de XML. L'anniversaire mérite d'être souligné tant le format s'est répandu et a révolutionné l'organisation du Web en favorisant flexibilité et interopérabilité entre les objets documentaires. Je cite le communiqué du W3C :
« Aujourd’hui, tous les ordinateurs du monde, qu’il s’agisse de postes de travail, de portables ou de stations de centre de données, traitent forcément du XML à un moment ou à un autre » déclare Tim Bray de Sun Microsystems. « Cela montre bien que les informations peuvent être regroupées, transmises et utilisées indépendamment des types d’ordinateurs ou de logiciels exploités. XML ne sera sans doute pas le seul vecteur neutre d’informations, mais ce fut le premier et à ce titre, il remplit bien sa mission. »
En fait, il est quasiment impossible de passer une journée sans avoir recours à une technologie qui repose, d’une manière ou d’une autre, sur XML. Quand vous faites le plein de votre voiture, XML passe souvent de la pompe à la station service. Quand vous configurez votre appareil photo numérique, vous utilisez des contrôles graphiques qui reposent sur XML. Lorsque vous le connectez à un ordinateur, cet appareil photo et le système d’exploitation communiquent en XML. Quand vous téléchargez de la musique numérique, le logiciel que vous utilisez pour l’organiser stocke les informations sur les chansons au format XML. Et quand vous explorez la planète Mars, XML vous accompagne ;
W3C XML fête ses 10 ans ! La communauté internationale est invitée à célébrer XML, Communiqué du 12 février 2008 ici
XML est un peu au document numérique ce que la page est au document papier : une forme standardisée et implicitement acceptée par l'ensemble de la société d'un contenu. Ainsi en faisant ce grand pas, XML a aussi transformé notre conception du rapport fond/forme des documents, sans qu'on y prenne vraiment garde. Voici ce que Roger en disait, il y a trois ans :
Les techniques documentaires fondées sur XML objectivent et réifient la tradition du document papier. Il est d’usage de considérer qu’un document structuré en XML recèle le fond – l’équivalent du manuscrit avant sa mise en forme typographique –, et que sa publication à travers par exemple des feuilles de style en est la forme. Mais les différentes représentations possibles d’un document en XML renvoient à des grammatisations différentes. Selon qu’elle adopte le formalisme des DTDs (Définition de Type de Document), des Schémas, ou bien encore des représentations logiques du Web sémantique, la codification XML renvoie à autant de considérations distinctes sur le contenu. (p.7-8)
Roger T Pédauque, “Le texte en jeu Permanence et transformations du document,” Avril 7, 2005, ici.
Ce n'est pas vraiment mon domaine de spécialités, mais, sauf erreur de ma part, je crois que les pistes lancées dans ce texte n'ont pas été suivies. Il est vrai que le style de Roger y est un peu abscons. Pourtant, il touche des questions essentielles et oubliées que cet anniversaire me donne l'occasion de rappeler.
Actu du 3 mars 2008 Gauthier Poupeau s'est depuis prêté au jeu, dans un long billet très critique de celui-là : Du Web sémantique au web de données, 2ème partie : retour sur un des articles de Roger T. Pédauque (ici)
Commentaires
En ce qui concerne les pistes évoquées dans le texte et qui n'auraient pas été suivies, j'ai un peu de mal à comprendre votre avis. S'agirait-il de la séparation de la forme et de la structure qui ne serait pas réellement mise en oeuvre ? J'ai l'impression qu'à part le cas particulier d'xHTML, qui héritait d'un HTML dans lequel tout ceci était vraiment flou, globalement les grandes DTD respectent ces principes. Peut-être la "réification" de la tradition du document papier est un peu excessive, mais personellement j'y trouve une certaine vérité.
Par rapport à la nature de XML et aux techniques documentaires:
La véritable loi de Séparation prônée et implémentée par XML est d'abord celle de son modèle SGML: la possibilité laissée à un producteur d'information numérique d'exprimer de manière formelle et normalisée la distinction entre les caractères propres aux données et les caractères propres au balisage -- l'ensemble de ces caractères formant le "texte" du document au sens de la norme ISO.
Au-delà de cet "enabling agnosticism", on peut dire que le socle technique SGML/XML n'impose ni ne propose de méthodologie documentaire particulière. La nature de l'information consignée dans un document SGML/XML, ou modélisée lors de la construction d'une DTD ou d'un schéma, reste exclusivement dépendante des objectifs d'exploitation envisagés. La façon de réaliser le marquage de cette information pour remplir au mieux ces objectifs est un processus d'ingénierie, libéré de l'éternel problème d'intégrité des données.
Il me semble bien que toute une réflexion sur les possibilités de grammatisations différentes (si je comprends bien le terme) existe depuis SGML. Des méthodologies de développement SGML comme celle décrite par Maler et El Andaloussi (1996), en ligne à www.xmlgrrl.com/publicati... proposent une approche multiple de la nature des composants à identifier, et séparent les considérations du type fond-structure-forme de leur expression technique.
Les notions de "formes architecturales" (HyTime, 1992) xml.coverpages.org/archFo... adressent explicitement les capacités d'un document à hériter de plusieurs modèles de structuration, comme celles de plusieurs documents marqués différemment à partager pourtant le même modèle formel.
Je serait tenté de dire que les racines SGML devraient pouvoir continuer à alimenter la démocratie XML...
«Selon qu’elle adopte le formalisme des DTDs (Définition de Type de Document), des Schémas, ou bien encore des représentations logiques du Web sémantique, la codification XML renvoie à autant de considérations distinctes sur le contenu.»
Je vois une illustration de cette remarque dans une discussion à la suite d'un billet appelant à la création d'outils "sémantiques" conviviaux à la disposition des créateurs de "contenus" :
www.readwriteweb.com/arch...
Les tenants de l'approche XML, i.e. DTD/Schémas, à la suite de l'auteur du billet, Nitin Karandikar, blog.softwareabstractions... , revendiquent me semble-t-il l'«agnosticisme» remarqué par Jean-Marc Destabeaux, au prix certes de difficultés en interopérabilité mais avec plus de souplesse pour décrire les documents dans leurs relations complexes constitutives de sens (fonction impliquant émetteur, destinataire, dispositif de restitution, destinataires prédéfinis aussi bien qu'effectifs en fonction du média de diffusion, "redocumentariseurs", …).
Les tenants de l'approche "sémantique", i.e. RDF, SPARQL, etc., témoignent d'une certitude bien plus contraignante quant à ce que serait le sens intrinsèque des (éléments de) documents, ce qui les rend méfiants quant à la libre utilisation d'XML, trop "agnostique", trop "langage", avec ce que cela comporte de liberté et de flou.
Là où les premiers favorisent communication, interprétation et assument le "jeu" (au sens mécanique) qui me paraît inhérent à la communication linguistique interpersonnelle, les seconds avancent vers un formalisme de l'ordre du calcul logico-mathématique. Opposition entre une vision de la tension entre la nécessité d'avoir une grammaire explicite, mais parmi plusieurs, et la croyance en "la" logique ?
Fort heureusement, la communication entre les deux formalismes, instances XML avec DTD/Schémas et représentations RDF, reste interopérable.
Avec un peu de retard, voici une analyse de cet article et qui pourrait expliquer les raisons pour lesquelles les pistes n'ont pas été suivies : www.lespetitescases.net/D...