Document, information, une histoire de mots
Par Jean-Michel Salaun le mardi 04 janvier 2011, 09:11 - Bibliothèques - Lien permanent
On le sait Google a mis à la disposition des chercheurs la base des textes les livres qu'il a numérisés, ce qui donne le plus grand corpus linguistique de tous les temps, 500 milliards de mots et 4% des livres publiés sur terre, et fait rêver les linguistes (ici et là). Je ne suis pas linguiste, mais pour les béotiens comme moi, la firme a mis en ligne un étonnant petit outil, baptisé NGram, permettant de représenter l'évolution des occurrences de mots dans le temps. Sans bouger de mon fauteuil, voici donc quelques leçons que j'en ai déjà en tiré sur les sujets de ce blogue.
Document
On considère généralement que le mot «document» est apparu en Français en 1214 dans la Vie de S Grégoire par le frère Anger (ici). J'ai quelques doutes là dessus, peut-être bientôt du nouveau sur ce blogue, mais en attendant, le NGram nous montre clairement l'évolution quantitative de son utilisation dans les livres, en français, puis en anglais depuis 1800.
Que constate-t-on ? L'utilisation du mot en français ne décolle que vers 1820 pour augmenter régulièrement jusqu'au tournant du siècle où elle arrive à un palier. Puis elle repart brutalement vers les années cinquante sans défaillance. Le démarrage du mot anglais est antérieur, sa croissance est d'abord plus lente, mais elle augmente brusquement vers les années soixante pour finir au même niveau que le mot français avant de chuter, semble-t-il, au début des années 2000. L'interprétation de ces courbes reste à faire, sans doute en relation avec la place du document dans l'organisation sociale, mais les tendances sont trop nettes pour qu'elles ne soient significatives.
Information
La notion d'information a progressivement remplacé celle de document chez nombre de professionnels, écoles et chercheurs du domaine à partir des années soixante-dix. Il était donc intéressant de comparer son histoire à celle du précédent.
Information était plus utilisée que document en français au début du 19e, sans doute dans un usage courant. Document la dépasse vers 1830. À partir des débuts du 20e l'utilisation du mot s'accélère progressivement pour décoller à la seconde guerre mondiale, sans doute en lien avec le rôle croissant des médias. On observe un palier à partir des années 70 puis un nouveau décollage dans les années 90 et enfin une chute pour la première fois au début du millénaire. L'évolution du mot anglais montre une différence quantitative importante, avec un démarrage au niveau où le mot français termine son envol et donc une fin proportionnellement quatre fois plus haut.
Là encore, l'interprétation reste à faire, mais on peut déjà en tirer deux leçons claires. L'utilisation du mot information parait plus corrélée à l'évolution des médias qu'à celle des professionnels du même nom qui devraient peut-être y réfléchir. Par ailleurs, les mots français et anglais ne présentent peut-être pas la même signification, à moins que la place de l'information soit considérablement différente dans l'une et l'autre culture.
Données
J'ai ajouté aussi une troisième variable puisqu'aujourd'hui la mode n'est plus à l'information, mais aux données.
La hauteur de la courbe dans le diagramme français doit tenir compte de la polysémie du mot. «Données» est aussi le participe passé féminin pluriel de «donner». Mais le parallélisme des courbes données et information après la seconde guerre mondiale est assez remarquable dans les deux langues.
Bibliothèque - documentation
Pour terminer, j'ai comparé les mots «bibliothèque» et «documentation».
Ces courbes sont celles qui m'ont le plus étonné, et je dois dire réjoui. L'utilisation du mot bibliothèque se maintient largement sur deux siècles, malgré tous les bouleversement que son environnement a connu, même si cela reste à un niveau modeste. Je serai curieux de comprendre la nature des pics que l'on peut observer. Sans surprise, le mot «documentation» apparait au début du 20e. Il connait son apogée vers 1960 et chute ensuite brutalement. Là encore les mots «bibliothèque» et «documentation» ont un usage pluriel. On le trouve aussi bien l'un pour des étagères ou des bibliothèques privées et l'autre dans «centre de documentation» dans «une documentation» ou encore dans «la documentation de quelque chose». Malgré cela, leur usage subit une variation très nette.
Commentaires
Bonsoir Jean-Michel,
Je me méfie des corrélations, qui ont tellement tendance à être interprétées en causalités... Ce qui est très intéressant en revanche, c'est l'image du succès d'un terme particulier. A condition de ne pas donner une signification spécifique à ce terme ! Je note par exemple que ce succès peut être corrélé à des appellations académiques (les sciences de l'information par exemple) et ne fait alors que refléter un usage formel, ou renvoyer à un terme fourre-tout (les données) qui évite de qualifier l'ensemble textuel ou numérique ainsi manipulé. Bref, le succès de ces termes ne me parait guère prouver le succès de concepts précis, mais plutôt la victoire d'une novlangue polysémique. Dois-je ajouter que la bibliothèque est aujourd'hui pour bien des acteurs non corrélée à l'institution mais à l'architecture ordonnée de ... données (tiens !) !
Bref, ce type d'exercice me semble limité à sa destination : l'analyse de la fréquence sémantique. Par curiosité, peut-on l'appliquer à un corpus sélectionné ?
Et puis, quand même, je t'adresse mes meilleurs voeux pour cette nouvelle année !!!
Salut Bertrand,
Bonne année à toi !
D'accord avec toi sur la difficulté de l'interprétation. Tu remarqueras que j'ai été très prudent de ce côté. Je crois qu'il faut attendre que les linguistes de corpus s'emparent vraiment de ces outils pour que l'on commence à avoir des protocoles et analyses solides.
Dans tous les cas, il ne s'agit évidemment pas de mesurer le succès de concepts, mais bien l'utilisation de mots. Il n'empêche, les mots ont une signification et leur vie reflète aussi l'évolution de représentations sociales. Les tendances sont ici trop nettes pour être anodines. Celle-là t'intéressera peut-être aussi : http://ngrams.googlelabs.com/graph?...
L'outil proposé actuellement par Google permet de sélectionner précisément les dates, mais pas les corpus autrement que par la langue sauf erreur de ma part. On peut aussi visionner les livres concernés.
Beau sujet pour commencer l'année.
J'ai aussi bondi quand j'ai vu un tel outil à disposition. Je ne peux qu'abonder dans l'extrême prudence au niveau de l'interprétation tant que Google ne livrera un peu plus sur le contexte du contenu de son fonds. On ne sait par exemple pas à quoi correspondent les pourcentages sur l'axe, ce qui permettrait de mesure quantitativement les corpus concernés.
Il y a quelques informations quand on tente d'obtenir les données brutes (il faut quand-même saluer la transparence de Google à cet égard) mais cela reste très succinct. Je pense qu'il est problématique d'utiliser des mono-termes sur des très grandes période de temps, compte tenu de l'évolution de l'usage linguistique (en plus de la polysémie que représente certains termes). Le fait de pouvoir accéder en un clic aux ouvrages indexés, permettra peut-être de corriger le tir ou pour le moins de constater les biais. Mais bon courage pour des termes très diffusés.
A quand un séminaire de l'EBSI sur le bon usage d'un tel instrument ?
Pour ma part j'ai commencé quelques explorations sur des termes propres à l'archivistique et au record management en utilisant plutôt des expressions qui me semblent plus discriminantes (comme "cycle de vie du document") et je ne manquerai pas de relayer mes trouvailles.
A bientôt.
Salut Jean-Daniel,
Les pourcentages de l'axe des ordonnées correspondent au nombre le livres comprenant l'expression/nombre de livres de la période, voir : http://ngrams.googlelabs.com/info
Prudence sûrement, mais pas au point d'abandonner l'outil. L'article des chercheurs donnent des exemples d'utilisation tout-à-fait probants http://www.sciencemag.org/content/e...
Bonjour Jean-Michel,
Je me suis attellé à la lecture attentive de l'article de Science et j'ai pas mal de questions méthodologiques qui me turlupinent, mais il y en a qui vont plus vite que moi. Voir donc l'excellente analyse critique de Patrick Pecatte "L’interprétation des graphiques produits par Ngram Viewer" (http://culturevisuelle.org/dejavu/4...).
A bientôt.
Salut Jean-Daniel,
Oui j'avais vu ce billet. Si je suis d'accord pour la prudence et le ridicule de considérer cela comme une nouvelle discipline, je ne comprends pas la critique qui prétend que l'on ne peut retourner aux sources des données.
Prenons le diagramme, à mon avis particulièrement pertinent que j'ai présenté dans un billet ultérieur :
http://ngrams.googlelabs.com/graph?...
Voici les sources pour l'année 1800 et le terme documens : http://www.google.com/search?q=%22d...
Et voilà le texte du premier item : http://books.google.com/books?id=rV...
Il n'y a donc aucune difficulté de vérification.
Le billet ci-dessus était pour moi une mise en bouche. Mais dans le suivant, l'outil permet vraiment d'éclairer l'explosion de l'usage du mot. http://blogues.ebsi.umontreal.ca/jm...
Ce n'est pas par hasard qu'Otlet a développé ses théories au tournant du 19-20e siècle..