On le sait Google a mis à la disposition des chercheurs la base des textes les livres qu'il a numérisés, ce qui donne le plus grand corpus linguistique de tous les temps, 500 milliards de mots et 4% des livres publiés sur terre, et fait rêver les linguistes (ici et). Je ne suis pas linguiste, mais pour les béotiens comme moi, la firme a mis en ligne un étonnant petit outil, baptisé NGram, permettant de représenter l'évolution des occurrences de mots dans le temps. Sans bouger de mon fauteuil, voici donc quelques leçons que j'en ai déjà en tiré sur les sujets de ce blogue.

Document

On considère généralement que le mot «document» est apparu en Français en 1214 dans la Vie de S Grégoire par le frère Anger (ici). J'ai quelques doutes là dessus, peut-être bientôt du nouveau sur ce blogue, mais en attendant, le NGram nous montre clairement l'évolution quantitative de son utilisation dans les livres, en français, puis en anglais depuis 1800.

Ngram-document-fr-4-01-2011.jpg

Ngram-document-eng-04-01-2011.jpg

Que constate-t-on ? L'utilisation du mot en français ne décolle que vers 1820 pour augmenter régulièrement jusqu'au tournant du siècle où elle arrive à un palier. Puis elle repart brutalement vers les années cinquante sans défaillance. Le démarrage du mot anglais est antérieur, sa croissance est d'abord plus lente, mais elle augmente brusquement vers les années soixante pour finir au même niveau que le mot français avant de chuter, semble-t-il, au début des années 2000. L'interprétation de ces courbes reste à faire, sans doute en relation avec la place du document dans l'organisation sociale, mais les tendances sont trop nettes pour qu'elles ne soient significatives.

Information

La notion d'information a progressivement remplacé celle de document chez nombre de professionnels, écoles et chercheurs du domaine à partir des années soixante-dix. Il était donc intéressant de comparer son histoire à celle du précédent.

Ngram-doc-info-04-01-2011.jpg

Ngram-doc-info-eng-04-01-2011.jpg

Information était plus utilisée que document en français au début du 19e, sans doute dans un usage courant. Document la dépasse vers 1830. À partir des débuts du 20e l'utilisation du mot s'accélère progressivement pour décoller à la seconde guerre mondiale, sans doute en lien avec le rôle croissant des médias. On observe un palier à partir des années 70 puis un nouveau décollage dans les années 90 et enfin une chute pour la première fois au début du millénaire. L'évolution du mot anglais montre une différence quantitative importante, avec un démarrage au niveau où le mot français termine son envol et donc une fin proportionnellement quatre fois plus haut.

Là encore, l'interprétation reste à faire, mais on peut déjà en tirer deux leçons claires. L'utilisation du mot information parait plus corrélée à l'évolution des médias qu'à celle des professionnels du même nom qui devraient peut-être y réfléchir. Par ailleurs, les mots français et anglais ne présentent peut-être pas la même signification, à moins que la place de l'information soit considérablement différente dans l'une et l'autre culture.

Données

J'ai ajouté aussi une troisième variable puisqu'aujourd'hui la mode n'est plus à l'information, mais aux données.

Ngram-inf-doc-don-04-01-2011.jpg

Ngram-inf-doc-data-04-01-2011.jpg

La hauteur de la courbe dans le diagramme français doit tenir compte de la polysémie du mot. «Données» est aussi le participe passé féminin pluriel de «donner». Mais le parallélisme des courbes données et information après la seconde guerre mondiale est assez remarquable dans les deux langues.

Bibliothèque - documentation

Pour terminer, j'ai comparé les mots «bibliothèque» et «documentation».

Ngram-bib-doc-fr-04-01-2011.jpg

Ces courbes sont celles qui m'ont le plus étonné, et je dois dire réjoui. L'utilisation du mot bibliothèque se maintient largement sur deux siècles, malgré tous les bouleversement que son environnement a connu, même si cela reste à un niveau modeste. Je serai curieux de comprendre la nature des pics que l'on peut observer. Sans surprise, le mot «documentation» apparait au début du 20e. Il connait son apogée vers 1960 et chute ensuite brutalement. Là encore les mots «bibliothèque» et «documentation» ont un usage pluriel. On le trouve aussi bien l'un pour des étagères ou des bibliothèques privées et l'autre dans «centre de documentation» dans «une documentation» ou encore dans «la documentation de quelque chose». Malgré cela, leur usage subit une variation très nette.