«Record» et «data»
Par Jean-Michel Salaun le lundi 17 octobre 2011, 11:19 - Sémio - Lien permanent
Pour poursuivre la réflexion amorcée dans le précédent billet, voici une interrogation sur le corpus anglophone de N-Gram des mots record et records.

On peut faire plusieurs constats :
- Le mot est nettement plus utilisé dans la littérature anglophone que « document » dans la littérature francophone en 1800, sans doute à cause de la différence de culture juridique des deux mondes.
- Au cours du 19e document rattrape record et les deux mots ont une fréquence comparable, chacun dans leur bassin linguistique.(document est beaucoup moins usité dans le monde anglophone).
- Enfin, on aperçoit nettement l'arrivée de l'enregistrement sonore et visuel à partir de 1900.
Maintenant pour ajouter à la perplexité de Jean-Daniel, voici ce que cela donne lorsqu'on ajoute le mot data :

Le mot n'apparait qu'au début du 20e pour exploser après la seconde guerre mondiale, et il s'impose immédiatement dans la littérature, montrant à quel point l'informatique occupe brutalement nos écrits, du moins ceux récoltés par les bibliothèques, sinon nos pensées. Juste avec ce paramètre indirect, on subodore qu'il n'est pas anodin de passer du « web des documents » au « web des données »
Commentaires
Oh je ne suis pas perplexe, car une exploration plus fine du corpus nous montre ceci au niveau des sujets des livres indexés (les pourcentages sont à la louche):
1920-1940: les ouvrage mentionnant "data" sont des statistiques
1942-1954: idem
1955-1956: 10% des ouvrages utilisent data dans le sens informatique
1957-1958: idem
1959-1960: on passe à 20%
1960-1962: 40%
1963-1976: 80%
On peut donc présumer que la bascule du sens de data (+ de 50% au sens informatique) se situe vers 1965, ce qui n'implique en aucune manière une baisse des occurrences dans les "records". Mais on peut constater que le premier boom des data est lié aux publications statistiques (mon hypothèse, à vérifier, est celle de l'émergence des statistiques au niveau international avec la multiplication des organisations internationales au sortir de la dernière guerre mondiale).
Du côté francophone, le Ngram de données/document/documents nous donne une autre image que celle du monde anglo-saxon (http://books.google.com/ngrams/grap...)
Ce qui me rappelle un vieil adage : "comparaison n'est pas raison"
Il faudrait que l'on double Ngram d'un instrument d'analyse en peu plus fin (une analyse factorielle sur les titres par ex.). Les culturomics onta encore quelques percées théoriques à faire avant d'être vraiment pertinentes.
Salut Jean-Daniel,
Merci pour ces précisions, il est effectivement salutaire de retourner aux corpus.
Je ne crois pas que tes remarques infirment vraiment mon propos. Le développement des statistiques, puis des sondages, a été favorisé par les calculateurs, c'est à dire les ordinateurs, et les data des statistiques sont bien aussi des records.
Je n'avais pas mis le graphique français, car «données» est trop polysémique, mais on trouve néanmoins une courbe à la pente assez semblable.
D'accord pour dire qu'il faudrait affiner l'outil, surtout quand on voit ce que peuvent en faire ses promoteurs qui confondent show comique et science. http://www.ted.com/talks/what_we_le...
Néanmoins, en l'état et avec précaution, on arrive à des résultats bien intéressants.