15 millions de pages numérisées par an en Chine
Par Jean-Michel Salaun le jeudi 26 octobre 2006, 04:28 - General - Lien permanent
Entendu lors un séminaire récent réunissant les archivistes des villes de Montréal et de Shanghaï qu'un plan quinquénal démarré en Chine en 2006 a pour objectif la numérisation de 15 millions de pages par année, ce qui ferait au total.. 75 millions de pages numérisées en 2011. Cette numérisation se ferait maintenant principalement en mode caractère (formule appropriée pour l'écriture chinoise). La plupart de cette numérisation est sous-traitée à des entreprises spécialisées. C'est une priorité du gouvernement et il n'y aurait pas de soucis budgétaires à ce sujet. Les difficultés se trouveraient plutôt dans la sélection des documents à numériser.
Je n'ai pas plus de précision. Mais un tel programme, s'il est confirmé, ne sera pas sans conséquences, par exemple sur la place du chinois sur le Web et donc dans le monde, sur les capacités industrielles chinoises dans le secteur et sur les savoir-faire documentaires numériques chinois.
De plus, l'écriture chinoise est commune à l'ensemble des dialectes parlés en Chine et agit comme une sorte d'esperanto. Le Chinois qui tape à l'ordinateur, le fait en phonétique à l'aide du pinyin sur un clavier alphabétique, il choisit ensuite le sinogramme approprié au sens qu'il souhaite donner parmi ceux qui lui sont proposés, un peu comme l'écriture intuitive en vogue pour les SMS sur les téléphones portables. Ainsi un blog rédigé par un Cantonnais est, en simplifiant un peu, lisible par un Pékinois, alors même qu'ils ne pourraient se comprendre oralement dans leur langue d'origine. On voit combien ce type d'écriture est adaptée aux échanges sur le Web, basés sur le partage. Imaginons un instant que tous les Européens aient la même langue écrite..
Déjà le marché de l'Internet est gigantesque en Chine comme l'a constaté l'Atelier dans un dossier récent. J'ai déjà noté que la Chine était un des rares marché où Google ne dominait pas. Et on apprend aujourd'hui que le concurrent heureux de Google, Baïdu, vient de signer un important accord pour la diffusion de clips vidéos.
Mais, additionnons les deux constats précédents, en nous rappelant que la Chine compte 1,3 Mds d'habitants, que son taux de croissance se rapproche des deux chiffres et que la diaspora chinoise est dispersée tout autour de la planète, et projetons-nous en 2011.
Il est peut-être temps de songer sérieusement à apprendre à déchiffrer les sinogrammes.
Commentaires
Il parait même que quand un Pékinois rencontre un Cantonnais, il arrive à se faire comprendre en dessinant les idéogrammes avec son doigt dans la paume de sa main :o) Avec ou sans ordinateur, l'écriture chinoise est un sujet passionnant.
Mais avec plusieurs milliers de caractères courants (20 à 30.000 en tout), la numérisation du chinois doit être essentiellement un travail de copiste et de 'petites mains', non ? Ou bien existe-t-il des logiciels de reconnaissance (OCR) assez robustes pour encaisser le coup ?
C'est le problème exactement inverse de celui de Pi Cheng quand il inventa l'imprimerie en Chine, quelques siècles avant Gutenberg : comment rendre accessibles des milliers de caractères différents, dans une seule casse ? Les caractères étaient rangés, semble-t-il, sur des tourniquets cylindriques et sur des tables tournantes... La grande variété des caractères chinois a été, jusqu'à une époque récente, un frein sérieux à l'industrialisation de l'imprimerie.