E-science et archithécaires

Cet article du dernier numéro de D-Lib mérite lecture.

William Y. Arms, Manuel Calimlim, Lucia Walle, EScience in Practice, Lessons from the Cornell Web Lab, D-Lib Magazine, May/June 2009, Volume 15, Number 5/6. ici

Il pose les jalons de ce que pourraient devenir les professionnels de l'information dans un monde numérique : des archithécaires (voir ici et là entre autres) dans cet exemple aux services des nouveaux développements de la science. Néanmoins, il me semble y avoir dans cet article une confusion, courante mais problématique, entre corpus et collection ou encore entre archive et bibliothèque. Cette confusion est sans doute inévitable dans le numérique où tous les éléments sont mis au même niveau, néanmoins il faudra reconstruire un ordre documentaire plus affirmé à l'avenir.

Le tout est présenté en sept leçons, dont plusieurs m'ont étonné. Voici quelques extraits traduits :

1. Construire un laboratoire d'abord, puis une bibliothèque

(Commencer par investir dans une bibliothèque est une stratégie risquée)

Toutes les bibliothèques sont rigides et les bibliothèques numériques ne font pas exception. elles exigent de gros investissements en temps et en argent, et réagissent lentement aux changements de circonstances. Les investissements seront perdus si les plans méconnaissent la recherche en train de se faire ou seront dépassés par des évènements extérieurs. (..)

En revanche, dans un laboratoire tel que le Web Lab si de nouvelles idées ou de nouvelles opportunités se présentent, les plans changent. Les bases solides sont la norme, mais les collections et les services sont flexibles pour répondre à de nouveaux objectifs de recherche. Le site du laboratoire ne fournit pas de services génériques pour un grand nombre de chercheurs, il donne un soutien personnalisé à chacun. (..)

2. Rester petit pour durer

Le financement permanent est le talon d'Achille des bibliothèques numériques. Alors qu'il est comparativement plutôt simple de trouver de l'argent pour innover, peu d'organisation ont un financement sur le long terme pour maintenir la croissance des collections et des services. (..)

Une partie du problème vient du fait qu'une bibliothèque numérique peut facilement devenir dépendante d'employés permanents. S'il y a une interruption de financement, il n'y a plus d'argent pour payer ces personnes et pas d'alternative pour continuer sans eux. Les centres de calcul souffrent des mêmes défauts : équipe nombreuse et coûts fixes élevés.

(Au Web Lab) il n'y a pas de salarié à plein temps. Les étudiants de premier et deuxième cycles ont fait le principal des développements. L'équipement a une vie limitée, mais les achats de matériels ont été synchronisés avec le subventionnement. Les ordinateurs sont gérés par le Center for Advanced Computing de Cornell, qui propose un service de base payant, pour le moment environ 25.000 $ l'an. Ainsi tant que cette facture est acquittée, le laboratoire peut survivre à une absence de fonds de plusieurs années.

3. Extraire des sous-collections gérables

(..) En pratique, nous nous sommes aperçus que peu de gens mènent des recherches sur le Web dans son entier. La plupart des chercheurs font des analyses détaillées sur des sous-collections, pas sur un balayage complet. (..)

4. Aller au-delà de la communauté académique

La communauté académique a des capacités limitées pour développer et maintenir les logiciels complexes utilisés par la recherche sur les grandes collections. Nous devons donc être prudents sur l'endroit où placer nos efforts et flexibles pour l'utilisation de logiciels issus d'autres sources. (..)

Pour les recherches conséquentes sur les données, les développements récents les plus importants sont sur l'open source pour les batteries d'ordinateurs bon marché. C'est une réponse aux besoins de l'industrie de l'internet qui emploient des programmeurs d'expertises et expériences variées pour construire de très grandes applications sur des regroupements d'ordinateurs disponibles. (..)

5. S'attendre à ce que les chercheurs comprennent l'informatique, mais ne pas leur demander d'être experts

6. Rechercher la généralisation, mais se défier de l'uniformisation

(..) Des mots comme « workflow », « provenance », « dépôt » (repository), et « archive » n'ont pas un seul sens, et la recherche d'approches globalisantes tend à occulter les vraies différences entre les domaines. (..)

Autant il y a un danger à perdre son énergie en construisant trop tôt des outils génériques, autant il est également anti-économique de ne pas bâtir des outils standards pour les tâches courantes, une fois un domaine stabilisé. (..)

7. Maîtriser les opérations en local pour la flexibilité et l'expertise

Il est facile d'être séduit par l'informatique dans les nuages et les super-centres de calcul, mais les arguments en faveur d'une maîtrise locale des opérations sont plus forts. (..) Si une université veut rester à la pointe, il faut que ses idées proviennent de son expérience pratique. (..)

Ajout du 26 mai 2009

Voir aussi sur un sujet proche :

Lynne Siemens, ‘It's a team if you use "reply all" ’: An exploration of research teams in digital humanities environments, Literary and Linguistic Computing Advance Access originally published online on April 13, 2009, Literary and Linguistic Computing 2009 24(2):225-233; ici

Repéré par le TGE-ADONIS qui propose le résumé en français (là)

Economie du document (Bloc-notes de Jean-Michel Salaün)

Recherche

À retenir

Catégories

Liens

Cours Ecodoc

Master Archinfo (ENS)

Maîtrise SI (EBSI-UdeM)