Ce billet a été rédigé par Christine Benoit dans le cadre du cours SCI6355 sur l'économie du document de la maîtrise en sciences de l'information de l'EBSI.

La réponse à cette question nous a déjà été imposée, la libération des données a commencé. Que ces données proviennent d’organismes publics, privés ou même des particuliers, elles entraînent des résultats qui ne sont pas toujours positifs. Plusieurs personnes encouragent la libération des données, comme Tim Berners-Lee dans sa présentation au TED de février 2009 ou Tim O’Reilly et John Battelle dans leur article « Le Web à la puissance 2 : le Web cinq ans plus tard » qui nous présentent les aspects les plus positifs ce cette libération, tout en passant sous silence les écueils qui peuvent en survenir. Mais plusieurs critiques s’élèvent aussi pour remettre en question la façon dont ces données sont libérées, comme Hubert Guillaud dans son article « Critiques du Web2 ».

Il est indéniable que la libération des données peut s’avérer positive, on peut citer par exemple le milieu scientifique qui a tout à gagner à obtenir un accès aux données des autres chercheurs (NYT). On peut aussi penser que cela peut entraîner l’arrivée de nouveaux services, améliorer la prise de décisions de différents organismes, etc. Mais il est difficile d’évaluer précisément les résultats de cette libération, comme il est constaté par Hubert Guillaud (ici). Les questions qui peuvent surgir quand on analyse les conditions dans lesquelles les données sont libérées sont nombreuses et sont souvent liées entre elles mais celle qui m’a le plus interpellée concerne la protection de la vie privée.

On retrouve de plus en plus de données personnelles sur internet, données qui sont générées par les gouvernements, les entreprises, les moteurs de recherche ou même par les particuliers. Il est de plus en difficile de s’assurer que les données libérées soient vraiment anonymes car la quantité de données qui s’accumulent rendent le couplage d’information de plus en plus efficace et facile, tel que démontré par Paul Ohm (ici). Par exemple, aux États-Unis, une compagnie d’assurances a mis en ligne des données médicales qui ont pu être ré-identifiées (). L’histoire des logs d’AOL donne aussi un exemple frappant de ré-identification (ici) où même rendues anonymes, plusieurs personnes ont pu être ré-identifiées et les déductions obtenues de leurs questions de recherche peuvent être très dérangeantes et peuvent amener des débats éthiques sur la façon de gérer les informations obtenues.

Une fois que les données sont libérées, on en perd le contrôle et elles deviennent indestructibles. Il est aussi difficile d’évaluer l’utilisation qui est faite de ces données et l’impact que cela peut avoir. Pour minimiser les risques liés à la libération des données c’est donc avant qu’elles soient libérées qu’il faut établir des règles et non après cette libération. Car même si des règles sont édictées pour encadrer l’utilisation des données disponibles, il serait impossible de vérifier tout ce qui peut être fait avec ces données.

Ce qui m’amène à me questionner sur les conditions de la libération de ces données. Il n’y a pas de principes clairs sur ces conditions de libération. Tim O’Reilly et John Battelle proposent huit principes concernant la libération des données publiques () et, malheureusement, la protection des renseignements personnels ne semble pas être dans leurs priorités. On peut penser que les gouvernements soient attentifs à cette problématique car ils sont, en quelque sorte, responsables devant leurs élus, même si des dérapages sont toujours possibles.

Mais qu’en est-il des données recueillies par les entreprises ou par les moteurs de recherche ? Ou même les données qui sont libérées par les particuliers eux-mêmes? On peut voir que les priorités de certaines entreprises, telles que Facebook, ne vont pas nécessairement à la protection de la vie privée (voir ici). Et les particuliers peuvent mettre eux-mêmes des renseignements très personnels en ligne sans avoir conscience de l’impact de ceux-ci ().

Quelle pourrait être alors la meilleure façon de gérer la libération des données, en ce qui a trait aux renseignements personnels ? Est-il réaliste de penser que des règles peuvent être mises en place pour protéger ces renseignements ou la tâche est-elle trop lourde? Dans un contexte de mondialisation, peut-on envisager que des lois nationales peuvent régler cette problématique ou devrait-on penser à instaurer des règles internationales ? Devra-t-on se résigner à perdre le contrôle d’une partie plus ou moins grande de nos renseignements personnels ? Quelle serait la meilleure façon d’instaurer un équilibre entre la protection de ces renseignements et la libération des données ?

Qu’en pensez-vous ?