Faut-il libérer les données ?
Par Jean-Michel Salaun le dimanche 07 mars 2010, 22:01 - Cours - Lien permanent
Ce billet a été rédigé par Christine Benoit dans le cadre du cours SCI6355 sur l'économie du document de la maîtrise en sciences de l'information de l'EBSI.
La réponse à cette question nous a déjà été imposée, la libération des données a commencé. Que ces données proviennent d’organismes publics, privés ou même des particuliers, elles entraînent des résultats qui ne sont pas toujours positifs. Plusieurs personnes encouragent la libération des données, comme Tim Berners-Lee dans sa présentation au TED de février 2009 ou Tim O’Reilly et John Battelle dans leur article « Le Web à la puissance 2 : le Web cinq ans plus tard » qui nous présentent les aspects les plus positifs ce cette libération, tout en passant sous silence les écueils qui peuvent en survenir. Mais plusieurs critiques s’élèvent aussi pour remettre en question la façon dont ces données sont libérées, comme Hubert Guillaud dans son article « Critiques du Web2 ».
Il est indéniable que la libération des données peut s’avérer positive, on peut citer par exemple le milieu scientifique qui a tout à gagner à obtenir un accès aux données des autres chercheurs (NYT). On peut aussi penser que cela peut entraîner l’arrivée de nouveaux services, améliorer la prise de décisions de différents organismes, etc. Mais il est difficile d’évaluer précisément les résultats de cette libération, comme il est constaté par Hubert Guillaud (ici). Les questions qui peuvent surgir quand on analyse les conditions dans lesquelles les données sont libérées sont nombreuses et sont souvent liées entre elles mais celle qui m’a le plus interpellée concerne la protection de la vie privée.
On retrouve de plus en plus de données personnelles sur internet, données qui sont générées par les gouvernements, les entreprises, les moteurs de recherche ou même par les particuliers. Il est de plus en difficile de s’assurer que les données libérées soient vraiment anonymes car la quantité de données qui s’accumulent rendent le couplage d’information de plus en plus efficace et facile, tel que démontré par Paul Ohm (ici). Par exemple, aux États-Unis, une compagnie d’assurances a mis en ligne des données médicales qui ont pu être ré-identifiées (là). L’histoire des logs d’AOL donne aussi un exemple frappant de ré-identification (ici) où même rendues anonymes, plusieurs personnes ont pu être ré-identifiées et les déductions obtenues de leurs questions de recherche peuvent être très dérangeantes et peuvent amener des débats éthiques sur la façon de gérer les informations obtenues.
Une fois que les données sont libérées, on en perd le contrôle et elles deviennent indestructibles. Il est aussi difficile d’évaluer l’utilisation qui est faite de ces données et l’impact que cela peut avoir. Pour minimiser les risques liés à la libération des données c’est donc avant qu’elles soient libérées qu’il faut établir des règles et non après cette libération. Car même si des règles sont édictées pour encadrer l’utilisation des données disponibles, il serait impossible de vérifier tout ce qui peut être fait avec ces données.
Ce qui m’amène à me questionner sur les conditions de la libération de ces données. Il n’y a pas de principes clairs sur ces conditions de libération. Tim O’Reilly et John Battelle proposent huit principes concernant la libération des données publiques (là) et, malheureusement, la protection des renseignements personnels ne semble pas être dans leurs priorités. On peut penser que les gouvernements soient attentifs à cette problématique car ils sont, en quelque sorte, responsables devant leurs élus, même si des dérapages sont toujours possibles.
Mais qu’en est-il des données recueillies par les entreprises ou par les moteurs de recherche ? Ou même les données qui sont libérées par les particuliers eux-mêmes? On peut voir que les priorités de certaines entreprises, telles que Facebook, ne vont pas nécessairement à la protection de la vie privée (voir ici). Et les particuliers peuvent mettre eux-mêmes des renseignements très personnels en ligne sans avoir conscience de l’impact de ceux-ci (là).
Quelle pourrait être alors la meilleure façon de gérer la libération des données, en ce qui a trait aux renseignements personnels ? Est-il réaliste de penser que des règles peuvent être mises en place pour protéger ces renseignements ou la tâche est-elle trop lourde? Dans un contexte de mondialisation, peut-on envisager que des lois nationales peuvent régler cette problématique ou devrait-on penser à instaurer des règles internationales ? Devra-t-on se résigner à perdre le contrôle d’une partie plus ou moins grande de nos renseignements personnels ? Quelle serait la meilleure façon d’instaurer un équilibre entre la protection de ces renseignements et la libération des données ?
Qu’en pensez-vous ?
Commentaires
Bonjour,
J'ai abordé cette question ce mois-ci pour alimenter le dossier de la lettre d'information juridique de l'ADBS. Voici le lien qui permet d'en prendre connaissance :
La donnée libre
http://www.adbs.fr/la-donnee-libre-...
N'hésitez pas à me fair part de vos commentaires
Bien cordialement,
Michèle Battisti
Vous la retrouverez également sur mon blog.
Libérons les données ! De quelques aspects juridiques
http://paralipomenes.net/wordpress/...
Bonjour Christine,
Voyez aussi cet intéressant point de vue sur l'utilisation des données libérées dans le journalisme, différente selon la France et les US :
Data journalism : pourquoi les médias français ne s’y mettent pas ? http://owni.fr/2010/03/08/data-jour...
Bonjour,
La libération des données est une question complexe et qui présente son lot d’avantages, mais aussi énormément d’inconvénients.
Les données peuvent se diviser en deux catégories générales : soit les données non nominatives ou administratives et les données nominatives ou personnelles.
Tout comme Christine, je crois que la libération des données non nominatives comporte plusieurs avantages. Le domaine de la science en bénéficie largement, mais aussi le citoyen ordinaire. La libération de données, comme les données administratives d’organismes gouvernementaux, permet d’apprécier d’une part la qualité de gestion des organismes publics, mais aussi, à porter un jugement sur la gestion des fonds publics. Plus le citoyen peut avoir accès à ces données, plus la démocratie est éclairée, donc théoriquement il y a un meilleur exercice de celle-ci. La transparence est un élément incontournable de la démocratie et cette transparence, par la libération des données, oblige (théoriquement) les gestionnaires à avoir un comportement plus éthique.
Cependant, les données nominatives ou personnelles sont à traiter de toute autre manière. Le web a fait disparaitre le droit à l’oubli, au pardon. Il garde des traces de la vie privée d’une personne et ces traces suppriment le droit de gestion de son image. Cela peut avoir comme conséquences potentielles des associations erronées qui sont effectuées par des bribes de données. Ce qui peut mener à des conséquences, probablement beaucoup plus grave que ce qu’on peut en penser.
Il est intéressant de voir que plusieurs personnes fournissent ces informations par eux-mêmes sur des sites de réseautage. Cette exhibition est-elle due à l’ignorance ou ces individus font tout simplement fi des conséquences? Je ne crois que pas les gens soient assez au courant de l’impact de la libération des données dans leur vie.
Incroyable, je viens de me rendre compte que ce billet provient du futur. :-)
=> Par Jean-Michel Salaun le Jeudi 10 mars 2011,
Même le calendrier est à jour.
Bien cordialement
B. Majour
P.S. bien sûr, vous pouvez effacer ce commentaire.
Eh oui Bernard !
Une erreur de manip, maintenant corrigée. Comme quoi avant de libérer les données, il est préférable de les vérifier à deux fois. ;-)
Merci pour votre visite et votre contribution.
Bonjour à tous, désolée pour le temps de réponse, mais le changement de date de publication est quelque peu entré en conflit avec mon horaire. Merci pour vos commentaires, cela m’a amené à pousser un peu plus loin ma réflexion!
Madame Battisti,
L’adaptation du concept de logiciel libre aux bases de données s’avère une piste fort intéressante pour réguler la circulation et l’utilisation des données libérées. Si on prend pour modèle les logiciels libres, qui sont utilisés depuis plusieurs années, on peut s’apercevoir que dans plusieurs cas, cela fonctionne et que la « communauté » peut très bien jouer un rôle régulateur dans l’utilisation de ces outils. Ce principe peut donc aussi s’appliquer aux bases de données et ce, dans plusieurs domaines et non seulement scientifique. Il reste à voir cependant comment cette libération sera menée car il ne faut pas oublier qu’il y a beaucoup d’enjeux économiques qui sont liés aux données dans le domaine scientifique, jusqu’à quel point les différents acteurs de ce domaine seront-ils prêts à libérer leurs données?
Monsieur Salaün,
L’article que vous citez apporte quelques réponses à des questions que je me suis posée après mon entretien avec monsieur Hubert Guillaud pour la poursuite de mon dossier. Car les différences culturelles dans la libération et l’utilisation des données ont été soulevées et je me proposais de poursuivre ma réflexion à ce sujet. Je crois que certaines des réponses apportées dans votre article pourraient s’appliquer dans d’autres domaines que le journalisme et on pourrait aussi comparer avec d’autres pays que la France et les États-Unis et nous retrouverions des particularités propres aux différents pays. Il serait intéressant de poursuivre la démarche en incluant non seulement les différences concernant les contraintes matérielles, humaines et juridiques, telles que rapportées dans l’article, mais aussi celles liées au contexte politique des pays concernés. Toutes ces contraintes ont un impact plus ou moins grand sur la libération des données mais aussi sur l’utilisation de celles-ci non seulement par les particuliers mais aussi par les entreprises et par les gouvernements.
Madame Bilodeau,
L’indestructibilité des données présentes sur le Web a effectivement un impact négatif à plusieurs niveaux. Il est quasiment impossible de détruire toutes les copies des données qui ont été libérées et il faut donc se montrer vigilant quand on décide de mettre des données en ligne. Actuellement, il n’existe pas vraiment de solutions à ce problème, sinon de convaincre les particuliers des dangers liés à la libération des données. Mais ce sera un travail ardu car les gens sont habitués d’échanger leurs données contre la facilité d’utilisation de certains outils. De plus, certaines données ne sont pas considérées à priori comme des données personnelles. Dans une étude, il était démontré que 87% des américains pouvaient être ré-identifiés à partir de trois données soit, le code postal, la date de naissance et le sexe. Bon, il est évident que la date de naissance est une donnée personnelle mais le code postal et le sexe? De plus, il est difficile de se battre seul contre de grands joueurs comme Google et l’encadrement législatif n’est pas encore adapté aux nouvelles technologies. Cela prendrait peut-être un mouvement collectif pour faire bouger les choses?
Bonjour Christine!
Sujet très intéressant et très complexe. Effectivement, l'encadrement législatif n'est pas adapté au contexte des nouvelles technologies. De même que le Web est peu adapté au contexte politique mondial. C'est-à-dire que le Web a pour but un partage de données au niveau international et le plus possible sans limitations de frontière (bien que certaines données ne soit accessibles qu'à une zone géographique donnée). Par contre, les États, veulent garder le contrôle sur leurs lois et leur façon de faire. Les accords internationaux vraiment consistants sont de plus en plus rares. Donc, je pense que c'est utopique de penser à une législation internationale pour le contrôle des données.
Le plus important est de préserver les données personnelles et je crois que ça peut se faire uniquement par l'éducation et ça va demander du temps. Malheureusement, plusieurs personnes répondent aux courriels frauduleux des fausses "institutions bancaires" en leur fournissant tous leur mots de passe... Le chemin à parcourir me semble encore bien long, mais incontournable.
Voyez aussi cette nouvelle démonstration par l'exemple de T. Berners-Lee :
http://www.ted.com/talks/tim_berner...
Bonsoir!
Anne-Marie, j'ajouterais à ta remarque concernant les gouvernements que ceux-ci veulent non seulement garder le contrôle sur leur législation mais que ces derniers ont aussi des intérêts liés à la libération des données qui peuvent venir interférer avec la volonté de préserver les informations privées. En effet, les gouvernements ont accès à des données qui peuvent grandement les intéresser, tels que par exemple dans leur lutte contre le terrorisme ou le piratage de la musique, et que les législations qui pourraient être mises en place peuvent venir les désavantager. On peut donc se questionner sur la volonté politique de législation sur ce sujet. Il ne faut pas oublier non plus que les différents régimes politiques peuvent avoir des objectifs différents quand à la préservation des données privées et que l'articulation d'une politique commune à ce sujet peut s'avérer des plus ardues!
Monsieur Salaün, cette nouvelle présentation de Tim Berners-Lee est fort intéressante à regarder après celle de l'an dernier. On peut remarquer qu'il présente, rapidement, certains effets négatifs de la libération des données mais termine sa présentation par la très grande utilité des transmissions de données lors du tremblement de terre d'Haïti. Je suis resté perplexe à la fin de cette présentation car il m'a laissé sur ma faim, si l'on peut dire. D'une part, il indique de faire attention à l'utilisation des données sans apporter de solutions concrètes et d'autre part, il passe rapidement sur le sujet pour démontrer l'utilité des réseaux lors de grandes catastrophes naturelles. Je suis loin de nier que cela s'est avéré très utile pour les survivants d'Haïti mais il aurait été intéressant qu'il développe un peu plus sur les inconvénients de la libération des données et sur les solutions à y apporter. Surtout dans le cas qui nous est présenté où il s'agit de données qui ont été mises en ligne par des organismes officiels. J'aurais aimé lui demander quelles solutions il préconisait à part de faire attention!
Bonjour Christine,
Votre interrogation est tout à fait opportune, voyez le point de vue de L. Lessig sur le sujet :
http://www.tnr.com/article/books-an...
Et la synthèse qu'en propose H. Guillaud :
http://www.internetactu.net/2009/10...
Je suis d'accord avec Christine lorsqu'elle dit que c'est avant la libération des données qu'il faut établir des règles et non après. Cependant, je n'ai pas l'impression qu'il s'agit en ce moment d'une priorité pour les autorités gouvernementales. Je suis étonné par exemple du manque de sensibilisation auprès des internautes. Lorsque Facebook a changé ses paramètres de sécurité de base pour augmenter l'accès aux pages des utilisateurs, il a été question dans certains médias du danger potentiel de ces changements. Pourtant, avec le nombre de personnes qui utilisent Facebook, il me semble qu'une campagne de sensibilisation de la part du gouvenerment aurait été appropriée.
Les internautes eux-mêmes ont une responsabiblité. Le problème, c'est qu'une bonne partie des internautes ne sait pas de quelle façon on utilise leurs informations personnelles. Nous n'avons pas un contrôle complet sur les informations que nous partageons, mais nous pouvons choisir de limiter la quantité d'informations personnelles partagées. Chacun de nous est responsable de sa propre protection en quelque sorte.
Bonsoir,
M. Salaün, j'ai lu avec grand intérêt cet article et en effet, une trop grande transparence peut effectivement être nuisible si l'interprétation des données libérées sont mal interprété. L'article fait surtout référence aux États-Unis mais ce concept peut facilement s'appliquer à toutes sortes de situation. Oui, la libération des données peut avoir de grands avantages mais l'utilisation et l'interprétation qui peut en être faites peuvent créer de graves problèmes et engendrer des perceptions erronées d'une situation donnée. Sans vouloir censurer toutes les données, une réflexion préalable à la libération de certaines doit donc être faite pour en évaluer les possibles conséquences.
Anne-Marie, chacun est effectivement responsable des données qu'il libère mais je me questionne aussi sur la capacité de monsieur et madame tout-le-monde de réellement comprendre la portée des actions posées sur internet et là, je m'inclus dans le lot! L'utilisation des outils qui sont mis à notre disposition est de plus en plus facile mais le fonctionnement et l'interaction de ces outils sont de plus en plus nébuleux aussi car le système dans lequel nous évoluons se complexifie. Non seulement, la responsabilisation personnelle doit être mise de l'avant mais l'éducation aussi. Idéalement, le gouvernement devrait sensibiliser les gens sur ces problématiques mais, malheureusement, je ne crois pas que cela fasse partie de ses priorités en ce moment. Peut-être qu'une partie de la solution pourrait provenir de l'implication de groupes de pression de citoyen qui, non seulement pourrait donner de l'information mais faire du "lobbying" pour demander certaines modifications à des entreprises particulières, tel que suggéré par Hubert Guillaud lors de mon entretien avec lui dans le cadre de ce dossier.