La pieuvre Microsoft et nos données de santé

Big Data, algorithme et intelligence artificielle, un collectif de soignants et d’informaticiens s’oppose au gouvernement

https://lundi.am/pieuvre-microsoft

Extraits

Sous couvert de lutte contre l’épidémie et d’état d’urgence sanitaire, le gouvernement a donné le coup d’envoi à son projet de méga plateforme de données de santé hébergée chez Microsoft. Petite plongée dans l’intelligence artificielle en médecine avec le collectif inter-hop qui depuis le début du projet milite contre cette plateforme géante et pour une utilisation autonome des données de santé à échelle humaine.

La loi de juillet 2019 « relative à l’organisation et à la transformation du système de santé » comprend une partie sur « l’ambition numérique en santé » : le texte explique qu’il faut « déployer pleinement » la « télémédecine » et les « télésoins » et crée une « Plateforme des Données de Santé » chargée de « réunir, organiser et mettre à disposition » les données de santé issues de différents fichiers existants. L’idée est de mettre en place un énorme entrepôt de données produites par les organismes travaillant dans le secteur du soin afin d’alimenter et de développer des algorithmes, c’est-à-dire de faire littéralement exploser les capacités de l’intelligence artificielle (IA) dans le domaine de la santé.

Cette Plateforme des Données de Santé, dite « Plateforme », a précisément été créée sur les préconisations d’un rapport du député Villani qui, en mars 2018, ambitionnait de « positionner la France à l’avant-garde de l’IA ». La santé figurait parmi les cinq secteurs à « investir » en priorité, à côté de l’éducation, l’agriculture, les transports et l’armement. Dans une novlangue de pointe, le rapport parlementaire exhorte les « pouvoirs publics » à s’adapter très rapidement « sous peine d’assister impuissants à la reformulation complète des enjeux de santé publique et de pratiques médicales ». Bigre !

Précisons d’emblée que le mot Plateforme, utilisé à tout va par les protagonistes de cette escroquerie, désigne en réalité deux choses bien différentes : la solution informatique de stockage et d’exploitation des données, mais aussi le consortium public-privé – qualifié juridiquement de « Groupe d’intérêt public » – institué spécialement pour mettre en place et orchestrer la solution technique. Pour brouiller encore un peu plus les pistes, les textes prévoient explicitement que ladite « Plateforme » doit être dénommée Health Data Hub « dans le cadre de ses communications à rayonnement international », premier indice sérieux des intérêts commerciaux américains dans cette affaire.

Depuis la loi de juillet 2019 qui actait donc la création du consortium public-privé, ce sont essentiellement des arrêtés ministériels et des choix totalement opaques qui, progressivement, définissent les contours du dispositif juridique et informatique de la « Plateforme ». Celles et ceux qui, dès l’origine, se sont opposés à ce projet de centralisation du traitement des données de santé n’ont pas été déçus : tout d’abord, c’est le cloud de Microsoft qui a été choisi comme sous-traitant pour fournir les serveurs permettant de stocker et d’analyser les fichiers de données. Cette infrastructure fonctionne via des logiciels dont les codes ne sont pas publiques, ce qui interdit de savoir ce qui se passe réellement au sein des machines ; cela complique également l’éventuelle migration future vers d’autres serveurs qui n’utiliseraient pas les logiciels Microsoft… Qui s’étonnera d’apprendre que la désignation de Microsoft se soit faite en violation des règles de concurrence applicables aux marchés publics, aucun appel d’offre n’ayant été lancé pour ce projet d’hébergement informatique ? Certainement pas Edward Snowden, qui a publiquement dénoncé le choix d’une centralisation des données hébergées chez un tel mastodonte.

En avril 2020, le gouvernement a profité du régime de l’état d’urgence sanitaire pour court-circuiter les opposants au projet et ordonner la mise en fonction anticipée de la plateforme technique. Invoquant le besoin urgent d’améliorer les connaissances sur le Covid-19, les ministres ont tout simplement passé outre l’avis de la CNIL qui avait émis plusieurs réserves sérieuses sur le flou entourant encore l’architecture informatique de la plateforme amenée à héberger des données particulièrement sensibles. La CNIL comptait bien, avec l’ANSSI – Agence nationale de la sécurité des systèmes d’information – être associée de près à l’élaboration du volet technique, absolument crucial, mais les responsables du consortium public-privé en ont décidé autrement.

En application de la loi du 11 mai 2020 prolongeant l’état d’urgence sanitaire, les données du nouveau fichier « SI-DEP » (Système d’Information et de DÉPistage) relatives aux personnes infectées par le Covid-19 et aux personnes ayant été en contact avec ces personnes, sont transmises vers les serveurs de Microsoft. Ce partage de données prévu par la loi à l’arrache, « sans le consentement des personnes intéressées », officiellement « aux seules fins de lutter contre la propagation de l’épidémie de covid-19 et pour la durée strictement nécessaire à cet objectif » peut, d’après le même article de loi, fonctionner « pour une durée de six mois à compter de la fin de l’état d’urgence sanitaire ». Et bien sûr, c’est ce qui a été décidé : la sortie officielle et largement fictive de l’état d’urgence sanitaire le 10 juillet n’a pas mis fin à l’envoi des données de contamination vers les serveurs de Microsoft.

Bien sûr, ce projet de Plateforme ne date pas d’hier : c’est une loi de janvier 2016 dite « de modernisation de notre (sic) système de santé » qui crée le Système National des Données de Santé (SNDS). Il s’agit officiellement d’améliorer l’accès aux données de santé afin que « leurs potentialités soient utilisées au mieux dans l’intérêt de la collectivité ». Derrière ce système de fichiers, il y a initialement deux objectifs : produire des données pour la recherche et améliorer les outils d’évaluation, c’est-à-dire de contrôle budgétaire des structures de soin. En pratique, c’est un coup d’accélérateur à la récolte et à la mise en commun des fichiers de santé et le passage vers ce qu’on appelle les données massives ou « big data » en santé. Le « big data », c’est quoi ? C’est une grosse quantité de données qui proviennent de sources différentes et qui sont agrégées très rapidement au sein d’un seule et même infrastructure. Car ce qu’on appelle l’intelligence artificielle sous sa forme la plus récente qui n’a rien à voir avec l’intelligence ne peut fonctionner sans une énorme quantité de données. Avec la nouvelle grosse Plateforme, qui à terme devrait centraliser des dizaines de paquets de fichiers, il s’agit donc de créer une source intarissable de « données de santé » destinées à alimenter des algorithmes. Des algorithmes, pourquoi faire ? Quelles sont les données stockées et traitées par Microsoft ? Comment sont-elles anonymisées ? Qui pourra y accéder, pour quels motifs et suivant quelle procédure ?

Mais aussi, comment penser d’autres manières d’organiser le traitement informatique des données de santé qui permettraient réellement d’améliorer la qualité des soins et le bien-être des personnes ? Est-ce que l’intelligence artificielle, c’est-à-dire le traitement algorithmique de milliards de données individuelles, doit être utilisée en médecine ? C’est autour de ces questions que nous avons rencontré des membres du collectif inter-hop, qui s’est créé contre la logique de centralisation des données de santé et pour un partage du savoir en informatique médicale. Il regroupe des informaticiens et des soignants partisans des logiciels libres et d’une utilisation autonome des données de santé à l’échelle locale.

lundimatin : La « Plateforme des données de Santé », mise en fonction de manière précipitée sous couvert d’urgence sanitaire en avril 2020 remplace l’« Institut national des données de santé » qui jusqu’à présent gérait les principaux fichiers de données de santé. Qu’est-ce qui change avec la nouvelle Plateforme ? Commençons, si vous le voulez bien, par le contenu. Quelles sont les données qui vont être ou qui sont déjà centralisées dans la Plateforme ?

Collectif Inter-Hop : A l’origine, quand il a commencé à fonctionner en 2017, le Système national des données de santé était constitué de trois fichiers principaux, trois bases de données médico-administratives : D’abord, les données de l’Assurance Maladie, c’est à dire en gros le fichier contenant les informations liées aux remboursement des soins et des médicaments opérés par la Caisse Nationale d’Assurance Maladie. On y trouve donc, en face de votre numéro de sécurité sociale, quels médecins vous avez consultés tels jours, quels médicaments vous prenez, depuis quand, etc. Ensuite, il y a les données qui proviennent des hôpitaux : le plus tôt possible après la sortie de chaque patient, les hôpitaux doivent établir un « résumé de sortie standardisé » (RSS). Cette fiche informatique contient tout un tas de données, notamment la date de naissance du patient, son sexe, son code postal, la date d’entrée et de sortie et le diagnostic principal (les diagnostics sont codés, codifiés, d’après une classification internationale des maladies éditée par l’OMS). Cette grosse base de données – bizarrement appelée Programme de Médicalisation du Système d’Information (PMSI) – était jusqu’alors essentiellement utilisée pour faire du contrôle de gestion des établissements hospitaliers et c’est notamment en se basant sur ce fichier que l’État décide du montant alloué à chaque hôpital.

Les remboursements, les séjours hospitaliers et enfin, dernier gros fichier, celui des décès ou plus exactement des « causes médicales des décès » : lorsqu’une personne meurt, un·e médecin établit systématiquement un certificat de décès qui indique, entre autres, l’âge de la personne, son sexe, la cause, le jour et le lieu de sa mort. Depuis peu, les médecins ont la possibilité de rédiger ces certificats « en ligne », sur leur tablette et même depuis leur téléphone. Officiellement, l’innovation est censée permettre d’accélérer la « production des indicateurs d’alerte » et même de renforcer la confidentialité des données grâce aux procédures de chiffrement….

Avec la loi du 24 juillet 2019, le « Système national des données de santé » voit son périmètre élargi de manière considérable puisqu’il a vocation à recueillir « l’ensemble des données collectées lors des actes pris en charge par l’assurance maladie » [1] C’est tout simplement énorme puisque cela recouvre l’ensemble des données de santé des 67 millions de personnes vivant en France. Ce sont toutes les données cliniques recueillies par les soignants, les pharmaciens, les centres hospitaliers (dates d’entrée et de sortie, diagnostic, traitement administrés, résultats d’examens complémentaires, comptes-rendus médicaux, génomique et imagerie médicale). Mais aussi des données issues de protocoles de recherche, comme celles attachées à la ’cohorte’ CONSTANCE, – on appelle cohorte un groupe de personnes engagées dans une même étude épidémiologique – constituée de 200 000 adultes âgés de 18 à 69 ans [2]

Mais ce n’est pas tout : par exemple une des premières bases de données à avoir été intégrée à la nouvelle Plateforme est le fichier OSCOUR® (Organisation de la surveillance coordonnée des urgences ; les bureaucrates raffolent des acronymes). Cette base, gérée par Santé publique France, excroissance du ministère de la Santé, couvre plus de 80 % des passages aux urgences en France. Pour chaque patient admis aux urgences, elle recueille les éléments suivants : code postal de résidence, date de naissance, sexe, date et heure d’entrée et de sortie, durée de passage, mode d’entrée, provenance, mode de transport, classification de gravité, diagnostic principal et associés, mode de sortie, destination pour les patients mutés ou transférés. On voit que, pour cette seule base de données, les informations collectées sont très nombreuses et précises.

Il faut mentionner aussi le fichier SI-VIC constitué dans la foulée des attentats de 2015 officiellement pour que, face à une situation exceptionnelle, l’Etat puisse rapidement dénombrer les blessés et les répartir au mieux dans les hôpitaux. Théoriquement, le fichier est purement administratif : il contient notamment les noms et prénoms, la nationalité, la date de naissance et le sexe de la personne mais ne doit comporter aucune information d’ordre médical. Pourtant, d’après le Canard Enchaîné du 17 avril 2020 [3], certaines fiches de personnes admises dans les hôpitaux de Paris en 2019, en marge des manifestations de gilets jaunes, faisaient mention de la nature des blessures, permettant ainsi d’identifier et, donc, de tracer les manifestants blessés. Cela confirme que le fichage est toujours à haut risque pour la liberté. Et avec la nouvelle Plateforme Nationale des Données de Santé, on entre encore dans une autre dimension, puisque tout est centralisé chez Microsoft Azure…

Un mot pour finir sur les fichiers : sous le régime de l’état d’urgence sanitaire, trois nouvelles bases de données ont été créées autour de l’infection au Covid-19 : Contact Covid, Stop Covid et « SI-DEP . Contact Covid par exemple regroupe les données recueillies par les « brigades d’anges gardiens » de la Caisse d’assurance maladie et concernent notamment l’identité, les coordonnées et le lieu de travail des personnes déclarées comme « contact » par le patient infecté. SIDEP, de son côté, regroupe les résultats des tests biologiques permettant le diagnostic du Covid. Ces fichiers sont des menaces incroyables car ils peuvent justifier des intrusions très profondes dans nos vies, via l’accès jugé crucial à nos données médicales.

En principe, sur la Plateforme, toutes les données doivent être « anonymisées » ou plutôt « pseudonymisées ». Pouvez-vous nous expliquer ce concept de pseudonymisation et en quoi la concentration des données dites pseudonymisées affaiblit leur anonymisation ?

Il faut distinguer la pseudonymisation de l’anonymisation. Dans le domaine de la recherche scientifique, qui est censée être un des premiers objectifs de la Plateforme, l’anonymisation n’est pas de mise car le meilleur, et sans doute le seul, moyen d’anonymiser des données consiste, en gros, à les mélanger de façon totalement aléatoire. Mais naturellement, si on procède de la sorte, les données ne représentent plus la réalité et leur intérêt pour la recherche, notamment en santé, disparaît complètement. La pseudonymisation est alors une sorte de compromis qui consiste à faire disparaître certaines données directement identifiantes (nom, prénom, numéro de sécurité sociale, date de naissance, code postal…) ou à les remplacer par des données indirectement identifiantes (alias, clé de cryptage).

C’est la Caisse nationale d’assurance maladie qui est « responsable » des opérations permettant la connexion entre les différents fichiers (on parle d’appariement) puis de la pseudonymisation des données, laquelle intervient donc avant que les fichiers n’arrivent chez Microsoft.

Le problème c’est, qu’en pratique, avec les données simplement pseudonymisées, il est toujours possible de remonter à l’identité de la personne concernée. Par exemple, si la nuit du 3 décembre 2019, une ou deux personnes sont admises au service des urgences de Nantes pour une appendicite aiguë, même si le fichier OSCOUR ne contient pas leur nom, on pourrait très facilement les retrouver en recoupant le fichier OSCOUR avec le fichier de l’hôpital de jour qui les a reçues ou avec le fichier des remboursements de soin ou de médicament. L’Université de Louvain et l’Imperial College de Londres ont montré que 83% des Américains peuvent être ré-identifiés en utilisant seulement trois variables : le genre, la date de naissance et le code postal, données qui sont par exemple compilées dans le fichier OSCOUR. En présence de 15 variables, la personne peut être ré-identifiée dans 99,98% des cas.

La numérisation du monde permet à chacun de nos faits et gestes d’être enregistrés, analysés, exploités et éventuellement interprétés. Cette nouvelle Plateforme géante a pour vocation d’interconnecter plusieurs dizaines de fichiers et des milliers de données de santé. Plus on lie entre elles les bases de données, plus le risque de ré-identification est élevé. Désormais, les personnes qui se font soigner en France, et dont les données de santé alimenteront la Plateforme, pourront toujours être identifiées par ceux qui, via les administrateurs du réseau Microsoft, accéderont aux serveurs. Peu importe que cela soit interdit par la loi, l’histoire récente nous a montré que les textes légaux ne sont pas des garanties suffisantes pour protéger notre vie privée. A partir du moment où une opération est techniquement possible, il faut s’attendre à ce qu’elle soit mise en œuvre par les GAFAMs [4] ou par les services répressifs des États.

Pourriez-vous nous expliquer le rôle de ce fameux « Cloud », ces machines qui, au-delà de stocker les données, les lisent et les traitent ?