Introduction à l'anonymisation et à la pseudonymisation

1. introduction à l'anonymisation et à la pseudonymisation

De nombreuses entreprises ou organisations possèdent des données à caractère personnel qu'elles souhaiteraient analyser ou traiter. Mais cela n'est pas si facile en raison de la protection des données, car les données à caractère personnel doivent être traitées avec la plus grande prudence. Il s'agit de toutes les données qui permettent d'identifier une personne. On pense peut-être d'abord uniquement au prénom et au nom, peut-être en combinaison avec la date de naissance, le numéro de téléphone, l'adresse électronique et l'adresse, mais il existe aussi d'autres données qui permettent d'identifier clairement une personne, par exemple lorsqu'on parle d'un pédiatre dans une petite ville où il n'y a qu'un seul pédiatre. Ce n'est que si ces données à caractère personnel sont suffisamment anonymisées et/ou pseudonymisées qu'elles peuvent être transmises, traitées et évaluées par des tiers. La base juridique pour cela est le règlement général sur la protection des données (RGPD).

2. définition et différences

Qu'est-ce que l'anonymisation ?

L'anonymisation consiste à modifier des données à caractère personnel de telle sorte que les données individuelles relatives à des situations personnelles ou matérielles ne puissent plus être attribuées à une personne physique identifiée ou identifiable, ou seulement au prix d'un effort disproportionné en termes de temps, de coûts et de main-d'œuvre. (BDSG ancienne version § 3 alinéa 6) Si les données sont entièrement anonymisées, le RGPD ne s'applique pas, une référence personnelle et donc une ré-identification est presque impossible. Ce n'est que lorsque chaque combinaison possible de données conduit à deux personnes ou plus dans un ensemble de données qu'un ensemble de données est anonymisé.

Qu'est-ce que la pseudo-onomisation ?

La pseudonymisation est le remplacement du nom et d'autres caractéristiques d'identification par un signe distinctif dans le but d'exclure ou de rendre beaucoup plus difficile l'identification de la personne concernée. (BDSG ancienne version § 3 alinéa 6a)

3. types d'anonymisation

Deux points principaux doivent être garantis par l'anonymisation : Les données doivent être irréversibles et l'attribution univoque à une personne impossible. On distingue généralement trois types d'anonymisation, qui sont décrits ci-dessous : l'anonymisation absolue, formelle et de fait.

Anonymat absolu

Il s'agit du type d'anonymisation le plus poussé, toutes les données personnelles sont supprimées, ce qui rend l'identification impossible. Les données anonymisées de manière absolue peuvent être mises à disposition du public pour toutes les analyses de données, mais les données sont souvent tellement altérées par l'anonymisation que l'utilité qui peut être tirée de ces données est faible.

Anonymisation formelle

Il s'agit ici de la forme la plus simple d'anonymisation. Dans ce cas, seuls les identifiants directs d'une personne sont supprimés, comme par exemple le nom, le numéro de téléphone et l'adresse.

Anonymat de fait ou relatif

L'anonymisation est réalisée de telle sorte que l'attribution des données à une personne est pratiquement impossible ou ne peut être réalisée qu'au prix d'efforts disproportionnés, mais que suffisamment d'informations sont néanmoins disponibles pour effectuer une analyse des données concernant des contenus non personnels. Ces données ne peuvent pas être mises à disposition de manière générale, mais ne peuvent être utilisées que pour des projets scientifiques, conformément à la loi fédérale sur la statistique. Le moment où les données sont suffisamment anonymes varie en fonction des informations contenues dans l'ensemble de données, mais aussi des conditions ou des techniques utilisées pour l'anonymisation. Par exemple, la présence d'informations supplémentaires telles que des clés ou l'utilisation externe ou interne des données jouent un rôle décisif. En conséquence, il est possible de décider dans quelle mesure les informations doivent être anonymisées. Pour chaque analyse, il convient de déterminer le coût de l'anonymisation et l'utilité des données.

4. techniques d'anonymisation

Différentes techniques d'anonymisation peuvent être appliquées afin de satisfaire à une anonymisation de fait. Le RGPD ne précise pas quelles techniques d'anonymisation doivent être utilisées. Afin de ne pas enfreindre le RGPD, il est conseillé de faire appel à un délégué à la protection des données.

Suppression des identifiants

Il s'agit par exemple du nom, de l'adresse, de la date de naissance, des données du compte bancaire, du numéro de sécurité sociale, de la photo, mais aussi d'attributs sensibles tels que des maladies ou un âge très avancé.

Randonomisation

Différentes techniques sont utilisées pour perturber les données au point de rompre le lien entre les données et les personnes. Parmi ces techniques, on peut citer la permutation des données (les valeurs d'une personne sont permutées de manière aléatoire ou pseudo-aléatoire avec les valeurs d'une autre personne, en veillant à ce que la permutation ne fasse pas que les données redeviennent par hasard les données initiales d'une personne), la génération de données synthétiques (des ensembles de données artificiels sont créés à partir des caractéristiques de l'ensemble de données initial), ou la pertubation (les données sont remplacées par des valeurs générées artificiellement, de sorte que les caractéristiques statistiques de l'ensemble de données original subsistent).

Agrégation

Différentes approches sont disponibles pour généraliser l'ensemble des données. Par exemple, les données numériques, comme l'âge, sont classées par intervalles, ou le nom d'une femme est remplacé par "femme" ou le nom d'une profession par "profession". Il convient de déterminer dès le départ le degré de généralisation d'un ensemble de données ou de certaines données.

5. techniques de pseudo-onomisation

Caractères génériques et clés

Outre l'anonymisation, la pseudonymisation joue un rôle important, mais certains points doivent être pris en compte dans le cadre de la pseudonymisation. Lors de la pseudonymisation, le lien entre une personne et les valeurs indiquées n'est pas totalement supprimé, mais des caractères de remplacement sont utilisés, qui peuvent être reliés à la personne à l'aide d'une clé. Si la clé n'est pas envoyée avec l'ensemble de données pseudonymisé, l'ensemble de données est anonymisé pour le destinataire.

En règle générale, les données pseudonymisées restent toutefois des données à caractère personnel, car elles peuvent être attribuées à une personne à l'aide d'une clé.

Pour mettre ces données à disposition en vue d'une analyse, il faut donc veiller tout particulièrement à ce que la clé nécessaire soit conservée en toute sécurité, mais aussi à ce qu'elle ne soit pas perdue.

Si la pseudonymisation est utilisée à la place de l'anonymisation, il est important de consulter attentivement la loi sur la protection des données ou de faire appel à un délégué à la protection des données afin d'éviter toute infraction.

Approches combinées

Il est également possible d'appliquer une combinaison d'anonymisation et de pseudonymisation à un ensemble de données, de sorte que seules les données qui ne peuvent absolument pas être rendues anonymes soient remplacées par des pseudonymes. Cela augmente la garantie qu'aucune infraction à la loi sur la protection des données n'est commise.

L'infographie suivante montre les différences entre l'anonymisation et la pseudonymisation.

6. l'intelligence artificielle dans l'analyse de données anonymisées

Les progrès dans le domaine de l'intelligence artificielle permettent en outre d'envisager de nouvelles approches pour l'analyse anonymisée des données. Plusieurs possibilités peuvent être envisagées, dont deux sont décrites ci-dessous.

Créer des valeurs ou des enregistrements synthétiques

Cette approche permet de créer des données artificielles qui ont, par exemple, des caractéristiques statistiques similaires à celles de l'ensemble de données original. Il est ainsi possible de créer un ensemble de données dont les données sont anonymes, mais qui contient suffisamment de données pour être analysées.

Apprentissage en vedette

L'idée ici est que les ensembles de données ne sont pas copiés sur un serveur central pour effectuer l'analyse, mais que l'entraînement a lieu sur chaque ordinateur individuel d'un utilisateur. Les modèles ainsi créés sont ensuite rassemblés sur un serveur central et agrégés en un seul modèle. Les données originales restent donc sur l'ordinateur de l'utilisateur et ne passent jamais entre les mains de l'analyste. Le grand avantage ici est que la quantité de données ne doit pas être réduite.

Anonymisation formelle automatisée

En outre, l'intelligence artificielle peut être utilisée pour anonymiser ou pseudonymiser formellement des ensembles de données, de sorte que dans les textes, les identifiants directs des personnes, c'est-à-dire le nom, l'adresse, la date de naissance, etc. soient automatiquement trouvés et supprimés, que dans les photos, les plaques d'immatriculation, les visages, etc. soient automatiquement reconnus et bruités, ou que dans les enregistrements audio, les noms, adresses, etc. soient automatiquement reconnus et bruités.

7. applications de l'anonymisation

Toutes les données qui identifient une personne doivent être rendues anonymes avant que des analyses de données ne soient effectuées ou que les données ne soient transmises à d'autres fins. Il ne s'agit pas seulement de données personnelles contenues dans des textes, mais aussi de données figurant sur des photos ou dans des fichiers audio qui identifient une personne.

Anonymisation dans les textes

Les données textuelles peuvent contenir des informations personnelles, telles que des noms, des adresses ou d'autres identifiants uniques. Ces informations doivent être supprimées ou rendues méconnaissables avant que les données puissent être traitées ou analysées. Les systèmes basés sur l'IA peuvent effectivement reconnaître automatiquement de tels identifiants et soit les supprimer, soit les remplacer par des caractères génériques. Ces méthodes sont notamment utilisées pour l'analyse de données d'enquêtes ou de documents contenant des informations sensibles.

Anonymat dans les photos

Les photos et les images peuvent également contenir des données à caractère personnel, notamment lorsque des personnes ou des véhicules y figurent. Dans de tels cas, les visages, les plaques d'immatriculation et autres caractéristiques uniques doivent être floutés avant que les images puissent être partagées ou publiées. Les technologies d'IA peuvent être utilisées pour reconnaître automatiquement ces identifiants et les pixelliser ou les flouter afin de protéger la vie privée des personnes concernées.

Anonymisation dans les fichiers audio

Les données audio peuvent contenir des informations personnelles, telles que des noms, des adresses ou d'autres identifiants présents dans les conversations ou les enregistrements. Pour rendre ces données anonymes, il est possible d'utiliser des systèmes d'IA qui reconnaissent ces informations et les masquent par du bruit ou d'autres formes de sons. Cette méthode est souvent utilisée lors du traitement d'entretiens ou d'enregistrements de services à la clientèle.

Anonymisation dans les données médicales

Les données médicales sont particulièrement sensibles, car elles contiennent souvent des informations détaillées sur la santé des personnes. Lors de l'anonymisation des données médicales, les informations personnelles doivent être supprimées ou pseudonymisées afin de protéger la vie privée des patients tout en préservant les données importantes pour la recherche. Ce processus nécessite une planification minutieuse et l'utilisation de techniques d'anonymisation spécifiques afin de s'assurer que les données sont suffisamment protégées.

8. conclusions et recommandations

L'anonymisation et la pseudonymisation des données à caractère personnel est un sujet complexe mais essentiel, notamment au regard du règlement général sur la protection des données (RGPD).

Les entreprises et les organisations qui traitent des données à caractère personnel doivent savoir quelles informations sont considérées comme personnelles et comment elles peuvent les protéger de manière adéquate. Le choix de la technique d'anonymisation appropriée dépend de plusieurs facteurs, notamment du type de données, de la finalité de l'analyse et des ressources disponibles.

Recommandations

  1. Consulter les délégués à la protection des données :

    En cas d'anonymisation ou de pseudonymisation des données, il est conseillé de consulter un délégué à la protection des données afin de s'assurer que toutes les exigences légales sont respectées.

  2. Choisir les techniques d'anonymisation appropriées :

    Le choix de la bonne technique est essentiel pour trouver le meilleur compromis entre protection des données et qualité des données.

  3. Explorer l'anonymisation basée sur l'IA :

    Les progrès de l'intelligence artificielle offrent de nouvelles possibilités d'anonymisation et d'analyse des données. Les entreprises devraient envisager ces technologies pour gérer leurs données de manière efficace et sûre.

  4. Mettre en œuvre des mesures de sécurité :

    Il est important, en particulier pour la pseudonymisation, de prendre des mesures de sécurité appropriées afin de protéger la clé contre tout accès non autorisé.
  5. Révision et adaptation régulières : les exigences en matière de protection des données et les technologies d'anonymisation évoluent au fil du temps. Les entreprises doivent régulièrement revoir et adapter leurs pratiques d'anonymisation des données afin de rester en phase avec les meilleures pratiques actuelles.

En mettant en œuvre ces recommandations, les entreprises peuvent s'assurer qu'elles traitent les données personnelles de manière responsable et conformément à la législation applicable en matière de protection des données.

Faire défiler vers le haut