S'abonner

P099 - PSEUDONYMISATOR - Un outil partageable de pseudonymisation automatique des comptes rendus médicaux - 20/04/23

Doi : 10.1016/j.respe.2023.101743 
R. Schiappa , E. Seutin, S. Contu, E. Chamorey
 Centre Antoine lacassagne, Département d'épidémiologie, de biostatistique et des données de santé, Nice, France 

Auteur correspondant

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

Dans les établissements de santé, environ 80 % des informations sur la prise en charge des patients sont stockées sous forme de données non structurées dans des comptes rendus médicaux textuels (CR). Ces CR contiennent de nombreux éléments permettant l'identification des patients, aussi il est indispensable de disposer d'outil de pseudonymisation efficace pour pouvoir exploiter ces données. Il existe peu de solutions automatiques adaptées aux données cliniques textuelles et facilement utilisables. Afin de répondre à cette problématique, nous avons conçu un algorithme de pseudonymisation.

Méthodes

Cet algorithme développé en python récupère en entrée une liste des patients à pseudonymiser avec nom et prénom, numéro de dossier (IPP), date de naissance (DDN) associés, et ensuite recherche ces informations dans le titre et le texte des CR de consultation (CS), biopsie (BIO), chirurgie (CHIR) et anatomopathologiques (ANA). L'IPP est remplacé par un numéro pseudonymisé. La DDN est modifiée pour remplacer le jour par « 15 ». Le nom et le prénom des patients sont remplacés par [NOM_PATIENT] et [PRENOM_PATIENT] respectivement. Les noms des médecins et les noms des accompagnants, quand ils sont précédés d'un titre (Dr, Docteur, Pr, Mme, etc.) sont remplacés par [NOM]. L'algorithme utilise des expressions régulières autorisant des variations dans le nom et le prénom en remplaçant chaque voyelle par toutes les orthographes possibles, en autorisant également le doublement ou dédoublement de certaines consonnes. Nous avons pseudonymisé 6788 CR et évalué les performances sur 10 % de chaque catégorie de CR.

Résultats

Les résultats obtenus sur 174 CS montent que 100 % des IPP, 94,89 % des noms, 95,70 % des prénoms et 98,63 % des DDN ont été pseudonymisés. Pour les BIO, 100 % des IPP, 96,15 % des noms, 95,65 % des prénoms ont été pseudonymisés. Pour les CHIR, 100 % des IPP, noms et prénoms ont été pseudonymisés. Pour les ANA, 100 % des IPP ont été pseudonymisés. Pour les noms des médecins/accompagnants, 84,66 %, 47,27 % et 67,28 %, respectivement dans les CS, BIO et CHIR, ont été pseudonymisés. Globalement, sur les variables directement identifiantes (IPP, Nom, Prénom, DDN) 98 % des informations ont été pseudonymisées. Pour les variables indirectement identifiantes, 66,4 % des informations ont été pseudonymisées. L'algorithme est exécuté en quelques secondes. Sur les 10 % de comptes rendus contrôlés après pseudonymisation, une seule erreur a été détectée, l'algorithme a remplacé un mot commun par [PRENOM_PATIENT] à cause de la similarité des deux mots.

Conclusion

Les résultats sont très satisfaisants pour les données directement identifiantes. On note toutefois des limites à cette méthode lorsque le prénom est composé, le nom de naissance n'est pas indiqué dans la liste des patients à pseudonymiser, les noms des intervenants ou médecins ne sont pas précédés d'un titre (« Je l'adresse à mon collègue Albert Einstein »). Certaines particularités comme les noms à particules, apostrophes, certains accents ou certaines fautes d'orthographe non prévues (Aline/Alyne) ont pu faire ponctuellement échouer l'algorithme. D'autres cas non prévus comme les numéros de téléphone portable, adresse et lieu de vie sont ignorés par l'algorithme. Une nouvelle version est en cours de finalisation et sera testée sur 30 000 comptes rendus du Centre hospitalier de Toulon. Une comparaison avec l'algorithme de l'AP-HP (https://aphp.github.io/eds-pseudo/main/) est également prévue.

Mots clés

Fouille textuelle , Pseudonymisation , MR04 , Comptes rendus médicaux , Recherche rétrospective

Déclaration de liens d'intérêts

Les auteurs n'ont pas précisé leurs éventuels liens d'intérêts.

Le texte complet de cet article est disponible en PDF.

© 2023  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 71 - N° S2

Article 101743- mai 2023 Retour au numéro
Article précédent Article précédent
  • P098 - Les compétences des sages-femmes - Qu'en connait la population française ? Enquête par questionnaire auprès de 13 153 personnes
  • A. Bouchet, M. Francisci, M. Bourgeois, S. Maccagnan, J. Delotte, E. Chamorey, A. Musso
| Article suivant Article suivant
  • P100 - Insuffisance rénale aiguë au cours du HELLP syndrome: expérience du service de réanimation du CHU Ibn Rochd de Casablanca, Maroc
  • S. Zoukal, S. Zagdan, S. Hassoune, S. El Youssoufi

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Elsevier s'engage à rendre ses eBooks accessibles et à se conformer aux lois applicables. Compte tenu de notre vaste bibliothèque de titres, il existe des cas où rendre un livre électronique entièrement accessible présente des défis uniques et l'inclusion de fonctionnalités complètes pourrait transformer sa nature au point de ne plus servir son objectif principal ou d'entraîner un fardeau disproportionné pour l'éditeur. Par conséquent, l'accessibilité de cet eBook peut être limitée. Voir plus

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2026 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.