S'abonner

Reconstruction de variables structurées à partir des données textuelles d’un entrepôt de données de santé, à des fins de recherche clinique, Paris - 28/02/20

Doi : 10.1016/j.respe.2020.01.061 
S. Karunakaran a, b, c, D. Van Gysel c, S. Guinemer d, e, I. Mahe d, e, K. Sallah a, b,
a AP–HP, unité de recherche clinique PNVS, hôpital Bichat, Paris, France 
b Inserm CIC-EC 1425, hôpital Bichat, Paris, France 
c AP–HP, département d’informatique médicale, hôpital Bichat, Paris, France 
d Service de médecine interne, hôpital Louis-Mourier, AP–HP, Colombes, France 
e Assistance publique–Hôpitaux de Paris, université de Paris, innovative therapies in haemostasis, Inserm, Paris, France 

Auteur correspondant.

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

L’entrepôt de données de santé de l’Assistance publique–Hôpitaux de Paris offre l’opportunité d’une réutilisation des données massives de soins au profit de la recherche clinique. Cependant, une difficulté majeure est qu’il s’agit souvent de données non-structurées (80 % de texte) dont la relecture par des spécialistes s’avère autant nécessaire que chronophage pour l’extraction d’informations justes et pertinentes. En vue de limiter cette démarche coûteuse de relecture, nous proposons une approche fondée sur le traitement automatique du langage naturel (TALN) combinée aux techniques d’apprentissage automatique, et ne nécessitant qu’un volume réduit de données labellisées en relecture. Nous avons proposé une démarche de reconstruction d’une variable binaire.

Méthodes

Au total, 104 comptes rendus d’hospitalisation ont été annotés par des cliniciens spécialistes sur le statut cancer actif (oui/non) et utilisés comme base d’apprentissage (70 %) et test (30 %) pour des modèles de classification. Ces modèles utilisaient en entrée des termes récupérés des comptes rendus après traitement TALN : suppression de la ponctuation, des mots vides, des suffixes et préfixes sans valeur sémantique, vectorisation des termes par méthode TF-IDF. Un modèle bayésien naïf, une régression logistique régularisée et des forêts aléatoires ont été itérées par validation croisée (k=5 sous-échantillons). Les performances des modèles ont été évaluées par le F1 Score, la précision et le rappel.

Résultats

Les scores F1 obtenus pour le modèle bayésien naïf, la régression logistique avec régularisation Lasso et les forêts aléatoires sont 0,91, 0,93 et 0,68 respectivement ; pour le rappel : 1,00, 0,90, 0,58 ; et la précision : 0,94, 0,96, 0,81. L’utilisation du PMSI comme prédicteur binaire renvoyait un score F1 à 0,87 lorsque le statut cancéreux était prédit par un code diagnostique quelconque en C.

Discussion/Conclusion

Le déploiement d’algorithmes d’apprentissage automatique sur les contenus textuels des entrepôts de données de santé offre une possibilité de reconstruction des variables structurées indispensables à la mise en œuvre des projets de recherche clinique sur ces nouvelles sources de données.

Le texte complet de cet article est disponible en PDF.

Mots clés : Entrepôts de données, Traitement automatique du langage naturel, Apprentissage automatique, Recherche clinique, Fouille de données


Plan


© 2020  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 68 - N° S1

P. S28 - mars 2020 Retour au numéro
Article précédent Article précédent
  • Potentiel et limites de l’utilisation des données du DPI, couplée aux techniques innovantes de l’Intelligence artificielle, pour la prédiction du risque de réhospitalisation à un mois des patients insuffisants cardiaques
  • O. Billuart, R. Jantzen, F. Lin, A. Buronfosse
| Article suivant Article suivant
  • Implémentation de méthodes de « machine learning » à la production des données des causes médicales de décès
  • C. Morgand, D. Martin, A. Robert, L. Falissard, G. Rey

Bienvenue sur EM-consulte, la référence des professionnels de santé.

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2024 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.