Reconstruction de variables structurées à partir des données textuelles d’un entrepôt de données de santé, à des fins de recherche clinique, Paris - 28/02/20

Doi : 10.1016/j.respe.2020.01.061

S. Karunakaran ^a,^b,^c, D. Van Gysel ^c, S. Guinemer ^d,^e, I. Mahe ^d,^e, K. Sallah ^a,^b,^⁎
^a AP–HP, unité de recherche clinique PNVS, hôpital Bichat, Paris, France
^b Inserm CIC-EC 1425, hôpital Bichat, Paris, France
^c AP–HP, département d’informatique médicale, hôpital Bichat, Paris, France
^d Service de médecine interne, hôpital Louis-Mourier, AP–HP, Colombes, France
^e Assistance publique–Hôpitaux de Paris, université de Paris, innovative therapies in haemostasis, Inserm, Paris, France

^⁎Auteur correspondant.

connectez-vous ou créez un compte

Bienvenue sur EM-consulte, la référence des professionnels de santé.
Article gratuit.

Connectez-vous pour en bénéficier!

Résumé

Introduction

L’entrepôt de données de santé de l’Assistance publique–Hôpitaux de Paris offre l’opportunité d’une réutilisation des données massives de soins au profit de la recherche clinique. Cependant, une difficulté majeure est qu’il s’agit souvent de données non-structurées (80 % de texte) dont la relecture par des spécialistes s’avère autant nécessaire que chronophage pour l’extraction d’informations justes et pertinentes. En vue de limiter cette démarche coûteuse de relecture, nous proposons une approche fondée sur le traitement automatique du langage naturel (TALN) combinée aux techniques d’apprentissage automatique, et ne nécessitant qu’un volume réduit de données labellisées en relecture. Nous avons proposé une démarche de reconstruction d’une variable binaire.

Méthodes

Au total, 104 comptes rendus d’hospitalisation ont été annotés par des cliniciens spécialistes sur le statut cancer actif (oui/non) et utilisés comme base d’apprentissage (70 %) et test (30 %) pour des modèles de classification. Ces modèles utilisaient en entrée des termes récupérés des comptes rendus après traitement TALN : suppression de la ponctuation, des mots vides, des suffixes et préfixes sans valeur sémantique, vectorisation des termes par méthode TF-IDF. Un modèle bayésien naïf, une régression logistique régularisée et des forêts aléatoires ont été itérées par validation croisée (k=5 sous-échantillons). Les performances des modèles ont été évaluées par le F1 Score, la précision et le rappel.

Résultats

Les scores F1 obtenus pour le modèle bayésien naïf, la régression logistique avec régularisation Lasso et les forêts aléatoires sont 0,91, 0,93 et 0,68 respectivement ; pour le rappel : 1,00, 0,90, 0,58 ; et la précision : 0,94, 0,96, 0,81. L’utilisation du PMSI comme prédicteur binaire renvoyait un score F1 à 0,87 lorsque le statut cancéreux était prédit par un code diagnostique quelconque en C.

Discussion/Conclusion

Le déploiement d’algorithmes d’apprentissage automatique sur les contenus textuels des entrepôts de données de santé offre une possibilité de reconstruction des variables structurées indispensables à la mise en œuvre des projets de recherche clinique sur ces nouvelles sources de données.

Le texte complet de cet article est disponible en PDF.

Mots clés : Entrepôts de données, Traitement automatique du langage naturel, Apprentissage automatique, Recherche clinique, Fouille de données

Plan

Déclaration de liens d’intérêts

Export

Vol 68 - N° S1

P. S28 - mars 2020 Retour au numéro

Article précédent

Potentiel et limites de l’utilisation des données du DPI, couplée aux techniques innovantes de l’Intelligence artificielle, pour la prédiction du risque de réhospitalisation à un mois des patients insuffisants cardiaques
O. Billuart, R. Jantzen, F. Lin, A. Buronfosse

| Article suivant

Implémentation de méthodes de « machine learning » à la production des données des causes médicales de décès
C. Morgand, D. Martin, A. Robert, L. Falissard, G. Rey

Bienvenue sur EM-consulte, la référence des professionnels de santé.

connectez-vous ou créez un compte

Reconstruction de variables structurées à partir des données textuelles d’un entrepôt de données de santé, à des fins de recherche clinique, Paris - 28/02/20

Résumé

Introduction

Méthodes

Résultats

Discussion/Conclusion

Plan

Export citations

Fichier

Contenu

Accès rapides

Mon compte

Aide & support

Plateformes Elsevier Masson

Déclaration CNIL