Reconstruction de variables structurées à partir des données textuelles d’un entrepôt de données de santé, à des fins de recherche clinique, Paris - 28/02/20
Résumé |
Introduction |
L’entrepôt de données de santé de l’Assistance publique–Hôpitaux de Paris offre l’opportunité d’une réutilisation des données massives de soins au profit de la recherche clinique. Cependant, une difficulté majeure est qu’il s’agit souvent de données non-structurées (80 % de texte) dont la relecture par des spécialistes s’avère autant nécessaire que chronophage pour l’extraction d’informations justes et pertinentes. En vue de limiter cette démarche coûteuse de relecture, nous proposons une approche fondée sur le traitement automatique du langage naturel (TALN) combinée aux techniques d’apprentissage automatique, et ne nécessitant qu’un volume réduit de données labellisées en relecture. Nous avons proposé une démarche de reconstruction d’une variable binaire.
Méthodes |
Au total, 104 comptes rendus d’hospitalisation ont été annotés par des cliniciens spécialistes sur le statut cancer actif (oui/non) et utilisés comme base d’apprentissage (70 %) et test (30 %) pour des modèles de classification. Ces modèles utilisaient en entrée des termes récupérés des comptes rendus après traitement TALN : suppression de la ponctuation, des mots vides, des suffixes et préfixes sans valeur sémantique, vectorisation des termes par méthode TF-IDF. Un modèle bayésien naïf, une régression logistique régularisée et des forêts aléatoires ont été itérées par validation croisée (k=5 sous-échantillons). Les performances des modèles ont été évaluées par le F1 Score, la précision et le rappel.
Résultats |
Les scores F1 obtenus pour le modèle bayésien naïf, la régression logistique avec régularisation Lasso et les forêts aléatoires sont 0,91, 0,93 et 0,68 respectivement ; pour le rappel : 1,00, 0,90, 0,58 ; et la précision : 0,94, 0,96, 0,81. L’utilisation du PMSI comme prédicteur binaire renvoyait un score F1 à 0,87 lorsque le statut cancéreux était prédit par un code diagnostique quelconque en C.
Discussion/Conclusion |
Le déploiement d’algorithmes d’apprentissage automatique sur les contenus textuels des entrepôts de données de santé offre une possibilité de reconstruction des variables structurées indispensables à la mise en œuvre des projets de recherche clinique sur ces nouvelles sources de données.
Le texte complet de cet article est disponible en PDF.Mots clés : Entrepôts de données, Traitement automatique du langage naturel, Apprentissage automatique, Recherche clinique, Fouille de données
Plan
Vol 68 - N° S1
P. S28 - mars 2020 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.