Identification multimodale d'une cohorte de patients porteurs de cancers rares de la tête et du cou au sein de l'Entrepôt de données de santé (EDS) de l'AP-HP - 12/03/24

Résumé |
Introduction |
Les cancers rares de la tête et du cou (TEC) sont définis par une topographie rare (glandes salivaires, sinus, fosse nasale, rhinopharynx, oreille moyenne) ou une histologie distincte du carcinome épidermoïde. La constitution d'entrepôts de données de santé (EDS) fédérés permettrait l'amélioration des connaissances sur ces pathologies.
Objectif |
Elaborer un algorithme d'identification des patients avec cancers rares TEC au sein de l'EDS de l'AP-HP.
Méthodes |
A partir d'une population source de patients avec cancer ayant au moins un compte rendu (CR) d'anatomopathologie ou de réunion de concertation pluridisciplinaire (RCP) disponible, trois méthodes d'identification ont été développées, et leurs performances évaluées en aveugle par comparaison à l'annotation d'un expert. La première est l'identification par codes CIM-10 associés aux cancers TEC en tant que Diagnostic principal (DP), Diagnostic relatif (DR) ou Diagnostic associé (DAS) d'un séjour hospitalier. La deuxième consiste en l'analyse des codes ADICAP inclus dans les CR d'anatomopathologie, permettant de décrire les prélèvements tissulaires examinés en anatomie et cytologie pathologiques. La troisième utilise le traitement automatique des langues (TAL) avec combinaisons d'expressions régulières correspondant à l'histologie et la localisation de la tumeur au sein de CR d'anatomopathologie et de RCP.
Résultats |
Parmi les 254 295 patients de la population source, 19 133 patients atteints de cancer rare TEC ont été identifiés par l'une des trois méthodes. Parmi eux, des échantillons aléatoires de 500 CR ont constitué le jeu de développement et 90 patients celui de test. La précision et le rappel de chaque méthode étaient respectivement de 35 %/56 %, 100 %/40 %, et 32 %/100 %. Quand l'identification d'un patient reposait sur la concordance d'au moins deux méthodes, la précision et le rappel étaient de 53 % et 60 %.
Conclusion |
L'identification d'une cohorte de patients atteints de cancers rares TEC au sein de l'EDS de l'AP-HP par codes CIM-10, ADICAP et techniques de TAL a été associée à des performances hétérogènes, avec un jeu de test sous-évaluant de façon inhérente les faux négatifs. La CIM-10 ne permettant pas d’évaluer l'histologie (mauvaise précision), la prochaine étape consistera à dichotomiser les métriques de performances liées à la topographie et celles liées à l'histologie.
Le texte complet de cet article est disponible en PDF.Mots-clés : Cancers ORL rares, Entrepôt de données de santé, Traitement Automatique du Langage (TAL)
Vol 72 - N° S1
Article 202204- mars 2024 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Déjà abonné à cette revue ?