Détermination du statut vital par chaînage entre des données hospitalières et les données de mortalité nationales anonymisées - 28/03/08
I. Fournel [1],
M. Schwarzinger [2],
E. Benzenine [1],
C. Binquet [1],
C. Hill [3],
C. Quantin [1]
Voir les affiliations| pages | 9 |
| Iconographies | 1 |
| Vidéos | 0 |
| Autres | 0 |
Résumé |
Position du problème |
L'objectif de cette étude est d'évaluer la performance de la détermination du statut vital par croisement de données hospitalières et des données de mortalité de l'Institut national de la statistique et des études économiques (Insee), après avoir rendu ces informations anonymes, en conformité avec la législation.
Méthodes |
L'ensemble des patients, domiciliés en France métropolitaine ou dans les départements d'outre-mer, hospitalisés pour la première fois pour une tumeur maligne entre 1998 et 2000 à l'institut Gustave-Roussy ont été inclus. Les données de mortalité de l'Insee des années 1998 à 2004 ont été utilisées. Les données ont été anonymisées par une technique de hachage irréversible. Les fichiers de mortalité et de morbidité hospitalière ont été chaînés sur le nom, le premier prénom, la date de naissance et le code de la commune de naissance, en utilisant la méthode probabiliste de Jaro.
Résultats |
Dix mille quatre-vingt-neuf patients ont été inclus. Les résultats du chaînage étaient très satisfaisants pour l'ensemble des patients inclus ; la proportion de bien classés était de 97,2 %, la sensibilité de 94,8 % et la spécificité de 99,5 %. La performance de cette méthode était particulièrement satisfaisante pour les patients nés en France, avec une sensibilité de 96,8 % et une spécificité de 99,8 %. Les résultats étaient moins bons pour les patients nés à l'étranger (sensibilité à 82,8 % et spécificité à 97,7 %), mais les performances de la méthode sont améliorées par l'ajout d'une étape de validation manuelle.
Conclusion |
L'utilisation du chaînage probabiliste sur des données anonymisées permet d'obtenir des informations sur le statut vital d'un nombre important de patients à un moindre coût, et tout en respectant les exigences de la Commission nationale de l'informatique et des libertés.
Abstract |
Background |
A subject's vital status is essential for epidemiological studies. This information may be obtained for large numbers of patients with different methods, but these are often expensive. This study was aimed at assessing the performance of patient vital status determination using a record linkage method between hospital data and national mortality data once the information was made anonymous in compliance with French legislation.
Methods |
All patients hospitalised in the Gustave-Roussy Institute, a cancer center in Villejuif France, were eligible for inclusion if they lived in France (mainland or Overseas Departments). The study cohort included patients admitted for the first time for malignant or suspected malignant-tumor during the period 1998–2000. Nominal data from the Gustave Roussy Institute hospital files as well as from the French National Institute of Statistics and Economic Studies (INSEE) mortality databases were then anonymised using irreversible hash coding. Once anonymised, the Gustave Roussy Institute and INSEE mortality databases were linked using the Jaro probabilistic method. Record linkage involved the following variables: birth name, first given name and birth date, along with the INSEE code of birth place.
Results |
10,089 patients were included. The linkage record results were very satisfactory for all the patients included; the percentage of those properly classified was 97.2%, sensitivity was 94.8% and specificity 99.5%. The performance of the probabilistic record linkage method on anonymised data was very satisfactory (sensitivity 96.8% and specificity 99.8%) for determining vital status for patients born in France, suffering from cancer and in-patients at the Institute Gustave-Roussy. Results were inferior for patients born abroad (sensitivity 82.8% and specificity 97.7%) but the method achievements may be enhanced by additional manual validation steps.
Conclusion |
Probabilistic linkage on data rendered anonymous enables to obtain information on vital status for a great number of subjects at low cost, in compliance with French legislation.
Mots clés :
Chaînage
,
Validité
,
Anonymisation
,
Données de mortalité
,
Données hospitalières
,
Cancer
,
Hachage irréversible
Keywords: Record linkage , Validity , Anonymisation , Mortality databases , Hospitalisation databases , Cancer. Irreversible hash coding. Encryption
Plan
© 2006 Elsevier Masson SAS. Tous droits réservés.
Vol 55 - N° 5
P. 365-373 - octobre 2007 Retour au numéroBienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.
Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’achat d’article à l’unité est indisponible à l’heure actuelle.
Déjà abonné à cette revue ?
