S'abonner

Utilisation de l’algorithme EM pour estimer les paramètres du chaînage probabiliste d’enregistrements - 07/08/14

Doi : 10.1016/j.respe.2014.06.081 
X. Li a, A. Guttmann a, S. Cipière b, J. Demongeot c, J.-Y. Boire a, L. Ouchchane a
a Institut des sciences de l’image pour les techniques interventionnelles (ISIT), UMR 6284 CNRS-Université d’Auvergne, Clermont-Ferrand, France 
b Laboratoire de physique corpusculaire, UMR 6533 CNRS/IN2P3 UBP, Clermont-Ferrand, France 
c Laboratoire AGIM, UMR CNRS 3405, Université Joseph-Fourier, Grenoble, France 

Résumé

Introduction

Le chaînage probabiliste d’enregistrements formalisé par Fellegi et Sunter est un des algorithmes les plus utilisés pour le chaînage par des traits d’identification nominatifs. Dans cet algorithme, à chaque trait est attribué un poids de concordance et un poids de discordance. La somme des poids de chaque trait permet de quantifier l’éventualité qu’un couple d’enregistrements concerne une même personne (à l’aide d’un seuil de décision). L’estimation de paramètres pour le calcul des poids (et du seuil) est rarement détaillée dans la littérature. Nous décrivons dans cette étude cette estimation par l’algorithme espérance maximisation (EM) ainsi que son évaluation.

Méthodes

Les paramètres sont estimés par l’algorithme EM que nous avons implémenté sous R. Sur données simulées, nous avons comparé les paramètres observés et estimés, ainsi que les poids et le seuil calculés en utilisant ces deux types de paramètres. L’influence d’un éventuel biais sur la décision de chaînage a aussi été évaluée.

Résultats

La simulation a été répétée 100 fois, les différences moyennes entre les valeurs estimées et observées correspondantes sont relativement mineures, elles vont de 2,05e-7 à 0,0092. L’utilisation de poids calculés par les paramètres observés ou estimés aboutit à la même décision de chaînage ; le choix du seuil de décision de chaînage est très légèrement perfectible.

Discussion

L’estimation des paramètres est une étape cruciale pour le processus de chaînage probabiliste d’enregistrements, mais la méthode d’estimation est rarement décrite en détail. Cette étude permet de fournir dans le détail la méthodologie du chaînage probabiliste d’enregistrements.

Le texte complet de cet article est disponible en PDF.

Mots clés : Chaînage probabiliste d’enregistrements, Algorithme EM, Traits d’identification, Estimation de paramètres, Simulation de données


Plan


© 2014  Publié par Elsevier Masson SAS.
Ajouter à ma bibliothèque Retirer de ma bibliothèque Imprimer
Export

    Export citations

  • Fichier

  • Contenu

Vol 62 - N° S5

P. S196 - septembre 2014 Retour au numéro
Article précédent Article précédent
  • Détection d’agrégats : carte de performance utilisant le coefficient de Tanimoto
  • A. Guttmann, X. Li, J. Gaudart, J. Demongeot, J.-Y. Boire, L. Ouchchane
| Article suivant Article suivant
  • Estimation de prévalences d’exposition professionnelles à partir de matrices emplois-expositions, France
  • D. Jezewski-Serra, M. Houot, C. Pilorget, Groupe de travail Matgéné a b c, M. El Yamani

Bienvenue sur EM-consulte, la référence des professionnels de santé.
L’accès au texte intégral de cet article nécessite un abonnement.

Déjà abonné à cette revue ?

Mon compte


Plateformes Elsevier Masson

Déclaration CNIL

EM-CONSULTE.COM est déclaré à la CNIL, déclaration n° 1286925.

En application de la loi nº78-17 du 6 janvier 1978 relative à l'informatique, aux fichiers et aux libertés, vous disposez des droits d'opposition (art.26 de la loi), d'accès (art.34 à 38 de la loi), et de rectification (art.36 de la loi) des données vous concernant. Ainsi, vous pouvez exiger que soient rectifiées, complétées, clarifiées, mises à jour ou effacées les informations vous concernant qui sont inexactes, incomplètes, équivoques, périmées ou dont la collecte ou l'utilisation ou la conservation est interdite.
Les informations personnelles concernant les visiteurs de notre site, y compris leur identité, sont confidentielles.
Le responsable du site s'engage sur l'honneur à respecter les conditions légales de confidentialité applicables en France et à ne pas divulguer ces informations à des tiers.


Tout le contenu de ce site: Copyright © 2024 Elsevier, ses concédants de licence et ses contributeurs. Tout les droits sont réservés, y compris ceux relatifs à l'exploration de textes et de données, a la formation en IA et aux technologies similaires. Pour tout contenu en libre accès, les conditions de licence Creative Commons s'appliquent.