fbpx

Coincidencia aproximada en el cumplimiento financiero: técnicas y desafíos

Posted in Cumplimiento de las sanciones on mayo 2, 2024
Fuzzy Matching In Financial Compliance

La coincidencia aproximada en el cumplimiento financiero es una herramienta crucial que ayuda a las instituciones a identificar coincidencias no exactas en los datos, mejorando así la precisión y la eficacia de las evaluaciones de sanciones y reduciendo el riesgo de pasar por alto posibles señales de alerta.

Es importante tener en cuenta la «coincidencia aproximada«, ya que los nombres pueden perderse si solo se seleccionan las coincidencias exactas. En lugar de marcar los registros como «coincidentes» o «no coincidentes», la coincidencia aproximada identifica la probabilidad de que dos registros sean una coincidencia verdadera en función de si están de acuerdo o en desacuerdo con varios identificadores. 

La coincidencia aproximada describe cualquier proceso que identifique coincidencias no exactas. A menudo son tolerantes con las diferencias multinacionales y lingüísticas en la ortografía, los formatos de las fechas de nacimiento y datos similares. Un sistema sofisticado de coincidencia aproximada puede tener una variedad de configuraciones que permiten una mayor o menor coincidencia en el proceso de coincidencia.

Las soluciones de software de coincidencia aproximada identifican posibles coincidencias en las que los datos, ya sea en las listas oficiales o en los registros internos de las empresas, están mal escritos, están incompletos o faltan. Los falsos positivos se consideran uno de los mayores problemas al realizar el proceso de coincidencia aproximada. El uso de un sistema eficiente ayuda a generar menos números de falsos positivos.

Un sistema eficiente identificará:

  • Siglas
  • Inversión del nombre 
  • Variación del nombre 
  • Ortografía fonética
  • faltas de ortografía inadvertidas
  • uso de abreviaturas específicas, como el uso de «Ltd» en lugar de «Limited»
  • Inserción o eliminación de caracteres especiales, signos de puntuación, espacios
  • diferente ortografía de nombres, como deletrear ‘Elisabeth’ como ‘Elizabeth’, 
  • acortamiento de nombres como ‘Elizabeth’ coincide con Betty, Beth, Elisa, etc.
Coincidencia Aproximada En El Cumplimiento Financiero

Coincidencia aproximada en el cumplimiento financiero

Estas son algunas de las técnicas de coincidencia aproximada que se pueden implementar en la institución. 

Distancia de Levenshtein (o Editar distancia)

La distancia de Levenshtein (LD) es una de las técnicas de coincidencia difusa que mide la distancia entre dos cadenas, y el número dado representa qué tan lejos están las dos cuerdas de ser una coincidencia exacta. Cuanto mayor sea el número de la distancia de edición de Levenshtein, más lejos estarán los dos términos de ser idénticos.

Distancia de Hamming

Llamada así por el matemático estadounidense Richard Hamming, la distancia de Hamming (HD) es bastante similar a la de Levenshtein, excepto que se utiliza principalmente en el procesamiento de señales, mientras que la primera se usa a menudo para calcular la distancia en cadenas textuales. Este algoritmo utiliza la tabla ASCII (American Standard Code for Information Interchange) para determinar el código binario asignado a cada letra de cada cadena para calcular la puntuación de distancia.

Damerau-Levenshtein

Esta variante LD encuentra el número mínimo de operaciones necesarias para hacer que dos cadenas coincidan directamente, mediante operaciones de distancia de un solo carácter, como la inserción, la eliminación y la sustitución. Damerau-Levenshtein va un paso más allá al integrar una cuarta operación posible, la transposición de dos caracteres, para encontrar una coincidencia aproximada.

Metáfono 3

Metaphone convierte cualquier cadena en una codificación basada en los sonidos presentes y genera un código alfabético.

Las principales ventajas de Metaphone incluyen:

  • Tener en cuenta toda la cadena al generar código para una cadena
  • La longitud del código no tiene ninguna restricción. El gran conjunto de palabras se puede estandarizar sin muchas colisiones.

Variante de nombre

Los diferentes métodos de coincidencia de nombres son los más adecuados para resolver diferentes desafíos de coincidencia de nombres. Hay diferentes formas de hacer coincidir los nombres, pero ninguna se considera una solución universal. El software de coincidencia de nombres que se utilizará debe tener la capacidad de realizar un híbrido de múltiples métodos para abordar el número máximo de variaciones en los nombres.

  • Método de clave común: Estos métodos reducen los nombres a una clave o código en función de su pronunciación en inglés, de modo que los nombres que suenan similares comparten la misma clave. Por ejemplo, Cyndi, Canada, Candy, Canty, Chant y Condie comparten el código C530.
  • Método de lista: Este método intenta enumerar todas las variaciones ortográficas posibles de cada componente de nombre y, a continuación, busca nombres coincidentes de estas listas de variaciones de nombre. Por ejemplo, el nombre John puede tener una lista de nombres diferente para ser usada, incluyendo John, Jon, Joan, etc.
Coincidencia Aproximada En El Cumplimiento Financiero

Reflexiones finales

La coincidencia aproximada es una herramienta crucial en el análisis de datos, ya que ofrece un enfoque avanzado para identificar coincidencias no exactas que tienen en cuenta las variaciones lingüísticas, la ortografía multinacional y los errores comunes. Estos sistemas, de diseño sofisticado, manejan discrepancias de datos como faltas de ortografía inadvertidas, abreviaturas y variaciones fonéticas, lo que garantiza un análisis exhaustivo de las coincidencias. Sin embargo, sus capacidades conllevan desafíos, como la posibilidad de falsos positivos.

Para optimizar este método, las instituciones a menudo emplean técnicas como la distancia de Levenshtein, la distancia de Hamming y el metáfono 3, cada una de las cuales satisface necesidades específicas de coincidencia. En particular, cuando se abordan las variaciones de nombres, una combinación de técnicas, desde el método de clave común hasta el método de lista, resulta invaluable. A medida que los datos continúan evolucionando, la sofisticación y la precisión de la coincidencia aproximada siguen siendo primordiales.