Estimación de la edad legal usando ortopantomografías e inteligencia artificial
EL PROBLEMA
La estimación de la edad legal es el gran desafío por excelencia del proceso de identificación humana en los ámbitos de la antropología forense y de la medicina legal. Esto se debe a las implicaciones sociales asociadas y las problemáticas que pretende resolver: contribuir a la identificación de presuntos menores migrantes indocumentados y sin referentes familiares que, a menudo, solicitan asilo en el país de destino (13600 en la UE en 2020), niñas y adolescentes obligadas a casarse (12 millones de niñas menores de 18 años casadas), o tráfico de personas y explotación sexual (afecta a más de 40 millones de personas, de las cuales el 75% tienen entre 13 y 25 años). Por este motivo, el desarrollo de métodos precisos, objetivos, eficientes y robustos de estimación de la edad legal es fundamental. Con ello, se podrá brindar la información adecuada a los tribunales de justicia a cargo de estos casos. En la UE se han propuesto diferentes protocolos y guías de buenas prácticas para resolver este problema, siendo el más detallado el protocolo del Grupo Alemán para la estimación forense de la edad de la Universidad de Münster (AGFAD), que propone la aplicación de pruebas médicas en caso de dudas sobre la edad del menor. En primer lugar, se recomienda el uso de una radiografía del carpo de la mano no dominante, seguida de una radiografía panorámica, también llamada ortopantomografía (OPT), que es en lo que se centra este trabajo, y de un TAC de clavícula en el caso de que aún haya incertidumbre sobre la edad estimada.
METODOLOGÍA Y RESULTADOS
El análisis de los dientes, y más concretamente del tercer molar, para estimar la edad legal, es una metodología ampliamente estudiada y validada en el ámbito de la antropología forense, donde se utilizan diferentes técnicas: Demirjian [1], Cameriere [2], Mincer et al. [3] y Uys et al. [4]. Si bien estos métodos son precisos (usando el tercer molar, los antropólogos forenses obtienen precisiones que oscilan entre el 80 y el 90%), se basan en un análisis visual de los dientes, siendo, por tanto, subjetivos y dependientes de la experiencia del observador que analiza las imágenes. Como alternativa, la Inteligencia Artificial (IA), permite desarrollar métodos con métricas de error fijas, siendo por tanto más objetivos. Además, los avances en los últimos años han permitido que los métodos de clasificación (en este caso estimación de la edad) usando imágenes y redes neuronales convolucionales (CNNs) hayan aumentado enormemente su precisión. Esto, sumado a que una vez entrenada una IA sería capaz de estimar la edad de un individuo en menos de un segundo, permite crear métodos precisos, objetivos y eficientes. Estos permiten estimar la edad demanera totalmente autónoma, o mejor aún, servir como herramienta de apoyo al experto, reduciendo errores y tiempo de trabajo.
Respecto a la robustez, esta depende de los datos utilizados para entrenar el modelo. Si estos son suficientes (en cantidad y variedad), el método debería ser lo suficientemente robusto para estimar la edad de cualquier individuo. En nuestro caso hemos utilizado 10.739 OPTs de individuos entre los 14 y los 26 años y de diferentes países (Chile, Bosnia, Líbano, Uganda, Turquía, Botswana, República Dominicana, Italia, Kosovo, Malasia, Japón y Corea). Además, para validar que el modelo es robusto, lo hemos utilizado para estimar la edad en cuatro muestras de procedencias no usadas en el entrenamiento (Rusia, Egipto, Etiopía y Australia). Usando estos datos, realizamos varios experimentos para comprobar cuál es la mejor aproximación para resolver el problema, comprobando, entre otras cosas, que utilizar toda la OPT es mejor que usar solamente el tercer molar mandibular izquierdo. Los resultados de nuestro mejor modelo se muestran de forma numérica en la Tabla 1 y de forma gráfica en la Figura 1.
Métrica | Train | Val | Test | Rusia | Etiopía | Egipto | Australia |
---|---|---|---|---|---|---|---|
MAE (años) | 0.25 | 1.07 | 1.12 | 1.21 | 1.45 | 1.36 | 1.51 |
Precision (< o ≥ 18) | 97.33% | 89.79% | 88.38% | 92.04% | 81.97% | 85.03% | 86.08% |
Los resultados obtenidos, con un MAE de 1.12 años y una precisión del 88.38% en test, son similares a los que aportan diversos trabajos que usan IA para la estimación de la edad legal a partir de ortopantomografías. Sin embargo, nuestro método tiene una gran ventaja respecto a los existentes: que ha sido entrenado con datos de múltiples procedencias, lo cual mejora la generalización. Los métodos entrenados con una sola muestra están limitados a ella y tienen problemas para generalizar, es decir, para funcionar fuera de la muestra con la que han sido entrenados.
Los resultados obtenidos por el modelo también son similares a los que consiguen los expertos humanos. Usando el método de Cameriere [2] se han obtenido diferentes precisiones: del 91.4% por De Luca et al. [5] (entre 13 y 22 años), del 88% por Melo et al. [6] (entre 10 y 26 años), del 90.7% por Albernaz-Neves et al. [7] (entre 12 y 24 años) y del 80.3% por Angelakopoulos et al. [8], que utiliza 10181 OPTs de 4 continentes (siendo la muestra más parecida a la nuestra) en un rango de edad de 13 a 24 años. De Micco et al. [9] analizaron varios trabajos de estimación de la edad usando este método y la precisión varía entre el 74 y el 95%. Usando el método de Demirjian [1], Melo et al. [6] obtuvieron una precisión del 93% en una muestra de individuos entre los 10 y los 26 años. También en la línea de comparación con expertos humanos, hemos podido comprobar no solo que los resultados obtenidos por el modelo y expertos humanos son similares, sino también el comportamiento más específico. En este sentido, para individuos en los que la IA comete errores grandes, un experto humano también lo hace. En la Tabla 2 se muestran algunos ejemplos de esto.
Origen | Sexo | Estimación usando Uys et al. 2018 | Estimación usando Mincer et al. 1993 | Estimación dada por la IA | Edad real |
---|---|---|---|---|---|
Bosnia | F | 15 < 16.21 < 18.52 | 16 ± 1.64 | 15.31 | 24.39 |
Botswana | F | 16.84 < 22.27 < 25.99 | 20.9 ± 2.01 | 21.57 | 15.11 |
Kosovo | F | 16.17 < 18.81 < 24.02 | 19.1 ± 2.18 | 21.25 | 14.92 |
Italia | F | 16.17 < 18.81 < 24.02 | 19.1 ± 2.18 | 20.90 | 16.12 |
Líbano | M | 15.17 < 16.26 < 19.61 | 17.3 ± 2.47 | 17.25 | 21.31 |
República Dominicana | M | 17.26 < 21.97 < 24.90 | 20.5 ± 1.97 | 20.81 | 16.15 |
Respecto a cómo realiza el modelo estas estimaciones, es decir, qué está observando para estimar la edad de un individuo, hemos obtenido mapas de activación usando el algoritmo Integrated Gradients [10]. Estos mapas de activación se muestran en la Figura 2, donde se puede comprobar que la estimación se hace observando, principalmente, varios de los terceros molares y, ocasionalmente, también los segundos molares, principalmente los ápices aún en proceso de cierre de las raíces. Esto concuerda perfectamente con el conocimiento experto en lo que respecta a la estimación de la edad legal a partir de los dientes.
Si bien los resultados son buenos y las regiones de la imagen observadas por la red concuerdan con el conocimiento experto, consideramos que aún queda un problema importante por resolver: el problema ético que supone estimar que un menor de edad es mayor de edad. En este sentido, deberíamos penalizar más este hecho que el contrario, es decir, estimar que un menor es mayor de edad es mucho peor que hacer lo opuesto. Nuestro mejor modelo, que hemos expuesto en los párrafos anteriores, tiene la matriz de confusión mostrada en la Tabla 3. Como se puede observar, la cantidad de menores de edad clasificados como mayores de edad es mayor que la de mayores de edad clasificados como menores. Nosotros buscamos justo lo contrario. Para ello tenemos dos alternativas: estimar un intervalo de predicción a partir de la edad predicha y utilizar el punto inferior del intervalo como estimación o sesgar lo que aprende nuestro modelo (penalizar la función de pérdida), consiguiendo que la propia IA aprenda que sobreestimar la edad es mucho peor que infraestimarla. Los resultados de ambas alternativas se comparan con el modelo original en las Tablas 3, 4, 5 y 6 (en verde el número de casos en los que la estimación es acertada (verdaderos positivos y negativos) y en rojo número de casos en los que el modelo se equivoca (falsos positivos y negativos)).
Real\Est | <18 | ≥18 |
---|---|---|
<18 | 703 | 150 |
≥18 | 100 | 1199 |
Real\Est | <18 | ≥18 |
---|---|---|
<18 | 805 | 48 |
≥18 | 273 | 1026 |
Real\Est | <18 | ≥18 |
---|---|---|
<18 | 827 | 26 |
≥18 | 514 | 785 |
Real\Est | <18 | ≥18 |
---|---|---|
<18 | 841 | 12 |
≥18 | 596 | 703 |
Usando el modelo propuesto inicialmente y quedándonos con el ínfimo del intervalo de edad estimado, de un total de 2.152 casos solo 48 sujetos son clasificados como mayores de edad cuando en realidad son menores (tabla 4). Este número baja hasta solo 12 casos (tabla 6) cuando usamos un modelo sesgado para penalizar más las sobreestimaciones que las infraestimaciones. Como contraprestación, los enfoques que reducen el número de menores clasificados como mayores tienen una precisión global menor.
ESTIMACIÓN DE LA EDAD BASADA EN IA
El resultado de nuestra investigación es una herramienta capaz de estimar la edad de forma automática, objetiva, robusta y precisa, con un MAE de 1.12 años. Además, el hecho de haber obtenido intervalos de predicción permitiría usarla en los protocolos de estimación de edad establecidos a nivel europeo. La mejora de la explicabilidad e interpretabilidad más allá de los mapas de activación mostrados es, junto con el desarrollo de técnicas que usen otras regiones anatómicas, uno de nuestros principales intereses a futuro, pues ayudaría en la toma de decisión por parte de los tribunales de justicia.
Puedes probar el algoritmo de manera totalmente gratuita con nuestra herramienta
REFERENCIAS
AUTOR
Javier Venema
Ingeniero informático y Máster en Ciencia de Datos e Ingeniería de Computadores por la Universidad de Granada. Actualmente trabaja como investigador en Panacea Cooperative Research a la par que se encuentra desarrollando una tesis doctoral centrada en la estimación del perfil biológico usando técnicas de inteligencia artificial.