Descripción:
La demencia es una enfermedad neurodegenerativa que conduce al desarrollo de déficits cognitivos como la afasia, la apraxia y la agnosia. Actualmente se considera uno de los principales problemas médicos a nivel mundial, afectando a las personas mayores. Esta enfermedad presenta los síntomas de forma gradual, con complicaciones que varían a lo largo de sus etapas. A medida que la cognición de los pacientes se deteriora, son incapaces de realizar las tareas cotidianas sin ayuda, lo que supone gastos médicos adicionales. Al tratarse de una enfermedad incurable, se necesitan herramientas y métodos para atender a los pacientes en sus primeras fases. Los métodos más avanzados han demostrado que el uso de características lingüísticas de tipo sintáctico proporciona una herramienta sensible y no invasiva para detectar la demencia en su fase inicial. Sin embargo, estos métodos carecen de información semántica relevante. Por lo anterior, en este trabajo proponemos una metodología novedosa basada en el enfoque de características semánticas mediante el uso de incrustaciones de oraciones computadas por redes BERT siamesas (SBERT) junto con máquina de soporte vectorial (SVM), vecinos más cercanos (KNN), bosques aleatorios y redes neuronales artificiales (RNA) como clasificadores. Nuestra metodología incluye 17 características demográficas, léxicas, sintácticas y semánticas extraídas de la base de datos Corpus Pit proporcionada por Dementiabank. La puntuación de información mutua demuestra una dependencia entre nuestras características y la puntuación MMSE, demostrando que son relevantes para la tarea de clasificación de la demencia. Los resultados de las pruebas experimentales basados en la exactitud, la precisión, la sensibilidad y la puntuación F1 (77%, 80%, 80%, 80%) han validado que nuestra metodología se comporta mejor que los métodos basados en la sintaxis y el enfoque BERT cuando sólo se utilizan características lingüísticas.