Descripción:
La demencia es una enfermedad neurodegenerativa que afecta las funciones cognitivas
de las personas, deteriorando progresivamente su calidad de vida. Entre sus distintas
formas, el Alzheimer se destaca como la más común. Dada su naturaleza incurable, la detección
temprana es crucial para facilitar cuidados y una atención médica oportuna. Ante
este escenario, la aplicación de técnicas de aprendizaje profundo en el análisis de exámenes
del lenguaje se presenta como una solución eficaz, especialmente ante la laboriosa y
falible evaluación manual. En este trabajo se implementaron y compararon cinco enfoques
automatizados de Procesamiento del Lenguaje Natural (PLN) para identificar indicios de
Alzheimer a partir de transcripciones de audio de la prueba del robo de la galleta, en la
base de datos Pitt Corpus. Se evaluaron cuatro enfoques basados enembeddingsde modelos
grandes del lenguaje (GloVe, BERT, Gemma-2B y Linq-Embed-Mistral), así como
una representación clásica estadística Tf–Idf, cada uno integrado con un clasificador final
de regresión logística. Para su comparación, se realizó una validación cruzada estratificada
5-fold, obteniéndose los resultados más destacados con losembeddingsde BERT (84.73 %
de exactitud), seguidos de cerca por el enfoque clásico Tf–Idf (83.73 % de exactitud), y
el modelo de última generación Linq-Embed-Mistral (83.54 % de exactitud). Contrario a
las expectativas iniciales, estos hallazgos sugieren que la elección y frecuencia de las palabras
podrían ser tan o más determinantes que la información semántica o contextual
en la detección del Alzheimer. Ahora bien, la falta de una base de datos accesible y en
español de registros médicos de pacientes con esta condición crea la necesidad urgente de
construir una, contribuyendo así a la investigación de esta neuropatía en México. En conjunto,
este estudio aborda la importancia de mejorar la detección temprana del Alzheimer,
particularmente en personas hispanohablantes, buscando utilizar inteligencia artificial para
aumentar la eficiencia de los métodos actuales y avanzar hacia un software fácil de
usar capaz de ofrecer un primer indicador de riesgo de la enfermedad, reduciendo así la
necesidad inicial de una consulta médica presencial.