Por favor, use este identificador para citar o enlazar este ítem: https://ri-ng.uaq.mx/handle/123456789/12443
Título: Ciencia de Datos e AI: Análisis del indicador de reprobación en Educación Secundaria General
Autor(es): Javier Sosa Franco
Palabras clave: Aprendizaje automático
Ciencia de datos
LightGBM
Políticas públicas preventivas
Predicción escolar
Área: CIENCIAS SOCIALES
Fecha de publicación : 4-nov-2025
Editorial : Universidad Autonoma de Querétaro
Páginas: 1 recurso en línea (179 páginas)
Folio RI: CAMAN-95255
Facultad: Facultad de Contaduría y Administraciónía
Programa académico: Maestría en Gestión e Innovación Pública
Resumen: La presente investigación tiene como objetivo proponer un modelo predictivo fundamentado en la ciencia de datos y la inteligencia artificial, que permita identificar de manera anticipada estudiantes que estén en riesgo de reprobar tercer grado de secundaria general en el estado de Querétaro. Esta problemática educativa se aborda desde una perspectiva analítica, considerando que la reprobación escolar impacta negativamente otros indicadores clave como la eficiencia terminal, la deserción y el rezago educativo. La metodología empleada se basó en el enfoque CRISP–DM, que permitió estructurar el análisis en fases bien definidas: compresión de la institución, comprensión de los datos, preparación de los datos, modelado, evaluación y despliegue. Se trabajó con un conjunto de datos históricos proporcionado por la USEBEQ, que incluyó registros académicos de primero y segundo grado de secundaria, datos institucionales, demográficos y variables complementarias. Como parte del tratamiento previo a la modelación, se aplicaron técnicas de ingeniería de características, balanceo mediante SMOTE, codificación de variables categóricas, selección de variables por relevancia estadística (SelectBest), escalado de características y validación cruzada estratificada. Se evaluaron múltiples algoritmos de clasificación supervisada, entre ellos, regresión logística, Random Forests, XGBoost, LightGBM, redes neuronales (Keras y Scikit–learn), así como un algoritmo de ensamble. Los modelos fueron comparados a partir de métricas centradas en la detección efectiva de la clase minoritaria (reprobación), entre las que se incluyeron: F1–score, precision, recall, MCC (Matthews Correlation Coefficient), coeficiente de Kappa, exactitud balanceada (Balanced Accuracy), área bajo la curva ROC (ROC–AUC), área bajo la curva precisión–recall (PR–AUC), mejora relativa frente al azar y una puntuación compuesta tipo WSM (Weighted Sum Model). El modelo seleccionado fue LightGBM por presentar un desempeño destacado en sus métricas, manteniendo un balance adecuado entre sensibilidad y especificidad. Estos resultados sugieren que LightGBM es una alternativa robusta y eficiente para identificar estudiantes en riesgo y apoyar decisiones pedagógicas oportunas. El modelo puede ser integrado como una herramienta de análisis institucional de la USEBEQ para diseñar intervenciones preventivas y focalizadas que contribuyan a mejorar los indicadores de permanencia y logro educativo.
URI: https://ri-ng.uaq.mx/handle/123456789/12443
Aparece en: Maestría en Gestión e Innovación Pública

Archivos:
Fichero Descripción Tamaño Formato  
CAMAN-95255.pdf4.08 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.