Descripción:
La presente investigación tiene como objetivo proponer un modelo
predictivo fundamentado en la ciencia de datos y la inteligencia artificial, que permita
identificar de manera anticipada estudiantes que estén en riesgo de reprobar tercer
grado de secundaria general en el estado de Querétaro. Esta problemática
educativa se aborda desde una perspectiva analítica, considerando que la
reprobación escolar impacta negativamente otros indicadores clave como la
eficiencia terminal, la deserción y el rezago educativo. La metodología empleada se
basó en el enfoque CRISP–DM, que permitió estructurar el análisis en fases bien
definidas: compresión de la institución, comprensión de los datos, preparación de
los datos, modelado, evaluación y despliegue. Se trabajó con un conjunto de datos
históricos proporcionado por la USEBEQ, que incluyó registros académicos de
primero y segundo grado de secundaria, datos institucionales, demográficos y
variables complementarias. Como parte del tratamiento previo a la modelación, se
aplicaron técnicas de ingeniería de características, balanceo mediante SMOTE,
codificación de variables categóricas, selección de variables por relevancia
estadística (SelectBest), escalado de características y validación cruzada
estratificada. Se evaluaron múltiples algoritmos de clasificación supervisada, entre
ellos, regresión logística, Random Forests, XGBoost, LightGBM, redes neuronales
(Keras y Scikit–learn), así como un algoritmo de ensamble. Los modelos fueron
comparados a partir de métricas centradas en la detección efectiva de la clase
minoritaria (reprobación), entre las que se incluyeron: F1–score, precision, recall,
MCC (Matthews Correlation Coefficient), coeficiente de Kappa, exactitud
balanceada (Balanced Accuracy), área bajo la curva ROC (ROC–AUC), área bajo
la curva precisión–recall (PR–AUC), mejora relativa frente al azar y una puntuación
compuesta tipo WSM (Weighted Sum Model). El modelo seleccionado fue LightGBM
por presentar un desempeño destacado en sus métricas, manteniendo un balance
adecuado entre sensibilidad y especificidad. Estos resultados sugieren que LightGBM es una alternativa robusta y eficiente para identificar estudiantes en
riesgo y apoyar decisiones pedagógicas oportunas. El modelo puede ser integrado
como una herramienta de análisis institucional de la USEBEQ para diseñar
intervenciones preventivas y focalizadas que contribuyan a mejorar los indicadores
de permanencia y logro educativo.