Descripción:
Desde mediados del siglo XX, a medida que se obtenían mejores instrumentos de medición en campos como la Química y la Biología, los conjuntos de datos han crecido en volumen, particularmente en el número de variables (p) medidas sobre sobre un número de muestras de interés (n). En muchos casos n<p, hecho que puso en conflicto los supuestos de las técnicas estadísticas más utilizadas para el análisis de regresión o para la clasificación. Uno de los campos de estudio donde más ocurre n<p es en el área de la metabolómica, el estudio de procesos químicos de los metabolitos de una muestra biológica. Uno de los métodos que se utilizan en el estudio de estos conjuntos de datos es la Proyección a Estructuras Latentes (PLS), también llamado Mínimos Cuadrados Parciales, con el objetivo de encontrar una estructura latente entre variables respuesta continuas versus variables predictoras, como en el caso de regresión multivariada, pero con n<p. A pesar de que PLS no fue diseñado inicialmente como técnica de clasificación, su uso se ha extendido en el área de clasificación donde la variable respuesta es categórica en el contexto de clasificación. Una de las áreas de aplicación de PLS para propósitos de clasificación se ha dado en lo que se conoce como “metabólica” que comprende el estudio de causas de efectos en el metabolismo humano. PLS ha sido desarrollado fundamente desde una perspectiva quimiométrica como una herramienta con resultados relevantes en el análisis diferencial de perfiles metabolómicos ante tratamientos alternativos. Esto ha abierto el desarrollo computacional variado de PLS, hecho que en sí es útil, pero que hace difuso en México a los usuarios en estas áreas de aplicación, el cómo seleccionar el paquete en código libre adecuado a sus necesidades. En el presente trabajo, en un inicio se estudian los detalles algebraicos de PLS. También se estudia a PLS y su relación con otras técnicas de clasificación. A continuación, se estudian técnicas de remuestreo, que se utilizan para evaluar el ajuste de un modelo. Entonces se exponen algunos de los paquetes que ofrecen el uso de PLS y sus características en el ambiente del software R. Finalmente, se realiza una aplicación en un estudio experimental que intenta dar, mediante PLS, una clasificación analizando un conjunto de datos de un estudio realizado en la UAQ en niños con un tratamiento basado en un subproducto de mango. Se concluye revisando las capacidades y beneficios del uso de PLS en el contexto de clasificación, así como la evaluación de la paquetería que lo ofrece, que pueden servir de utilidad a investigadores en México que pretendan realizar un análisis de datos con las características antes mencionadas.