Descubriendo patrones, relaciones e información valiosa en los datos ICFES 2020
Somos un grupo de estudiantes de Ingeniería de Sistemas y Computación en la Universidad del Norte con objetivos y gustos muy específicos.
Las razones que nos llevaron a eleguir este Dataset
La elección del conjunto de datos de los resultados de las pruebas Saber 11 del año 2020 se fundamenta en la relevancia que tiene este examen estandarizado en el contexto educativo colombiano. Estas pruebas ofrecen una visión integral del rendimiento académico de los estudiantes al culminar la educación secundaria, permitiendo así un análisis profundo de los factores que inciden en su desempeño.
La riqueza de variables presentes en los resultados de las pruebas Saber 11, que abarcan desde puntajes específicos en diversas áreas como matemáticas, ciencias, lectura, hasta información demográfica detallada de los estudiantes y características de las instituciones educativas, proporciona un panorama completo y multidimensional. Este amplio espectro de datos es esencial para abordar investigaciones en el campo de la educación, permitiendo identificar patrones, tendencias y relaciones que pueden ser cruciales para el diseño e implementación de políticas educativas efectivas.
La disponibilidad y accesibilidad del conjunto de datos del año 2020 facilitan significativamente la ejecución del proyecto, permitiendo una exploración exhaustiva y análisis detallados. Además, la diversidad de información presente en este conjunto de datos ofrece una oportunidad única para aplicar una variedad de técnicas avanzadas de minería de datos, como clasificación, regresión, clustering y asociación. Estas técnicas permitirán extraer conocimientos valiosos que contribuirán a la comprensión integral de los factores que influyen en el rendimiento académico de los estudiantes colombianos, respaldando así la toma de decisiones informadas en el ámbito educativo.
Algunas observaciones interesantes
Analizando los datos de las pruebas Saber 11 del año 2020 en los aspectos relacionados con la familia, que si bien son factores que pueden influir en el rendimiento académico de los estudiantes, no parecen ser por si solos hacer la diferencia. Sabemos estos factores pueden ser determinantes en la calidad de vida y el acceso a recursos y oportunidades que impactan directamente en el desempeño académico. Por tanto es pertienente revisar si la combianción de estos factores tiene el impacto significativo en el rendimiento académico esperado.
Algunas ideas que queremos explorar
A partir de la exploración inicial de los datos, se plantean las siguientes hipótesis que se buscarán validar a través de la aplicación de técnicas de minería de datos:
1. El rendimiento académico de los estudiantes está influenciado por factores socioeconómicos, como el estrato socioeconómico, el número de personas en el hogar, la disponibilidad de servicios como internet, televisión, computador, entre otros, y la situación económica de la familia.
2. Las características de las instituciones educativas, como el tipo, la jornada, la ubicación y el tamaño, tienen un impacto significativo en el rendimiento académico de los estudiantes.
3. Existen patrones y tendencias en los puntajes obtenidos en las diferentes áreas de las pruebas Saber 11, que permiten identificar grupos de estudiantes con desempeños similares y establecer relaciones entre las variables presentes en el conjunto de datos.
4. La aplicación de técnicas de minería de datos, como clasificación, regresión, clustering y asociación, permitirá identificar patrones, tendencias y relaciones ocultas en los datos que contribuirán a la comprensión integral de los factores que influyen en el rendimiento académico de los estudiantes colombianos.
1. Identificar la influencia de variables socioeconómicas familiares en la probabilidad de aprobación de las pruebas Saber 11.
2. Evaluar el rendimiento de distintos modelos en la predicción de la aprobación de las pruebas Saber 11 a partir de características familiares
3. Determinar la probabilidad de que un estudiante quede en cierto cuartil teniendo en cuenta las variables familiares y el departamento donde este reside.
Detalles sobre la selección inicial del modelo
Para el primer modelo, se optó por utilizar regresión logística debido a su capacidad para predecir una variable binaria, como es el caso de la aprobación o no aprobación de las pruebas Saber 11. Se ajustaron los datos creando una nueva columna que indica si el puntaje global es mayor o igual a 300, clasificándolo como aprobado, o menor a 300, clasificándolo como no aprobado. El modelo fue entrenado para predecir si un estudiante aprobará o no la prueba basándose en características socioeconómicas familiares.
Métodos de validación y métricas empleadas
Clase Negativa (No Aprobado) | Clase Positiva (Aprobado) | |
---|---|---|
Recall | 98.02% | 19.01% |
El Recall representa la proporción de casos positivos que fueron correctamente identificados por el modelo. Los valores indican que se identificaron correctamente el 98.02% de los casos negativos (no aprobado) y el 19.01% de los casos positivos (aprobado).
Clase Negativa (No Aprobado) | Clase Positiva (Aprobado) | |
---|---|---|
Precisión | 86.58% | 64.24% |
La Precisión representa la proporción de casos positivos clasificados correctamente por el modelo sobre el total de casos positivos predichos. Los valores indican que el 86.58% de los casos negativos (no aprobado) y el 64.24% de los casos positivos (aprobado) fueron clasificados correctamente.
Predicción Negativa | Predicción Positiva | |
---|---|---|
Real Negativa | 83345 | 1687 |
Real Positiva | 12912 | 3031 |
La matriz de confusión muestra el desempeño del modelo al clasificar las instancias en cada una de las clases. En este caso, la primera fila representa las instancias verdaderamente negativas y la segunda fila representa las instancias verdaderamente positivas. Las columnas representan las instancias clasificadas por el modelo como negativas y positivas, respectivamente.
Después de analizar las métricas obtenidas de nuestro modelo de regresión logística aplicado a los datos de las pruebas Saber 11 del año 2020, podemos destacar lo siguiente:
Detalles sobre la selección inicial del modelo
Para esta segunda instancia se optó por utilizar un modelo de Random Forest, el cual permite clasificar instancias en función de un conjunto de características. En este caso, se entrenó el modelo para predecir, teniendo en cuenta las características familiares y el departamento de residencia, si un estudiante quedará en cierto cuartil de rendimiento académico. Se consideraron los cuartiles de puntaje global obtenidos en las pruebas Saber 11 para clasificar a los estudiantes en cuatro grupos: bajo, básico, alto y superior.
Nota: Los parámetros usado para el modelo fueron los siguientes:
Se realizaron algunas pruebas con diferentes valores de los parámetros, a partir de aquí los aumentos en max_depth y n_estimators no mejoraron significativamente el desempeño del modelo, por lo que se decidió mantener estos valores.
Métodos de validación y métricas empleadas
Primer Cuartil (Bajo) | Segundo Cuartil (Básico) | Tercer Cuartil (Alto) | Cuarto Cuartil (Superior) | |
---|---|---|---|---|
Recall | 54.75% | 25.02% | 25.52% | 55.68% |
El Recall representa la proporción de casos positivos que fueron correctamente identificados por el modelo. Los valores indican que se identificaron correctamente el 54.75% de los casos en el primer cuartil (bajo), el 25.02% de los casos en el segundo cuartil (básico), el 25.52% de los casos en el tercer cuartil (alto) y el 55.68% de los casos en el cuarto cuartil (superior).
El modelo tiene un mejor desempeño en la identificación de los estudiantes en el primer y cuarto cuartil, mientras que tiene dificultades para distinguir entre los estudiantes en el segundo y tercer cuartil.
Primer Cuartil (Bajo) | Segundo Cuartil (Básico) | Tercer Cuartil (Alto) | Cuarto Cuartil (Superior) | |
---|---|---|---|---|
Precisión | 45.58% | 30.68% | 30.52% | 48.39% |
La Precisión representa la proporción de casos positivos clasificados correctamente por el modelo sobre el total de casos positivos predichos. Los valores indican que el 45.58% de los casos en el primer cuartil (bajo), el 30.68% de los casos en el segundo cuartil (básico), el 30.52% de los casos en el tercer cuartil (alto) y el 48.39% de los casos en el cuarto cuartil (superior) fueron clasificados correctamente.
Predicción Primer Cuartil (Bajo) | Predicción Segundo Cuartil (Básico) | Predicción Tercer Cuartil (Alto) | Predicción Cuarto Cuartil (Superior) | |
---|---|---|---|---|
Real Primer Cuartil (Bajo) | 18621 | 11739 | 7361 | 3132 |
Real Segundo Cuartil (Básico) | 7394 | 8537 | 7431 | 4467 |
Real Tercer Cuartil (Alto) | 4976 | 7602 | 8678 | 7174 |
Real Cuarto Cuartil (Superior) | 3020 | 6240 | 10534 | 18558 |
La matriz de confusión muestra el desempeño del modelo al clasificar las instancias en cada una de las clases. En este caso, las filas representan las instancias verdaderamente en cada cuartil y las columnas representan las instancias clasificadas por el modelo en cada cuartil.
Después de analizar las métricas obtenidas de nuestro modelo de Random Forest aplicado a los datos de las pruebas Saber 11 del año 2020, podemos destacar lo siguiente:
Departamento | Bajo | Básico | Alto | Superior |
---|---|---|---|---|
AMAZONAS | 42.34% | 26.48% | 18.89% | 12.29% |
ANTIOQUIA | 25.91% | 25.27% | 24.98% | 23.83% |
ARAUCA | 33.31% | 27.62% | 22.60% | 16.46% |
ATLANTICO | 25.92% | 25.84% | 24.77% | 23.47% |
BOGOTÁ | 14.57% | 21.03% | 27.54% | 36.86% |
BOLIVAR | 32.23% | 26.11% | 22.38% | 19.28% |
BOYACA | 23.31% | 25.25% | 25.71% | 25.73% |
CALDAS | 25.10% | 25.98% | 25.35% | 23.56% |
CAQUETA | 29.29% | 27.56% | 24.18% | 18.97% |
CASANARE | 27.60% | 27.05% | 24.45% | 20.89% |
CAUCA | 34.06% | 27.39% | 22.45% | 16.10% |
CESAR | 28.97% | 26.64% | 24.13% | 20.26% |
CHOCO | 37.37% | 26.50% | 20.75% | 15.38% |
CORDOBA | 33.75% | 27.82% | 22.40% | 16.02% |
CUNDINAMARCA | 19.90% | 24.28% | 27.27% | 28.55% |
EXTRANJERO | 27.50% | 33.65% | 25.09% | 13.76% |
GUAINIA | 40.85% | 25.71% | 19.14% | 14.30% |
GUAVIARE | 31.60% | 27.30% | 23.62% | 17.47% |
HUILA | 27.56% | 27.10% | 24.72% | 20.62% |
LA GUAJIRA | 33.80% | 25.33% | 21.76% | 19.12% |
MAGDALENA | 31.39% | 26.71% | 23.25% | 18.65% |
META | 22.78% | 25.48% | 25.93% | 25.80% |
NARIÑO | 27.73% | 27.08% | 24.94% | 20.25% |
NORTE SANTANDER | 24.78% | 26.50% | 25.74% | 22.98% |
PUTUMAYO | 30.83% | 27.47% | 24.00% | 17.69% |
QUINDIO | 22.70% | 25.57% | 26.31% | 25.42% |
RISARALDA | 21.75% | 24.85% | 26.24% | 27.16% |
SAN ANDRES | 24.00% | 24.78% | 26.18% | 25.03% |
SANTANDER | 21.52% | 24.84% | 26.51% | 27.12% |
SUCRE | 30.44% | 27.37% | 23.78% | 18.40% |
TOLIMA | 25.23% | 25.99% | 25.64% | 23.14% |
VALLE | 24.39% | 26.58% | 26.69% | 22.34% |
VAUPES | 43.49% | 26.40% | 18.10% | 12.01% |
VICHADA | 41.77% | 27.40% | 19.67% | 11.16% |