Minería de datos

Descubriendo patrones, relaciones e información valiosa en los datos ICFES 2020

Conoce al equipo!

Somos un grupo de estudiantes de Ingeniería de Sistemas y Computación en la Universidad del Norte con objetivos y gustos muy específicos.


Flora Nyra

Shalem Janna

Nací el 11 de Julio del 2001, soy un apasionado por la analítica y la tecnología. Tengo habilidades para el análisis y resolución de problemas, así como capacidad para trabajar en equipo y colaborar en proyectos multidisciplinarios. Me considero una persona curiosa, apasionada por el aprendizaje continuo y la exploración de nuevas tecnologías.

Evander Mac

Marta Arrieta

Nació el día 22 de mayo del año 2002, (tiene 21 años) actualmente es estudiante de último semestre en ingeniería de sistemas y computación en la universidad del norte. En su trayecto de vida ha participado en varios cursos de seguridad, educación, inclusive de deporte. Se ha destacado por su liderazgo, versatilidad y compromiso.

Taytum Elia

Harry Cepeda

23 Años, estudiante de Sistemas y computación, becado por la fundación ColomboJaponesa y futuro científico de datos ( si Dios lo permite), planeando una estadía y trabajo en Japón con todo lo que implica.

Wylder Elio

Jhimi Vargas

Soy Jhimi Vargas, nací el 13 de agosto del 2000 y actualmente tengo 23 años. Estoy en el último semestre de Ingeniería de Sistemas en la Universidad del Norte de Barranquilla. Me apasionan la analítica de datos y las tecnologías emergentes, y he desarrollado habilidades destacadas en el análisis y la resolución de problemas complejos.

¿Por qué este y no otro?

Las razones que nos llevaron a eleguir este Dataset

La elección del conjunto de datos de los resultados de las pruebas Saber 11 del año 2020 se fundamenta en la relevancia que tiene este examen estandarizado en el contexto educativo colombiano. Estas pruebas ofrecen una visión integral del rendimiento académico de los estudiantes al culminar la educación secundaria, permitiendo así un análisis profundo de los factores que inciden en su desempeño.

La riqueza de variables presentes en los resultados de las pruebas Saber 11, que abarcan desde puntajes específicos en diversas áreas como matemáticas, ciencias, lectura, hasta información demográfica detallada de los estudiantes y características de las instituciones educativas, proporciona un panorama completo y multidimensional. Este amplio espectro de datos es esencial para abordar investigaciones en el campo de la educación, permitiendo identificar patrones, tendencias y relaciones que pueden ser cruciales para el diseño e implementación de políticas educativas efectivas.

La disponibilidad y accesibilidad del conjunto de datos del año 2020 facilitan significativamente la ejecución del proyecto, permitiendo una exploración exhaustiva y análisis detallados. Además, la diversidad de información presente en este conjunto de datos ofrece una oportunidad única para aplicar una variedad de técnicas avanzadas de minería de datos, como clasificación, regresión, clustering y asociación. Estas técnicas permitirán extraer conocimientos valiosos que contribuirán a la comprensión integral de los factores que influyen en el rendimiento académico de los estudiantes colombianos, respaldando así la toma de decisiones informadas en el ámbito educativo.

Vista rápida de los Datos

Algunas observaciones interesantes

Distribución de los puntajes en las pruebas Saber
Score Distribution Chart

¿Influyen las caracteristicas de la familia en los resultados?

Estrato vivienda
Estrato vivienda Chart
Personas hogar
Personas hogar Chart
Tiene internet
Tiene internet Chart
Tiene servicio TV
Tiene servicio tv Chart
Tiene Computador
Tiene computador Chart
Tiene horno microondas o gas
Tiene horno microondas o gas Chart
Tiene automovil
Tiene automovil Chart
Tiene motocicleta
Tiene motocicleta Chart
Tiene consola de videojuegos
Tiene consola de videojuegos Chart
Numero de libros
Numero de libros Chart
Come leche o derivados
Come leche o derivados Chart
Come cereal, frutos o legumbre
Come cereal, frutos o legumbre Chart
Come carne, pescado o huevo
Come carne, pescado o huevo Chart
Situación económicoa
Situación económicaChart

Analizando los datos de las pruebas Saber 11 del año 2020 en los aspectos relacionados con la familia, que si bien son factores que pueden influir en el rendimiento académico de los estudiantes, no parecen ser por si solos hacer la diferencia. Sabemos estos factores pueden ser determinantes en la calidad de vida y el acceso a recursos y oportunidades que impactan directamente en el desempeño académico. Por tanto es pertienente revisar si la combianción de estos factores tiene el impacto significativo en el rendimiento académico esperado.


Hipótesis

Algunas ideas que queremos explorar

A partir de la exploración inicial de los datos, se plantean las siguientes hipótesis que se buscarán validar a través de la aplicación de técnicas de minería de datos:

1. El rendimiento académico de los estudiantes está influenciado por factores socioeconómicos, como el estrato socioeconómico, el número de personas en el hogar, la disponibilidad de servicios como internet, televisión, computador, entre otros, y la situación económica de la familia.

2. Las características de las instituciones educativas, como el tipo, la jornada, la ubicación y el tamaño, tienen un impacto significativo en el rendimiento académico de los estudiantes.

3. Existen patrones y tendencias en los puntajes obtenidos en las diferentes áreas de las pruebas Saber 11, que permiten identificar grupos de estudiantes con desempeños similares y establecer relaciones entre las variables presentes en el conjunto de datos.

4. La aplicación de técnicas de minería de datos, como clasificación, regresión, clustering y asociación, permitirá identificar patrones, tendencias y relaciones ocultas en los datos que contribuirán a la comprensión integral de los factores que influyen en el rendimiento académico de los estudiantes colombianos.


Objetivos para la estimación

1. Identificar la influencia de variables socioeconómicas familiares en la probabilidad de aprobación de las pruebas Saber 11.

2. Evaluar el rendimiento de distintos modelos en la predicción de la aprobación de las pruebas Saber 11 a partir de características familiares

3. Determinar la probabilidad de que un estudiante quede en cierto cuartil teniendo en cuenta las variables familiares y el departamento donde este reside.

Modelo 1 - Regresión Logística

Detalles

Detalles sobre la selección inicial del modelo

Para el primer modelo, se optó por utilizar regresión logística debido a su capacidad para predecir una variable binaria, como es el caso de la aprobación o no aprobación de las pruebas Saber 11. Se ajustaron los datos creando una nueva columna que indica si el puntaje global es mayor o igual a 300, clasificándolo como aprobado, o menor a 300, clasificándolo como no aprobado. El modelo fue entrenado para predecir si un estudiante aprobará o no la prueba basándose en características socioeconómicas familiares.

Métricas

Métodos de validación y métricas empleadas

🎯

Accuracy

85.54%

La exactitud (Accuracy) representa la proporción de predicciones correctas realizadas por el modelo sobre el total de predicciones. En este caso, el 85.54% de las predicciones fueron correctas.

🔄

Recall

Clase Negativa (No Aprobado) Clase Positiva (Aprobado)
Recall 98.02% 19.01%

El Recall representa la proporción de casos positivos que fueron correctamente identificados por el modelo. Los valores indican que se identificaron correctamente el 98.02% de los casos negativos (no aprobado) y el 19.01% de los casos positivos (aprobado).

Precisión

Clase Negativa (No Aprobado) Clase Positiva (Aprobado)
Precisión 86.58% 64.24%

La Precisión representa la proporción de casos positivos clasificados correctamente por el modelo sobre el total de casos positivos predichos. Los valores indican que el 86.58% de los casos negativos (no aprobado) y el 64.24% de los casos positivos (aprobado) fueron clasificados correctamente.

🪢

Matriz de Confusión

Predicción Negativa Predicción Positiva
Real Negativa 83345 1687
Real Positiva 12912 3031

La matriz de confusión muestra el desempeño del modelo al clasificar las instancias en cada una de las clases. En este caso, la primera fila representa las instancias verdaderamente negativas y la segunda fila representa las instancias verdaderamente positivas. Las columnas representan las instancias clasificadas por el modelo como negativas y positivas, respectivamente.

  • Se utilizó la métrica de precisión (precision) para evaluar la proporción de casos clasificados como positivos que realmente lo son, y el recall para evaluar la proporción de casos positivos que fueron correctamente identificados por el modelo.
  • La precisión y el recall se calcularon tanto para la clase positiva (aprobado) como para la clase negativa (no aprobado).
  • Se empleó la métrica de exactitud (accuracy) para evaluar la proporción de predicciones correctas realizadas por el modelo en relación con el total de predicciones.
  • Se utilizó la matriz de confusión para visualizar el desempeño del modelo en la clasificación de los casos.

Conclusiones Preliminares

Después de analizar las métricas obtenidas de nuestro modelo de regresión logística aplicado a los datos de las pruebas Saber 11 del año 2020, podemos destacar lo siguiente:

  1. La tasa de recall para la clase positiva (aprobado) fue baja, lo que indica que el modelo tuvo dificultades para identificar correctamente los casos de estudiantes que aprobaron las pruebas Saber 11.
  2. A pesar de la alta precisión para la clase negativa (no aprobado), el modelo cometió un número considerable de falsos negativos, lo que sugiere que podría haber variables adicionales que influyen en la aprobación de las pruebas Saber 11 y que no fueron consideradas en este primer análisis.
  3. Es importante tener en cuenta el desequilibrio de clases en los datos. Dado que hay muchos más casos de estudiantes no aprobados que aprobados (424974 contra 79898), el modelo puede tener una precisión alta simplemente prediciendo que todos los estudiantes no aprobaron. Esto subraya la importancia de evaluar el modelo utilizando otras métricas, como el recall y la matriz de confusión, para tener una evaluación más completa de su efectividad.

Modelo 2 - Random Forest

Detalles

Detalles sobre la selección inicial del modelo

Para esta segunda instancia se optó por utilizar un modelo de Random Forest, el cual permite clasificar instancias en función de un conjunto de características. En este caso, se entrenó el modelo para predecir, teniendo en cuenta las características familiares y el departamento de residencia, si un estudiante quedará en cierto cuartil de rendimiento académico. Se consideraron los cuartiles de puntaje global obtenidos en las pruebas Saber 11 para clasificar a los estudiantes en cuatro grupos: bajo, básico, alto y superior.

Nota: Los parámetros usado para el modelo fueron los siguientes:

  • max_depth = 50
  • n_estimators = 50
  • random_state = 42

Se realizaron algunas pruebas con diferentes valores de los parámetros, a partir de aquí los aumentos en max_depth y n_estimators no mejoraron significativamente el desempeño del modelo, por lo que se decidió mantener estos valores.

Métricas

Métodos de validación y métricas empleadas

🎯

Accuracy

40.15%

La exactitud (Accuracy) representa la proporción de predicciones correctas realizadas por el modelo sobre el total de predicciones. En este caso, el 40.15% de las predicciones fueron correctas. Lo cual sugiere que el modelo es capaz de predecir correctamente el cuartil de rendimiento académico en aproximadamente 4 de cada 10 casos. Esta precisión no es muy alta, lo que indica que el modelo tiene dificultades para distinguir correctamente entre los cuartiles.

🔄

Recall

Primer Cuartil (Bajo) Segundo Cuartil (Básico) Tercer Cuartil (Alto) Cuarto Cuartil (Superior)
Recall 54.75% 25.02% 25.52% 55.68%

El Recall representa la proporción de casos positivos que fueron correctamente identificados por el modelo. Los valores indican que se identificaron correctamente el 54.75% de los casos en el primer cuartil (bajo), el 25.02% de los casos en el segundo cuartil (básico), el 25.52% de los casos en el tercer cuartil (alto) y el 55.68% de los casos en el cuarto cuartil (superior).

El modelo tiene un mejor desempeño en la identificación de los estudiantes en el primer y cuarto cuartil, mientras que tiene dificultades para distinguir entre los estudiantes en el segundo y tercer cuartil.

Precisión

Primer Cuartil (Bajo) Segundo Cuartil (Básico) Tercer Cuartil (Alto) Cuarto Cuartil (Superior)
Precisión 45.58% 30.68% 30.52% 48.39%

La Precisión representa la proporción de casos positivos clasificados correctamente por el modelo sobre el total de casos positivos predichos. Los valores indican que el 45.58% de los casos en el primer cuartil (bajo), el 30.68% de los casos en el segundo cuartil (básico), el 30.52% de los casos en el tercer cuartil (alto) y el 48.39% de los casos en el cuarto cuartil (superior) fueron clasificados correctamente.

🪢

Matriz de Confusión

Predicción Primer Cuartil (Bajo) Predicción Segundo Cuartil (Básico) Predicción Tercer Cuartil (Alto) Predicción Cuarto Cuartil (Superior)
Real Primer Cuartil (Bajo) 18621 11739 7361 3132
Real Segundo Cuartil (Básico) 7394 8537 7431 4467
Real Tercer Cuartil (Alto) 4976 7602 8678 7174
Real Cuarto Cuartil (Superior) 3020 6240 10534 18558

La matriz de confusión muestra el desempeño del modelo al clasificar las instancias en cada una de las clases. En este caso, las filas representan las instancias verdaderamente en cada cuartil y las columnas representan las instancias clasificadas por el modelo en cada cuartil.

  • Se utilizó la métrica de precisión (precision) para evaluar la proporción de casos clasificados como positivos que realmente lo son, y el recall para evaluar la proporción de casos positivos que fueron correctamente identificados por el modelo.
  • La precisión y el recall se calcularon para cada uno de los cuartiles de rendimiento académico.
  • Se empleó la métrica de exactitud (accuracy) para evaluar la proporción de predicciones correctas realizadas por el modelo en relación con el total de predicciones.
  • Se utilizó la matriz de confusión para visualizar el desempeño del modelo en la clasificación de los casos.

Conclusiones Preliminares

Después de analizar las métricas obtenidas de nuestro modelo de Random Forest aplicado a los datos de las pruebas Saber 11 del año 2020, podemos destacar lo siguiente:

  1. El modelo muestra un rendimiento moderado a bajo en términos de precisión y recall, especialmente en los cuartiles intermedios (segundo y tercero).
  2. Las predicciones del primer y cuarto cuartil son más precisas y sensibles en comparación con los otros dos. Esto podría indicar que hay una mayor diferenciación entre los estudiantes en los extremos de la distribución de puntajes.
  3. La matriz de confusión sugiere que muchas instancias están siendo clasificadas incorrectamente, lo cual puede ser un indicativo de que las características utilizadas (familiares y departamento de residencia) no son suficientes para predecir de manera efectiva el cuartil de rendimiento académico.

Tabla de resultados

Departamento Bajo Básico Alto Superior
AMAZONAS 42.34% 26.48% 18.89% 12.29%
ANTIOQUIA 25.91% 25.27% 24.98% 23.83%
ARAUCA 33.31% 27.62% 22.60% 16.46%
ATLANTICO 25.92% 25.84% 24.77% 23.47%
BOGOTÁ 14.57% 21.03% 27.54% 36.86%
BOLIVAR 32.23% 26.11% 22.38% 19.28%
BOYACA 23.31% 25.25% 25.71% 25.73%
CALDAS 25.10% 25.98% 25.35% 23.56%
CAQUETA 29.29% 27.56% 24.18% 18.97%
CASANARE 27.60% 27.05% 24.45% 20.89%
CAUCA 34.06% 27.39% 22.45% 16.10%
CESAR 28.97% 26.64% 24.13% 20.26%
CHOCO 37.37% 26.50% 20.75% 15.38%
CORDOBA 33.75% 27.82% 22.40% 16.02%
CUNDINAMARCA 19.90% 24.28% 27.27% 28.55%
EXTRANJERO 27.50% 33.65% 25.09% 13.76%
GUAINIA 40.85% 25.71% 19.14% 14.30%
GUAVIARE 31.60% 27.30% 23.62% 17.47%
HUILA 27.56% 27.10% 24.72% 20.62%
LA GUAJIRA 33.80% 25.33% 21.76% 19.12%
MAGDALENA 31.39% 26.71% 23.25% 18.65%
META 22.78% 25.48% 25.93% 25.80%
NARIÑO 27.73% 27.08% 24.94% 20.25%
NORTE SANTANDER 24.78% 26.50% 25.74% 22.98%
PUTUMAYO 30.83% 27.47% 24.00% 17.69%
QUINDIO 22.70% 25.57% 26.31% 25.42%
RISARALDA 21.75% 24.85% 26.24% 27.16%
SAN ANDRES 24.00% 24.78% 26.18% 25.03%
SANTANDER 21.52% 24.84% 26.51% 27.12%
SUCRE 30.44% 27.37% 23.78% 18.40%
TOLIMA 25.23% 25.99% 25.64% 23.14%
VALLE 24.39% 26.58% 26.69% 22.34%
VAUPES 43.49% 26.40% 18.10% 12.01%
VICHADA 41.77% 27.40% 19.67% 11.16%