lunes, 22 de julio de 2019

Data Science: Agregación de datos, Filtrados, Transformaciones, etc.

Siguiendo con el ejercicio anterior, vamos a ver como podemos realizar cálculos con los valores de las columnas.

Lo primero que podemos probar es hacer la suma de todos los campos, que se realizará y mostrará por los grupos en los que hemos agrupado el dataframe:


También podemos obtener la media de cada grupo:


Y la cantidad de registros o líneas de cada grupo:


También podemos utilizar la función "describe" (que ya utilizamos anteriormente) para obtener los estadísticos básicos del dataframe, solo que aquí serán mostrados para cada grupo:


Podemos obtener los datos de uno sólo de los grupos y calcular sus estadísticos básicos también:


Podemos realizar una agregación de datos (añadir y realizar cálculos con los valores de las columnas) con la función "aggregate".
Por ejemplo, vamos a realizar un cálculo para 3 columnas del dataframe.
Para la columna ingresos, calculamos la suma de todos los ingresos.
Para la columna edad, calculamos la media de todas las edades.
Para la columna altura, calculamos la desviación típica de todas las alturas.
Este sería el resultado, mostrado por grupos:


Para la agregación de datos también podemos utilizar una función lambda.
Por ejemplo, vamos a realizar la tipificación de la altura (la media entre la desviación típica):


También podemos realizar la agregación de datos para todo el dataframe y no sólo para una columna:


Y por supuesto, podemos utilizar también las funciones lambda:


Podemos realizar filtrados de datos.
Por ejemplo, vamos a obtener el campo edad y vamos a hacer que nos muestre aquellos cuya suma sea más de 2.400:


Realizamos la tipificación (dividir entre desviación típica y restar media) del dataframe entero:


Otras operaciones útiles que podemos realizar es obtener el primer y último registro de cada grupo:


U obtener el registro exacto que esté en la posición nº32 de cada grupo:


Obviamente, para estas últimas operaciones es conveniente ordenar primero el dataframe en base a algún criterio de interés.
Por ejemplo, vamos a ordenar el dataset por edad e ingresos, luego los agrupamos por género, y por último obtenemos el último registro de cada grupo:


Y eso es todo.

No hay comentarios:

Publicar un comentario