sábado, 20 de julio de 2019

Data Science: Agrupación de datos por categorías

Siguiendo con el ejercicio anterior, vamos a ver cómo agrupar los datos por los valores de una variable categórica.

Primero creamos una variable donde guardamos el dataframe con sus filas agrupadas por el atributo "Gender", y luego mostramos los grupos en pantalla:


Como se puede ver, nos ha creado dos grupos, "Male" y "Female", y nos muestra un resumen de qué filas del dataframe pertenecen a cada categoría.

Si queremos que nos muestre todos los datos del dataframe ordenados por las categorías, tenemos que hacerlo mediante un bucle, imprimiendo el nombre y los datos de cada grupo:


También podemos obtener sólo los datos pertenecientes a una de las categorías:


Y por supuesto, también podemos hacer una agrupación por varias columnas. Por ejemplo, agrupamos los datos por género y estatus económico, y mostramos el número de agrupaciones que ha realizado:


Como se puede ver, nos ha creado 6 grupos, producto de la combinación de los dos valores de la categoría "Gender" y los tres de la categoría "Economic Status".

Y eso es todo.

No hay comentarios:

Publicar un comentario