jueves, 18 de julio de 2019

Data Science: Generación de dummy DataFrames

Vamos a ver cómo generar DataFrames con datos dummys o generados al azar.

Lo primero es importar las librerías de siempre:


A continuación creamos un DataFrame (con la librería pandas) con una muestra de 1.000.000 de datos al azar (con la librería numpy) y tres columnas:
A: Distribución normal con media 0 y desviación típica 1.
B: Distribución normal con media 1,5 y desviación típica 2,5.
C: Distribución uniforme con valores entre 5 y 32.


Comprobamos que el DataFrame se crea correctamente.

Ahora vamos a hacer lo mismo pero añadiendo campos de valor categórico.

Primero creamos las categorías, fijamos la muestra en 500 datos, y luego rellenamos las listas de datos con valores extraídos al azar (choice) de las categorías:


Luego creamos las variables no categóricas, o variables numéricas, como hicimos antes:


Por último, creamos el DataFrame simplemente añadiendo a cada columna su lista de valores asociada:


Comprobamos que funciona correctamente.

Y eso es todo.

No hay comentarios:

Publicar un comentario