sábado, 6 de julio de 2019

Data Science: Visualización básica de un dataset: Scatterplot (nube de puntos)

Los plots son representaciones gráficas de los datos. Vamos a ver cómo crear un scatterplot (nube de puntos).

Lo primero es abrir nuestro editor y cargar un fichero de datos, como siempre:

%config IPCompleter.greedy=True
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv("python-ml-course-master/datasets/customer-churn-model/Customer Churn Model.txt")

Comprobamos que el fichero está bien cargado haciendo un head():


Ahora ejecutamos el siguiente comando:
%matplotlib inline

Esto hará que, cada vez que ejecutemos el comando que cree la gráfica de datos, nos muestre la gráfica inmediatamente debajo. Si no lo ejecutamos, tendremos que abrir la gráfica a parte.

A continuación creamos una gráfica de nube de puntos entre las columnas "Day Mins" y "Day Charge" del dataset con el siguiente comando:
data.plot(kind = "scatter", x = "Day Mins", y = "Day Charge")


Podemos ver que las dos variables correlacionan claramente.

También podemos crear una matriz de gráficas para mostrarlas todas juntas.

Vamos a crear una matriz de 2x2 gráficas con el siguiente comando:
figure, axs = plt.subplots(2, 2, sharex = True, sharey = True)

Y a continuación rellenamos cada gráfica de la matriz con el par de variables que queramos:
data.plot(kind = "scatter", x = "Day Mins", y = "Day Charge", ax = axs[0][0])
data.plot(kind = "scatter", x = "Night Mins", y = "Night Charge", ax = axs[0][1])
data.plot(kind = "scatter", x = "Day Calls", y = "Day Charge", ax = axs[1][0])
data.plot(kind = "scatter", x = "Night Calls", y = "Night Charge", ax = axs[1][1])

Y observamos los resultados:


Como se puede comprobar, algunas variables correlacionan y otras no.

Por último, podemos guardar las gráficas generadas como imagen en cualquier formato en nuestro PC con el siguiente comando:
savefig("ruta.jpeg")

Y eso es todo.

No hay comentarios:

Publicar un comentario