viernes, 26 de julio de 2019

Data Science: Concatenar varios dataset en uno solo

Vamos a ver cómo podemos concatenar varios datasets (que tengan las mismas columnas) en uno sólo.

Si tenemos nuestros datos en varios ficheros diferentes, y todos ellos tienen exactamente las mismas columnas, podemos concatenarlos con Python en un sólo dataset.

Por ejemplo, tenemos dos ficheros de datos, uno para vinos blancos y otro para vinos rojos, ambos con las mismas columnas de datos. Primero cargamos los ficheros:


Y comprobamos que, efectivamente, tienen ambos las mismas columnas:


Los concatenamos de forma vertical utilizando la función "concat" de la librería pandas:


Ahora tendremos un solo dataset con todos los datos de ambos ficheros.

También existe la posibilidad de que tengamos muchísimos ficheros que concatenar. Podemos concatenarlos siempre que los nombres de los ficheros tengan algún orden lógico.

Por ejemplo, tenemos 332 ficheros cuyos nombres son: "001.csv", "002.csv", "003.csv", "004.csv", etc.
En este caso, basta con hacer un bucle en Python e ir concatenando todos utilizando la misma función anterior:


Y eso es todo.

No hay comentarios:

Publicar un comentario