viernes, 16 de agosto de 2019

Python: Crear un dataframe desde HTML y Excel

Vamos a ver cómo crear un dataframe desde una página web y desde un archivo Excel:
Vamos a verlo con códigos de ejemplo:

## HTML y EXCEL ##

# Importamos la librería pandas:
import pandas as pd

# Guardamos la url de una web que contenga una tabla con datos dentro de una variable:
url = 'https://es.wikipedia.org/wiki/Anexo:Finales_de_la_Copa_Mundial_de_F%C3%BAtbol'

# Creamos un dataframe con los datos de la tabla de esa web:
dataframe = pd.io.html.read_html(url)

# Nos quedamos con la primera tabla de la web:
dataframeFutbol = dataframe[0]

# En el dataframe, los nombres de las columnas se encuentran en realidad en la primera fila de la tabla, y no en la cabecera, así que...
# Creamos un diccionario con la primera fila de datos y lo asignamos al dataframe como nuevos nombres de columnas:
dataframeFutbol = dataframeFutbol.rename(columns = dict(dataframeFutbol.loc[0]))

# Y eliminamos la primera fila de datos, que ya hemos colocado antes como nombres de las columnas:
dataframeFutbol = dataframeFutbol.drop(0)

# Eliminamos la columna 'Notas' y todos sus datos:
dataframeFutbol = dataframeFutbol.drop('Notas', axis = 1)

# Cargamos un fichero excel:
ficheroExcel = pd.ExcelFile('ruta fichero')

# Creamos un dataframe con la primera hoja del excel:
dataframe = ficheroExcel.parse('nombre hoja')

Y eso es todo.

No hay comentarios:

Publicar un comentario