Vamos a ver cómo crear un dataframe desde una página web y desde un archivo Excel:
Vamos a verlo con códigos de ejemplo:
## HTML y EXCEL ##
# Importamos la librería pandas:
import pandas as pd
# Guardamos la url de una web que contenga una tabla con datos dentro de una variable:
url = 'https://es.wikipedia.org/wiki/Anexo:Finales_de_la_Copa_Mundial_de_F%C3%BAtbol'
# Creamos un dataframe con los datos de la tabla de esa web:
dataframe = pd.io.html.read_html(url)
# Nos quedamos con la primera tabla de la web:
dataframeFutbol = dataframe[0]
# En el dataframe, los nombres de las columnas se encuentran en realidad en la primera fila de la tabla, y no en la cabecera, así que...
# Creamos un diccionario con la primera fila de datos y lo asignamos al dataframe como nuevos nombres de columnas:
dataframeFutbol = dataframeFutbol.rename(columns = dict(dataframeFutbol.loc[0]))
# Y eliminamos la primera fila de datos, que ya hemos colocado antes como nombres de las columnas:
dataframeFutbol = dataframeFutbol.drop(0)
# Eliminamos la columna 'Notas' y todos sus datos:
dataframeFutbol = dataframeFutbol.drop('Notas', axis = 1)
# Cargamos un fichero excel:
ficheroExcel = pd.ExcelFile('ruta fichero')
# Creamos un dataframe con la primera hoja del excel:
dataframe = ficheroExcel.parse('nombre hoja')
Y eso es todo.
No hay comentarios:
Publicar un comentario