martes, 23 de julio de 2019

Data Science: División de un dataset en conjunto de entrenamiento y pruebas

Vamos a ver cómo dividir un dataset en un conjunto para entrenamiento (training) y otro para pruebas (testing).

Lo primero, como siempre, es importar las librerías necesarias y cargar un dataset:


Nótese que, como novedad, esta vez importamos la librería "sklearn", que es la que utilizaremos para nuestro cometido.

Podemos utilizar una función propia de la librería para que nos haga la división del dataset, pasando como parámetro el porcentaje de registros que queremos para el conjunto de testing:


Como se puede ver, hemos dividido el dataset en dos variables:
"train", que se compondrá del 80% de los registros del dataset original, obtenidos al azar.
"test", que se compondrá del 20% del resto de registros del dataset original.

También podemos hacer la división de forma casera de la siguiente manera:


Como se puede ver, primero utilizamos el método "shuffle" sobre el dataset original para "barajarlo" u desordenar los registros, o aleatorizarlos.
Después creamos una variable en la que calculamos el 75% del tamaño del dataset.
Por último, creamos el conjunto de entrenamiento en el que guardamos todos los registros del dataset original desde el primero hasta el que se encuentra en la posición del 75%. Y creamos el conjunto de pruebas en el que guardamos todos los registros del dataset original desde la posición del 75% hasta el final.
De esta forma, tenemos un conjunto de entrenamiento con el 75% de registros y un conjunto de pruebas con el 25% restante de registros.

Y eso es todo.

No hay comentarios:

Publicar un comentario