Siguiendo con la entrada anterior, vamos a ver cómo validar nuestro modelo de predicción.
Lo primero que comentamos acerca de la validación de un modelo de predicción es que el dataset principal de datos debe dividirse en dos partes, la parte de training (con el 80% de los registros aproximadamente) y la parte de testing (con el 20% restante de registros).
Esto, como podemos comprobar, no lo hemos hecho. Hemos estado calculando modelos de predicción con el dataset completo, así que ahora vamos a corregirlo.
Creamos un nuevo notebook de Python y cargamos el dataset en un dataframe:
A continuación dividimos el dataframe en dos grupos, el de training y el de testing, con el 80% y el 20% (respectivamente) de los registros del dataframe original:
A continuación, creamos el modelo de predicción con las dos mejores variables predictoras (TV y Radio) sobre el dataframe de training:
Una vez crado el modelo, lo utilizamos para hacer una predicción sobre el dataframe de testing:
Una vez hecha la predicción, calculamos los errores de la misma:
Podemos comprobar que los resultados de ambos conjuntos (training y testing) son similares, así que el modelo parece ser válido.
Como apunte adicional, mostramos una tabla con los distintos modelos de predicción de ventas que hemos realizado, indicando las variables que hemos utilizado como predictoras, y sus estadísticos, para que se pueda ver de primera mano cómo varía el modelo dependiendo de las variables de predicción utilizadas:
Y eso es todo.
No hay comentarios:
Publicar un comentario