viernes, 25 de octubre de 2019

Data Science: Regresión Lineal: Multicolinealidad

Siguiendo con el ejemplo anterior, vamos ver cómo podemos solucionar uno de los problemas de la correlación lineal múltiple, la multicolinealidad.

La multicolinealidad es un problema por el cual dos o más de las variables predictoras, además de correlacionar con la variable a predecir, también correlacionan entre sí. Si la correlación es muy alta, la inclusión de ambas variables en el modelo predictor puede provocar errores, así que para el modelo final deberíamos quedarnos sólo con una de esas variables, la que sea el mejor predictora por sí misma.

En el ejemplo anterior, comprobamos que el modelo predictor de ventas no se comportaba muy bien cuando incluíamos las tres variables predictoras (TV, Radio y Newspaper), e incluso funcionaba mejor cuando sólo había dos variables en los modelos (TV y Radio) (TV y Newspaper) así que sospechamos que puede haber un problema de multicolinealidad entre la Radio y el Newspaper.

Para comprobar cómo de correlacionadas están las variables predictoras entre sí, calculamos el VIF (Factor de Inflación de la Varianza) para cada una de ellas.

Para calcular el VIF de una variable, necesitamos obtener el estadístico R cuadrado del resultado de una regresión lineal utilizando la variable cuyo VIF vamos a calcular como la variable a predecir, y el resto de variables como predictoras. Una vez calculado el R cuadrado de esta nueva regresión, calculamos el VIF como sigue:

VIF = 1 / (1 - R^2)

El resultado de este cálculo nos puede indicar lo siguiente:

VIF = 1: No existe correlación de esa variable con ninguna otra del modelo.
VIF >1 y <5: Existe una correlación moderada, pero la variable puede estar en el modelo.
VIF >5: Existe una correlación muy grande entre variables y una de ellas debería desaparecer del modelo.

Vamos a calcular el VIF de cada una de nuestras 3 variables predictoras del modelo:


Como podemos ver, la variable TV muestra un VIF de casi 1, lo que significa que prácticamente no correlaciona con ninguna otra. Las variables Radio y Newspaper tienen un VIF de 1,5 aproximadamente, lo que significa que correlacionan entre sí de forma moderada, y es la causa de que el modelo predictivo se comporte ligeramente mejor con dos variables (TV y Radio o TV y Newspaper) que con las tres. Para perfeccionar el modelo predictivo, deberíamos quedarnos sólo con la TV y una sola de las otras dos (Radio o Newspaper), la combinación que mejor modelo produzca.

Y eso es todo.

No hay comentarios:

Publicar un comentario