jueves, 31 de octubre de 2019

Data Science: Regresión Lineal: Outliers y resumen

Vamos a ver el problema de los outliers en una regresión lineal y cómo solucionarlo. Y un pequeño resumen de las regresiones lineales hasta ahora:
Un outlier es lo que podríamos llamar una "excepción", es decir, un punto que se aleja mucho de la tendencia que sigue el resto. Los outliers se detectan muy rápidamente al pintar un gráfico.

Vamos a ver un ejemplo. Abrimos el dataset de los automóviles y pintamos una gráfica con la relación de las variables desplazamiento y consumo:


Como se puede ver, a pesar de que la mayoría de los datos siguen una tendencia general, hay unos pocos puntos que se alejan demasiado de los demás. Estos son los outliers.

Los outliers pueden provocar errores en el cálculo del modelo de predicción y restar a su precisión, así que lo conveniente es eliminarlos del dataframe.

Siguiendo con el ejemplo, vamos a construir una regresión lineal con todos los valores del dataset y a obtener su R cuadrado:


A continuación vamos a pintar la línea de predicciones del modelo sobre la gráfica de puntos, para ver cómo queda:


Ahora vamos a localizar y eliminar varios outliers del dataframe:


Y volvemos a calcular el modelo de regresión lineal, esta vez sin los outliers. También obtenemos el nuevo R cuadrado:


Como podemos comprobar, el R cuadrado ha mejorado un 2,5% aproximadamente simplemente por eliminar los outliers, así que vemos que por lo general es importante llevar a cabo esta comprobación.

Ahora volvemos a pintar la nueva línea de regresión sobre la gráfica de puntos:


Y eso sería todo. Ahora simplemente un pequeño resumen de las cosas que hay que tener en cuenta cada vez que hagamos una regresión lineal:


Los errores deben distribuirse aleatoriamente:


La varianza de los errores debe ser homoelástica:


Se deberían eliminar, además de los outliers, los puntos con elevado apalancamiento, que vienen a ser lo mismo, pero en el eje de las x, es decir, puntos que tienen un valor muy elevado en la variable predictora. En una gráfica de puntos se descubren también muy rápidamente porque estos puntos están muy a la derecha y muy separados de los demás (los outliers suelen detectarse por estar muy arriba o abajo, en el eje y). A continuación una fórmula para calcular el apalancamiento de cada punto (deberíamos eliminar los de valor muy alto):


Un poco de resumen final:


Y eso es todo.

No hay comentarios:

Publicar un comentario