martes, 19 de noviembre de 2019

Data Science: Clustering y Distancia (Teoría)

Vamos a ver un poco de teoría de Clustering y el concepto de Distancia:

El Clustering es sinónimo de clasificar y agrupar datos (agrupando a los parecidos y separando a los diferentes) según su distancia entre sí (si los datos son parecidos o diferentes entre sí).







 Distancia de Manhattan --> Distancia en manzanas o cuadrados.


Distancia Euclídea --> Distancia en línea recta o teorema de Pitágoras.


Distancia de Minkowski --> Puede generar cualquiera de las dos distancias anteriores.



Siempre hay que normalizar las distancias para que todas las variables tengan el mismo peso.


Y eso es todo.

No hay comentarios:

Publicar un comentario