Vamos a ver un poco de teoría de Clustering y el concepto de Distancia:
El Clustering es sinónimo de clasificar y agrupar datos (agrupando a los parecidos y separando a los diferentes) según su distancia entre sí (si los datos son parecidos o diferentes entre sí).
Distancia de Manhattan --> Distancia en manzanas o cuadrados.
Distancia Euclídea --> Distancia en línea recta o teorema de Pitágoras.
Distancia de Minkowski --> Puede generar cualquiera de las dos distancias anteriores.
Siempre hay que normalizar las distancias para que todas las variables tengan el mismo peso.
Y eso es todo.
No hay comentarios:
Publicar un comentario