Agrupación jerárquica vs particional
La agrupación es una técnica de aprendizaje automático para analizar datos y dividirse en grupos de datos similares. Estos grupos o conjuntos de datos similares se conocen como grupos. El análisis de clúster analiza los algoritmos de agrupación que pueden identificar grupos automáticamente. Jerárquico y Partición son dos de esas clases de algoritmos de agrupación. Los algoritmos de agrupación jerárquica rompen los datos en una jerarquía de grupos. Los algoritmos de parte dividen el conjunto de datos en particiones mutuamente disjuntas.
¿Qué es la agrupación jerárquica??
Los algoritmos de agrupación jerárquica repiten el ciclo de fusionar grupos más pequeños en los más grandes o dividir los grupos más grandes a los más pequeños. De cualquier manera, produce una jerarquía de grupos llamado dendograma. La estrategia de agrupación aglomerativa utiliza el enfoque ascendente de fusionar grupos en otros más grandes, mientras que la estrategia de agrupación divisiva utiliza el enfoque de arriba hacia abajo para dividir a los más pequeños. Por lo general, el enfoque codicioso se usa para decidir qué grupos más grandes/más pequeños se usan para fusionar/dividir. La distancia euclidiana, la distancia de Manhattan y la similitud de coseno son algunas de las métricas de similitud más utilizadas para los datos numéricos. Para datos no numéricos, se usan métricas como la distancia de hamming. Es importante tener en cuenta que las observaciones reales (instancias) no son necesarias para la agrupación jerárquica, porque solo la matriz de distancias es suficiente. Dendogram es una representación visual de los clústeres, que muestra la jerarquía muy claramente. El usuario puede obtener diferentes agrupaciones dependiendo del nivel en el que se corta el dendograma.
¿Qué es la agrupación particional??
Los algoritmos de agrupación divisoria generan varias particiones y luego las evalúan por algún criterio. También se les conoce como no jerárquicos, ya que cada instancia se coloca en uno de los grupos mutuamente excluyentes. Debido a que solo un conjunto de clústeres es la salida de un algoritmo de agrupación particionada típica, se requiere que el usuario ingrese el número deseado de grupos (generalmente llamados k). Uno de los algoritmos de agrupación particionados más utilizados es el algoritmo de agrupación K-means. Se requiere que el usuario proporcione el número de grupos (k) antes de comenzar y el algoritmo inicia primero los centros (o centroides) de las particiones K. En pocas palabras, el algoritmo de agrupación de K-means asigna miembros basados en los centros actuales y restablece los centros basados en los miembros actuales. Estos dos pasos se repiten hasta que se optimiza una determinada función objetivo de similitud intra-clúster y la función objetivo de disimilitud entre clúster. Por lo tanto, la inicialización sensible de los centros es un factor muy importante para obtener resultados de calidad de los algoritmos de agrupación particional.
¿Cuál es la diferencia entre la agrupación jerárquica y particionada??
La agrupación jerárquica y particional tiene diferencias clave en el tiempo de ejecución, los supuestos, los parámetros de entrada y los grupos resultantes. Por lo general, la agrupación particional es más rápida que la agrupación jerárquica. La agrupación jerárquica requiere solo una medida de similitud, mientras que la agrupación particionada requiere suposiciones más fuertes, como el número de grupos y los centros iniciales. La agrupación jerárquica no requiere ningún parámetros de entrada, mientras que los algoritmos de agrupación particionada requieren que el número de clústeres comience a ejecutar. La agrupación jerárquica devuelve una división mucho más significativa y subjetiva de los grupos, pero la agrupación particional da como resultado exactamente k clústeres. Los algoritmos de agrupación jerárquica son más adecuados para datos categóricos siempre que se pueda definir una medida de similitud en consecuencia.