Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Realización de Agrupamiento Jerárquico | Sección
Visualización Estadística con Seaborn

bookRealización de Agrupamiento Jerárquico

Un clustermap es una representación matricial que combina un mapa de calor con agrupamiento jerárquico.

Mientras que un mapa de calor estándar muestra los datos en una cuadrícula fija, un clustermap reordena las filas y columnas para colocar valores similares uno junto a otro. Los diagramas en forma de árbol en los ejes se llaman dendrogramas, y muestran cómo se agrupan los puntos de datos.

Parámetros clave

Para controlar cómo funciona el agrupamiento, se pueden utilizar los siguientes parámetros:

  • standard_scale: estandariza los datos (0 para filas, 1 para columnas) para que cada característica tenga una media de 0 y una varianza de 1. Esto es fundamental cuando las variables tienen diferentes unidades;
  • metric: la medida de distancia a utilizar (por ejemplo, 'euclidean', 'correlation'). Determina qué significa "similar";
  • method: el algoritmo de enlace a utilizar (por ejemplo, 'single', 'complete', 'average'). Determina cómo agrupar los clústeres.

Ejemplo

Aquí se muestra un clustermap del conjunto de datos Iris. Observe cómo las especies (filas) se agrupan automáticamente porque tienen mediciones similares.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Tarea

Swipe to start coding

Analizar los datos de pasajeros de vuelos para identificar similitudes entre los años.

  1. Establecer el estilo en 'ticks'. Cambiar el color de fondo a 'seagreen' ('figure.facecolor').
  2. Crear un clustermap utilizando el DataFrame upd_df reestructurado:
  • Usar upd_df como datos.
  • Normalizar las columnas configurando standard_scale en 1.
  • Utilizar agrupamiento con 'single' en method.
  • Emplear 'correlation' en metric.
  • Mostrar los valores en las celdas (annot=True).
  • Establecer los límites de valores: vmin=0 y vmax=10.
  • Utilizar el mapa de colores 'vlag'.
  1. Visualizar la gráfica.

Solución

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 17
single

single

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

close

bookRealización de Agrupamiento Jerárquico

Desliza para mostrar el menú

Un clustermap es una representación matricial que combina un mapa de calor con agrupamiento jerárquico.

Mientras que un mapa de calor estándar muestra los datos en una cuadrícula fija, un clustermap reordena las filas y columnas para colocar valores similares uno junto a otro. Los diagramas en forma de árbol en los ejes se llaman dendrogramas, y muestran cómo se agrupan los puntos de datos.

Parámetros clave

Para controlar cómo funciona el agrupamiento, se pueden utilizar los siguientes parámetros:

  • standard_scale: estandariza los datos (0 para filas, 1 para columnas) para que cada característica tenga una media de 0 y una varianza de 1. Esto es fundamental cuando las variables tienen diferentes unidades;
  • metric: la medida de distancia a utilizar (por ejemplo, 'euclidean', 'correlation'). Determina qué significa "similar";
  • method: el algoritmo de enlace a utilizar (por ejemplo, 'single', 'complete', 'average'). Determina cómo agrupar los clústeres.

Ejemplo

Aquí se muestra un clustermap del conjunto de datos Iris. Observe cómo las especies (filas) se agrupan automáticamente porque tienen mediciones similares.

12345678910111213141516171819
import seaborn as sns import matplotlib.pyplot as plt # Load dataset df = sns.load_dataset('iris') # Prepare matrix (drop non-numeric column for calculation) species = df.pop("species") # Create a clustermap sns.clustermap( data=df, standard_scale=1, # Normalize columns metric='euclidean', # Measure distance method='average', # clustering method cmap='viridis', figsize=(6, 6) ) plt.show()
copy
Tarea

Swipe to start coding

Analizar los datos de pasajeros de vuelos para identificar similitudes entre los años.

  1. Establecer el estilo en 'ticks'. Cambiar el color de fondo a 'seagreen' ('figure.facecolor').
  2. Crear un clustermap utilizando el DataFrame upd_df reestructurado:
  • Usar upd_df como datos.
  • Normalizar las columnas configurando standard_scale en 1.
  • Utilizar agrupamiento con 'single' en method.
  • Emplear 'correlation' en metric.
  • Mostrar los valores en las celdas (annot=True).
  • Establecer los límites de valores: vmin=0 y vmax=10.
  • Utilizar el mapa de colores 'vlag'.
  1. Visualizar la gráfica.

Solución

Switch to desktopCambia al escritorio para practicar en el mundo realContinúe desde donde se encuentra utilizando una de las siguientes opciones
¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 17
single

single

some-alt