Aprende Operaciones Estadísticas | Matemáticas con NumPy

Realizar diversas operaciones estadísticas en arreglos es fundamental para el análisis de datos y el aprendizaje automático. NumPy proporciona funciones y métodos para ejecutarlas de manera eficiente.

Medidas de tendencia central

Las medidas de tendencia central representan un valor central o representativo dentro de una distribución de probabilidad. Sin embargo, la mayoría de las veces, estos valores se calculan para una muestra determinada.

Aquí están las dos principales medidas:

Media: la suma de todos los valores dividida por el número total de valores;
Mediana: el valor central en una muestra ordenada.

NumPy proporciona las funciones mean() y median() para calcular la media y la mediana, respectivamente:


              12345678
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the mean
sample_mean = np.mean(sample)
print(f'Sorted sample: {np.sort(sample)}')
# Calculating the median
sample_median = np.median(sample)
print(f'Mean: {sample_mean}, median: {sample_median}')

También mostramos la muestra ordenada para que puedas ver claramente la mediana. Nuestra muestra tiene un número impar de elementos (7), por lo que la mediana es simplemente el elemento en el índice (n + 1) / 2 en la muestra ordenada, donde n es el tamaño de la muestra.

Nota

Cuando la muestra tiene un número par de elementos, la mediana es el promedio de los elementos en los índices n / 2 y n / 2 - 1 en la muestra ordenada.


              1234
            
import numpy as np
sample = np.array([1, 2, 8, 10, 15, 20, 25, 30])
sample_median = np.median(sample)
print(f'Median: {sample_median}')

Nuestra muestra ya está ordenada y tiene 8 elementos, por lo que n / 2 - 1 = 3 y sample[3] es 10. n / 2 = 4 y sample[4] es 15. Por lo tanto, la mediana es (10 + 15) / 2 = 12.5.

Medidas de dispersión

Dos medidas de dispersión son la varianza y la desviación estándar. La varianza mide cuán dispersos están los datos. Es igual al promedio de las diferencias al cuadrado de cada valor respecto a la media.

La desviación estándar es la raíz cuadrada de la varianza. Proporciona una medida de dispersión en las mismas unidades que los datos.

NumPy tiene la función var() para calcular la varianza de la muestra y la función std() para calcular la desviación estándar de la muestra:


              1234567
            
import numpy as np
sample = np.array([10, 25, 15, 30, 20, 10, 2])
# Calculating the variance
sample_variance = np.var(sample)
# Calculating the standard deviation
sample_std = np.std(sample)
print(f'Variance: {sample_variance}, standard deviation: {sample_std}')

Cálculos en arreglos de mayor dimensión

Todas estas funciones tienen un segundo parámetro axis. Su valor predeterminado es None, lo que significa que la medida se calculará a lo largo de un arreglo aplanado (incluso si el arreglo original es 2D o de mayor dimensión).

También se puede especificar el eje exacto a lo largo del cual calcular la medida:


              12345678
            
import numpy as np
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
# Calculating the mean in a flattened array
print(np.mean(array_2d))
# Calculating the mean along axis 0
print(np.mean(array_2d, axis=0))
# Calculating the mean along axis 1
print(np.mean(array_2d, axis=1))

La imagen a continuación muestra la estructura del arreglo exam_scores utilizado en la tarea:

Tarea

Swipe to start coding

Está analizando el arreglo exam_scores, un arreglo 2D de calificaciones simuladas para 2 estudiantes (2 filas) en 5 exámenes diferentes (5 columnas).

Calcule la media de las calificaciones para cada estudiante especificando el segundo argumento de palabra clave.
Calcule la mediana de todas las calificaciones.
Calcule la varianza de todas las calificaciones.
Calcule la desviación estándar de todas las calificaciones.

Solución

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 4. Capítulo 3

single

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Suggested prompts:

Can you explain how to interpret the results of the mean and median calculations?

What is the difference between variance and standard deviation in practical terms?

How does the axis parameter affect calculations on higher dimensional arrays?

Desliza para mostrar el menú