Operações Estatísticas
Realizar diversas operações estatísticas em arrays é fundamental para análise de dados e aprendizado de máquina. O NumPy oferece funções e métodos para executá-las de forma eficiente.
Medidas de Tendência Central
Medidas de tendência central representam um valor central ou representativo dentro de uma distribuição de probabilidade. Na maioria das vezes, no entanto, esses cálculos são feitos para uma determinada amostra.
Aqui estão as duas principais medidas:
- Média: a soma de todos os valores dividida pelo número total de valores;
- Mediana: o valor central em uma amostra ordenada.
O NumPy fornece as funções mean() e median() para calcular, respectivamente, a média e a mediana:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Também exibimos a amostra ordenada para que seja possível visualizar claramente a mediana. Nossa amostra possui um número ímpar de elementos (7), portanto, a mediana é simplesmente o elemento no índice (n + 1) / 2 na amostra ordenada, onde n é o tamanho da amostra.
Quando a amostra possui um número par de elementos, a mediana é a média dos elementos nos índices n / 2 e n / 2 - 1 na amostra ordenada.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Nossa amostra já está ordenada e possui 8 elementos, então n / 2 - 1 = 3 e sample[3] é 10. n / 2 = 4 e sample[4] é 15. Portanto, nossa mediana é (10 + 15) / 2 = 12.5.
Medidas de Dispersão
Duas medidas de dispersão são a variância e o desvio padrão. Variância mede o quão dispersos estão os dados. Ela é igual à média das diferenças quadráticas de cada valor em relação à média.
Desvio padrão é a raiz quadrada da variância. Ele fornece uma medida de dispersão dos dados nas mesmas unidades dos dados.
O NumPy possui a função var() para calcular a variância da amostra e a função std() para calcular o desvio padrão da amostra:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Cálculos em Arrays de Dimensões Superiores
Todas essas funções possuem um segundo parâmetro axis. O valor padrão é None, o que significa que a medida será calculada ao longo de um array achatado (mesmo que o array original seja 2D ou de dimensões superiores).
Também é possível especificar o eixo exato ao longo do qual a medida será calculada:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
A imagem abaixo mostra a estrutura do array exam_scores utilizado na tarefa:
Swipe to start coding
Você está analisando o array exam_scores, um array 2D de notas simuladas para 2 estudantes (2 linhas) em 5 exames diferentes (5 colunas).
- Calcule a média das notas para cada estudante especificando o segundo argumento nomeado.
- Calcule a mediana de todas as notas.
- Calcule a variância de todas as notas.
- Calcule o desvio padrão de todas as notas.
Solução
Obrigado pelo seu feedback!
single
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Can you explain how to interpret the results of the mean and median calculations?
What is the difference between variance and standard deviation in practical terms?
How does the axis parameter affect calculations on higher dimensional arrays?
Awesome!
Completion rate improved to 3.7
Operações Estatísticas
Deslize para mostrar o menu
Realizar diversas operações estatísticas em arrays é fundamental para análise de dados e aprendizado de máquina. O NumPy oferece funções e métodos para executá-las de forma eficiente.
Medidas de Tendência Central
Medidas de tendência central representam um valor central ou representativo dentro de uma distribuição de probabilidade. Na maioria das vezes, no entanto, esses cálculos são feitos para uma determinada amostra.
Aqui estão as duas principais medidas:
- Média: a soma de todos os valores dividida pelo número total de valores;
- Mediana: o valor central em uma amostra ordenada.
O NumPy fornece as funções mean() e median() para calcular, respectivamente, a média e a mediana:
12345678import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
Também exibimos a amostra ordenada para que seja possível visualizar claramente a mediana. Nossa amostra possui um número ímpar de elementos (7), portanto, a mediana é simplesmente o elemento no índice (n + 1) / 2 na amostra ordenada, onde n é o tamanho da amostra.
Quando a amostra possui um número par de elementos, a mediana é a média dos elementos nos índices n / 2 e n / 2 - 1 na amostra ordenada.
1234import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
Nossa amostra já está ordenada e possui 8 elementos, então n / 2 - 1 = 3 e sample[3] é 10. n / 2 = 4 e sample[4] é 15. Portanto, nossa mediana é (10 + 15) / 2 = 12.5.
Medidas de Dispersão
Duas medidas de dispersão são a variância e o desvio padrão. Variância mede o quão dispersos estão os dados. Ela é igual à média das diferenças quadráticas de cada valor em relação à média.
Desvio padrão é a raiz quadrada da variância. Ele fornece uma medida de dispersão dos dados nas mesmas unidades dos dados.
O NumPy possui a função var() para calcular a variância da amostra e a função std() para calcular o desvio padrão da amostra:
1234567import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
Cálculos em Arrays de Dimensões Superiores
Todas essas funções possuem um segundo parâmetro axis. O valor padrão é None, o que significa que a medida será calculada ao longo de um array achatado (mesmo que o array original seja 2D ou de dimensões superiores).
Também é possível especificar o eixo exato ao longo do qual a medida será calculada:
12345678import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
A imagem abaixo mostra a estrutura do array exam_scores utilizado na tarefa:
Swipe to start coding
Você está analisando o array exam_scores, um array 2D de notas simuladas para 2 estudantes (2 linhas) em 5 exames diferentes (5 colunas).
- Calcule a média das notas para cada estudante especificando o segundo argumento nomeado.
- Calcule a mediana de todas as notas.
- Calcule a variância de todas as notas.
- Calcule o desvio padrão de todas as notas.
Solução
Obrigado pelo seu feedback!
single