Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Operações Estatísticas | Matemática com NumPy
Numpy Definitivo

bookOperações Estatísticas

Realizar diversas operações estatísticas em arrays é fundamental para análise de dados e aprendizado de máquina. O NumPy oferece funções e métodos para executá-las de forma eficiente.

Medidas de Tendência Central

Medidas de tendência central representam um valor central ou representativo dentro de uma distribuição de probabilidade. Na maioria das vezes, no entanto, esses cálculos são feitos para uma determinada amostra.

Aqui estão as duas principais medidas:

  • Média: a soma de todos os valores dividida pelo número total de valores;
  • Mediana: o valor central em uma amostra ordenada.

O NumPy fornece as funções mean() e median() para calcular, respectivamente, a média e a mediana:

12345678
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
copy

Também exibimos a amostra ordenada para que seja possível visualizar claramente a mediana. Nossa amostra possui um número ímpar de elementos (7), portanto, a mediana é simplesmente o elemento no índice (n + 1) / 2 na amostra ordenada, onde n é o tamanho da amostra.

Note
Nota

Quando a amostra possui um número par de elementos, a mediana é a média dos elementos nos índices n / 2 e n / 2 - 1 na amostra ordenada.

1234
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
copy

Nossa amostra já está ordenada e possui 8 elementos, então n / 2 - 1 = 3 e sample[3] é 10. n / 2 = 4 e sample[4] é 15. Portanto, nossa mediana é (10 + 15) / 2 = 12.5.

Medidas de Dispersão

Duas medidas de dispersão são a variância e o desvio padrão. Variância mede o quão dispersos estão os dados. Ela é igual à média das diferenças quadráticas de cada valor em relação à média.

Desvio padrão é a raiz quadrada da variância. Ele fornece uma medida de dispersão dos dados nas mesmas unidades dos dados.

O NumPy possui a função var() para calcular a variância da amostra e a função std() para calcular o desvio padrão da amostra:

1234567
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
copy

Cálculos em Arrays de Dimensões Superiores

Todas essas funções possuem um segundo parâmetro axis. O valor padrão é None, o que significa que a medida será calculada ao longo de um array achatado (mesmo que o array original seja 2D ou de dimensões superiores).

Também é possível especificar o eixo exato ao longo do qual a medida será calculada:

12345678
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
copy

A imagem abaixo mostra a estrutura do array exam_scores utilizado na tarefa:

Tarefa

Swipe to start coding

Você está analisando o array exam_scores, um array 2D de notas simuladas para 2 estudantes (2 linhas) em 5 exames diferentes (5 colunas).

  1. Calcule a média das notas para cada estudante especificando o segundo argumento nomeado.
  2. Calcule a mediana de todas as notas.
  3. Calcule a variância de todas as notas.
  4. Calcule o desvio padrão de todas as notas.

Solução

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 3
single

single

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Suggested prompts:

Can you explain how to interpret the results of the mean and median calculations?

What is the difference between variance and standard deviation in practical terms?

How does the axis parameter affect calculations on higher dimensional arrays?

close

Awesome!

Completion rate improved to 3.7

bookOperações Estatísticas

Deslize para mostrar o menu

Realizar diversas operações estatísticas em arrays é fundamental para análise de dados e aprendizado de máquina. O NumPy oferece funções e métodos para executá-las de forma eficiente.

Medidas de Tendência Central

Medidas de tendência central representam um valor central ou representativo dentro de uma distribuição de probabilidade. Na maioria das vezes, no entanto, esses cálculos são feitos para uma determinada amostra.

Aqui estão as duas principais medidas:

  • Média: a soma de todos os valores dividida pelo número total de valores;
  • Mediana: o valor central em uma amostra ordenada.

O NumPy fornece as funções mean() e median() para calcular, respectivamente, a média e a mediana:

12345678
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the mean sample_mean = np.mean(sample) print(f'Sorted sample: {np.sort(sample)}') # Calculating the median sample_median = np.median(sample) print(f'Mean: {sample_mean}, median: {sample_median}')
copy

Também exibimos a amostra ordenada para que seja possível visualizar claramente a mediana. Nossa amostra possui um número ímpar de elementos (7), portanto, a mediana é simplesmente o elemento no índice (n + 1) / 2 na amostra ordenada, onde n é o tamanho da amostra.

Note
Nota

Quando a amostra possui um número par de elementos, a mediana é a média dos elementos nos índices n / 2 e n / 2 - 1 na amostra ordenada.

1234
import numpy as np sample = np.array([1, 2, 8, 10, 15, 20, 25, 30]) sample_median = np.median(sample) print(f'Median: {sample_median}')
copy

Nossa amostra já está ordenada e possui 8 elementos, então n / 2 - 1 = 3 e sample[3] é 10. n / 2 = 4 e sample[4] é 15. Portanto, nossa mediana é (10 + 15) / 2 = 12.5.

Medidas de Dispersão

Duas medidas de dispersão são a variância e o desvio padrão. Variância mede o quão dispersos estão os dados. Ela é igual à média das diferenças quadráticas de cada valor em relação à média.

Desvio padrão é a raiz quadrada da variância. Ele fornece uma medida de dispersão dos dados nas mesmas unidades dos dados.

O NumPy possui a função var() para calcular a variância da amostra e a função std() para calcular o desvio padrão da amostra:

1234567
import numpy as np sample = np.array([10, 25, 15, 30, 20, 10, 2]) # Calculating the variance sample_variance = np.var(sample) # Calculating the standard deviation sample_std = np.std(sample) print(f'Variance: {sample_variance}, standard deviation: {sample_std}')
copy

Cálculos em Arrays de Dimensões Superiores

Todas essas funções possuem um segundo parâmetro axis. O valor padrão é None, o que significa que a medida será calculada ao longo de um array achatado (mesmo que o array original seja 2D ou de dimensões superiores).

Também é possível especificar o eixo exato ao longo do qual a medida será calculada:

12345678
import numpy as np array_2d = np.array([[1, 2, 3], [4, 5, 6]]) # Calculating the mean in a flattened array print(np.mean(array_2d)) # Calculating the mean along axis 0 print(np.mean(array_2d, axis=0)) # Calculating the mean along axis 1 print(np.mean(array_2d, axis=1))
copy

A imagem abaixo mostra a estrutura do array exam_scores utilizado na tarefa:

Tarefa

Swipe to start coding

Você está analisando o array exam_scores, um array 2D de notas simuladas para 2 estudantes (2 linhas) em 5 exames diferentes (5 colunas).

  1. Calcule a média das notas para cada estudante especificando o segundo argumento nomeado.
  2. Calcule a mediana de todas as notas.
  3. Calcule a variância de todas as notas.
  4. Calcule o desvio padrão de todas as notas.

Solução

Switch to desktopMude para o desktop para praticar no mundo realContinue de onde você está usando uma das opções abaixo
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 4. Capítulo 3
single

single

some-alt