Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Desafio 4: Intervalos de Confiança | Estatísticas
Desafio de Entrevista em Ciência de Dados

book
Desafio 4: Intervalos de Confiança

No campo da estatística, os intervalos de confiança oferecem uma faixa dentro da qual é provável que um parâmetro populacional esteja localizado. Eles oferecem um grau de certeza em torno de uma estatística da amostra. Por exemplo, se você realizar uma pesquisa com um grupo de pessoas sobre a altura delas e calcular uma altura média de 170 cm com um intervalo de confiança de 95% de (168 cm, 172 cm), isso sugere que você tem 95% de confiança de que essa faixa cobriria a altura real de toda a população.

Tarefa

Swipe to start coding

Neste exercício, utilizando um conjunto de dados amostral aleatório, você vai:

  1. Calcular a média amostral e o erro padrão.
  2. Determinar o intervalo de confiança de 95% para a média dos dados amostrais.

Solução

import pandas as pd
import numpy as np
from scipy.stats import sem, t

# Generate a random sample data
np.random.seed(42)
sample_data = pd.Series(np.random.randn(100) * 5 + 50) # Normally distributed data with mean 50 and standard deviation 5

# 1. Compute the sample mean and standard error
sample_mean = sample_data.mean()
standard_error = sem(sample_data)

# 2. Set the confidence level
confidence_level = 0.95
degrees_freedom = len(sample_data) - 1
confidence_value = t.ppf((1 + confidence_level) / 2., degrees_freedom)

# Compute the confidence interval
ci_lower = sample_mean - confidence_value * standard_error
ci_upper = sample_mean + confidence_value * standard_error

print(f"The {confidence_level*100}% confidence interval for the sample mean is: ({ci_lower:.2f}, {ci_upper:.2f})")
Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 6. Capítulo 4
import pandas as pd
import numpy as np
from scipy.stats import sem, t

# Generate a random sample data
np.random.seed(42)
sample_data = pd.Series(np.random.randn(100) * 5 + 50) # Normally distributed data with mean 50 and standard deviation 5

# 1. Compute the sample mean and standard error
sample_mean = sample_data.___()
standard_error = ___(sample_data)

# 2. Set the confidence level
confidence_level = ___
degrees_freedom = len(sample_data) - 1
confidence_value = ___((1 + confidence_level) / 2., degrees_freedom)

# Compute the confidence interval
ci_lower = sample_mean - confidence_value * standard_error
ci_upper = sample_mean + confidence_value * standard_error

print(f"The {confidence_level*100}% confidence interval for the sample mean is: ({ci_lower:.2f}, {ci_upper:.2f})")
toggle bottom row
some-alt