Contenido del Curso
Desafío de Entrevista en Ciencia de Datos
Desafío de Entrevista en Ciencia de Datos
Desafío 1: Probabilidades y Distribuciones
En la vasta extensión de la estadística, reinan dos conceptos fundamentales: las probabilidades y las distribuciones. Estos dos pilares constituyen la base sobre la que se asientan gran parte de la teoría y las aplicaciones estadísticas.
La probabilidad es una medida de la incertidumbre. Cuantifica la probabilidad de que se produzca un suceso o resultado, siempre dentro del intervalo de 0 a 1.
**Por otra parte, las distribuciones ofrecen una visión holística de todos los resultados posibles de una variable aleatoria y las probabilidades asociadas de cada resultado. Trazan el comportamiento de los datos, ya sea en forma de una serie de lanzamientos de monedas, las alturas de los individuos de una población o el tiempo que tarda en llegar un autobús. Existen dos categorías principales de distribuciones:
- Distribuciones discretas: Representan situaciones en las que el conjunto de resultados posibles es distinto y finito. Un ejemplo es la distribución binomial, que podría representar el número de caras obtenidas en un número determinado de lanzamientos de una moneda.
- Distribuciones continuas: En este caso, los resultados pueden tomar cualquier valor dentro de un rango determinado. La distribución Normal o Gaussiana es un ejemplo clásico, que representa datos que se agrupan en torno a una media o valor central.
Este es el conjunto de datos que utilizaremos en este capítulo. Siéntete libre de sumergirte en él y explorarlo antes de abordar la tarea.
import matplotlib.pyplot as plt import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head()) # Visualize the distribution of 'total_bill' sns.displot(data['total_bill']) plt.title('Distribution of Total Bill') plt.show()
Tarea
Utilizando el conjunto de datos tips
de Seaborn, lo harás:
- Extraer métricas estadísticas clave de la columna "total_bill" para comprender sus tendencias centrales y su dispersión.
- Utilizar un gráfico Q-Q para visualizar cómo los datos de
total_bill
se ajustan a una distribución normal.
- Utilizar un gráfico Q-Q para visualizar cómo los datos de
- Utilice la prueba de Shapiro-Wilk para evaluar estadísticamente la normalidad de la distribución de la factura total.
- 4. Determine la probabilidad de que un billete seleccionado al azar del conjunto de datos sea mayor de 20$.
¡Gracias por tus comentarios!
Desafío 1: Probabilidades y Distribuciones
En la vasta extensión de la estadística, reinan dos conceptos fundamentales: las probabilidades y las distribuciones. Estos dos pilares constituyen la base sobre la que se asientan gran parte de la teoría y las aplicaciones estadísticas.
La probabilidad es una medida de la incertidumbre. Cuantifica la probabilidad de que se produzca un suceso o resultado, siempre dentro del intervalo de 0 a 1.
**Por otra parte, las distribuciones ofrecen una visión holística de todos los resultados posibles de una variable aleatoria y las probabilidades asociadas de cada resultado. Trazan el comportamiento de los datos, ya sea en forma de una serie de lanzamientos de monedas, las alturas de los individuos de una población o el tiempo que tarda en llegar un autobús. Existen dos categorías principales de distribuciones:
- Distribuciones discretas: Representan situaciones en las que el conjunto de resultados posibles es distinto y finito. Un ejemplo es la distribución binomial, que podría representar el número de caras obtenidas en un número determinado de lanzamientos de una moneda.
- Distribuciones continuas: En este caso, los resultados pueden tomar cualquier valor dentro de un rango determinado. La distribución Normal o Gaussiana es un ejemplo clásico, que representa datos que se agrupan en torno a una media o valor central.
Este es el conjunto de datos que utilizaremos en este capítulo. Siéntete libre de sumergirte en él y explorarlo antes de abordar la tarea.
import matplotlib.pyplot as plt import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head()) # Visualize the distribution of 'total_bill' sns.displot(data['total_bill']) plt.title('Distribution of Total Bill') plt.show()
Tarea
Utilizando el conjunto de datos tips
de Seaborn, lo harás:
- Extraer métricas estadísticas clave de la columna "total_bill" para comprender sus tendencias centrales y su dispersión.
- Utilizar un gráfico Q-Q para visualizar cómo los datos de
total_bill
se ajustan a una distribución normal.
- Utilizar un gráfico Q-Q para visualizar cómo los datos de
- Utilice la prueba de Shapiro-Wilk para evaluar estadísticamente la normalidad de la distribución de la factura total.
- 4. Determine la probabilidad de que un billete seleccionado al azar del conjunto de datos sea mayor de 20$.
¡Gracias por tus comentarios!
Desafío 1: Probabilidades y Distribuciones
En la vasta extensión de la estadística, reinan dos conceptos fundamentales: las probabilidades y las distribuciones. Estos dos pilares constituyen la base sobre la que se asientan gran parte de la teoría y las aplicaciones estadísticas.
La probabilidad es una medida de la incertidumbre. Cuantifica la probabilidad de que se produzca un suceso o resultado, siempre dentro del intervalo de 0 a 1.
**Por otra parte, las distribuciones ofrecen una visión holística de todos los resultados posibles de una variable aleatoria y las probabilidades asociadas de cada resultado. Trazan el comportamiento de los datos, ya sea en forma de una serie de lanzamientos de monedas, las alturas de los individuos de una población o el tiempo que tarda en llegar un autobús. Existen dos categorías principales de distribuciones:
- Distribuciones discretas: Representan situaciones en las que el conjunto de resultados posibles es distinto y finito. Un ejemplo es la distribución binomial, que podría representar el número de caras obtenidas en un número determinado de lanzamientos de una moneda.
- Distribuciones continuas: En este caso, los resultados pueden tomar cualquier valor dentro de un rango determinado. La distribución Normal o Gaussiana es un ejemplo clásico, que representa datos que se agrupan en torno a una media o valor central.
Este es el conjunto de datos que utilizaremos en este capítulo. Siéntete libre de sumergirte en él y explorarlo antes de abordar la tarea.
import matplotlib.pyplot as plt import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head()) # Visualize the distribution of 'total_bill' sns.displot(data['total_bill']) plt.title('Distribution of Total Bill') plt.show()
Tarea
Utilizando el conjunto de datos tips
de Seaborn, lo harás:
- Extraer métricas estadísticas clave de la columna "total_bill" para comprender sus tendencias centrales y su dispersión.
- Utilizar un gráfico Q-Q para visualizar cómo los datos de
total_bill
se ajustan a una distribución normal.
- Utilizar un gráfico Q-Q para visualizar cómo los datos de
- Utilice la prueba de Shapiro-Wilk para evaluar estadísticamente la normalidad de la distribución de la factura total.
- 4. Determine la probabilidad de que un billete seleccionado al azar del conjunto de datos sea mayor de 20$.
¡Gracias por tus comentarios!
En la vasta extensión de la estadística, reinan dos conceptos fundamentales: las probabilidades y las distribuciones. Estos dos pilares constituyen la base sobre la que se asientan gran parte de la teoría y las aplicaciones estadísticas.
La probabilidad es una medida de la incertidumbre. Cuantifica la probabilidad de que se produzca un suceso o resultado, siempre dentro del intervalo de 0 a 1.
**Por otra parte, las distribuciones ofrecen una visión holística de todos los resultados posibles de una variable aleatoria y las probabilidades asociadas de cada resultado. Trazan el comportamiento de los datos, ya sea en forma de una serie de lanzamientos de monedas, las alturas de los individuos de una población o el tiempo que tarda en llegar un autobús. Existen dos categorías principales de distribuciones:
- Distribuciones discretas: Representan situaciones en las que el conjunto de resultados posibles es distinto y finito. Un ejemplo es la distribución binomial, que podría representar el número de caras obtenidas en un número determinado de lanzamientos de una moneda.
- Distribuciones continuas: En este caso, los resultados pueden tomar cualquier valor dentro de un rango determinado. La distribución Normal o Gaussiana es un ejemplo clásico, que representa datos que se agrupan en torno a una media o valor central.
Este es el conjunto de datos que utilizaremos en este capítulo. Siéntete libre de sumergirte en él y explorarlo antes de abordar la tarea.
import matplotlib.pyplot as plt import seaborn as sns # Load the dataset data = sns.load_dataset('tips') # Sample of data display(data.head()) # Visualize the distribution of 'total_bill' sns.displot(data['total_bill']) plt.title('Distribution of Total Bill') plt.show()
Tarea
Utilizando el conjunto de datos tips
de Seaborn, lo harás:
- Extraer métricas estadísticas clave de la columna "total_bill" para comprender sus tendencias centrales y su dispersión.
- Utilizar un gráfico Q-Q para visualizar cómo los datos de
total_bill
se ajustan a una distribución normal.
- Utilizar un gráfico Q-Q para visualizar cómo los datos de
- Utilice la prueba de Shapiro-Wilk para evaluar estadísticamente la normalidad de la distribución de la factura total.
- 4. Determine la probabilidad de que un billete seleccionado al azar del conjunto de datos sea mayor de 20$.