Contenido del Curso
Procesamiento Previo de Datos
Procesamiento Previo de Datos
Limpieza de Datos
La limpieza de datos en el tratamiento de series temporales elimina anomalías, errores y datos incompletos o irrelevantes. Es un paso importante del preprocesamiento para garantizar la calidad del análisis y la precisión de las previsiones.
Los principales métodos de limpieza de datos son:
Imputación
Imputación: rellenar los valores que faltan utilizando la media, la mediana, la interpolación o métodos de series temporales (por ejemplo, extrapolación).
El tamaño de la ventana (el intervalo sobre el que se toma la media o la mediana) suele fijarse entre 2 y 10-15 veces. En general, la elección se basa en la evaluación visual de la recuperación del conjunto de datos. La imputación de la media no suele recomendarse para los datos de series temporales porque puede introducir sesgos y distorsionar los patrones subyacentes en los datos. Por lo tanto, a menudo se prefieren otros métodos de imputación, como la interpolación, la regresión o métodos más sofisticados específicos de series temporales, para tratar los valores que faltan en los datos de series temporales.
En términos de imputación, la interpolación puede ser adecuada si los valores que faltan se producen al final de una serie temporal y el patrón o la tendencia de la serie temporal es relativamente estable. En resumen, la interpolación puede ser útil cuando la serie temporal muestra una tendencia o patrón claro que puede continuar más allá de los valores observados.
Eliminación de valores atípicos
Eliminación de valores atípicos: identificación y eliminación de valores anómalos que pueden distorsionar el análisis mediante métodos estadísticos (por ejemplo, IQR, puntuación z).
Para datos no estacionarios, podemos utilizar el siguiente procedimiento:
- Si se trabaja con datos homocedasticos, es necesario establecer manualmente algún límite
L
por el que se filtrarán todos los valoresx_val
: ||dondex_mean
- la media calculada sobre la ventana móvil; - Si está trabajando con datos heteroscedásticos, entonces necesita transformar los datos utilizando funciones matemáticas como la transformación Box-Cox, que puede ayudar a reducir la variabilidad de los datos y hacerlos más homoscedásticos. Ahora puede pasar al primer punto.
Se dice que un conjunto de datos de series temporales es homoscedástico cuando la distribución de errores o residuos es simétrica y no cambia con respecto al tiempo. Una forma de comprobar la homocedasticidad es realizar una prueba estadística, como las pruebas de Breusch-Pagan o White.
Si hablamos de heteroscedasticidad, nos referimos a una situación en la que la varianza de los términos de error o la dispersión de los datos no es constante a lo largo del tiempo. En otras palabras, la variabilidad de los puntos de datos es incoherente en todo el intervalo de la serie temporal.
- Suavizado**: reducción del ruido de los datos mediante filtros de medias móviles, suavizado exponencial u otros métodos que mejoran la claridad de las series temporales;
- Ajuste estacional**: extracción y contabilización de los componentes estacionales de una serie temporal para obtener datos más limpios y mejorar la previsión (por ejemplo, mediante el método de Holt-Winters o la descomposición de series temporales);
Aquí vamos a considerar un método para recuperar los datos que faltan utilizando la interpolación, ya que las secciones anteriores ya han cubierto el uso de la media o la mediana:
import pandas as pd # Create a time-series dataset with missing values dataset = pd.DataFrame({'value': [1, 2, 3, None, 5, 6, None, 8, 9]}, index=['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09']) # Interpolate missing values using linear method dataset['value_interpolated'] = dataset['value'].interpolate(method='linear') print(dataset)
El método .interpolate()
se utiliza para implementar la interpolación, que contiene los métodos .linear',
.time', .index',
.pad', `.polynomial', etc., con los que se puede experimentar en función de los datos.
Tarea
Lea el conjunto de datos 'clientes.csv'
y recupere los valores perdidos utilizando el método lineal de interpolación.
¡Gracias por tus comentarios!
Limpieza de Datos
La limpieza de datos en el tratamiento de series temporales elimina anomalías, errores y datos incompletos o irrelevantes. Es un paso importante del preprocesamiento para garantizar la calidad del análisis y la precisión de las previsiones.
Los principales métodos de limpieza de datos son:
Imputación
Imputación: rellenar los valores que faltan utilizando la media, la mediana, la interpolación o métodos de series temporales (por ejemplo, extrapolación).
El tamaño de la ventana (el intervalo sobre el que se toma la media o la mediana) suele fijarse entre 2 y 10-15 veces. En general, la elección se basa en la evaluación visual de la recuperación del conjunto de datos. La imputación de la media no suele recomendarse para los datos de series temporales porque puede introducir sesgos y distorsionar los patrones subyacentes en los datos. Por lo tanto, a menudo se prefieren otros métodos de imputación, como la interpolación, la regresión o métodos más sofisticados específicos de series temporales, para tratar los valores que faltan en los datos de series temporales.
En términos de imputación, la interpolación puede ser adecuada si los valores que faltan se producen al final de una serie temporal y el patrón o la tendencia de la serie temporal es relativamente estable. En resumen, la interpolación puede ser útil cuando la serie temporal muestra una tendencia o patrón claro que puede continuar más allá de los valores observados.
Eliminación de valores atípicos
Eliminación de valores atípicos: identificación y eliminación de valores anómalos que pueden distorsionar el análisis mediante métodos estadísticos (por ejemplo, IQR, puntuación z).
Para datos no estacionarios, podemos utilizar el siguiente procedimiento:
- Si se trabaja con datos homocedasticos, es necesario establecer manualmente algún límite
L
por el que se filtrarán todos los valoresx_val
: ||dondex_mean
- la media calculada sobre la ventana móvil; - Si está trabajando con datos heteroscedásticos, entonces necesita transformar los datos utilizando funciones matemáticas como la transformación Box-Cox, que puede ayudar a reducir la variabilidad de los datos y hacerlos más homoscedásticos. Ahora puede pasar al primer punto.
Se dice que un conjunto de datos de series temporales es homoscedástico cuando la distribución de errores o residuos es simétrica y no cambia con respecto al tiempo. Una forma de comprobar la homocedasticidad es realizar una prueba estadística, como las pruebas de Breusch-Pagan o White.
Si hablamos de heteroscedasticidad, nos referimos a una situación en la que la varianza de los términos de error o la dispersión de los datos no es constante a lo largo del tiempo. En otras palabras, la variabilidad de los puntos de datos es incoherente en todo el intervalo de la serie temporal.
- Suavizado**: reducción del ruido de los datos mediante filtros de medias móviles, suavizado exponencial u otros métodos que mejoran la claridad de las series temporales;
- Ajuste estacional**: extracción y contabilización de los componentes estacionales de una serie temporal para obtener datos más limpios y mejorar la previsión (por ejemplo, mediante el método de Holt-Winters o la descomposición de series temporales);
Aquí vamos a considerar un método para recuperar los datos que faltan utilizando la interpolación, ya que las secciones anteriores ya han cubierto el uso de la media o la mediana:
import pandas as pd # Create a time-series dataset with missing values dataset = pd.DataFrame({'value': [1, 2, 3, None, 5, 6, None, 8, 9]}, index=['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09']) # Interpolate missing values using linear method dataset['value_interpolated'] = dataset['value'].interpolate(method='linear') print(dataset)
El método .interpolate()
se utiliza para implementar la interpolación, que contiene los métodos .linear',
.time', .index',
.pad', `.polynomial', etc., con los que se puede experimentar en función de los datos.
Tarea
Lea el conjunto de datos 'clientes.csv'
y recupere los valores perdidos utilizando el método lineal de interpolación.
¡Gracias por tus comentarios!
Limpieza de Datos
La limpieza de datos en el tratamiento de series temporales elimina anomalías, errores y datos incompletos o irrelevantes. Es un paso importante del preprocesamiento para garantizar la calidad del análisis y la precisión de las previsiones.
Los principales métodos de limpieza de datos son:
Imputación
Imputación: rellenar los valores que faltan utilizando la media, la mediana, la interpolación o métodos de series temporales (por ejemplo, extrapolación).
El tamaño de la ventana (el intervalo sobre el que se toma la media o la mediana) suele fijarse entre 2 y 10-15 veces. En general, la elección se basa en la evaluación visual de la recuperación del conjunto de datos. La imputación de la media no suele recomendarse para los datos de series temporales porque puede introducir sesgos y distorsionar los patrones subyacentes en los datos. Por lo tanto, a menudo se prefieren otros métodos de imputación, como la interpolación, la regresión o métodos más sofisticados específicos de series temporales, para tratar los valores que faltan en los datos de series temporales.
En términos de imputación, la interpolación puede ser adecuada si los valores que faltan se producen al final de una serie temporal y el patrón o la tendencia de la serie temporal es relativamente estable. En resumen, la interpolación puede ser útil cuando la serie temporal muestra una tendencia o patrón claro que puede continuar más allá de los valores observados.
Eliminación de valores atípicos
Eliminación de valores atípicos: identificación y eliminación de valores anómalos que pueden distorsionar el análisis mediante métodos estadísticos (por ejemplo, IQR, puntuación z).
Para datos no estacionarios, podemos utilizar el siguiente procedimiento:
- Si se trabaja con datos homocedasticos, es necesario establecer manualmente algún límite
L
por el que se filtrarán todos los valoresx_val
: ||dondex_mean
- la media calculada sobre la ventana móvil; - Si está trabajando con datos heteroscedásticos, entonces necesita transformar los datos utilizando funciones matemáticas como la transformación Box-Cox, que puede ayudar a reducir la variabilidad de los datos y hacerlos más homoscedásticos. Ahora puede pasar al primer punto.
Se dice que un conjunto de datos de series temporales es homoscedástico cuando la distribución de errores o residuos es simétrica y no cambia con respecto al tiempo. Una forma de comprobar la homocedasticidad es realizar una prueba estadística, como las pruebas de Breusch-Pagan o White.
Si hablamos de heteroscedasticidad, nos referimos a una situación en la que la varianza de los términos de error o la dispersión de los datos no es constante a lo largo del tiempo. En otras palabras, la variabilidad de los puntos de datos es incoherente en todo el intervalo de la serie temporal.
- Suavizado**: reducción del ruido de los datos mediante filtros de medias móviles, suavizado exponencial u otros métodos que mejoran la claridad de las series temporales;
- Ajuste estacional**: extracción y contabilización de los componentes estacionales de una serie temporal para obtener datos más limpios y mejorar la previsión (por ejemplo, mediante el método de Holt-Winters o la descomposición de series temporales);
Aquí vamos a considerar un método para recuperar los datos que faltan utilizando la interpolación, ya que las secciones anteriores ya han cubierto el uso de la media o la mediana:
import pandas as pd # Create a time-series dataset with missing values dataset = pd.DataFrame({'value': [1, 2, 3, None, 5, 6, None, 8, 9]}, index=['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09']) # Interpolate missing values using linear method dataset['value_interpolated'] = dataset['value'].interpolate(method='linear') print(dataset)
El método .interpolate()
se utiliza para implementar la interpolación, que contiene los métodos .linear',
.time', .index',
.pad', `.polynomial', etc., con los que se puede experimentar en función de los datos.
Tarea
Lea el conjunto de datos 'clientes.csv'
y recupere los valores perdidos utilizando el método lineal de interpolación.
¡Gracias por tus comentarios!
La limpieza de datos en el tratamiento de series temporales elimina anomalías, errores y datos incompletos o irrelevantes. Es un paso importante del preprocesamiento para garantizar la calidad del análisis y la precisión de las previsiones.
Los principales métodos de limpieza de datos son:
Imputación
Imputación: rellenar los valores que faltan utilizando la media, la mediana, la interpolación o métodos de series temporales (por ejemplo, extrapolación).
El tamaño de la ventana (el intervalo sobre el que se toma la media o la mediana) suele fijarse entre 2 y 10-15 veces. En general, la elección se basa en la evaluación visual de la recuperación del conjunto de datos. La imputación de la media no suele recomendarse para los datos de series temporales porque puede introducir sesgos y distorsionar los patrones subyacentes en los datos. Por lo tanto, a menudo se prefieren otros métodos de imputación, como la interpolación, la regresión o métodos más sofisticados específicos de series temporales, para tratar los valores que faltan en los datos de series temporales.
En términos de imputación, la interpolación puede ser adecuada si los valores que faltan se producen al final de una serie temporal y el patrón o la tendencia de la serie temporal es relativamente estable. En resumen, la interpolación puede ser útil cuando la serie temporal muestra una tendencia o patrón claro que puede continuar más allá de los valores observados.
Eliminación de valores atípicos
Eliminación de valores atípicos: identificación y eliminación de valores anómalos que pueden distorsionar el análisis mediante métodos estadísticos (por ejemplo, IQR, puntuación z).
Para datos no estacionarios, podemos utilizar el siguiente procedimiento:
- Si se trabaja con datos homocedasticos, es necesario establecer manualmente algún límite
L
por el que se filtrarán todos los valoresx_val
: ||dondex_mean
- la media calculada sobre la ventana móvil; - Si está trabajando con datos heteroscedásticos, entonces necesita transformar los datos utilizando funciones matemáticas como la transformación Box-Cox, que puede ayudar a reducir la variabilidad de los datos y hacerlos más homoscedásticos. Ahora puede pasar al primer punto.
Se dice que un conjunto de datos de series temporales es homoscedástico cuando la distribución de errores o residuos es simétrica y no cambia con respecto al tiempo. Una forma de comprobar la homocedasticidad es realizar una prueba estadística, como las pruebas de Breusch-Pagan o White.
Si hablamos de heteroscedasticidad, nos referimos a una situación en la que la varianza de los términos de error o la dispersión de los datos no es constante a lo largo del tiempo. En otras palabras, la variabilidad de los puntos de datos es incoherente en todo el intervalo de la serie temporal.
- Suavizado**: reducción del ruido de los datos mediante filtros de medias móviles, suavizado exponencial u otros métodos que mejoran la claridad de las series temporales;
- Ajuste estacional**: extracción y contabilización de los componentes estacionales de una serie temporal para obtener datos más limpios y mejorar la previsión (por ejemplo, mediante el método de Holt-Winters o la descomposición de series temporales);
Aquí vamos a considerar un método para recuperar los datos que faltan utilizando la interpolación, ya que las secciones anteriores ya han cubierto el uso de la media o la mediana:
import pandas as pd # Create a time-series dataset with missing values dataset = pd.DataFrame({'value': [1, 2, 3, None, 5, 6, None, 8, 9]}, index=['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09']) # Interpolate missing values using linear method dataset['value_interpolated'] = dataset['value'].interpolate(method='linear') print(dataset)
El método .interpolate()
se utiliza para implementar la interpolación, que contiene los métodos .linear',
.time', .index',
.pad', `.polynomial', etc., con los que se puede experimentar en función de los datos.
Tarea
Lea el conjunto de datos 'clientes.csv'
y recupere los valores perdidos utilizando el método lineal de interpolación.