Skip to content

HenrySchall/Time_Series

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

41 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Time Series

IMG_2666

A Time Series is a set of observations ordered in time or a particular slice of an unknown stochastic process. Mathematically: Y = Tdt + Szt + et.

  • Trend (Tdt): Gradual changes in the long term (population growth).
  • Seasonality (Szt): upward and downward oscillations that always occur in a given period (higher electricity bills in winter).
  • Residuals (et): shows upward and downward movements in the series after removing the trend or seasonal effect (sequence of random variables).

plot

Time series studies can be used for future predictions, description of serial behavior, and analysis of periodicity, trends, or even the process that generates the series. They are divided into two types:

  • Univariate = only one variable changes over time
  • Multivariate = more than one variable changes over time****

Initial Concepts

Stochastic Process -> is a collection of random variables defined in the same probability space (process generating a series of variables). The description of a stochastic process is done through a joint probability distribution (which is very complex to do), so we usually describe it through the functions:

  • $𝜇(𝑡)=𝐸{𝑍(𝑡)}$ -> Average
  • $𝜎^2(𝑡)=𝑉𝑎𝑟{𝑍(𝑡)}$ -> Variance
  • $𝛾(𝑡1,𝑡2)=𝐶𝑜𝑣{𝑍(𝑡1),𝑍(𝑡2)}$ -> Autocovariance

estocastico

Stationarity -> is when a time series presents all its statistical characteristics constant over time

  • Weak Stationarity = when the statistical properties are constant over time, E(x) = U, Var(x) = 𝜎², COV(X,X-n) = k (covariance between observations at different points in time depends on the specific time at which they occurred). In the literature, stationarity generally means weak stationarity.
  • Strong Stationarity = also called strict stationarity, is when the joint probability function is invariant over time, that is, the individual distributions are the same for all "ts". Therefore, the covariance depends only on the distance between the observations and not on the specific time at which they occurred.

Autocorrelation -> is the correlation of certain previous periods with the current period, that is, the degree of serial dependence. Each period of this type of correlation is called lag and its representation is made by the Autocorrelation Function (ACF) and the Partial Autocorrelation Function (PAF), both of which compare the present value with the past values ​​of the series. The difference between them is that the CAF analyzes both direct and indirect correlation, while the PAF only analyzes direct correlation. So we can say that the CAF sees the direct correlation of the month of January in March and also the indirect correlation that the month of January had in February, which also had in March, while the PAF only the correlation of January in March. This analysis is done because it is the essential assumption for creating efficient forecasts of a series.

FAC

FACP

White Noise -> is when the error of a time series follows a normal distribution, that is, a purely random process.

  • E(Xt)=0
  • Var(Xt)=𝜎2

Captura de tela 2025-01-30 132421

Random Walk -> is the sum of small stochastic fluctuations (stochastic trend). Mathematically: 𝑍𝑡=𝑍(𝑡−1)+et

Captura de tela 2025-01-30 132324

Transformation and Smoothing -> These are techniques that seek to make the series as close as possible to a normal distribution. Transforming the value of the variables or smoothing the trend and/or seasonality of the series. Among all the existing techniques we can mention:

  1. Log Transformation
  2. Exponential Transformation
  3. Box-Cox Transformation
  4. Exponential Moving Average Smoothing (EMA) - Short-term
  5. Simple Moving Average Smoothing (SMA) - Long-term

Differentiation -> Differentiation seeks to transform a non-stationary series into a stationary one, by means of the difference of two consecutive periods

Sem Título-1

Univariate time series models:

Linear models:

  • Autoregressive models (AR)
  • Moving average models (MA)
  • Autoregressive and moving average models (ARMA)
  • Autoregressive integrated and moving average models (ARIMA)
  • Long time dependency or long memory models (ARFIMA)
  • Autoregressive integrated and moving average models with seasonality (SARIMA)

Nonlinear models:

  • Autoregressive with threshold (TAR)
  • Autoregressive with smooth transition (STAR)
  • Markov regime switching (MSM)
  • Autoregressive artificial neural networks (AR-ANN)

Structure:

  • Autoregressive (AR): indicates that the variable is regressed on its previous values.
  • Integrated (I): indicates that the data values ​​were replaced with the difference between their values ​​and the previous values ​​(differencing).
  • Moving average (MA): Indicates that the regression error is a linear combination of the error terms of the past values.

Coding: (p, d, q) Parameter d can only be an integer, if we were working with an ARFIMA Model, the parameter d can be fractional

  • p = order of autoregression.
  • d = degree of differentiation.
  • q = order of the moving average.

When we add seasonality, in addition to the Arima coding (p, d, q), we include the coding for Seasonality (P, D, Q). Then a SARIMA model is defined by: (p, d, q)(P, D, Q) Examples:

  • ARFIMA model: (1, 0.25, 1)
  • ARIMA model: (2, 1, 1)
  • AR model: (1, 0, 0)
  • MA model (0, 0, 3)
  • I model: (0, 2, 0)
  • ARMA model: (4, 0, 1)
  • SARIMA model: (1, 1, 2)(2, 0, 1)

Akaike's Information Criterion (AIC) and the Bayesian Information Criterion (BIC)

In more advanced models, the autocorrelation and partial autocorrelation functions are not informative for defining the order of the models, so an information criterion is used. An information criterion is a way of finding the ideal number of parameters for a model. To understand it, keep in mind that, with each additional regressor, the sum of the residuals will not increase; it will often decrease. The reduction occurs at the cost of more regressors. To balance the reduction in errors and the increase in the number of regressors, the information criterion associates a penalty with this increase. Therefore, its equation has two parts: the first measures the quality of the model's fit to the data, while the second part is called the penalty function since it penalizes models with many parameters. Therefore, given all the combinations of models, we look for the one with the lowest AIC.

Testes Estatísticos

Teste de Kolmogorov-Smirnov

Qualifica a máxima diferença absoluta entre a função de distribuição da amostra e a função de distribuição acumulada da distribuição de referência (geramente distribuição normal), ou seja, ele qualifica distância entre duas amostras (comparação entre elas).

  • H0: A amostra segue a distribuição de referência
  • H1: A amostra não segue a distribuição de referência
Teste de Anderson-Darling

Testa se uma função de distribuição acumulada f(x), pode ser candidata a ser um função de distribuição acumulada de uma amostra aleatória;

  • H0: A amostra tem distribuição de f(x)
  • H1: A amostra não tem distribuição f(x)
Teste de Shapiro Wilk

O teste Shapiro Wilk segue a seguinte equação descrita abaixo. Sendo que xi são os valores da amostra ordenados, no qual valores menores que W são evidências de que os dados são normais.

Captura de tela 2024-07-04 191812

Já o termo b é determinado pela seguinte equação:

Captura de tela 2024-07-04 192115

onde ai são constantes geradas pelas médias, variâncias e covariâncias das estatísticas de ordem de uma amostra de tamanho n de uma distribuição normal (tabela da normal).

Estatística de teste:

  • H0: A amostra segue uma distribuição normal (W-obtido < W-crítico)
  • H1: A amostra não segue uma distribuição normal (W-obtido > W-crítico)

img46

Teste de Jarque-Bera

Verifica se os erros são um Ruído Branco, ou seja, seguem uma distribuição normal. O teste se baseia nos resíduos do método dos mínimos quadrados. Para sua realização o teste necessita dos cálculos da assimetria (skewness) e da curtose (kurtosis) da amostra, dado pela seguinte fórmula:

Captura de tela 2024-07-04 193133

onde n e o número de observações (ou graus de liberdade geral); S é aassimetria da amostra; e K é a curtose da amostra

Captura de tela 2024-07-04 193243

$\widehat{u3}$ e $\widehat{u4}$ são as estimativas do terceiro e quarto momentos, respectivamente; $\bar{x}$ a média da amostra, e $𝜎^2$ é a estimativa do segundo momento, a variância.

  • H0: resíduos são normalmente distribuídos
  • H1: resíduos não são normalmente distribuídos

Resumo:

Teste Quando usar Prós Contras Cenários não indicados
Shapiro-Wilk Pequenas amostras (sensível a pequenas desvios da normalidade) Sensível a pequenas desvios da normalidade (adequado para amostras pequenas Pode ser menos potente em amostras maiores Dados com distribuição fortemente bimodal ou multimodal
Kolmogorov-Smirov Amostras grandes (teste não paramétrico) Não requer suposições sobre os parâmetros da distribuição (adequado para amostras grandes) Menos sensível a pequenos desvios (menos potente em amostras pequenas) Sensível a desvios nas caudas da distribuição
Anderson Darling Verificação geral de normalidade Sensibilidade a desvios em caudas e simetria (fornece estatística de teste e valores críticos) Menos sensível a desvios pequenos Não é recomendado para amostras muito pequenas
Jaque-Bera Verificação geral de normalidade em amostras grandes Combina informações sobre simetria e curtose (adequado para amostras grandes) Menos sensível a desvios pequenos Sensível a desvios nas caudas da distribuição
Teste de Aderência

Este teste é utilizado quando deseja-se validar a hipótese que um conjunto de dados é gerado por uma determinada distribuição de probabilidade.

  • H0: segue o modelo proposto
  • H1: não segue o modelo proposto
Teste de Indepedência

Este teste é utilizado quando deseja-se validar a hipótese de independência entre duas variáveis aleatórias. Se por exemplo, existe a funlçao de probabilidade conjunta das duas variáveis aleatórias, pode-se verificar se para todos os possíveis valores das variávies, o produto das probabilidades margianis é igual à probabilidade conjunto.

  • H0: as variáveis aleatórias são independentes
  • H1: as variáveis aleatórias não são independentes
Teste de Homogeneidade

Esse teste é utilizado quando deseja-se validar a hipótese de que uma variável aleatória apresenta comportamento similar, ou homogêneo, em relação às suas várias subpopulações. Este teste apresenta a mesma mecânica do Teste de Independência, mas uma distinção importante se refere à forma como as amostras são coletadas. No Teste de homogeneidade fixa-se o tamanho da amostra em cada uma das subpopulações e, então, seleciona-se uma amostra de cada uma delas.

  • H0: As subpopulações das variáveis aleatórias são homogêneas
  • H1: As subpopulações das variáveis aleatórias não são homogêneas

Coeficientes de Correlação

Os coeficientes de correlação verificam a existência e o grau de associação entre dois conjuntos de dados.

Coeficiente Pearson

Estabelecer o nível de relação linear entre duas variáveis. Em outras palavras, mede em grau e o sentido (crescente/decrescente) da associação linear entre duas variáveis. Ele sempre estará entre −1,00 e +1,00, tendo o sinal a função de indicar a direção do movimento, ou seja, positivo (relação direta) e negativa (relação inversa) e o valor do coeficiente, a função de indicar a força da correlação, onde nos intervalos:

  • (+0,90; +1,00) ou (−1,00; −0,90) = correlação muito forte
  • (+0,60; +0,90) ou (−0,90; −0,60) = correlação forte
  • (+0,30; +0,60) ou (−0,60; −0,30) = correlação moderada
  • (0,00; +0,30) ou (−0,30; 0,00) = correlação fraca

Graficamente:

3

Sua equação é definida pela seguinte fórmula:

1

Lembrando que o coeficiente de correlação populacional é dado por:

2

Exemplo: A tabela abaixo apresenta 15 observações, com o tempo de entrega (em minutos) e a distância de entrega de um TelePizza.

Tempo Distância
40 688
21 215
14 255
20 462
24 448
29 776
15 200
19 132
10 36
35 770
18 140
52 810
19 450
20 635
11 150

Calculando os valores obtemos o seguinte resultado:

4

Conclui-se que existe uma relação linear forte e positiva entre as variáveis. Todavia o coeficiente de correlação de Pearson é apenas uma estimativa do coeficiente de correlação populacional, pois é calculado com base em uma amostra aleatória de 𝑛 pares de dados. Sendo assim a amostra observada pode apresentar correlação, mas a população não, neste caso, tem-se um problema de inferência, pois o fato de r≠0 não é garantia de 𝜌≠0. Para resolver esse problema, utiliza-se da estatística de teste T-student, definido pela equação abaixo, para verificar se realmente existe correlação linear entre as variáveis:

5

Onde 𝑡 segue uma distribuição 𝑡−𝑆𝑡𝑢𝑑𝑒𝑛𝑡 com 𝑛−2 graus de liberdade e regido pelas seguintes hipóteses:

  • H0: A correlação entre as variáveis é zero (𝜌 = 0)
  • H1: A correlação entre as variáveis não é zero (𝜌 ≠ 0)

6

A partir da estatística 𝑡 com 13 graus de liberdade, os pontos críticos são ±2,1604. Portanto, rejeita-se 𝐻𝑜 ao nível de significância de 5%. Sendo assim a correlação entre o tempo de entrega e a distância percorrida é diferente de zero, então, existe uma relação linear e positiva entre as variáveis da ordem de 𝑟 = 0,8216.

Coeficiente Spearman

O coeficiente de correlação de Spearman, ou rho de Spearman, é uma medida não paramétrica da correlação (associação) entre duas variáveis ordinais. Ao contrário do coeficiente de correlação de Pearson, que mede a força e a direção da relação linear entre duas variáveis, o coeficiente de Spearman avalia a intensidade (o quão bem) é a relação entre duas variáveis. O coeficiente de correlação de Spearman (𝜌) é calculado utilizando a seguinte fórmula:

20

Interpretação:

  • ρ=1 indica uma perfeita correlação positiva.
  • ρ=−1 indica uma perfeita correlação negativa.
  • ρ=0 indica ausência de correlação.

Exemplo: Dados os valores da tabela abaixo:

9

Calculando os valores obtemos o seguinte resultado:

12

Utilizando-se da mesma equação estatística do teste T-student. Teremos as seguintes hipóteses:

  • H0: A correlação entre as variáveis é zero
  • H1: A correlação entre as variáveis não é zero

A partir da estatística 𝑡−𝑆𝑡𝑢𝑑𝑒𝑛𝑡 com 11 graus de liberdade, os pontos críticos são ±2,2010. Portanto, rejeita-se 𝐻𝑜 ao nível de significância de 5%. Sendo assim a correlação entre as variáveis 𝑋 e 𝑌 é diferente de zero, então, existe uma relação não-linear e negativa de ordem 𝑟= −0,9698.

Coeficiente Kendall

O coeficiente de correlação de Kendall é uma medida estatística utilizada para avaliar a associação entre duas variáveis ordinais, exatamente igual ao coeficiente de correlação de Spearman, a difenreça é que ele mede a correlação de concordância, enquanto Spearman, mede a correlação de postos. Sendo particularmente útil quando as variáveis em questão não assumem necessariamente distribuições normais. O coeficiente de correlação de Kendall (τ) é definido pela seguinte fórmula:

124

No qual, 𝑛 é o número de elementos aos quais atribui-se postos, 𝑆 é a soma da variável 𝑌 à direita que são superiores menos o número de postos à direita que são inferiores.

Interpretação:

  • τ=1 indica uma perfeita concordância.
  • τ=−1 indica uma perfeita discordância.
  • τ=0 indica ausência de associação entre as variáveis.

Para o cálculo do coeficiente de correlação por postos de Kendall ordena-se inicialmente uma das variáveis em ordem crescente de postos e o S correspondente a cada elemento será obtido fazendo o número de elementos cujo posto é superior ao que se está calculando menos o número de elementos cujo posto é inferior ao mesmo. Para verificar a significância do valor observado do coeficiente 𝜏 de Kendall, para 𝑛≤10 deve-se consultar a tabela abaixo.

125

Para 𝑛>10, pode utilizar a estatística de teste:

128

Exemplo: Dados os valores da tabela abaixo:

Calculando os valores obtemos o seguinte resultado:

Tendo as seguintes hipóteses:

  • H0: A correlação entre as variáveis é zero (𝜏=0)
  • H1: A correlação entre as variáveis não é zero (𝜏≠0)

A partir da estatística 𝑁𝑜𝑟𝑚𝑎𝑙 𝑝𝑎𝑑𝑟ã𝑜, os pontos críticos são ±1,96. Portanto, rejeita-se 𝐻𝑜 ao nível de significância de 5%. Sendo assim a correlação entre as variáveis 𝑋 e 𝑌 é diferente de zero, então, existe uma relação não-linear e negativa de ordem 𝜏=−0,7692.

Observação: Pode-se fazer uma comparação entre coeficiente de correlação de Spearman e o coeficiente de correlação por postos de Kendall. Os valores numéricos não são iguais, quando calculados para os mesmos pares de postos, e não são comparáveis numericamente. Contudo, pelo fato de utilizarem a mesma quantidade de informação contida nos dados, ambos têm o mesmo poder de detectar a existência de associação na população, e rejeitarão a hipótese nula para um mesmo nível de significância.

Repository Bibliographic References:

  • Introduction to Time Series, by Gustavo Rocha Silva
  • Practical Time Series Analysis: Prediction with Statistics and Machine Learning, by Aileen Nielsen
  • Elementary Statistics: Picturing the World Hardcover, by Ron Larson (Auteur), Betsy Farber
  • Time Series Econometrics, by Rodrigo de Losso da Silveira Bueno

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published