A Time Series is a set of observations ordered in time or a particular slice of an unknown stochastic process. Mathematically: Y = Tdt + Szt + et.
- Trend (Tdt): Gradual changes in the long term (population growth).
- Seasonality (Szt): upward and downward oscillations that always occur in a given period (higher electricity bills in winter).
- Residuals (et): shows upward and downward movements in the series after removing the trend or seasonal effect (sequence of random variables).
Time series studies can be used for future predictions, description of serial behavior, and analysis of periodicity, trends, or even the process that generates the series. They are divided into two types:
- Univariate = only one variable changes over time
- Multivariate = more than one variable changes over time****
Stochastic Process -> is a collection of random variables defined in the same probability space (process generating a series of variables). The description of a stochastic process is done through a joint probability distribution (which is very complex to do), so we usually describe it through the functions:
-
$𝜇(𝑡)=𝐸{𝑍(𝑡)}$ -> Average -
$𝜎^2(𝑡)=𝑉𝑎𝑟{𝑍(𝑡)}$ -> Variance -
$𝛾(𝑡1,𝑡2)=𝐶𝑜𝑣{𝑍(𝑡1),𝑍(𝑡2)}$ -> Autocovariance
Stationarity -> is when a time series presents all its statistical characteristics constant over time
- Weak Stationarity = when the statistical properties are constant over time, E(x) = U, Var(x) = 𝜎², COV(X,X-n) = k (covariance between observations at different points in time depends on the specific time at which they occurred). In the literature, stationarity generally means weak stationarity.
- Strong Stationarity = also called strict stationarity, is when the joint probability function is invariant over time, that is, the individual distributions are the same for all "ts". Therefore, the covariance depends only on the distance between the observations and not on the specific time at which they occurred.
Autocorrelation -> is the correlation of certain previous periods with the current period, that is, the degree of serial dependence. Each period of this type of correlation is called lag and its representation is made by the Autocorrelation Function (ACF) and the Partial Autocorrelation Function (PAF), both of which compare the present value with the past values of the series. The difference between them is that the CAF analyzes both direct and indirect correlation, while the PAF only analyzes direct correlation. So we can say that the CAF sees the direct correlation of the month of January in March and also the indirect correlation that the month of January had in February, which also had in March, while the PAF only the correlation of January in March. This analysis is done because it is the essential assumption for creating efficient forecasts of a series.
White Noise -> is when the error of a time series follows a normal distribution, that is, a purely random process.
- E(Xt)=0
- Var(Xt)=𝜎2
Random Walk -> is the sum of small stochastic fluctuations (stochastic trend). Mathematically: 𝑍𝑡=𝑍(𝑡−1)+et
Transformation and Smoothing -> These are techniques that seek to make the series as close as possible to a normal distribution. Transforming the value of the variables or smoothing the trend and/or seasonality of the series. Among all the existing techniques we can mention:
- Log Transformation
- Exponential Transformation
- Box-Cox Transformation
- Exponential Moving Average Smoothing (EMA) - Short-term
- Simple Moving Average Smoothing (SMA) - Long-term
Differentiation -> Differentiation seeks to transform a non-stationary series into a stationary one, by means of the difference of two consecutive periods
Linear models:
- Autoregressive models (AR)
- Moving average models (MA)
- Autoregressive and moving average models (ARMA)
- Autoregressive integrated and moving average models (ARIMA)
- Long time dependency or long memory models (ARFIMA)
- Autoregressive integrated and moving average models with seasonality (SARIMA)
Nonlinear models:
- Autoregressive with threshold (TAR)
- Autoregressive with smooth transition (STAR)
- Markov regime switching (MSM)
- Autoregressive artificial neural networks (AR-ANN)
Structure:
- Autoregressive (AR): indicates that the variable is regressed on its previous values.
- Integrated (I): indicates that the data values were replaced with the difference between their values and the previous values (differencing).
- Moving average (MA): Indicates that the regression error is a linear combination of the error terms of the past values.
Coding: (p, d, q) Parameter d can only be an integer, if we were working with an ARFIMA Model, the parameter d can be fractional
- p = order of autoregression.
- d = degree of differentiation.
- q = order of the moving average.
When we add seasonality, in addition to the Arima coding (p, d, q), we include the coding for Seasonality (P, D, Q). Then a SARIMA model is defined by: (p, d, q)(P, D, Q) Examples:
- ARFIMA model: (1, 0.25, 1)
- ARIMA model: (2, 1, 1)
- AR model: (1, 0, 0)
- MA model (0, 0, 3)
- I model: (0, 2, 0)
- ARMA model: (4, 0, 1)
- SARIMA model: (1, 1, 2)(2, 0, 1)
Akaike's Information Criterion (AIC) and the Bayesian Information Criterion (BIC)
In more advanced models, the autocorrelation and partial autocorrelation functions are not informative for defining the order of the models, so an information criterion is used. An information criterion is a way of finding the ideal number of parameters for a model. To understand it, keep in mind that, with each additional regressor, the sum of the residuals will not increase; it will often decrease. The reduction occurs at the cost of more regressors. To balance the reduction in errors and the increase in the number of regressors, the information criterion associates a penalty with this increase. Therefore, its equation has two parts: the first measures the quality of the model's fit to the data, while the second part is called the penalty function since it penalizes models with many parameters. Therefore, given all the combinations of models, we look for the one with the lowest AIC.
Qualifica a máxima diferença absoluta entre a função de distribuição da amostra e a função de distribuição acumulada da distribuição de referência (geramente distribuição normal), ou seja, ele qualifica distância entre duas amostras (comparação entre elas).
- H0: A amostra segue a distribuição de referência
- H1: A amostra não segue a distribuição de referência
Testa se uma função de distribuição acumulada f(x), pode ser candidata a ser um função de distribuição acumulada de uma amostra aleatória;
- H0: A amostra tem distribuição de f(x)
- H1: A amostra não tem distribuição f(x)
O teste Shapiro Wilk segue a seguinte equação descrita abaixo. Sendo que xi são os valores da amostra ordenados, no qual valores menores que W são evidências de que os dados são normais.
Já o termo b é determinado pela seguinte equação:
onde ai são constantes geradas pelas médias, variâncias e covariâncias das estatísticas de ordem de uma amostra de tamanho n de uma distribuição normal (tabela da normal).
Estatística de teste:
- H0: A amostra segue uma distribuição normal (W-obtido < W-crítico)
- H1: A amostra não segue uma distribuição normal (W-obtido > W-crítico)
Verifica se os erros são um Ruído Branco, ou seja, seguem uma distribuição normal. O teste se baseia nos resíduos do método dos mínimos quadrados. Para sua realização o teste necessita dos cálculos da assimetria (skewness) e da curtose (kurtosis) da amostra, dado pela seguinte fórmula:
onde n e o número de observações (ou graus de liberdade geral); S é aassimetria da amostra; e K é a curtose da amostra
- H0: resíduos são normalmente distribuídos
- H1: resíduos não são normalmente distribuídos
Teste | Quando usar | Prós | Contras | Cenários não indicados |
---|---|---|---|---|
Shapiro-Wilk | Pequenas amostras (sensível a pequenas desvios da normalidade) | Sensível a pequenas desvios da normalidade (adequado para amostras pequenas | Pode ser menos potente em amostras maiores | Dados com distribuição fortemente bimodal ou multimodal |
Kolmogorov-Smirov | Amostras grandes (teste não paramétrico) | Não requer suposições sobre os parâmetros da distribuição (adequado para amostras grandes) | Menos sensível a pequenos desvios (menos potente em amostras pequenas) | Sensível a desvios nas caudas da distribuição |
Anderson Darling | Verificação geral de normalidade | Sensibilidade a desvios em caudas e simetria (fornece estatística de teste e valores críticos) | Menos sensível a desvios pequenos | Não é recomendado para amostras muito pequenas |
Jaque-Bera | Verificação geral de normalidade em amostras grandes | Combina informações sobre simetria e curtose (adequado para amostras grandes) | Menos sensível a desvios pequenos | Sensível a desvios nas caudas da distribuição |
Este teste é utilizado quando deseja-se validar a hipótese que um conjunto de dados é gerado por uma determinada distribuição de probabilidade.
- H0: segue o modelo proposto
- H1: não segue o modelo proposto
Este teste é utilizado quando deseja-se validar a hipótese de independência entre duas variáveis aleatórias. Se por exemplo, existe a funlçao de probabilidade conjunta das duas variáveis aleatórias, pode-se verificar se para todos os possíveis valores das variávies, o produto das probabilidades margianis é igual à probabilidade conjunto.
- H0: as variáveis aleatórias são independentes
- H1: as variáveis aleatórias não são independentes
Esse teste é utilizado quando deseja-se validar a hipótese de que uma variável aleatória apresenta comportamento similar, ou homogêneo, em relação às suas várias subpopulações. Este teste apresenta a mesma mecânica do Teste de Independência, mas uma distinção importante se refere à forma como as amostras são coletadas. No Teste de homogeneidade fixa-se o tamanho da amostra em cada uma das subpopulações e, então, seleciona-se uma amostra de cada uma delas.
- H0: As subpopulações das variáveis aleatórias são homogêneas
- H1: As subpopulações das variáveis aleatórias não são homogêneas
Os coeficientes de correlação verificam a existência e o grau de associação entre dois conjuntos de dados.
Estabelecer o nível de relação linear entre duas variáveis. Em outras palavras, mede em grau e o sentido (crescente/decrescente) da associação linear entre duas variáveis. Ele sempre estará entre −1,00 e +1,00, tendo o sinal a função de indicar a direção do movimento, ou seja, positivo (relação direta) e negativa (relação inversa) e o valor do coeficiente, a função de indicar a força da correlação, onde nos intervalos:
- (+0,90; +1,00) ou (−1,00; −0,90) = correlação muito forte
- (+0,60; +0,90) ou (−0,90; −0,60) = correlação forte
- (+0,30; +0,60) ou (−0,60; −0,30) = correlação moderada
- (0,00; +0,30) ou (−0,30; 0,00) = correlação fraca
Graficamente:
Sua equação é definida pela seguinte fórmula:
Lembrando que o coeficiente de correlação populacional é dado por:
Exemplo: A tabela abaixo apresenta 15 observações, com o tempo de entrega (em minutos) e a distância de entrega de um TelePizza.
Tempo | Distância |
---|---|
40 | 688 |
21 | 215 |
14 | 255 |
20 | 462 |
24 | 448 |
29 | 776 |
15 | 200 |
19 | 132 |
10 | 36 |
35 | 770 |
18 | 140 |
52 | 810 |
19 | 450 |
20 | 635 |
11 | 150 |
Calculando os valores obtemos o seguinte resultado:
Conclui-se que existe uma relação linear forte e positiva entre as variáveis. Todavia o coeficiente de correlação de Pearson é apenas uma estimativa do coeficiente de correlação populacional, pois é calculado com base em uma amostra aleatória de 𝑛 pares de dados. Sendo assim a amostra observada pode apresentar correlação, mas a população não, neste caso, tem-se um problema de inferência, pois o fato de r≠0 não é garantia de 𝜌≠0. Para resolver esse problema, utiliza-se da estatística de teste T-student, definido pela equação abaixo, para verificar se realmente existe correlação linear entre as variáveis:
Onde 𝑡 segue uma distribuição 𝑡−𝑆𝑡𝑢𝑑𝑒𝑛𝑡 com 𝑛−2 graus de liberdade e regido pelas seguintes hipóteses:
- H0: A correlação entre as variáveis é zero (𝜌 = 0)
- H1: A correlação entre as variáveis não é zero (𝜌 ≠ 0)
A partir da estatística 𝑡 com 13 graus de liberdade, os pontos críticos são ±2,1604. Portanto, rejeita-se 𝐻𝑜 ao nível de significância de 5%. Sendo assim a correlação entre o tempo de entrega e a distância percorrida é diferente de zero, então, existe uma relação linear e positiva entre as variáveis da ordem de 𝑟 = 0,8216.
O coeficiente de correlação de Spearman, ou rho de Spearman, é uma medida não paramétrica da correlação (associação) entre duas variáveis ordinais. Ao contrário do coeficiente de correlação de Pearson, que mede a força e a direção da relação linear entre duas variáveis, o coeficiente de Spearman avalia a intensidade (o quão bem) é a relação entre duas variáveis. O coeficiente de correlação de Spearman (𝜌) é calculado utilizando a seguinte fórmula:
- ρ=1 indica uma perfeita correlação positiva.
- ρ=−1 indica uma perfeita correlação negativa.
- ρ=0 indica ausência de correlação.
Exemplo: Dados os valores da tabela abaixo:
Calculando os valores obtemos o seguinte resultado:
Utilizando-se da mesma equação estatística do teste T-student. Teremos as seguintes hipóteses:
- H0: A correlação entre as variáveis é zero
- H1: A correlação entre as variáveis não é zero
A partir da estatística 𝑡−𝑆𝑡𝑢𝑑𝑒𝑛𝑡 com 11 graus de liberdade, os pontos críticos são ±2,2010. Portanto, rejeita-se 𝐻𝑜 ao nível de significância de 5%. Sendo assim a correlação entre as variáveis 𝑋 e 𝑌 é diferente de zero, então, existe uma relação não-linear e negativa de ordem 𝑟= −0,9698.
O coeficiente de correlação de Kendall é uma medida estatística utilizada para avaliar a associação entre duas variáveis ordinais, exatamente igual ao coeficiente de correlação de Spearman, a difenreça é que ele mede a correlação de concordância, enquanto Spearman, mede a correlação de postos. Sendo particularmente útil quando as variáveis em questão não assumem necessariamente distribuições normais. O coeficiente de correlação de Kendall (τ) é definido pela seguinte fórmula:
No qual, 𝑛 é o número de elementos aos quais atribui-se postos, 𝑆 é a soma da variável 𝑌 à direita que são superiores menos o número de postos à direita que são inferiores.
- τ=1 indica uma perfeita concordância.
- τ=−1 indica uma perfeita discordância.
- τ=0 indica ausência de associação entre as variáveis.
Para o cálculo do coeficiente de correlação por postos de Kendall ordena-se inicialmente uma das variáveis em ordem crescente de postos e o S correspondente a cada elemento será obtido fazendo o número de elementos cujo posto é superior ao que se está calculando menos o número de elementos cujo posto é inferior ao mesmo. Para verificar a significância do valor observado do coeficiente 𝜏 de Kendall, para 𝑛≤10 deve-se consultar a tabela abaixo.
Para 𝑛>10, pode utilizar a estatística de teste:
Exemplo: Dados os valores da tabela abaixo:
Calculando os valores obtemos o seguinte resultado:
Tendo as seguintes hipóteses:
- H0: A correlação entre as variáveis é zero (𝜏=0)
- H1: A correlação entre as variáveis não é zero (𝜏≠0)
A partir da estatística 𝑁𝑜𝑟𝑚𝑎𝑙 𝑝𝑎𝑑𝑟ã𝑜, os pontos críticos são ±1,96. Portanto, rejeita-se 𝐻𝑜 ao nível de significância de 5%. Sendo assim a correlação entre as variáveis 𝑋 e 𝑌 é diferente de zero, então, existe uma relação não-linear e negativa de ordem 𝜏=−0,7692.
Observação: Pode-se fazer uma comparação entre coeficiente de correlação de Spearman e o coeficiente de correlação por postos de Kendall. Os valores numéricos não são iguais, quando calculados para os mesmos pares de postos, e não são comparáveis numericamente. Contudo, pelo fato de utilizarem a mesma quantidade de informação contida nos dados, ambos têm o mesmo poder de detectar a existência de associação na população, e rejeitarão a hipótese nula para um mesmo nível de significância.
- Introduction to Time Series, by Gustavo Rocha Silva
- Practical Time Series Analysis: Prediction with Statistics and Machine Learning, by Aileen Nielsen
- Elementary Statistics: Picturing the World Hardcover, by Ron Larson (Auteur), Betsy Farber
- Time Series Econometrics, by Rodrigo de Losso da Silveira Bueno