GitHub

Time Series

A Time Series is a set of observations ordered in time or a particular slice of an unknown stochastic process. Mathematically: Y = Tdt + Szt + et.

Trend (Tdt): Gradual changes in the long term (population growth).
Seasonality (Szt): upward and downward oscillations that always occur in a given period (higher electricity bills in winter).
Residuals (et): shows upward and downward movements in the series after removing the trend or seasonal effect (sequence of random variables).

Time series studies can be used for future predictions, description of serial behavior, and analysis of periodicity, trends, or even the process that generates the series. They are divided into two types:

Univariate = only one variable changes over time
Multivariate = more than one variable changes over time****

Initial Concepts

Stochastic Process -> is a collection of random variables defined in the same probability space (process generating a series of variables). The description of a stochastic process is done through a joint probability distribution (which is very complex to do), so we usually describe it through the functions:

$𝜇(𝑡)=𝐸{𝑍(𝑡)}$ -> Average
$𝜎^2(𝑡)=𝑉𝑎𝑟{𝑍(𝑡)}$ -> Variance
$𝛾(𝑡1,𝑡2)=𝐶𝑜𝑣{𝑍(𝑡1),𝑍(𝑡2)}$ -> Autocovariance

Stationarity -> is when a time series presents all its statistical characteristics constant over time

Weak Stationarity = when the statistical properties are constant over time, E(x) = U, Var(x) = 𝜎², COV(X,X-n) = k (covariance between observations at different points in time depends on the specific time at which they occurred). In the literature, stationarity generally means weak stationarity.
Strong Stationarity = also called strict stationarity, is when the joint probability function is invariant over time, that is, the individual distributions are the same for all "ts". Therefore, the covariance depends only on the distance between the observations and not on the specific time at which they occurred.

Autocorrelation -> is the correlation of certain previous periods with the current period, that is, the degree of serial dependence. Each period of this type of correlation is called lag and its representation is made by the Autocorrelation Function (ACF) and the Partial Autocorrelation Function (PAF), both of which compare the present value with the past values of the series. The difference between them is that the CAF analyzes both direct and indirect correlation, while the PAF only analyzes direct correlation. So we can say that the CAF sees the direct correlation of the month of January in March and also the indirect correlation that the month of January had in February, which also had in March, while the PAF only the correlation of January in March. This analysis is done because it is the essential assumption for creating efficient forecasts of a series.

White Noise -> is when the error of a time series follows a normal distribution, that is, a purely random process.

E(Xt)=0
Var(Xt)=𝜎2

Random Walk -> is the sum of small stochastic fluctuations (stochastic trend). Mathematically: 𝑍𝑡=𝑍(𝑡−1)+et

Transformation and Smoothing -> These are techniques that seek to make the series as close as possible to a normal distribution. Transforming the value of the variables or smoothing the trend and/or seasonality of the series. Among all the existing techniques we can mention:

Log Transformation
Exponential Transformation
Box-Cox Transformation
Exponential Moving Average Smoothing (EMA) - Short-term
Simple Moving Average Smoothing (SMA) - Long-term

Differentiation -> Differentiation seeks to transform a non-stationary series into a stationary one, by means of the difference of two consecutive periods

Univariate time series models:

Linear models:

Autoregressive models (AR)
Moving average models (MA)
Autoregressive and moving average models (ARMA)
Autoregressive integrated and moving average models (ARIMA)
Long time dependency or long memory models (ARFIMA)
Autoregressive integrated and moving average models with seasonality (SARIMA)

Nonlinear models:

Autoregressive with threshold (TAR)
Autoregressive with smooth transition (STAR)
Markov regime switching (MSM)
Autoregressive artificial neural networks (AR-ANN)

Structure:

Autoregressive (AR): indicates that the variable is regressed on its previous values.
Integrated (I): indicates that the data values were replaced with the difference between their values and the previous values (differencing).
Moving average (MA): Indicates that the regression error is a linear combination of the error terms of the past values.

Coding: (p, d, q) Parameter d can only be an integer, if we were working with an ARFIMA Model, the parameter d can be fractional

p = order of autoregression.
d = degree of differentiation.
q = order of the moving average.

When we add seasonality, in addition to the Arima coding (p, d, q), we include the coding for Seasonality (P, D, Q). Then a SARIMA model is defined by: (p, d, q)(P, D, Q) Examples:

ARFIMA model: (1, 0.25, 1)
ARIMA model: (2, 1, 1)
AR model: (1, 0, 0)
MA model (0, 0, 3)
I model: (0, 2, 0)
ARMA model: (4, 0, 1)
SARIMA model: (1, 1, 2)(2, 0, 1)

Akaike's Information Criterion (AIC) and the Bayesian Information Criterion (BIC)

In more advanced models, the autocorrelation and partial autocorrelation functions are not informative for defining the order of the models, so an information criterion is used. An information criterion is a way of finding the ideal number of parameters for a model. To understand it, keep in mind that, with each additional regressor, the sum of the residuals will not increase; it will often decrease. The reduction occurs at the cost of more regressors. To balance the reduction in errors and the increase in the number of regressors, the information criterion associates a penalty with this increase. Therefore, its equation has two parts: the first measures the quality of the model's fit to the data, while the second part is called the penalty function since it penalizes models with many parameters. Therefore, given all the combinations of models, we look for the one with the lowest AIC.

Testes Estatísticos

Teste de Kolmogorov-Smirnov

Qualifica a máxima diferença absoluta entre a função de distribuição da amostra e a função de distribuição acumulada da distribuição de referência (geramente distribuição normal), ou seja, ele qualifica distância entre duas amostras (comparação entre elas).

H0: A amostra segue a distribuição de referência
H1: A amostra não segue a distribuição de referência

Teste de Anderson-Darling

Testa se uma função de distribuição acumulada f(x), pode ser candidata a ser um função de distribuição acumulada de uma amostra aleatória;

H0: A amostra tem distribuição de f(x)
H1: A amostra não tem distribuição f(x)

Teste de Shapiro Wilk

O teste Shapiro Wilk segue a seguinte equação descrita abaixo. Sendo que xi são os valores da amostra ordenados, no qual valores menores que W são evidências de que os dados são normais.

Já o termo b é determinado pela seguinte equação:

onde ai são constantes geradas pelas médias, variâncias e covariâncias das estatísticas de ordem de uma amostra de tamanho n de uma distribuição normal (tabela da normal).

Estatística de teste:

H0: A amostra segue uma distribuição normal (W-obtido < W-crítico)
H1: A amostra não segue uma distribuição normal (W-obtido > W-crítico)

Teste de Jarque-Bera

Verifica se os erros são um Ruído Branco, ou seja, seguem uma distribuição normal. O teste se baseia nos resíduos do método dos mínimos quadrados. Para sua realização o teste necessita dos cálculos da assimetria (skewness) e da curtose (kurtosis) da amostra, dado pela seguinte fórmula:

onde n e o número de observações (ou graus de liberdade geral); S é aassimetria da amostra; e K é a curtose da amostra

$\widehat{u3}$ e $\widehat{u4}$ são as estimativas do terceiro e quarto momentos, respectivamente; $\bar{x}$ a média da amostra, e $𝜎^2$ é a estimativa do segundo momento, a variância.

H0: resíduos são normalmente distribuídos
H1: resíduos não são normalmente distribuídos

Resumo:

Teste	Quando usar	Prós	Contras	Cenários não indicados
Shapiro-Wilk	Pequenas amostras (sensível a pequenas desvios da normalidade)	Sensível a pequenas desvios da normalidade (adequado para amostras pequenas	Pode ser menos potente em amostras maiores	Dados com distribuição fortemente bimodal ou multimodal
Kolmogorov-Smirov	Amostras grandes (teste não paramétrico)	Não requer suposições sobre os parâmetros da distribuição (adequado para amostras grandes)	Menos sensível a pequenos desvios (menos potente em amostras pequenas)	Sensível a desvios nas caudas da distribuição
Anderson Darling	Verificação geral de normalidade	Sensibilidade a desvios em caudas e simetria (fornece estatística de teste e valores críticos)	Menos sensível a desvios pequenos	Não é recomendado para amostras muito pequenas
Jaque-Bera	Verificação geral de normalidade em amostras grandes	Combina informações sobre simetria e curtose (adequado para amostras grandes)	Menos sensível a desvios pequenos	Sensível a desvios nas caudas da distribuição

Teste de Aderência

Este teste é utilizado quando deseja-se validar a hipótese que um conjunto de dados é gerado por uma determinada distribuição de probabilidade.

H0: segue o modelo proposto
H1: não segue o modelo proposto

Teste de Indepedência

Este teste é utilizado quando deseja-se validar a hipótese de independência entre duas variáveis aleatórias. Se por exemplo, existe a funlçao de probabilidade conjunta das duas variáveis aleatórias, pode-se verificar se para todos os possíveis valores das variávies, o produto das probabilidades margianis é igual à probabilidade conjunto.

H0: as variáveis aleatórias são independentes
H1: as variáveis aleatórias não são independentes

Teste de Homogeneidade

Esse teste é utilizado quando deseja-se validar a hipótese de que uma variável aleatória apresenta comportamento similar, ou homogêneo, em relação às suas várias subpopulações. Este teste apresenta a mesma mecânica do Teste de Independência, mas uma distinção importante se refere à forma como as amostras são coletadas. No Teste de homogeneidade fixa-se o tamanho da amostra em cada uma das subpopulações e, então, seleciona-se uma amostra de cada uma delas.

H0: As subpopulações das variáveis aleatórias são homogêneas
H1: As subpopulações das variáveis aleatórias não são homogêneas

Coeficientes de Correlação

Os coeficientes de correlação verificam a existência e o grau de associação entre dois conjuntos de dados.

Coeficiente Pearson

Estabelecer o nível de relação linear entre duas variáveis. Em outras palavras, mede em grau e o sentido (crescente/decrescente) da associação linear entre duas variáveis. Ele sempre estará entre −1,00 e +1,00, tendo o sinal a função de indicar a direção do movimento, ou seja, positivo (relação direta) e negativa (relação inversa) e o valor do coeficiente, a função de indicar a força da correlação, onde nos intervalos:

(+0,90; +1,00) ou (−1,00; −0,90) = correlação muito forte

(+0,60; +0,90) ou (−0,90; −0,60) = correlação forte

(+0,30; +0,60) ou (−0,60; −0,30) = correlação moderada

(0,00; +0,30) ou (−0,30; 0,00) = correlação fraca

Graficamente:

Sua equação é definida pela seguinte fórmula:

Lembrando que o coeficiente de correlação populacional é dado por:

Exemplo: A tabela abaixo apresenta 15 observações, com o tempo de entrega (em minutos) e a distância de entrega de um TelePizza.

Tempo	Distância
40	688
21	215
14	255
20	462
24	448
29	776
15	200
19	132
10	36
35	770
18	140
52	810
19	450
20	635
11	150

Calculando os valores obtemos o seguinte resultado:

Conclui-se que existe uma relação linear forte e positiva entre as variáveis. Todavia o coeficiente de correlação de Pearson é apenas uma estimativa do coeficiente de correlação populacional, pois é calculado com base em uma amostra aleatória de 𝑛 pares de dados. Sendo assim a amostra observada pode apresentar correlação, mas a população não, neste caso, tem-se um problema de inferência, pois o fato de r≠0 não é garantia de 𝜌≠0. Para resolver esse problema, utiliza-se da estatística de teste T-student, definido pela equação abaixo, para verificar se realmente existe correlação linear entre as variáveis:

Onde 𝑡 segue uma distribuição 𝑡−𝑆𝑡𝑢𝑑𝑒𝑛𝑡 com 𝑛−2 graus de liberdade e regido pelas seguintes hipóteses:

H0: A correlação entre as variáveis é zero (𝜌 = 0)
H1: A correlação entre as variáveis não é zero (𝜌 ≠ 0)

A partir da estatística 𝑡 com 13 graus de liberdade, os pontos críticos são ±2,1604. Portanto, rejeita-se 𝐻𝑜 ao nível de significância de 5%. Sendo assim a correlação entre o tempo de entrega e a distância percorrida é diferente de zero, então, existe uma relação linear e positiva entre as variáveis da ordem de 𝑟 = 0,8216.

Coeficiente Spearman

O coeficiente de correlação de Spearman, ou rho de Spearman, é uma medida não paramétrica da correlação (associação) entre duas variáveis ordinais. Ao contrário do coeficiente de correlação de Pearson, que mede a força e a direção da relação linear entre duas variáveis, o coeficiente de Spearman avalia a intensidade (o quão bem) é a relação entre duas variáveis. O coeficiente de correlação de Spearman (𝜌) é calculado utilizando a seguinte fórmula:

Interpretação:

ρ=1 indica uma perfeita correlação positiva.
ρ=−1 indica uma perfeita correlação negativa.
ρ=0 indica ausência de correlação.

Exemplo: Dados os valores da tabela abaixo:

Calculando os valores obtemos o seguinte resultado:

Utilizando-se da mesma equação estatística do teste T-student. Teremos as seguintes hipóteses:

H0: A correlação entre as variáveis é zero
H1: A correlação entre as variáveis não é zero

A partir da estatística 𝑡−𝑆𝑡𝑢𝑑𝑒𝑛𝑡 com 11 graus de liberdade, os pontos críticos são ±2,2010. Portanto, rejeita-se 𝐻𝑜 ao nível de significância de 5%. Sendo assim a correlação entre as variáveis 𝑋 e 𝑌 é diferente de zero, então, existe uma relação não-linear e negativa de ordem 𝑟= −0,9698.

Coeficiente Kendall

O coeficiente de correlação de Kendall é uma medida estatística utilizada para avaliar a associação entre duas variáveis ordinais, exatamente igual ao coeficiente de correlação de Spearman, a difenreça é que ele mede a correlação de concordância, enquanto Spearman, mede a correlação de postos. Sendo particularmente útil quando as variáveis em questão não assumem necessariamente distribuições normais. O coeficiente de correlação de Kendall (τ) é definido pela seguinte fórmula:

No qual, 𝑛 é o número de elementos aos quais atribui-se postos, 𝑆 é a soma da variável 𝑌 à direita que são superiores menos o número de postos à direita que são inferiores.

Interpretação:

τ=1 indica uma perfeita concordância.
τ=−1 indica uma perfeita discordância.
τ=0 indica ausência de associação entre as variáveis.

Para o cálculo do coeficiente de correlação por postos de Kendall ordena-se inicialmente uma das variáveis em ordem crescente de postos e o S correspondente a cada elemento será obtido fazendo o número de elementos cujo posto é superior ao que se está calculando menos o número de elementos cujo posto é inferior ao mesmo. Para verificar a significância do valor observado do coeficiente 𝜏 de Kendall, para 𝑛≤10 deve-se consultar a tabela abaixo.

Para 𝑛>10, pode utilizar a estatística de teste:

Exemplo: Dados os valores da tabela abaixo:

Calculando os valores obtemos o seguinte resultado:

Tendo as seguintes hipóteses:

H0: A correlação entre as variáveis é zero (𝜏=0)
H1: A correlação entre as variáveis não é zero (𝜏≠0)

A partir da estatística 𝑁𝑜𝑟𝑚𝑎𝑙 𝑝𝑎𝑑𝑟ã𝑜, os pontos críticos são ±1,96. Portanto, rejeita-se 𝐻𝑜 ao nível de significância de 5%. Sendo assim a correlação entre as variáveis 𝑋 e 𝑌 é diferente de zero, então, existe uma relação não-linear e negativa de ordem 𝜏=−0,7692.

Observação: Pode-se fazer uma comparação entre coeficiente de correlação de Spearman e o coeficiente de correlação por postos de Kendall. Os valores numéricos não são iguais, quando calculados para os mesmos pares de postos, e não são comparáveis numericamente. Contudo, pelo fato de utilizarem a mesma quantidade de informação contida nos dados, ambos têm o mesmo poder de detectar a existência de associação na população, e rejeitarão a hipótese nula para um mesmo nível de significância.

Repository Bibliographic References:

Introduction to Time Series, by Gustavo Rocha Silva
Practical Time Series Analysis: Prediction with Statistics and Machine Learning, by Aileen Nielsen
Elementary Statistics: Picturing the World Hardcover, by Ron Larson (Auteur), Betsy Farber
Time Series Econometrics, by Rodrigo de Losso da Silveira Bueno

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
Python		Python
R		R
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Time Series

Initial Concepts

Univariate time series models:

Testes Estatísticos

Teste de Kolmogorov-Smirnov

Teste de Anderson-Darling

Teste de Shapiro Wilk

Teste de Jarque-Bera

Resumo:

Teste de Aderência

Teste de Indepedência

Teste de Homogeneidade

Coeficientes de Correlação

Coeficiente Pearson

Coeficiente Spearman

Interpretação:

Coeficiente Kendall

Interpretação:

Repository Bibliographic References:

About

Releases

Packages

Languages

Tempo	Distância
40	688
21	215
14	255
20	462
24	448
29	776
15	200
19	132
10	36
35	770
18	140
52	810
19	450
20	635
11	150

Tempo	Distância
40	688
21	215
14	255
20	462
24	448
29	776
15	200
19	132
10	36
35	770
18	140
52	810
19	450
20	635
11	150

License

HenrySchall/Time_Series

Folders and files

Latest commit

History

Repository files navigation

Time Series

Initial Concepts

Univariate time series models:

Testes Estatísticos

Teste de Kolmogorov-Smirnov

Teste de Anderson-Darling

Teste de Shapiro Wilk

Teste de Jarque-Bera

Resumo:

Teste de Aderência

Teste de Indepedência

Teste de Homogeneidade

Coeficientes de Correlação

Coeficiente Pearson

Coeficiente Spearman

Interpretação:

Coeficiente Kendall

Interpretação:

Repository Bibliographic References:

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages

Tempo	Distância
40	688
21	215
14	255
20	462
24	448
29	776
15	200
19	132
10	36
35	770
18	140
52	810
19	450
20	635
11	150