-
Notifications
You must be signed in to change notification settings - Fork 0
/
s_doc.Rmd
170 lines (115 loc) · 8.38 KB
/
s_doc.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
---
title: "Přehled projektu"
output:
html_document:
toc: yes
toc_float: yes
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE, warning = FALSE, message = FALSE)
source("_targets_packages.R")
library(targets)
library(details)
```
```{r}
cnf <- config::get()
```
## Celková analytická logika systému
Cílem této datové pipeline je vytvořit vstupní data o výdajích z ESI fondů pro makroekonomické modely QUEST a HERMIN za období 2014-2020.
Výsledkem je rozpad výdajů na kraje, čtvrletí a kategorie QUEST/HERMIN.
Vycházíme z dat o projektech, platbách (ŽOP) a z očištěných dat o geolokaci projektů. Základním vstupem jsou sestavy z MSSF, od SZIF (pro PRV) a data o geolokaci projektů mimo PRV od MMR (výstup předchozího projektu.)
Sekundárně se zde také replikuje kompilace dat za období 2007-13. To se děje na základě skriptu z roku 2017, překlopeného do funkcí využitých v targets pipeline. Narozdíl od roku 2017 integrujeme i data o ekonomické kategorii výdajů, nově vygenerovaná z MS 2007 v roce 2021.
## Data a rozhodnutí
### MSSF a PRV
#### Zdroje
- data ke všem OP kromě PRV pochází ze sestav `` `r
cnf$sest_dir` ``. Nejsou zde data o příhraniční spolupráci. Název adresáře obsahuje datum, ke kterému jsou v sestavách aktuální data
- E001 Identifikace projektu: rozpad projektu na SC a ekonomické kategorie intervence
- E005 Kategorizace_oblast: oblasti intervence podle nařízení
- E003 Finance celkem: více finančních řezů, co řádek, to projekt
- E004 Žádosti o platbu: co řádek, to platba s datem
- lokalizace projektů běžných OP:
- využíváme výstup předchozího projektu MMR - `Arrow` dataset v adresáři `` `r
cnf$ef_obce_arrowdir` ``
- data k PRV pochází od MZe a jsou výrazně jednodušší:
- jediná tabulka
- co řádek, to projekt, včetně financí a NUTS3 (každý projekt má jen jednu NUTS3)
Dodatečně do pipeline vstupují data za období 2007-13, pro nové odhadnutí HERMINu za 2007-13:
- původní data z roku 2017 o dělení projektů na NUTS3, platbách podle let a prioritních tématech (obdoba oblastí intervencí v období 2014-20)
- nově vygenerovaná data o ekonomické činnosti, kam projekt spadá (nově vygenerování v roce 2021 ze starého MS)
##### Technické zádrhele u vstupních sestav
- mezi verzí z ledna 2021 a května 2021 se mírně změnila struktura XLSX souborů - na začátku se změnil počet volných řádek. Toto tedy je nejpravděopdobnější zdroj chyb u dalších aktualizací sestav.
- ve verzi z ledna 2021 bylo zmatení názvů a obsahu některých XLSX souborů
- v XLSX s oblastmi intervencí zřejmě chybí sloupce s rozpadem na SC, přičemž ale projekty jsou na SC rozpadlé do řádek, proto součty peněz v jednom projektu přesahují 100 %.
### Kategorizace pro makro modely
Pro QUEST i HERMIN převádíme kategorizace z dat na kategorizace pro makro modely následně:
- u běžných OP převádíme z oblasti intervencí (`oblast_intervence` z `E005 Kategorizace_oblast`) pro QUEST a pro jemnější členění kategorie AIS pro model HERMIN využíváme ekonomické kategorie (`katekon`) ze sestavy `001 Identifikace projektu`.
- u PRV odvozujeme kategorie QUEST a HERMIN z kódu operace
#### QUEST
`` `r
cnf$c_mc_xlsx_q` ``
`r DT::datatable(tar_read(macrocat_quest))`
#### HERMIN
`` `r
cnf$c_mc_xlsx_h` ``
`r DT::datatable(tar_read(macrocat_hermin))`
#### QUEST i HERMIN pro PRV
Zde jsou k zamyšlení operace 4.1.1, 4.2.1 a 6.1.1:
```{r}
targets::tar_read(efs_prv) %>%
group_by(prv_operace_kod) %>%
summarise(pocet = n(),
suma = sum(fin_vyuct_czv, na.rm = T)) %>%
arrange(desc(suma))
```
```{r}
tar_read(macrocat_prv) %>% filter(prv_operace_kod %in% c("4.1.1",
"4.2.1",
"6.1.1"))
```
`` `r
cnf$c_mc_xlsx_prv` ``
`r DT::datatable(tar_read(macrocat_prv))`
### QUEST a HERMIN 2007-13
- v datech je několik set projektů, které nemají kategorii ekonomické aktivity, ale protože jsou v QUESTu kategorizovány jako AIS, pro HERMIN je potřeba je nějak rozpadnout do podkategorií AIS
- konkrétně jsou to projekty v prioritních tématech 08 a 61
- tyto ručně v kódu kategorizujeme jako AIS1 (protože jde většinou o projekty OP Rybářství) a AIS3 (protože jde většinou o stavební projekty)
### Geografický rozpad
- dataset geografické alokace projektů nepochází ze stejné sady sestav, proto ani časově neodpovídá (momentálně je starší o několik měsíců), proto se ne všechny projekty podařilo lokalizovat
- dataset pochází z předchozího projektu, kde cílem bylo lokalizovat do obcí projekty často lokalizované jen na NUTS3
- u projektů lokalizovaných do více krajů jsou ve výstupu dvě varianty rozpadu: podle počtu krajů, kde se projekt realizoval, a s každým krajem váženým podle poču obyvatel obcí, kde se projekt konal.
- ve výsledném datasetu pak existují i proměnné s příponou `_wt_cond`, kde se použité vážení liší podle QUEST kategorie: podle krajů pro RD, AIS, TA; podle počtu obyvatel obcí pro INFR a HC
- počty obyvatel pro toto vážení pochází z ČSÚ, dataset číslo [ `r cnf$c_czso_pop_table_id` ](https://www.czso.cz/csu/czso/obyvatelstvo-k-3112-podle-pohlavi-v-obcich) (průměr hodnot za roky 2014 až 2020)
- geografické údaje obsažené v balíku sestav (E007 a E002) jsou pouze o sídle žadatele - z toho nelze usuzovat na lokalizaci projektu
### Časování plateb
- u části žádostí o platbu chyběla data proplacení žádosti, ale z čísla žádosti lze dovodit rok podání žádosti. U těchto žádostí rozkládáme datum proplacení rovnoměrně do všech kvartálů daného roku
- nepracujeme tedy se začátkem a koncem realizace projektů
- stejně tak nerozlišujeme platby ANTE a POST
- pro lepší přesnost by bylo vhodné tyto platby ještě posunout o cca 100 dnů (1 kvartál) dále v čase (odhadovaná prodleva mezi 30. 6. - coby očekávaná střední doba podání ŽOP v roce - a proplacením)
### Projekce čerpání v N+3
Co počítáme:
- bereme v úvahu nevyúčtované prostředky
- u projektů v pozitivních stavech
- které nebyly ukončeny k 30. 6. 2020
- tj. neřešíme, kdy a jak se proplatí výdaje už doběhlých projektů
Co je vynechané
- PRV - nemáme data o celkových alokacích projektů
Jak to projektujeme:
- lineárně: předpokládáme, že každý rok zbylého trvání projektu se utratí stejný díl zbylých peněz
- výjimkou je rok 2021, který co do podílu na čerpání vážíme polovinou váhy let 2022 a 2023 (protože data o platbách jsou cca do pololetí 2021)
- konečný rok projektu pro jednoduchost počítáme vždy jako celý, i pokud projekt zasahuje jen do několika měsíců
- vycházíme při tom z předpokládaného ukončení fyzické realizace
- tok peněz pro zjednodušení ukončujeme v roce 2023, tj. platby, které by podle postupy výše proběhly v roce 2024 a později, započítáváme do roku 2023.
- v zájmu konzistentnosti s daty o skutečných platbách do roku 2021, kde jsou platby oproti datům realizace opožděné, zpožďujeme tok peněz oproti fyzické realizaci o 6 měsíců
Jak to členíme:
- využíváme regionální, tematické a sektorové dělení výdajů projektu podle vstupních dat => předpokládáme, že regionální a tematické rozložení výdajů se v rámci jednoho projektu v čase nemění
Co ještě předpokládáme/ignorujeme:
- nepočítáme s odpadovostí/předčasným ukončováním projektů: pokud projekt běží v polovině roku 2021 (naše poslední data), předpokládáme, že doběhne a proplatí se mu všechny zbylé peníze
- nijak nezohledňujeme předchozí underspends projektů
- pokud projekt měl skončit dříve, ale neskončil, rozkládáme jeho neproplacené prostředky do let 2021-23 tak, aby projekty, které měly skončit dříve, měly více plateb v dřívejších letech
- nezohledňujeme unde-over schedule podle předchozích projektů - předpokládáme, že nyní bežící projekty skončí podle v datech uvedeného předpokládaného ukončení
- neděláme žádné předpoklady ohledně trajektorie proplácení ani nevyužíváme informace o nich z již ukončených projektů
### Hodnoty konfiguračních proměnných v souboru `config.yml`
```{details}
"./config.yml"
```