Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

一些数据问题 #12

Open
2 tasks done
XiangyunHuang opened this issue Oct 10, 2022 · 0 comments
Open
2 tasks done

一些数据问题 #12

XiangyunHuang opened this issue Oct 10, 2022 · 0 comments

Comments

@XiangyunHuang
Copy link
Owner

XiangyunHuang commented Oct 10, 2022

尽量选用一些社会、经济、文化、历史方面的数据,有具体背景,可以考虑一些国家的统计局、政府组织发布的数据,真实的数据,具体的场景,给读者在学习技术的同时,也能了解社会、经济等真实现状,有多少数据讲多少故事,尽量去吸引和带动读者做自己的探索、分析和研究。相信大家对了解这个社会是很感兴趣的。

问题数据

  • gapminder 包里面的数据是三次加工的,存在敏感性问题,不符合出版要求。直接从世界银行获取、整理数据,替换书中数据,重新绘图。
  • 目前 R-devel 开发者日志数据 svn-trunk-log-2022.rds 是 1997-09 至 2022-07,待 2022 年年底凑足 2022 年整年的数据。

组织数据

目前本地目录 data-raw/ 存放原数据以及处理数据的代码(不上传到本代码仓库),处理后的数据放在目录 data/ 下,上传到代码仓库)。目前的组织方式是数据内容+年份,以 R 软件内置的 RDS 格式保存,如下是一些示例。优点是占用空间小,易于交流。等统稿的时候,可以考虑做一个单独的 R 包存放数据。

china-age-sex-2020.rds          china-sex-ratio-2020.rds        svn-trunk-log-2022.rds
china-household-sex-2020.rds    gapminder-2020.rds              usa-mortality-2020.rds
china-raise-illiteracy-2020.rds rversion-2022.rds

数据来源

  1. CRAN 上 R 包内置数据集收录 https://github.com/vincentarelbundock/Rdatasets
  2. World Bank data 世界银行发布的数据,可以用 WDI 包获取,WDI 包的作者Vincent Arel-Bundock
  3. 美国人口调查局发布的统计年鉴、世界银行发布的各国数据、中国国家和地方统计局发布的年鉴。美国政府及组织发布的数据整理得会好一些,国内的数据收集有难度,会花费不少时间,比如国家统计局发布的年鉴,数据是以图片形式发布的。
  4. 中国地震数据分析、中国房地产行业分析,这两部分应该也是有意思的。比如房价在北京的分布,不是了解北京的大好方式吗?即使是利用历史的房价数据,依然很有意义。
  5. 经济学中不平等的概念(比如基尼系数),介绍洛伦兹曲线等基本概念,描述各个省/市过去 30 年城乡差距的变化等。不平等不均衡是历史以来的社会现象,如何用数据去刻画,具有普遍的社会意义,掌握一般方法,对于了解社会非常有帮助。
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant