Skip to content

Commit 16c0ead

Browse files
重新加入文本数据分析 (#148)
* 长公式折行 * 文本数据分析 * 特征共现网络、文本主题探索、文本相似性 * 抛光 * 文本数据分析 * 词向量表示 * tweak code * 潜在语义分析的核心是 SVD 分解 * 真实的文本数据分析总是这样,我还在学习,控制不好篇幅,把握不了重点 * 数据清理会比较复杂 * 以字母开头的 Token
1 parent d3802ae commit 16c0ead

File tree

5 files changed

+375
-26
lines changed

5 files changed

+375
-26
lines changed

DESCRIPTION

Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -62,6 +62,9 @@ Imports:
6262
purrr (>= 1.0.0),
6363
quadprog,
6464
quanteda,
65+
quanteda.textstats,
66+
quanteda.textplots,
67+
quanteda.textmodels,
6568
quantmod,
6669
ragg,
6770
readxl,

README.md

Lines changed: 13 additions & 13 deletions
Original file line numberDiff line numberDiff line change
@@ -6,21 +6,21 @@
66

77
- 欢迎
88
- 前言
9-
- 序言
9+
- 序言(待定)
1010
- 介绍
1111
- 数据准备
12-
- 数据对象
12+
- 数据对象(data.frame)
1313
- 数据获取
14-
- 数据清洗
15-
- 数据操作
16-
- 数据处理
14+
- 数据清洗(正则表达式)
15+
- 数据操作(Base R & dplyr & data.table & SQL)
16+
- 数据处理(离群值、异常值、缺失值)
1717
- 数据交流
18-
- 交互图形
19-
- 交互表格
20-
- 非交互表格
21-
- 交互应用
22-
- HTML 文档
23-
- PDF 文档
18+
- 交互图形(plotly 包)
19+
- 交互表格(DT 包)
20+
- 非交互表格(gt 包)
21+
- 交互应用(Shiny 框架)
22+
- HTML 文档(R Markdown)
23+
- PDF 文档(Quarto Document / LaTeX)
2424
- Office 文档
2525
- 统计分析
2626
- 常见的统计检验
@@ -29,8 +29,8 @@
2929
- 统计检验的功效
3030
- 数据建模
3131
- 网络数据分析(R 语言社区开发者协作网络)
32-
- 空间数据分析
33-
- 文本数据分析
32+
- 空间数据分析(岛上核辐射强度的预测分布)
33+
- 文本数据分析(CRAN 上 R 包标题文本分析)
3434
- 时序数据分析(美团股价收益率的风险建模)
3535
- 优化建模
3636
- 统计计算(统计模型与优化问题的关系)

analyze-spatial-data.qmd

Lines changed: 5 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -162,7 +162,11 @@ $$
162162
其中,$u_{ij}$ 表示位置 $x_i$ 与位置 $x_j$ 的欧氏距离 $\|x_i - x_j \|_2$ ,关于空间随机过程 $T(x)$ 的半变差函数 $V_{T}(u_{ij})$ 如下:
163163

164164
$$
165-
V_{T}(u_{ij}) = \frac{1}{2}\mathsf{Var}\{T(x_i)-T(x_j)\} = \frac{1}{2}\mathsf{E}\{[T(x_i)-T(x_j)]^2\} = \tau^2I_{\{i=j\}} + \sigma^2(1-\rho(u_{ij}))
165+
\begin{aligned}
166+
V_{T}(u_{ij}) &= \frac{1}{2}\mathsf{Var}\{T(x_i)-T(x_j)\} \\
167+
&= \frac{1}{2}\mathsf{E}\{[T(x_i)-T(x_j)]^2\} \\
168+
&= \tau^2I_{\{i=j\}} + \sigma^2(1-\rho(u_{ij})).
169+
\end{aligned}
166170
$$
167171

168172
**nlme** 包的记号之下,带块金效应的指数型自相关结构如下:
@@ -288,4 +292,3 @@ ggplot() +
288292
theme_bw() +
289293
labs(x = "横坐标", y = "纵坐标", fill = "预测方差")
290294
```
291-

0 commit comments

Comments
 (0)