- 集中趋势
均值 中位数 分位数 众数 - 离中趋势
标准差 方差 - 数据分布
- 偏态
正偏 负偏 - 峰态
正态分布峰态系数一般为3 - 正态
标准正态分布均值为0,方差为1 - 三大分布
卡方分布 t分布 f分布
- 偏态
- 抽样理论
抽样误差 抽样精度
- 异常值分析
- 离散异常值
- 连续异常值
- 常识异常值
- 对比分析
- 绝对数与相对数
- 时间,空间,理论维度比较
- 结构分析
- 各组成部分的分布与规律
- 分布分析
- 数据分布频率的显示分析
- 假设检验与方差检验
- 相关系数
- 皮尔逊
- 斯皮尔曼
- 回归
- 线性回归
- PCA与奇异值分解
- 交叉分析
- 分组与钻取
- 相关分析
- 因子分析
- 聚类分析
- 回归分析
Ⅰ | Ⅱ |
---|---|
数据类型 | 可用方法 |
连续--连续 | 相关系数,假设检验 |
连续--离散(二值) | 相关系数,连续二值化,最大熵增益切分 |
连续--离散(二值) | 相关系数(定序) |
离散(二值)--离散(二值) | 相关系数,熵相关,F分值 |
离散--离散(非二值) | 熵相关,Gini,相关系数(定序) |
- 特征选择
- 特征变换
- 对指化
- 离散化
- 归一化,标准化
- 数值化
- 正规化
- 特征降维
- 特征衍生