本文是 Spark 的导航页,介绍 Spark 的相关知识。
持续更新中~
导读目录
正文
1 Spark简介
2 Spark Core
3 Spark Streaming
4 Spark SQL
5 Structured Streaminig
6 Spark 优化
7 超越批处理的流处理
总结
参考文献
1 Spark简介
- 简介
- 特点
- 集群架构
- 核心组件
- RDD
- RDD 简介
- RDD 特点
- RDD 创建
- RDD 操作
- 共享变量
- 广播变量
- 累加器
- 原理概述
- 使用技巧
- 使用限制
- 项目实战
- Spark SQL 简介
- DataFrame,DataSet,RDD
- Structured API 使用
- 外部数据源
- Spark SQL 常用函数
- Spark SQL 运行原理
- 简介
- 快速例子
- 编程模型
- 使用 Datasets 和 DataFrame 的 API
- 连续处理
6 Spark 优化
7 Spark 算子
- 常见术语
- 流是什么
- 时域
- 窗口(Window)
- 水位线(Watermark)
- 触发器(Trigger)
- 容忍延迟(垃圾回收)
- 堆积(Accumulation)
- 数据处理模式
- 有界数据
- 无界数据(批处理)
- 无界数据(流处理)
- 确定能力边界
- 正确性如何实现
- 有状态的流式处理
- 状态管理
- 时间推理工具
- What result are calculated?(计算了什么结果)
- Where is event time are result calculated?(event time 在哪里计算)
- When in processing time are result materialized?(在 processing time 中何时将结果物化)
- How do refinements of results relate?(结果的细化是如何关联的)
[1] Spark 官方文档