Skip to content

Latest commit

 

History

History
132 lines (84 loc) · 3.53 KB

Spark.md

File metadata and controls

132 lines (84 loc) · 3.53 KB

导读

本文是 Spark 的导航页,介绍 Spark 的相关知识。

持续更新中~

目录

导读
目录
正文
    1 Spark简介
    2 Spark Core
    3 Spark Streaming
    4 Spark SQL
    5 Structured Streaminig
    6 Spark 优化
    7 超越批处理的流处理
总结
参考文献

正文

  • 简介
  • 特点
  • 集群架构
  • 核心组件
  • RDD
    • RDD 简介
    • RDD 特点
    • RDD 创建
    • RDD 操作
  • 共享变量
    • 广播变量
    • 累加器
  • 原理概述
  • 使用技巧
  • 使用限制
  • 项目实战
  • Spark SQL 简介
  • DataFrame,DataSet,RDD
  • Structured API 使用
  • 外部数据源
  • Spark SQL 常用函数
  • Spark SQL 运行原理
  • 简介
  • 快速例子
  • 编程模型
  • 使用 Datasets 和 DataFrame 的 API
  • 连续处理

Spark调优

Spark算子

  • 常见术语
    • 流是什么
    • 时域
    • 窗口(Window)
    • 水位线(Watermark)
    • 触发器(Trigger)
    • 容忍延迟(垃圾回收)
    • 堆积(Accumulation)
  • 数据处理模式
    • 有界数据
    • 无界数据(批处理)
    • 无界数据(流处理)
  • 确定能力边界
  • 正确性如何实现
    • 有状态的流式处理
    • 状态管理
  • 时间推理工具
    • What result are calculated?(计算了什么结果)
    • Where is event time are result calculated?(event time 在哪里计算)
    • When in processing time are result materialized?(在 processing time 中何时将结果物化)
    • How do refinements of results relate?(结果的细化是如何关联的)

总结

参考文献

[1] Spark 官方文档

[2] Spark 内核,设计与实现,GitHub,JerryLead