联系我们
bigdata_spark&project_atguigu
第 1 部分 Spark 基础
第 1 章 Spark 概述
1.1 什么是 Spark
1.2 Spark 特点
1.3 Spark 内置模块介绍
第 2 章 Spark 运行模式
2.1 Local 模式
2.2 Spark 核心概念介绍
2.3 Standalone 模式
2.3.1 配置 Standalone 模式
2.3.2 使用 Standalone 模式运行计算 PI 的程序
2.3.3 在 Standalone 模式下启动 Spark-shell
2.3.4 配置 Spark 任务历史服务器
2.3.5 HA 配置(为 Mater 配置)
2.3.6 Standalone 工作模式图解
2.4 Yarn 模式
2.5 Mesos 模式
2.6 几种运行模式的对比
第 3 章 案例实操
3.1 编写 WordCount 程序
3.2 测试
第 2 部分 Spark Core
第 4 章 RDD 概述
第 5 章 RDD 编程
5.1 RDD 编程模型
5.2 RDD 的创建
5.3 RDD 的转换(transformation)
5.3.1 Value 类型---1
5.3.1 Value 类型---2
5.3.2 双 Value 类型交互
5.3.3 Key-Value 类型--1
5.3.3 Key-Value 类型---2
5.3.4 案例实操
5.4 RDD的 Action 操作
5.5 RDD 中函数的传递
5.6 RDD 的依赖关系
5.7 Spark 中的 Job 调度
5.8 Spark Job 的划分
5.9 RDD 的持久化
5.10 设置检查点
第 6 章 Key-Value 类型 RDD 的数据分区器
第 7 章 文件中数据的读取和保存
7.1 读写 Text 文件
7.2 读写 Json 文件
7.3 读写 Sequence 文件
7.4 读写 Object 文件
7.5 从 HDFS 读写文件
7.6 从 Mysql 数据读写文件
7.7 从 Hbase 读写文件
第 8 章 RDD 编程进阶
8.1 累加器
8.2 广播变量
第 3 部分 Spark Core 项目实战
第 1 章 准备数据
第 2 章 需求 1: Top10 热门品类
第 3 章 需求 2: Top10热门品类中每个品类的 Top10 活跃 Session 统计
第 4 章 需求 3: 页面单跳转化率统计
第 4 部分 Spark Sql
第 9 章 Spark SQL 概述
9.1 什么是 Spark SQL
9.2 Spark SQL 的特点
9.3 什么是 DataFrame
9.4 什么是 DataSet
第 10 章 Spark SQL 编程
10.1 SparkSession
10.2 使用 DataFrame 进行编程
10.2.1 创建 DataFrame
10.2.2 DataFrame 语法风格
10.2.3 RDD 和 DataFrame 的交互
10.3 使用 DataSet 进行编程
10.3.1 创建 DataSet
10.3.2 RDD 和 DataSet 的交互
10.4 DataFrame 和 DataSet 之间的交互
10.5 RDD, DataFrame和 DataSet 之间的关系
10.6 使用 IDEA 创建SparkSQL 程序
10.7 自定义 SparkSQL 函数
10.7.1 自定义 UDF 函数
10.7.2 用户自定会聚合函数
第 11 章 Spark SQL 数据源
11.1 通用加载和保存函数
11.2 加载 JSON 文件
11.3 读取 Parquet 文件
11.3 JDBC
11.4 Hive 数据库
第 5 部分 SparkSql 项目实战
第 1 章 准备数据
第 2 章 需求 1: 各区域热门商品 Top3
第 6 部分 Spark Streaming
第 13 章 Spark Streaming 概述
第 14 章 DStream 入门
14.1 wordcount 案例
14.2 wordcount 案例解析
第 15 章 DStream 创建
15.1 RDD 队列
15.2 自定义数据源
15.3 Kafka数据源
高级 API
低级 API
第 16 章 DStream 转换
16.1 无状态转换操作
16.1.1 transform 操作
16.2 有状态转换操作
16.2.1 updateStateByKey
16.2.2 window 操作
第 17 章 DStream 输出
第 18 章 DStream 编程进阶
第 7 部分 Structured Streaming
第 1 章 Structured Streaming 概述
第 2 章 Structure Streaming 快速入门
第 3 章 Structured Streaming 编程模型
3.1 基本概念
3.2 处理事件-时间和延迟数据
3.3 容错语义
第 4 章 创建 Streaming DataFrame 和 Streaming DataSet
4.1 socket source
4.2 file source
4.3 Kafka source
4.4 Rate Source
第 5 章 操作 Streaming DataFrame/Streaming DataSet
5.1 基本操作
5.2 基于 event-time 的窗口操作
5.3 基于 Watermark 处理延迟数据
5.3.1 update 模式下使用 watermark
5.3.2 append 模式下使用 wartermark
5.3.3 watermark 机制总结
5.4 流数据去重
5.5 join 操作
5.5.1 Stream-static Joins
5.5.2 Stream-stream Joins
5.6 Streaming DF/DS 不支持的操作
第 6 章 输出分析结果
6.1 输出模式(output mode)
6.2 输出接收器(output sink)
6.2.1 file sink
6.2.2 kafka sink
6.2.3 console sink
6.2.4 memory sink
6.2.5 foreach sink
6.2.6 ForeachBatch Sink
第 7 章 Trigger(触发器)
7.1 连续处理模式
第 8 部分 Structured Streaming 项目实战
第 1 章 准备数据
1.1 数据生成方式
1.2 数据生成模块
1.3 从 Kafka 读取数据
第 2 章 广告黑名单实时统计
第 3 章 广告点击量实时统计
第 4 章 每天每地区热门广告 top3 实时统计
第 5 章 最近一小时广告点击量实时统计
第 9 部分 Spark Streaming 项目实战
第 1 章 每天每地区热门广告 Top3
第 2 章 最近 1 小时广告点击量实时统计
Powered by
GitBook
2.6 几种运行模式的对比
2.6 几种运行模式的对比
模式
Spark安装机器数
需启动的进程
所属者
Local
1
无
Spark
Standalone
多台
Master及Worker
Spark
Yarn
1
Yarn及HDFS
Hadoop
results matching "
"
No results matching "
"