联系我们
bigdata_spark_atguigu
第 1 部分 Spark 基础
第 1 章 Spark 概述
1.1 什么是 Spark
1.2 Spark 特点
1.3 Spark 内置模块介绍
第 2 章 Spark 运行模式
2.1 Local 模式
2.2 Spark 核心概念介绍
2.3 Standalone 模式
2.3.1 配置 Standalone 模式
2.3.2 使用 Standalone 模式运行计算 PI 的程序
2.3.3 在 Standalone 模式下启动 Spark-shell
2.3.4 配置 Spark 任务历史服务器
2.3.5 HA 配置(为 Mater 配置)
2.3.6 Standalone 工作模式图解
2.4 Yarn 模式
2.5 Mesos 模式
2.6 几种运行模式的对比
第 3 章 案例实操
3.1 编写 WordCount 程序
3.2 测试
第 2 部分 Spark Core
第 4 章 RDD 概述
第 5 章 RDD 编程
5.1 RDD 编程模型
5.2 RDD 的创建
5.3 RDD 的转换(transformation)
5.3.1 Value 类型---1
5.3.1 Value 类型---2
5.3.2 双 Value 类型交互
5.3.3 Key-Value 类型--1
5.3.3 Key-Value 类型---2
5.3.4 案例实操
5.4 RDD的 Action 操作
5.5 RDD 中函数的传递
5.6 RDD 的依赖关系
5.7 Spark 中的 Job 调度
5.8 Spark Job 的划分
5.9 RDD 的持久化
5.10 设置检查点
第 6 章 Key-Value 类型 RDD 的数据分区器
第 7 章 文件中数据的读取和保存
7.1 读写 Text 文件
7.2 读写 Json 文件
7.3 读写 Sequence 文件
7.4 读写 Object 文件
7.5 从 HDFS 读写文件
7.6 从 Mysql 数据读写文件
7.7 从 Hbase 读写文件
第 8 章 RDD 编程进阶
8.1 累加器
8.2 广播变量
第 3 部分 Spark Sql
第 9 章 Spark SQL 概述
9.1 什么是 Spark SQL
9.2 Spark SQL 的特点
9.3 什么是 DataFrame
9.4 什么是 DataSet
第 10 章 Spark SQL 编程
10.1 SparkSession
10.2 使用 DataFrame 进行编程
10.2.1 创建 DataFrame
10.2.2 DataFrame 语法风格
10.2.3 RDD 和 DataFrame 的交互
10.3 使用 DataSet 进行编程
10.3.1 创建 DataSet
10.3.2 RDD 和 DataSet 的交互
10.4 DataFrame 和 DataSet 之间的交互
10.5 RDD, DataFrame和 DataSet 之间的关系
10.6 使用 IDEA 创建SparkSQL 程序
10.7 自定义 SparkSQL 函数
10.7.1 自定义 UDF 函数
10.7.2 用户自定会聚合函数
第 11 章 Spark SQL 数据源
11.1 通用加载和保存函数
11.2 加载 JSON 文件
11.3 读取 Parquet 文件
11.3 JDBC
11.4 Hive 数据库
第 4 部分 Spark Streaming
第 1 章 准备数据
第 13 章 Spark Streaming 概述
第 14 章 DStream 入门
14.1 wordcount 案例
14.2 wordcount 案例解析
第 15 章 DStream 创建
15.1 RDD 队列
15.2 自定义数据源
15.3 Kafka数据源
高级 API
低级 API
第 16 章 DStream 转换
16.1 无状态转换操作
16.1.1 transform 操作
16.2 有状态转换操作
16.2.1 updateStateByKey
16.2.2 window 操作
第 17 章 DStream 输出
第 18 章 DStream 编程进阶
Powered by
GitBook
2.6 几种运行模式的对比
2.6 几种运行模式的对比
模式
Spark安装机器数
需启动的进程
所属者
Local
1
无
Spark
Standalone
多台
Master及Worker
Spark
Yarn
1
Yarn及HDFS
Hadoop
results matching "
"
No results matching "
"