python3实战Spark大数据分析及调度
Python3玩转Spark开发,Azkana让作业井然有序
本课程运用python3实战讲解了Spark中心功用组件,并结合调度爆款框架Azkaban,来对作业进行调度,最后以天气数据剖析做为实战项目,让你学会对大数据进行处理与剖析,让Python开发人员也能对Spark应用程序进行开发及调优。
适合人群
了解Python言语的想运用Spark进行数据处理剖析的人员
了解Hadoop,想快速提高Spark技能的小伙伴
想转行投身大数据职业的小伙伴
技术储备要求
熟悉常用Linux命令的运用
把握Python同时有数据库SQL根底
[wm_notice]链接:https://pan.baidu.com/s/12nVrxA0PJj9innSMwiykHQ
提取码:7zb8
–来自百度网盘超级会员V1的分享[/wm_notice]
章节目录:
-
第1章 课程介绍 试看2 节 | 19分钟
课程介绍
收起列表
- 视频:1-1 PySpark导学 (12:51)试看
- 视频:1-2 OOTB环境演示 (05:29)
-
第2章 实战环境建立7 节 | 32分钟
工欲善其事必先利其器,本章叙述JDK、Scala、Hadoop、Maven、Python3以及Spark源码编译及布置
收起列表
- 视频:2-1 -课程目录 (00:54)
- 视频:2-2 –java环境建立 (02:14)
- 视频:2-3 -Scala环境建立 (01:50)
- 视频:2-4 -Hadoop环境建立 (09:29)
- 视频:2-5 -Maven环境建立 (02:24)
- 视频:2-6 -Python3环境布置 (05:53)
- 视频:2-7 -Spark源码编译及布置 (08:53)
-
第3章 Spark Core中心RDD 试看12 节 | 108分钟
本章具体解说RDD是什么以及特性(面试常考)、Spark中两个中心类SparkContext和SparkConf、pyspark发动脚本剖析、RDD的创立方法以及怎么运用IDE开发Python Spark应用程序并提交到服务器上运转
收起列表
- 视频:3-1 -课程目录 (03:58)
- 视频:3-2 -RDD是什么 (11:25)
- 视频:3-3 -经过电影描述集群的强大之处 (04:47)
- 视频:3-4 -RDD的五大特性 (12:00)
- 视频:3-5 -RDD特性在源码中的表现 (12:38)试看
- 视频:3-6 -图解RDD (04:31)
- 视频:3-7 -SparkContext&SparkConf详解 (10:35)
- 视频:3-8 -pyspark (11:49)
- 视频:3-9 -RDD创立方法一 (08:23)
- 视频:3-10 -RDD创立方法二 (12:18)
- 视频:3-11 -运用IDE开发pyspark应用程序 (10:04)
- 视频:3-12 -提交pyspark作业到服务器上运转 (05:20)
-
第4章 Spark Core RDD编程16 节 | 92分钟
本章将针对RDD中常用的算子进行具体事例解说,并进行归纳事例实战
收起列表
- 视频:4-1 -课程目录 (01:23)
- 视频:4-2 -RDD常用操作 (09:23)
- 视频:4-3 -map算子运用详解 (10:05)
- 视频:4-4 -filter算子详解 (04:44)
- 视频:4-5 -flatMap算子详解 (03:36)
- 视频:4-6 -groupByKey算子详解 (05:54)
- 视频:4-7 -reduceByKey算子详解 (04:37)
- 视频:4-8 -sortByKey算子详解 (06:29)
- 视频:4-9 -union算子运用详解 (02:26)
- 视频:4-10 -distinct算子运用详解 (02:00)
- 视频:4-11 -join算子详解 (05:34)
- 视频:4-12 -action常用算子详解 (03:03)
- 视频:4-13 -算子归纳事例实战一词频计算 (13:57)
- 视频:4-14 -算子归纳事例实战之词频计算重构 (03:52)
- 视频:4-15 -算子归纳事例实战之TopN计算 (08:46)
- 视频:4-16 -算子归纳事例实战之平均数计算 (05:55)
-
第5章 Spark运转形式5 节 | 50分钟
本章将介绍Spark的几种运转形式,需求要点把握on YARN形式
收起列表
- 视频:5-1 -课程目录 (01:50)
- 视频:5-2 -local形式运转 (09:47)
- 视频:5-3 -standalone形式环境建立及pyspark运转 (11:52)
- 视频:5-4 -standalone形式spark-submit运转 (05:28)
- 视频:5-5 -yarn运转形式详解 (20:47)
-
第6章 Spark Core进阶 试看13 节 | 98分钟
本章将介绍Spark中的中心术语、运转架构、并比照Spark和MapReduce的概念区分、存储战略及挑选方法、宽窄依靠及Shuffle
收起列表
- 视频:6-1 -课程目录 (04:02)
- 视频:6-2 -Spark中心概念详解 (14:26)
- 视频:6-3 -结合Spark UI详解Spark中心概念 (04:23)试看
- 视频:6-4 -Spark运转架构及注意事项 (09:21)
- 视频:6-5 -Spark和Hadoop重要概念区分 (05:32)
- 视频:6-6 -Spark缓存的作用 (12:47)
- 视频:6-7 -Spark缓存概述 (06:21)
- 视频:6-8 -Spark缓存战略详解 (08:12)
- 视频:6-9 -Spark缓存战略挑选根据 (04:41)
- 视频:6-10 -Spark Lineage机制 (05:00)
- 视频:6-11 -Spark窄依靠和宽依靠 (08:10)
- 视频:6-12 -Spark Shuffle概述 (01:54)
- 视频:6-13 -图解RDD的shuffle以及依靠关系 (12:13)
-
第7章 Spark Core调优6 节 | 40分钟
本章将从Spark作业性能指标、序列化、内存办理、播送变量及数据本地化这几个方面来介绍Spark作业的调优
收起列表
- 视频:7-1 -课程目录 (02:05)
- 视频:7-2 -优化之HistoryServer配置及运用 (15:32)
- 视频:7-3 -优化之序列化 (05:48)
- 视频:7-4 -优化之内存办理 (07:55)
- 视频:7-5 -优化之播送变量 (02:51)
- 视频:7-6 -优化之数据本地性 (05:32)
-
第8章 Spark SQL9 节 | 73分钟
本章将解说Spark SQL的架构、DataFrame&Dataset、以及怎么运用Python API来对DataFrame进行编程
收起列表
- 视频:8-1 -课程目录 (01:52)
- 视频:8-2 -Spark SQL宿世此生 (10:28)
- 视频:8-3 -Spark SQL概述&错误认识纠正 (13:43)
- 视频:8-4 -Spark SQL架构 (03:17)
- 视频:8-5 -DataFrame&Dataset详解 (07:15)
- 视频:8-6 -DataFrame API编程 (14:55)
- 视频:8-7 -RDD与DataFrame互操作方法一 (09:37)
- 视频:8-8 -RDD与DataFrame互操作方法二 (06:02)
- 视频:8-9 -Spark SQL其他 (05:24)
-
第9章 Spark Streaming8 节 | 62分钟
本章将解说Spark Streaming的中心概念、执行原理、以及怎么Python API来对Spark Streaming进行编程
收起列表
- 视频:9-1 -课程目录 (01:35)
- 视频:9-2 -Spark Streaming概述 (07:37)
- 视频:9-3 -实时流处理结构比照 (04:24)
- 视频:9-4 -Spark Streaming执行原理 (07:18)
- 视频:9-5 -从词频计算事例来了解SparkStreaming (10:20)
- 视频:9-6 -中心概念之StreamingContext (17:25)
- 视频:9-7 -中心概念之DStream及常用操作 (06:20)
- 视频:9-8 -SparkStreaming操作文件系统数据实战 (06:03)
-
第10章 Azkaban根底篇10 节 | 81分钟
本章将解说Azkaban的特性、架构、运转形式、源码编译及布置、快速入门
收起列表
- 视频:10-1 Azkaban根底篇课程目录 (04:01)
- 视频:10-2 -作业流概述 (08:51)
- 视频:10-3 -作业流在大数据处理中的重要性 (11:29)
- 视频:10-4 -常用调度结构介绍 (07:37)
- 视频:10-5 -Azkaban概述及特性 (09:55)
- 视频:10-6 -Azkaban架构 (07:34)
- 视频:10-7 -Azkaban运转形式详解 (06:50)
- 视频:10-8 -Azkaban源码编译 (08:56)
- 视频:10-9 -Azkaban solo server环境布置 (09:29)
- 视频:10-10 -Azkaban快速入门事例 (06:06)
-
第11章 Azkaban实战篇7 节 | 49分钟
本章将解说怎么运用Azkaban来结束HDFS、MapReduce、Hive作业的调度、守时作业调度以及邮件告警
收起列表
- 视频:11-1 -Azkaban实战篇课程目录 (02:59)
- 视频:11-2 -依靠作业在Azkaban中的运用 (06:50)
- 视频:11-3 -HDFS作业在Azkaban中的运用 (03:21)
- 视频:11-4 -MapReduce作业在Azkaban中的运用 (12:28)
- 视频:11-5 -Hive作业在Azkaban中的运用 (08:26)
- 视频:11-6 -守时调度作业在Azkaban中的运用 (05:14)
- 视频:11-7 -邮件告警及SLA在Azkaban中的运用 (08:43)
-
第12章 Azkaban进阶篇10 节 | 73分钟
本章将解说Azkaban在生产上的布置、权限办理、Ajax API、Plugin、以及短信和调度结构的二次开发
收起列表
- 视频:12-1 -Azkaban进阶篇课程目录 (05:27)
- 视频:12-2 -Two Server Mode之数据库准备作业 (07:06)
- 视频:12-3 -Two Server Mode之AzkabanWebServer建立 (14:41)
- 视频:12-4 -Two Server Mode之AzkabanExecServer建立 (04:52)
- 视频:12-5 -Two Server Mode之运用实战 (07:25)
- 视频:12-6 -Azkaban权限办理 (03:52)
- 视频:12-7 -Azkaban中AJAX API运用 (14:46)
- 视频:12-8 -Azkaban Plugin的运用 (04:45)
- 视频:12-9 -Azkaban中短信告警改造思路 (03:25)
- 视频:12-10 Azbakan在生产上运用的改造思路 (05:46)
-
第13章 项目实战19 节 | 120分钟
本章将解说在构建大数据平台的技术选型、集群晋级资源评价,并运用Spark对气象数据进行剖析,讲剖析成果写入ES,并经过Kibana进行计算成果的可视化展现
收起列表
- 视频:13-1 -课程目录 (01:24)
- 视频:13-2 -大数据项目开发流程 (14:05)
- 视频:13-3 -大数据企业级应用 (07:57)
- 视频:13-4 -企业级大数据剖析平台 (05:55)
- 视频:13-5 -集群数据量预估 (05:01)
- 视频:13-6 -集群机器规模&资源&作业规划 (04:58)
- 视频:13-7 -项目需求 (06:22)
- 视频:13-8 -数据加载成DataFrame并选出需求的列 (09:00)
- 视频:13-9 -SparkSQL UDF函数开发 (07:57)
- 视频:13-10 -每年Grade出现的次数计算 (02:51)
- 视频:13-11 -Grade在每年中的占比计算 (04:59)
- 视频:13-12 -ES布置及运用 (07:49)
- 视频:13-13 -Kibana布置及运用 (04:55)
- 视频:13-14 -将作业运转到YARN上 (05:31)
- 视频:13-15 -计算剖析成果写入ES测验 (11:27)
- 视频:13-16 -计算剖析成果入ES并经过Kibana图形化展现 (09:09)
- 视频:13-17 -作业 (02:03)
- 视频:13-18 -经过Azkaban调度整个流程 (04:29)
- 视频:13-19 -课程总结及展望(要点关注) (03:53)