ne-spark-courseware

NetEase Spark Courses

NetEase Spark Courses HitCount

本项目旨在指导相关的用户在使用网易猛犸大数据平台的过程中能够更加方便使用Apache Spark进行日常的数据开发工作。

一、基础知识

1. Spark概述及快速入门指南

2. 基于Maven在IDE中开发Spark应用

二、 Spark Core

1. Spark RDD概述

2. Spark垃圾回收机制 – ContextCleaner

Spark On YARN

三、 Spark SQL

DataFrame/Dataset

Spark SQL与Hive集成

Spark SQL UDF

如何优化Spark SQL执行过程

Spark SQL Catalyst工作原理详解

Spark SQL Cost Based Optimization详解

Spark SQL Thrift Server详解

Spark SQL 操作各种数据源

Spark SQL 参数详解及调优

四、 Spark Streaming

大数据处理的类型、流计算的框架及内容概要

SparkStreaming是什么及数据处理流程

Spark Streaming集成Kafka

Spark Streaming集成Flume

五、 Spark Structured Streaming

Spark Structured Streaming Basics

六、 Spark Machine Learning

七、 Spark GraphX

八、 R on Spark

九、 Mammut Spark 数据开发

如何使用猛犸Spark进行数据开发

如何使用猛犸进行ETL开发

如何使用猛犸Spark Streaming任务开发及调优

十、 Mammut Spark 自助分析

十一、 Spark 参数详解

十二、 其他


推广链接

Kyuubi 基于Spark实现的多租户SQL Thrift/JDBC/ODBC服务 codecov Build StatusHitCount

spark-authorizer 提供Spark SQL权限控制能力的插件 Build Status