查看: 1937|回复: 0

[培训] 【盘点】Cloudera Hadoop 的7门认证课程

[复制链接]
发表于 2016-8-3 09:27:12 | 显示全部楼层 |阅读模式
关键词: Cloudera , Hadoop , 大数据
1、【Cloudera Apache Hadoop管理员课程】(管理员)
2、【Cloudera Apache Hadoop程序员课程】(开发者)
3、【Cloudera 数据分析课程】(数据分析)
4、【Cloudera Apache HBase课程】(HBase)
5、【Cloudera Apache Spark程序员课程】(Spark)
6、【Designing and BuildingBig Data Applications】(数据建模)
7、【Cloudera Introduction to Data Science】(数据科学家)

1、【Cloudera Apache Hadoop管理员课程】(通过考试可获得CCAH全球认证证书)
课时:4天
学习系统管理的概念和Apache Hadoop的最佳实践,
从安装和配置到负载均衡和调优。
这个4天的的课程通过动手时间来赋予你部署的经验,
以及更多的安全方面的经验和故障排除。
课程结束后,学员被鼓励去参加Cloudera和Apache Hadoop管理员(CCAH)考试。

【课程内容】
1、Hadoop分布式文件系统(HDFS)
2、YARN/MapReduce的工作原理
3、如何优化Hadoop机群所需要的硬件配置
4、搭建Hadoop机群所需要考虑的网络因素
5、Hadoop机群维护和控制
6、如何利用Hadoop配置选项进行系统性能调优
7、如何利用FairScheduler为多用户提供服务级别保障
8、Hadoop机群维护和监控
9、如何使用Flume从动态生成的文件加载到Hadoop
10、如何使用Sqoop从关系型数据加载数据
11、Hadoop生态系统工具(如Hive、Impala、Pig和Base)
【学员基础】
具备基本Linux系统管理经验。不需要事先掌握Hadoop相关知识。

2、 【Cloudera Apache Hadoop程序员课程】(通过考试可获得CCDH全球认证证书)
课时:4天
学习Hadoop分布式文件系统(HDFS)基础和MapReduce框架以及如何利用其API来编写程序,
讨论为更大型的工作流程而设计技术。
这门4天的课程涵盖了为MapReduce程序修复漏洞和优化性能所需的高级技巧。
程序员课程也引入了Apache生态项目比如Hive、Pig、HBase、Flume和Oozie。
在完成课程后,学员被鼓励参加Cloudera认证Apache Hadoop程序员(CCDH)考试。

【课程内容】
1、MapReduce与HDFS内核知识以及如何编写MapReduce程序
2、Hadoop开发的最佳实践,调试、实现工作流及通用算法
3、如何利用Hive、Pig、Sqoop、Flume、Oozie及其他Hadoop的组件
4、按需定制WritableComparables与InputFormats处理复杂的数据类型
5、利用MapReduce编写、执行连接操作以整合不同数据集合
6、用于现实世界数据分析所需的高级HadoopAPI主题
7、用Java写MapReduce程序,用Streaming写MapReduce程序
8、调试MapReduce代码的策略,利用localjobrunner在本地测试MapReduce代码
9、Partitioners和Reducers如何一起工作,定制化Partitioners
10、定制Writable和WritableComparable
11、用SequenceFile和Avro数据文件存储二进制数据
【学员基础】
该课程适合具有一定编程经验的程序开发人员。由于课程中需要完成Hadoop相关编程练习,熟悉Java者优先

3、【Cloudera 数据分析课程】
课时:4天
针对任何需要在Hadoop上实时地通过SQL和熟悉的脚本来管理、操纵和查询大型复杂数据的人。
学习ApachePig、Apache Hive和Cloudera Impala如何通过过滤联接和其他用户自定义的功能
来支持数据的转型和分析。

【课程内容】
1、Hadoop生态圈、实验场景介绍、用Hadoop工具导入数据
2、pig的特性、使用案例、和pig交互、pig Latin语法、Field定义、用pig执行ETL流程
3、pig处理复杂数据,复杂/nested嵌套的数据类型、用pig分析广告战役的数据
4、pig的多数据组操作,pig链接多数据组、用pig分析离散的数据组
5、用流处理和UDFs扩展pig,Macros和Imports、contributed functions,用其他语言和pig一起处理数据
6、pig故障排查和优化,用web界面排查一个故障的任务、Data采样和故障排查、理解执行计划、提高pig任务性能
7、hive表结构和数据储存、对比hive和传统数据库、hive vs.pig、hive使用案例
8、hive的关系数据分析、数据管理、文本处理、优化及扩展,在shell、脚本和hue上运行hive查询
9、impala和hive、pig、关系数据库的不同、使用impalashell
10、采样impala分析数据,过滤、排序and limiting results,提升impala性能,impala的交互式分析
11、对比map reduce、pig、hive、impala和关系数据库
【学员基础】
该课程适合有SQL经验和基本UNIX和Linux命令的数据分析师、业务分析师和管理员
事先无需Java和Apache Hadoop的经验

4、 【Cloudera Apache HBase课程】(通过考试可获得CCSHB全球认证证书)
课时:4天
学习如何将HBase作为一个分布式的数据储存以实现低延迟的查询和高扩展的吞吐。
这4天的课程涵盖了HBase架构、数据模型、Java API及其他高级课题和最佳实践。
完成该课程后,学员被鼓励参加cloudera认证Apache HBase专家(CCSHB)考试来验证和认证其Hadoop经验。

【课程内容】
1、什么是HBase、为什么要用HBase,HBase和RDBMS,HBase的给予和索取
2、HBase系统管理API,HBase Shell、创建表、HBaseJava API、系统管理调用
3、通过HBaseAPI访问数据,API的使用、数据检索、在shell添加和更新数据、删除数据
4、用API添加、更新数据,Scan API、高级API技术、使用Eclipse
5、集群组件、HBase如何扩展,HBase写路径、读路径,压缩和拆分
6、HBase的安装、配置及其安全性
7、HBasedaemnon、ZooKeeper、HBase系统管理
8、复制、备份、MapeRduce和HBase集群
9、HBase里RowKey设计,从关系数据库到HBase表结构设计,以应用为中心的设计
10、列族、表结构设计的考虑点、热点处理
11、HBase生态系统:OpenTSDB、Kiji、HBase和hive

【学员基础】
该课程适合需要使用HBase的开发员和管理员。
预备的数据库和数据建模的经验有帮助,但不是必须的。
预备的Java知识有帮助,Hadoop经验不是必须的,
但是cloudera的Apache Hadoop开发培训课是个绝佳的基础。

5、【Cloudera Apache Spark程序员课程】
课时:4天
采用ApacheSpark来创建集成了批处理,流计算和互动式分析的完整,统一的大数据应用。
学习编写复杂的并行应用来履行更快的商业决策和更好的用户产出,并将其应用到广泛的应用场景,架构和行业。
这门4天的课程针对那些希望在应用的速度,易用性和高级分析方面进行优化的程序员和软件工程师。

【课程内容】
1、用Sparkshell执行互动式数据分析
2、Spark的弹性分布式数据集(Resilient Distributed Datasets)的特性
3、Spark怎样运行在一个集群上(一个独立的Spark集群)
4、Spark的并行编程、编写Spark应用、用Spark处理流数据
5、RDDPartitions和HDFS数据局部性、使用Partitions、并行操作
6、Spark应用对比Spark shell、创建Spark context、配置Spark shell属性
7、SparkStreaming简介、开发Spark Streaming应用
8、Streaming的Word Count、其他Streaming操作、滑动窗口操作
9、Spark、Hadoop和企业数据枢纽(EDH)
10、Spark和Hadoop生态圈、Spark和MapReduce
11、Caching and Persistence(RDD溯源、Caching缓存简介、分布式持久化机制)

【学员基础】
该课程适合具有一定编程经验的程序开发人员,课程样例和练习涉及到Python和Scala语言。
需要Linux的基本知识,事先无需Hadoop经验。

6、【Designing and Building Big Data Applications】(数据建模)
课时:4天
学习运用ApacheHadoop和企业数据枢纽中的关联工具来分析和解决实际问题,
你会遍历其设计和创建的整个过程,包括数据导入,决定恰当的文件格式来存储,
处理预存的数据,及用一个容易理解消化的形式向最终用户呈现结果。
这门4天的课程面向那些需要研发高度业务相关的应用的数据家。

【课程内容】
1、定义使用DataSets,Metadata管理、Apache Avro、AvroSchemas演变
2、什么是theKite SDK ,Fundamental Data Module基础概念Concepts,用Kite SDK创建新数据组
3、用ApacheSqoop输入关系数据,基本输入、限制结果、提升Sqoop性能、Sqoop 2
4、用ApacheFlume捕获数据,Flume自定义组开发、使用Flume自定义拦截器写Avro对象
5、采用ApacheOozie管理工作流,定义Oozie工作流,验证、封包、部署,Oozie的Hue用户界面
6、用ApacheCrunch处理数据管道,对比Crunch和Javamapreduce,应用Crunch projects,CrunchAPI的工具分级
7、使用ApacheHive里的表格,Basic Query Syntax,在Hive里采用RegexSerDe
8、开发用户定义功能,实现一个用户定义功能,用Impala执行互动式查询,数据和元数据管理
9、理解ClouderaSearch,Search架构、支持的文件格式
10、用Cloudera Search创建索引,Collection and SchemaManagement,Morphlines
11、Solr Query Sybtax,采用Hue创建搜索UI,通过JDBC访问Impala,用Impala和Search增强定制的web应用

【学员基础】
该课程最适合需要使用Hadoop及其相关工具来解决现实问题的程序员、工程师和架构师。
学员应该预先参加过cloudera的Apache Hadoop程序员培训或有相当的实践经验。
需要良好的Java知识,熟悉Linux。SQL经验会有帮助。
7、 【Cloudera Introductionto Data Science】(数据科学家)
课时:4天
数据科学家创建信息平台来提出和回答以前不敢想象的问题。
学习数据学如何帮助公司降低成本,提升利润,改进产品,留住客户和发现新机会。
这门4天的课程姜帮助学员理解数据科学家做什么,他们解决什么问题,
在不同的行业里他们解决实际问题的方法。

【课程内容】
1、使用案例:金融、零售、广告业、电信和公用事业、医疗和药品
2、项目周期里的步伐、实验场景介绍
3、数据采集:数据源、采集技术
4、评估输入数据:数据格式、数据质量、数据数量
5、数据转型:匿名化、文件格式转换、联结数据组
6、数据分析和统计模式:统计与概率的关系、描述性统计、统计推断
7、机械学习基础:机械学习的3C、Naive Bayes分类器、数据和算法的重要性
8、推荐系统简介:什么是决策系统、协同过滤的类型、推荐系统的局限
9、ApacheMahout是什么(不是什么),可用性和安装、使用Mahout基于条目的推荐系统
10、用Apache Mahout实现推荐系统:二值、数值偏好的相似性度量,打分
11、实验和评估、产品部署及更多

【学员基础】
该课程适合有Apache Hadoop基本知识如HDFS、
MapReduce、Hadoop Streaming和Apache Hive的开发人员、数据分析师和统计师。
学员应熟练脚本语言:建议熟练Python,而Perl或ruby只需熟悉即可。

Cloudera Hadoop学员交流 475436950
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们  -  服务条款  -  使用指南  -  站点地图  -  友情链接  -  联系我们
电子工程网 © 版权所有   京ICP备16069177号 | 京公网安备11010502021702
快速回复 返回顶部 返回列表