Hadoop快速入门

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,可以让开发者在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。 

本课程主要介绍Hadoop入门知识,包括优势、环境搭建、运行模式、源码编译等。

  • 第1 章 : Hadoop介绍
  • 课时2:Hadoop是什么04:30
  • 课时3:Hadoop的发展历史07:36
  • 课时4:Hadoop三大发行版本04:52
  • 课时5:Hadoop的优势03:59
  • 课时6:Hadoop 1.x和2.x区别04:19
  • 课时7:Hadoop组成14:41
  • 课时8:Hadoop大数据技术生态体系16:21
  • 课时9:Hadoop推荐系统框架图03:54
  • 第2 章 : 环境搭建
  • 课时10:虚拟机准备12:18
  • 课时11:JDK安装08:52
  • 课时12:Hadoop安装02:30
  • 课时13:Hadoop目录结构05:36
  • 课时14:Hadoop官网手册12:22
  • 第3 章 : Hadoop运行模式
  • 第1 节 : 本地模式
  • 课时15:Grep官方案例11:37
  • 课时16:WordCount官方案例06:39
  • 第2 节 : 伪分布式模式
  • 课时17:启动HDFS并运行MR程序36:54
  • 课时18:Log日志查看和NN格式化前强调05:47
  • 课时19:NameNode格式化注意事项04:47
  • 课时20:启动YARN并运行MR程序15:47
  • 课时21:配置历史服务器05:39
  • 课时22:29_伪分布式_配置日志聚集08:45
  • 课时23:配置文件说明04:40
  • 第3 节 : 完全分布式模式
  • 课时24:虚拟机环境准备10:06
  • 课时25:scp案例16:47
  • 课时26:rsync案例03:33
  • 课时27:集群分发脚本xsync10:12
  • 课时28:集群配置08:58
  • 课时29:集群单节点启动03:54
  • 课时30:集群ssh配置14:29
  • 课时31:集群群起06:52
  • 课时32:集群文件存储路径说明07:47
  • 课时33:集群启动停止方式总结01:31
  • 课时34:学习总结08:46
  • 课时35:RM启动注意事项00:55
  • 课时36:Crondtab定时任务调度15:10
  • 课时37:集群时间同步16:31
  • 第4 章 : Hadoop源码编译
  • 课时38:Hadoop源码编译的意义02:17
  • 课时39:Hadoop源码编译说明03:42
  • 课时40:Hadoop源码编译的具体流程

Hadoop的核心总共有两个:HDFS(为海量数据提供储存)、MapReduce(为海量数据提供了计算)
hadoop的优点: 是一个能对大数据进行分布式处理的软件框架、是一种可靠、高效、高伸缩的方式进行处理数据.
哪里可靠:因为它假设了计算元素或储存失败,因此它维护了多个工作数据和副本,确保能够针对失败的节点进行重新分布处理
哪里高效:因为它是以并行的方式进行工作,通过并行处理加快处理速度
还是可伸缩的,因为可以处理PB级数据
————————————————

hadoop中有3个核心组件:

分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上

分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算

分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源

留下评论

电子邮件地址不会被公开。 必填项已用*标注