
Hadoop是一个用Java编写的Apache开源框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。
Hadoop框架工作的应用程序在跨计算机集群提供分布式存储和计算的环境中工作。
Hadoop旨在从单个服务器扩展到数千个机器,每个都提供本地计算和存储。
Hadoop - 简介
Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点
特别适合写一次,读多次的场景
适合
- 大规模数据
- 流式数据(写一次,读多次)
- 商用硬件(一般硬件)
不适合
- 低延时的数据访问
- 大量的小文件
- 频繁修改文件(基本就是写1次)
Hadoop架构
- HDFS: 分布式文件存储
- YARN: 分布式资源管理
- MapReduce: 分布式计算
- Others: 利用YARN的资源管理功能实现其他的数据处理方式。这些是其他Hadoop模块所需的Java库和实用程序。这些库提供文件系统和操作系统级抽象,并包含启动Hadoop所需的Java文件和脚本。
内部各个节点基本都是采用Master-Woker架构
教程适用人群
本教程面向希望使用Hadoop Framework了解大数据分析基础知识的专业人士,并成为Hadoop开发人员。软件专业人员,分析专业人员和ETL开发人员是本课程的主要受益人。学习前提
在开始执行本教程之前,我们假设您先前已经了解过Core Java,数据库概念和任何Linux操作系统版本。转载本站内容时,请务必注明来自W3xue。
部分原创内容未经授权禁止转载,违者必究。