Hadoop 部署文档
Hadoop 部署文档
1 先决条件
2 下载二进制文件
3 修改配置文件
3.1 core-site.xml
3.2 hdfs-site.xml
3.3 mapred-site.xml
3.4 yarn.xml
3.5 slaves
3.6 hadoop-env.sh
4 将配置好的 H...[2019/3/12]
HBase表的基本结构和常用命令行操作
一、HBase表的基本结构
1.概述:
平时常见的MySQL、Oracle数据库都是传统型关系数据库,它们都是按行查询、按行存储;而HBase为非关系型数据库,它是按列存储的的。
在HBase插入数据时,先输入数据的格式为rowkey => info => ...[2019/3/11]
HBase的概述和安装部署HBase的概述和安装部署
一、HBase概述
1.HBase是Hadoop数据库,是一个分布式、可扩展的大数据存储。
HBase是用于对大数据进行随机、实时读写访问的非关系型数据库,它的目标托管非常大的表——数十亿行N百万列。
正如Bigtable利用Google文件系统提供...[2019/3/7]
hive基础总结(面试常用)
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Metastore (hive元数据) Hive将元数据存储在数据库中,比如mysql ,derby.Hive中的元数据包括表...[2019/2/12]
MapReduce基础
1. WordCount程序
1.1 WordCount源程序
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import or...[2019/2/12]
HDFS基础
1. HDFS Shell基础
[root@master hadoop]# hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-...[2019/2/11]
Cannot obtain block length for LocatedBlock故障分析和解决
来源:CSDN
作者:Syn良子
原文:https: blog.csdn.net/c dongl/article/detail 77750495
一.问题背景
问题产生的原因可能是由于前几日Hadoop集群维护的时候,基础运维组操作不当,先关闭的Hadoop集群,然...[2019/1/30]
Hadoop源码学习笔记之NameNode启动流程分析一:源码环境搭建和项目模块及NameNode结构简单介绍
最近在跟着一个大佬学习Hadoop底层源码及架构等知识点,觉得有必要记录下来这个学习过程。想到了这个废弃已久的blog账号,决定重新开始更新。
主要分以下几步来进行源码学习:
一、搭建源码阅读环境 二、源码项目结构概览及hdfs源码包结构简介 三、NameNode介绍
第一步...[2019/1/25]
Hadoop系列009-NameNode工作机制
本人微信公众号,欢迎扫码关注!
NameNode工作机制
1 NameNode & SecondaryNameNode工作机制
1.1 第一阶段:namenode启动
1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑...[2019/1/25]
hadoop环境搭建-伪分布模式
Appache hadoop
版本:2.77 jdk:1.8 系统:centos7
注意不要在root下解压,要单独建一个用户安装hadoop及其组件。
一、先查看系统是否有自带j
#dk: rpm -qa|grep java
通常是如下4个包...[2019/1/22]
hbase-列存储动态数据库
1) HBase是什么?
HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目,是横向扩展的。
HBase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。
...[2019/1/22]
hive--数据仓库
1.1.1 hive是什么?
Hive是基于 Hadoop 的一个数据仓库工具:
1. hive本身不提供数据存储功能,使用HDFS做数据存储;
2. &...[2019/1/22]
hadoop体系架构
1.1 Hadoop
概念:hadoop是一个由Apache基金会所开发的分布式系统基础架构。是根据google发表的GFS(Google File System)论文产生过来的...[2019/1/14]
hadoop wordcout测试
hadoop wordcout测试
安装好hadoop 环境后,启动HDFS等服务;输密码 1004 start-all.sh 查看启动情况 1006 jps
1007 cd ~ 切换到用户默认目录
创建数据文件data.txt,输送值 hello beijing he...[2019/1/14]
2019年最炙手可热的大数据行业学习路线指导
随着国家对大数据政策的倾向越来越多的人听说过这个名词,但对它都可能也是一知半解,今天小编精心为大家整理了大数据相关的所有知识,以及大数据学习的一些资料,希望对大家有所帮助。
什么是大数据
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范...[2019/1/11]
Hadoop系列008-HDFS的数据流
本人微信公众号,欢迎扫码关注!
HDFS的数据流
1 HDFS写数据流程
1.1 剖析文件写入
1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。
2)namenode返回是否可以上传。
3)客户端请求第一个 block上传到哪几个...[2019/1/11]
应用AI芯片加速 Hadoop 3.0 纠删码的计算性能
本文由云+社区发表
做为大数据生态系统中最重要的底层存储文件系统HDFS,为了保证系统的可靠性,HDFS通过多副本的冗余来防止数据的丢失。通常,HDFS中每一份数据都设置两个副本,这也使得存储利用率仅为1/3,每TB数据都需要占用3TB的存储空间。随着数据量的增长,复制的代价也变得越来越明显...[2019/1/9]
关系数据库数据与hadoop数据进行转换的工具 - Sqoop
Sqoop
本文所使用的Sqoop版本为1.4.6
1.官网
http: qoop.apache.org
2.作用
A:可以把hadoop数据导入到关系数据库里面(e.g. Hive -> Mysql)
B:可以把关系数据库数据导入到hadoop里面(e.g. ...[2019/1/7]
Hive与Hbase整合
Hive与Hbase整合
1.文档
Hive HBase Integration
2.拷贝jar文件
2.1.把Hbase的lib目录下面的jar文件全部拷贝到Hive的lib目录下面
cd /home/hbase/lib
cp ./* /home/hive...[2019/1/7]
HDFS深度历险 之 从客户端逻辑看HDFS写入机制
说明
除了标注之外,本文纯属原创,转载请注明出处:https: www.jianshu.com/p/ea6ef5f5b868, https: www.cnblogs.com/monkeyteng/p/10220395.html
HDFS架构简介
Hadoop的框架最核心的设计就是:HDFS和Ma...[2019/1/7]
ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目
ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目
思路同我之前的博客的思路 https: www.cnblogs.com ymkmk123/p/10197467.html
但是数据是从web访问的数据
avro第一次过滤
观察数据的格式,我...[2019/1/2]
CDH 5.16.1 离线部署 & 通过 CDH 部署 Hadoop 服务
参考
Cloudera Enterprise 5.16.x
Installing Cloudera Manager, CDH, and Managed Services
Installation Path B - Manual Installation Using Cloudera Manager...[2018/12/28]
Elasticsearch与Hadoop集成大数据处理介绍
传统大数据处理 现代数据架构 Hadoop在20业务场景的应用 DataLake A data lake is a system or repository of data stored in its natural format, usually object bl...[2018/12/24]
Ubuntu 12.04上安装Hadoop并运行
Ubuntu 12.04上安装Hadoop并运行
作者:凯鲁嘎吉 - 博客园 http: www.cnblogs.com/kailugaji/
在官网上下载好四个文件
在Ubuntu的/home/wrr/下创建一个文件夹java,将这四个文件拷到Ubuntu的/home/wrr/j...[2018/12/21]
hadoop集群搭建
准备工作
先说明我用的是centos7,
并且准备了四台虚拟机 ip分别是
192.168.36.140
192.168.36.141
192.168.36.142
192.168.36.143
一、java环境安装
1.下载jdk
去jdk下载地址下载或者...[2018/12/19]
记一次Apache Carbondata PR的经历记一次Apache Carbondata PR的经历
前言
前段时间有幸接触到Apache Carbondata,试用过程中发现了一个小小的问题,并且又很快的定位到了问题。然后在社区群里反映了下,负责人问愿不愿意提个JIRA,PR,然后我在没有任何开源项目PR过的情况下竟然欣然答应...[2018/12/17]
hadoop在CentOS下的安装配置hadoop在CentOS下的安装配置
版本:CentOS-6.8-x86_64-minimal,hadoop2.6.4,jdk1.7.0
首先把jdk、hadoop压缩包下载发送到CentOS下并解压
下载发送不多赘述,解压命令tar -zxvf 压缩包
mv 原文件名 新文件名
(注意空格)
先配置jdk
...[2018/12/13]
大数据-Hadoop生态(16)-MapReduce框架原理-自定义FileInputFormat
1. 需求
将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value
三个小文...[2018/12/12]
Hadoop系列006-HDFS概念及命令行操作Hadoop系列006-HDFS概念及命令行操作
本人微信公众号,欢迎扫码关注!
HDFS概念及命令行操作
一、HDFS概念
1.1 概念
HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
HDFS的设计适合一次写入,多次读出的场景,且不支...[2018/12/11]
Hadoop系列007-HDFS客户端操作
title: Hadoop系列007-HDFS客户端操作
date: 2018-12-6 15:52:55
updated: 2018-12-6 15:52:55
categories: Hadoop
tags: [Hadoop,HDFS,HDFS客户端]
本人微信公众号,欢迎扫码...[2018/12/11]
学习笔记—MapReduce
MapReduce是什么
MapReduce是一种分布式计算编程框架,是Hadoop主要组成部分之一,可以让用户专注于编写核心逻辑代码,最后以高可靠、高容错的方式在大型集群上并行处理大量数据。
MapReduce的存储
MapReduce的数据是存储在HDFS上的,HDFS也是Hadoop的主要...[2018/12/10]
零基础学习大数据需要掌握的基础
大数据已经成为时代发展的趋势,很多人纷纷选择学习大数据,想要进入大数据行业。大数据技术体系庞大,包括的知识较多,系统的学习大数据可以让你全面掌握大数据技能。学习大数据需要掌握哪些知识? 我还是要推荐下我自己创建的大数据资料分享群142973723,这是大数据学习交流的地方,不管你是小白还是大牛,小编...[2018/12/7]
怎么理解LAXCUS大操作系统系统在云计算体系中的定位
最近一直在做laxcus大数据操作系统的分布式应用开发,因为做得多了,感触也多了。按照云计算三层定义,即iaas(基础设施即服务)、paas(平台即服务)、saas(软件即服务),laxcus属于paas层,它提供了paas层的各种功能,如果做个对标,它实际是OpenStack、Hadoop、...[2018/12/7]
小白学习大数据掌握这几个方法轻松入门小白学习大数据掌握这几个方法轻松入门
有很多学习大数据的朋友,在初期学习时,通常会对如何学习而感到迷茫。我经常在知乎上收到朋友关于如何入门、如何规划学习大数据、大数据的学习流程是什么的一些问题。今天我就粗浅的总结几点学习大数据方法。
一、兴趣建立
兴趣是可以让一个人持续关注一个事物的核心动力,那么兴趣的培养就非常重要了。如果你把写程...[2018/12/3]
Hadoop系列001-大数据概论
本人微信公众号,欢迎扫码关注!
大数据概论
1、大数据概念
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
最小的基本单位是bit,按顺序...[2018/12/3]
Hadoop系列002-从Hadoop框架讨论大数据生态
本人微信公众号,欢迎扫码关注!
从Hadoop框架讨论大数据生态
1、Hadoop是什么
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP...[2018/12/3]
如何成为一个大数据开发工程师?
大数据大数据,个个都在喊 但究竟什么是大数据开发,如何成为一个大数据开发工程师?
我还是要推荐下我自己创建的大数据资料分享群142973723,这是大数据学习交流的地方,不管你是小白还是大牛,小编都欢迎,不定期分享干货,包括我整理的一份适合零基础学习大数据资料和入门教程。
大数据通用处理平台
...[2018/12/3]
大数据-Hadoop生态(1)-CentOS6.8的安装,配置和克隆
准备工作
150G及以上的硬盘空间(因为要搭建3个系统组成的集群),cpu尽量i7-7xxx标压以上,内存16G及以上
自行搜索,下载,安装VMWare
准备CentOS6.8的镜像文件
注意:安装虚拟机前必须开启BIOS虚拟化支持
安装CentOS
...[2018/12/3]
spark-2.4.0-hadoop2.7-安装部署spark-2.4.0-hadoop2.7-安装部署
1. 主机规划
主机名称
IP地址
操作系统
部署软件
运行进程
备注
mini01
172.16.1.11【内网】
10.0.0.11 【外网】
CentOS 7.5
Jdk-8、zookeeper-...[2018/12/3]
spark-2.4.0-hadoop2.7-简单操作
1. 说明
本文基于:spark-2.4.0-hadoop2.7-高可用(HA)安装部署
2. 启动Spark Shell
在任意一台有spark的机器上执行
1 # --master spark: mini02:7077 连接spar...[2018/12/3]
canvas探照灯效果的示例代码
canvas中的clip()方法用于从原始画布中剪切任意形状和尺寸。一旦剪切了某个区域,则所有之后的绘图都会被限制在被剪切的区域内(不能访问画布上的其他区域)
也可以在使用clip()方法前通过使用save()方法对当前画布区域进行保存,并在以后的任意时间通过restore()方法对其进行恢复...[2018/12/3]
hive函数篇一hive函数篇一
hive 查看函数:
show functions;
desc functions 函数名
1. 时间函数
1.1 时间戳函数 --日期转时间戳:从1970-01-01 00:00:00 UTC到指定时间的秒数 select unix_timestamp(); --获得当前时区...[2018/11/30]
大数据入门怎么学习好
数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。 但从狭义上来看,我认为数据科学就是解决三个问题: 1. data pre-proce ing;(数据预处理) 2. data interpretation;(数据解读) 3...[2018/11/27]
分享《Hadoop权威指南(第四版)》中文PDF+英文PDF+源代码 [美]Tom White 王海 华东 刘喻 吕粤海
下载:https: pan.baidu.com 1-p38GRoYpgDrGlq1MPayaA 更多资料:https: www.cnblogs.com/aitf/
[美]Tom White 王海 华东 刘喻 吕粤海
《Hadoop权威指南(第四版)》中文PDF,734页,...[2018/11/25]
HBase基础概念
定义
非关系型分布式列式数据库,支持大数据量查询(百万,上亿行)
概要
数据存储:HDFS
数据计算:MapReduce/Spark
服务协调:Zookeeper
特征
列式存储(列只有一种类型byte[])
分布式
大数据存储(百万,上亿行; 上万列)
伸缩性,扩展性(列根据业务随意添...[2018/11/25]
HDFS源码文件过大,IDEA打开失败解决方法
问题现象:hadoop 3.1.0源码文件ClientNamenodeProtocolProtos大小4M+,IDEA打开时加载失败,ClientNamenodeProtocolPB报错找不到类。
--------------------------------------------------...[2018/11/25]
学习大数据要从哪些知识点开始入手
比如学hadoop,从哪儿开始学首先要根据你的基本情况而定,如果你就一小白,没有任何开发基础,也没有学过任何开发语言,那就必须先从基础java开始学起(大数据支持很多开发语言,但企业用的最多的还是JAVA),接下来学习数据结构、关系型数据库、linux系统操作,夯实基础之后,再进入大数据的学习...[2018/11/25]
大数据入门:Hadoop安装、环境配置及检测
目录
1.导包Hadoop包
2.配置环境变量
3.把winutil包拷贝到Hadoop bin目录下
4.把Hadoop.dll放到system32下
5.检测Hadoop是否正常安装
5.1在maven项目中检测,将配置文件放入resource包下
5.2然后通过一个简单的wordcount...[2018/11/25]
大数据调错系列之:自己总结的myeclipse连接hadoop会出现的问题大数据调错系列之:自己总结的myeclipse连接hadoop会出现的问题
在我们学习或者工作中开始hadoop程序的时候,往往会遇到一个问题,我们写好的程序需要打成包放在集群中运行,这无形中在浪费我们的时间,因为程序可以需要不断的调试,然后把最终程序放在集群中即可。为了解决这个问题,现在我们配置远程连接hadoop,远程调试的方法。
一段程序如下:获取更多大数据视频资...[2018/11/23]