Hadoop经验 - 技术经验

Hadoop 部署文档

Hadoop 部署文档 1 先决条件 2 下载二进制文件 3 修改配置文件 3.1 core-site.xml 3.2 hdfs-site.xml 3.3 mapred-site.xml 3.4 yarn.xml 3.5 slaves 3.6 hadoop-env.sh 4 将配置好的 H...[2019/3/12]

HBase表的基本结构和常用命令行操作

一、HBase表的基本结构　　1.概述：　　　平时常见的MySQL、Oracle数据库都是传统型关系数据库，它们都是按行查询、按行存储；而HBase为非关系型数据库，它是按列存储的的。　　　在HBase插入数据时，先输入数据的格式为rowkey => info => ...[2019/3/11]

HBase的概述和安装部署

一、HBase概述　　1.HBase是Hadoop数据库，是一个分布式、可扩展的大数据存储。　　HBase是用于对大数据进行随机、实时读写访问的非关系型数据库，它的目标托管非常大的表——数十亿行N百万列。　　正如Bigtable利用Google文件系统提供...[2019/3/7]

hive基础总结(面试常用)

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。 Metastore （hive元数据） Hive将元数据存储在数据库中，比如mysql ,derby.Hive中的元数据包括表...[2019/2/12]

MapReduce基础

1. WordCount程序 1.1 WordCount源程序 import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import or...[2019/2/12]

HDFS基础

1. HDFS Shell基础 [root@master hadoop]# hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-...[2019/2/11]

Cannot obtain block length for LocatedBlock故障分析和解决

来源：CSDN 作者：Syn良子原文：https: blog.csdn.net/c dongl/article/detail 77750495 一.问题背景问题产生的原因可能是由于前几日Hadoop集群维护的时候，基础运维组操作不当，先关闭的Hadoop集群，然...[2019/1/30]

Hadoop源码学习笔记之NameNode启动流程分析一：源码环境搭建和项目模块及NameNode结构简单介绍

最近在跟着一个大佬学习Hadoop底层源码及架构等知识点，觉得有必要记录下来这个学习过程。想到了这个废弃已久的blog账号，决定重新开始更新。主要分以下几步来进行源码学习：一、搭建源码阅读环境二、源码项目结构概览及hdfs源码包结构简介三、NameNode介绍第一步...[2019/1/25]

Hadoop系列009-NameNode工作机制

本人微信公众号，欢迎扫码关注！ NameNode工作机制 1 NameNode & SecondaryNameNode工作机制 1.1 第一阶段：namenode启动 1）第一次启动namenode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编辑...[2019/1/25]

hadoop环境搭建-伪分布模式

Appache hadoop 版本：2.77 jdk:1.8 系统：centos7 注意不要在root下解压，要单独建一个用户安装hadoop及其组件。一、先查看系统是否有自带j 　　#dk: rpm -qa|grep java 　　通常是如下4个包...[2019/1/22]

hbase-列存储动态数据库

1) HBase是什么? HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目，是横向扩展的。 HBase是一个数据模型，类似于谷歌的大表设计，可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统（HDFS）提供的容错能力。 ...[2019/1/22]

hive--数据仓库

1.1.1 hive是什么？ Hive是基于 Hadoop 的一个数据仓库工具： 1. hive本身不提供数据存储功能，使用HDFS做数据存储； 2. &...[2019/1/22]

hadoop体系架构

1.1 Hadoop 概念：hadoop是一个由Apache基金会所开发的分布式系统基础架构。是根据google发表的GFS(Google File System)论文产生过来的...[2019/1/14]

hadoop wordcout测试

hadoop wordcout测试安装好hadoop 环境后，启动HDFS等服务；输密码 1004 start-all.sh 查看启动情况 1006 jps 1007 cd ~ 切换到用户默认目录创建数据文件data.txt,输送值 hello beijing he...[2019/1/14]

2019年最炙手可热的大数据行业学习路线指导

随着国家对大数据政策的倾向越来越多的人听说过这个名词，但对它都可能也是一知半解，今天小编精心为大家整理了大数据相关的所有知识，以及大数据学习的一些资料，希望对大家有所帮助。什么是大数据麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范...[2019/1/11]

Hadoop系列008-HDFS的数据流

本人微信公众号，欢迎扫码关注！ HDFS的数据流 1 HDFS写数据流程 1.1 剖析文件写入 1）客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。 2）namenode返回是否可以上传。 3）客户端请求第一个 block上传到哪几个...[2019/1/11]

应用AI芯片加速 Hadoop 3.0 纠删码的计算性能

本文由云+社区发表做为大数据生态系统中最重要的底层存储文件系统HDFS，为了保证系统的可靠性，HDFS通过多副本的冗余来防止数据的丢失。通常，HDFS中每一份数据都设置两个副本，这也使得存储利用率仅为1/3，每TB数据都需要占用3TB的存储空间。随着数据量的增长，复制的代价也变得越来越明显...[2019/1/9]

关系数据库数据与hadoop数据进行转换的工具 - Sqoop

Sqoop 本文所使用的Sqoop版本为1.4.6 1.官网　　http: qoop.apache.org 2.作用　　A:可以把hadoop数据导入到关系数据库里面(e.g. Hive -> Mysql) 　　B:可以把关系数据库数据导入到hadoop里面(e.g. ...[2019/1/7]

Hive与Hbase整合

Hive与Hbase整合 1.文档　　Hive HBase Integration 2.拷贝jar文件 2.1.把Hbase的lib目录下面的jar文件全部拷贝到Hive的lib目录下面 cd /home/hbase/lib cp ./* /home/hive...[2019/1/7]

HDFS深度历险之从客户端逻辑看HDFS写入机制

说明除了标注之外，本文纯属原创，转载请注明出处：https: www.jianshu.com/p/ea6ef5f5b868， https: www.cnblogs.com/monkeyteng/p/10220395.html HDFS架构简介 Hadoop的框架最核心的设计就是：HDFS和Ma...[2019/1/7]

ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目

ETL项目2:大数据清洗,处理:使用MapReduce进行离线数据分析并报表显示完整项目思路同我之前的博客的思路 https: www.cnblogs.com ymkmk123/p/10197467.html 但是数据是从web访问的数据 avro第一次过滤观察数据的格式,我...[2019/1/2]

CDH 5.16.1 离线部署 & 通过 CDH 部署 Hadoop 服务

参考 Cloudera Enterprise 5.16.x Installing Cloudera Manager, CDH, and Managed Services Installation Path B - Manual Installation Using Cloudera Manager...[2018/12/28]

Elasticsearch与Hadoop集成大数据处理介绍

传统大数据处理现代数据架构 Hadoop在20业务场景的应用 DataLake A data lake is a system or repository of data stored in its natural format, usually object bl...[2018/12/24]

Ubuntu 12.04上安装Hadoop并运行

Ubuntu 12.04上安装Hadoop并运行作者：凯鲁嘎吉 - 博客园 http: www.cnblogs.com/kailugaji/ 在官网上下载好四个文件在Ubuntu的/home/wrr/下创建一个文件夹java，将这四个文件拷到Ubuntu的/home/wrr/j...[2018/12/21]

hadoop集群搭建

准备工作先说明我用的是centos7, 并且准备了四台虚拟机 ip分别是 192.168.36.140 192.168.36.141 192.168.36.142 192.168.36.143 一、java环境安装 1.下载jdk 去jdk下载地址下载或者...[2018/12/19]

记一次Apache Carbondata PR的经历

前言前段时间有幸接触到Apache Carbondata，试用过程中发现了一个小小的问题，并且又很快的定位到了问题。然后在社区群里反映了下，负责人问愿不愿意提个JIRA,PR，然后我在没有任何开源项目PR过的情况下竟然欣然答应...[2018/12/17]

hadoop在CentOS下的安装配置

版本：CentOS-6.8-x86_64-minimal，hadoop2.6.4，jdk1.7.0 首先把jdk、hadoop压缩包下载发送到CentOS下并解压下载发送不多赘述，解压命令tar -zxvf 压缩包 mv 原文件名新文件名（注意空格）先配置jdk ...[2018/12/13]

大数据-Hadoop生态(18)-MapReduce框架原理-WritableComparable排序和GroupingComparator分组

1.排序概述 2.排序分类 3.WritableComparable案例这个文件,是大数据-Hadoop生态(12)-Hadoop序列化和源码追踪的输出文件,可以看到,文件根据key,也就是手机号进行了字典排序 13470253144 180 1...[2018/12/13]

大数据-Hadoop生态(16)-MapReduce框架原理-自定义FileInputFormat

1. 需求将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式），SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value 三个小文...[2018/12/12]

Hadoop系列006-HDFS概念及命令行操作

本人微信公众号，欢迎扫码关注！ HDFS概念及命令行操作一、HDFS概念 1.1 概念 HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。 HDFS的设计适合一次写入，多次读出的场景，且不支...[2018/12/11]

Hadoop系列007-HDFS客户端操作

title: Hadoop系列007-HDFS客户端操作 date: 2018-12-6 15:52:55 updated: 2018-12-6 15:52:55 categories: Hadoop tags: [Hadoop,HDFS,HDFS客户端] 本人微信公众号，欢迎扫码...[2018/12/11]

学习笔记—MapReduce

MapReduce是什么 MapReduce是一种分布式计算编程框架，是Hadoop主要组成部分之一，可以让用户专注于编写核心逻辑代码，最后以高可靠、高容错的方式在大型集群上并行处理大量数据。 MapReduce的存储 MapReduce的数据是存储在HDFS上的，HDFS也是Hadoop的主要...[2018/12/10]

零基础学习大数据需要掌握的基础

大数据已经成为时代发展的趋势，很多人纷纷选择学习大数据，想要进入大数据行业。大数据技术体系庞大，包括的知识较多，系统的学习大数据可以让你全面掌握大数据技能。学习大数据需要掌握哪些知识？我还是要推荐下我自己创建的大数据资料分享群142973723，这是大数据学习交流的地方，不管你是小白还是大牛，小编...[2018/12/7]

怎么理解LAXCUS大操作系统系统在云计算体系中的定位

　　最近一直在做laxcus大数据操作系统的分布式应用开发，因为做得多了，感触也多了。按照云计算三层定义，即iaas（基础设施即服务）、paas（平台即服务）、saas（软件即服务），laxcus属于paas层，它提供了paas层的各种功能，如果做个对标，它实际是OpenStack、Hadoop、...[2018/12/7]

小白学习大数据掌握这几个方法轻松入门

有很多学习大数据的朋友，在初期学习时，通常会对如何学习而感到迷茫。我经常在知乎上收到朋友关于如何入门、如何规划学习大数据、大数据的学习流程是什么的一些问题。今天我就粗浅的总结几点学习大数据方法。一、兴趣建立兴趣是可以让一个人持续关注一个事物的核心动力,那么兴趣的培养就非常重要了。如果你把写程...[2018/12/3]

Hadoop系列001-大数据概论

本人微信公众号，欢迎扫码关注！大数据概论 1、大数据概念大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit，按顺序...[2018/12/3]

Hadoop系列002-从Hadoop框架讨论大数据生态

本人微信公众号，欢迎扫码关注！从Hadoop框架讨论大数据生态 1、Hadoop是什么 1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2）主要解决，海量数据的存储和海量数据的分析计算问题。 3）广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP...[2018/12/3]

如何成为一个大数据开发工程师？

大数据大数据，个个都在喊但究竟什么是大数据开发，如何成为一个大数据开发工程师？我还是要推荐下我自己创建的大数据资料分享群142973723，这是大数据学习交流的地方，不管你是小白还是大牛，小编都欢迎，不定期分享干货，包括我整理的一份适合零基础学习大数据资料和入门教程。大数据通用处理平台 ...[2018/12/3]

大数据-Hadoop生态(1)-CentOS6.8的安装,配置和克隆

准备工作 150G及以上的硬盘空间(因为要搭建3个系统组成的集群),cpu尽量i7-7xxx标压以上,内存16G及以上自行搜索,下载,安装VMWare 准备CentOS6.8的镜像文件注意:安装虚拟机前必须开启BIOS虚拟化支持安装CentOS ...[2018/12/3]

spark-2.4.0-hadoop2.7-安装部署

1. 主机规划主机名称 IP地址操作系统部署软件运行进程备注 mini01 172.16.1.11【内网】 10.0.0.11 【外网】 CentOS 7.5 Jdk-8、zookeeper-...[2018/12/3]

spark-2.4.0-hadoop2.7-简单操作

1. 说明本文基于：spark-2.4.0-hadoop2.7-高可用(HA)安装部署 2. 启动Spark Shell 　　在任意一台有spark的机器上执行 1 # --master spark: mini02:7077 连接spar...[2018/12/3]

canvas探照灯效果的示例代码

canvas中的clip()方法用于从原始画布中剪切任意形状和尺寸。一旦剪切了某个区域，则所有之后的绘图都会被限制在被剪切的区域内(不能访问画布上的其他区域) 也可以在使用clip()方法前通过使用save()方法对当前画布区域进行保存，并在以后的任意时间通过restore()方法对其进行恢复...[2018/12/3]

hive函数篇一

hive 查看函数： show functions; desc functions 函数名 1. 时间函数 1.1 时间戳函数 --日期转时间戳：从1970-01-01 00:00:00 UTC到指定时间的秒数 select unix_timestamp(); --获得当前时区...[2018/11/30]

大数据入门怎么学习好

数据科学并没有一个独立的学科体系，统计学，机器学习，数据挖掘，数据库，分布式计算，云计算，信息可视化等技术或方法来对付数据。但从狭义上来看，我认为数据科学就是解决三个问题： 1. data pre-proce ing;(数据预处理） 2. data interpretation；（数据解读） 3...[2018/11/27]

分享《Hadoop权威指南（第四版）》中文PDF+英文PDF+源代码 [美]Tom White 王海华东刘喻吕粤海

下载：https: pan.baidu.com 1-p38GRoYpgDrGlq1MPayaA 更多资料：https: www.cnblogs.com/aitf/ [美]Tom White 王海华东刘喻吕粤海《Hadoop权威指南（第四版）》中文PDF，734页，...[2018/11/25]

HBase基础概念

定义非关系型分布式列式数据库,支持大数据量查询（百万,上亿行）概要数据存储：HDFS 数据计算：MapReduce/Spark 服务协调：Zookeeper 特征列式存储（列只有一种类型byte[]）分布式大数据存储（百万,上亿行; 上万列）伸缩性,扩展性（列根据业务随意添...[2018/11/25]

HDFS源码文件过大，IDEA打开失败解决方法

问题现象：hadoop 3.1.0源码文件ClientNamenodeProtocolProtos大小4M+，IDEA打开时加载失败，ClientNamenodeProtocolPB报错找不到类。 --------------------------------------------------...[2018/11/25]

学习大数据要从哪些知识点开始入手

比如学hadoop，从哪儿开始学首先要根据你的基本情况而定，如果你就一小白，没有任何开发基础，也没有学过任何开发语言，那就必须先从基础java开始学起（大数据支持很多开发语言，但企业用的最多的还是JAVA），接下来学习数据结构、关系型数据库、linux系统操作，夯实基础之后，再进入大数据的学习...[2018/11/25]

大数据入门：Hadoop安装、环境配置及检测

目录 1.导包Hadoop包 2.配置环境变量 3.把winutil包拷贝到Hadoop bin目录下 4.把Hadoop.dll放到system32下 5.检测Hadoop是否正常安装 5.1在maven项目中检测，将配置文件放入resource包下 5.2然后通过一个简单的wordcount...[2018/11/25]

大数据调错系列之：自己总结的myeclipse连接hadoop会出现的问题

在我们学习或者工作中开始hadoop程序的时候，往往会遇到一个问题，我们写好的程序需要打成包放在集群中运行，这无形中在浪费我们的时间，因为程序可以需要不断的调试，然后把最终程序放在集群中即可。为了解决这个问题，现在我们配置远程连接hadoop，远程调试的方法。一段程序如下：获取更多大数据视频资...[2018/11/23]

472

记录数:307　页数：5/7首页上一页 1 2 3 456 7 下一页尾页

友情链接：直通硅谷　点职佳　北美留学生论坛

加载更多

HBASE的安装过程及运行HBASE程序的需要配置的内容

hadoop--Unable to load native-hadoop library for your platform解决方法

Hive sampling 语法之TABLESAMPLE用法理解

idea项目运行时报错提示Could not locate executable null\bin\winutils.exe in the Hadoop binaries

hadoop 无法访问50070端口问题解决

KUDU数据导入尝试一：TextFile数据导入Hive,Hive数据导入KUDU

Hadoop运行时遇到java.io.FileNotFoundException错误的解决方法

Hive安装