一起学习大数据啦
建了个群30191235,交流大数据相关问题,分享大数据相关资料。
有兴趣的小伙伴一起啊。
为什么会有这个群?
原文链接:http: www.cnblogs.com/warn/p/10910016.html[2019/5/24]
怎么学习大数据?
那大数据处理技术怎么学习呢?首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。
Java:大家都知道Java的方向有JavaSE、JavaEE、JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet、...[2019/5/24]
HBASE的安装过程及运行HBASE程序的需要配置的内容HBASE的安装过程及运行HBASE程序的需要配置的内容
HBase安装配置
①下载压缩包(选择与自己安装的Hadoop版本的兼容版本,见后面附录)
官网下载地址:https: mirrors.tuna.tsinghua.edu.cn/apache/hbase table/
选择稳定版hbase-1.4.9-bin.tar.gz,在Window...[2019/5/22]
零基础学习大数据该从哪里学起
大数据应该学什么?如果是有基础就根据个人情况来定,如果是零基础想学习大数据,大数据应该学什么?大数据要学的东西有很多,下面列举了一些学习大数据就该学习的技术,许多想学习大数据不知道大数据应该学什么的,可以参考一下。
首先学习大数据,先了解什么是大数据,了解大数据大概的运用,自己是否对大数据感兴...[2019/5/21]
hbase与hdfs的交互
hdfs和hbase的交互,和写MapReduce程序类似,只是需要修改输入输出数据和使用hbase的javaAPI对其进行操作处理即可
public cla HBaseToHdfs extends ToolRunner implements Tool {
privat...[2019/5/21]
学习大数据的正确方法
大数据已然成为当前IT业界的红人,然而在很多人想涉足这个领域时,却对大数据的学习具有畏难情绪,望而却步,知难而退。大数据的学习真的有那么难吗?据我学习大数据的经验来说,大数据是挺难的,难在其系统庞大,很难系统地、全面地学习,但是也有方法啃下这块硬骨头。
第一步当然是搞清楚怎么学习,这个问题的答...[2019/5/20]
如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术
由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文来说说到底要怎么学习它,以及怎么避免大数据学习的误区,以供参考。大数据要怎么学:数据科学特点与大数据学习误区。推荐一个大数据学习群 142974151每天晚上20:10都有一节【...[2019/5/20]
大数据学习路线,来qun里分享干货,
一、Linux
lucene: 全文检索引擎的架构
solr: 基于lucene的全文搜索服务器,实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面。
推荐一个大数据学习群 142974151每天晚上20:10都有一节【免费的】大数据直播课程,专注大数据分...[2019/5/16]
大数据入门,到底要怎么学习大数据?
很多人都知道大数据很火,就业很好,薪资很高,想往大数据方向发展。但该学哪些技术,学习路线是什么样的呢? 其实就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。请不要问我哪个好学,哪个钱多。
...[2019/5/13]
一篇了解大数据架构及Hadoop生态圈
一篇了解大数据架构及Hadoop生态圈
阅读建议,有一定基础的阅读顺序为1,2,3,4节,没有基础的阅读顺序为2,3,4,1节。
第一节 集群规划
大数据集群规划(以CDH集群为例),参考链接:
https: www.cloudera.com/documentation/enterpr...[2019/5/13]
HBase 二级索引与Coprocessor协处理器
Coproce or简介
(1)实现目的
HBase无法轻易建立“二级索引”;
执行求和、计数、排序等操作比较困难,必须通过MapReduce/Spark实现,对于简单的统计或聚合计算时,可能会因为网络与IO开销大而带来性能问题。
...[2019/5/6]
01-Hadoop概述及基础环境搭建
1 hadoop概述
1.1 为什么会有大数据处理
传统模式已经满足不了大数据的增长
1)存储问题
传统数据库:存储亿级别的数据,需要高性能的服务器;并且解决不了本质问题;只能存结构化数据
大数据存储:通过分布式存储,将数据存到...[2019/5/5]
Mac-搭建Hadoop集群Mac-搭建Hadoop集群
You have to work very hard to believe that you are really powerle .
Mac-搭建Hadoop集群
我用到了:VMware Fusion、CentOS7、FileZilla、jdk-8u181-linux-...[2019/5/5]
大数据学习步骤,入门篇
目前大数据行业异常火爆,不少人都对大数据充满了兴趣,其中有大部分人都是之前没有接触过计算机技术的,对编程语言也不太了解,那是不是这部分零基础的朋友就学不了大数据了呢?答案当然是否定的。大数据学习并不是高深莫测的,虽然它并没有多简单,但是通过努力,零基础的朋友也是完全可以掌握大数据的。
推荐一个...[2019/4/30]
Hive的原理
阅读目录
一、Hive内部表和外部表
1、Hive的create创建表的时候,选择的创建方式:
- create table
- create external table
2、特点:
● 在导入数据到外部表,数据并没有移动到自己的数据仓库目录下,也就是说外部表中的数据并不是由它自...[2019/4/28]
大数据学习(二)-------- MapReduce大数据学习(二)-------- MapReduce
前提已经安装好hadoop的hdfs集群,可以查看
**https: www.cnblogs.com/tree1123/p/10683570.html
Mapreduce是hadoop的运算框架,可以对hdfs中的数据分开进行计算,先执行很多maptask,在执行reducetask,这个过程...[2019/4/16]
大数据学习(一)-------- HDFS
需要精通java开发,有一定linux基础。
1、简介
大数据就是对海量数据进行数据挖掘。
已经有了很多框架方便使用,常用的有hadoop,storm,spark,flink等,辅助框架hive,kafka,es,sqoop,flume等。
常见应用推荐系统,用户画像等。
2、hadoop
...[2019/4/12]
Hive基础测试操作
一、Hive测试
1.查看数据库
show databases;
2.使用某个数据库,如默认数据库
user default;
3.创建表
create table if not exist itstar(id int,name string);
...[2019/4/11]
Hive的DDL操作
DDL:data definittion language 数据定义语言
主要是定义或改变表的结构、数据类型、表之间的链接和约束等初始化操作
DML:data manipulation language 数据操作语言
主要是对数据库的数据进行增删改查操作,如select、inse...[2019/4/11]
hive的概述和数据类型
一、Hive概述
1.Hive简介
Hive数据仓库软件有助于使用SQL读取、编写和管理驻留在分布式存储中的大型数据集。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。
Hive可以将SQL语句自动转化为Mapreduce程序,节省了手写框架的困难。
&nbs...[2019/4/10]
Hive的安装配置
一、Hive安装配置
1.登陆hive官网下载安装包,本人使用的是1.2.2版本
官网:http: hive.apache.org/
2.将安装包上传到Linux集群解压并重命名为hive-1.2.2
3.进入hive下的conf目录,重命名hive-env.sh....[2019/4/10]
Hbase学习之概念与原理
一、hbase与列式存储
hbase最早起源于谷歌的一篇BigTable的论文,它是由java编写的、开源的一个nosql数据库,同时它也是一个列式存储的、支持分布式(基于hdfs)的数据库。什么是列式存储呢?简单来讲就是:传统的关系数据库几乎都是行式存储的,这种存储的特点是,将每一行的数据...[2019/4/8]
Hadoop的数据压缩Hadoop的数据压缩
一、Hadoop的数据压缩
1.概述
在进行MR程序的过程中,在Mapper和Reducer端会发生大量的数据传输和磁盘IO,如果在这个过程中对数据进行压缩处理,可以有效的减少底层存储(HDFS)读写的字节数,,并且通过减少Map和Reduce阶段数据的输入输出来提升MR程序的...[2019/4/8]
MIT 6.824 lab1:mapreduce
这是 MIT 6.824 课程 lab1 的学习总结,记录我在学习过程中的收获和踩的坑。
我的实验环境是 windows 10,所以对lab的code 做了一些环境上的修改,如果你仅仅对code 感兴趣,请移步 : github/zouzhitao
mapreduce overview
...[2019/4/8]
关于缓存穿透,缓存击穿,缓存雪崩,热点数据失效问题的解决方案 - Tom-shushu
1.我们使用缓存时的业务流程大概为:
当我们查询一条数据时,先去查询缓存,如果缓存有就直接返回,如果没有就去查询数据库,然后返回。这种情况下就可能出现下面的一些现象。
2.缓存穿透
2.1什么是缓存穿透
缓存穿透是指查询一个一定不存在的数据,由于缓存是不命中时被动...[2019/4/2]
Hadoop系列-MapReduce基础
由于在学习过程中对MapReduce有很大的困惑,所以这篇文章主要是针对MR的运行机制进行理解记录,主要结合网上几篇博客以及视频的讲解内容进行一个知识的梳理。
MapReduce on Yarn运行原理
Job提交
yarn由两个重要的jvm进程组成:Resou...[2019/4/1]
HDFS上传数据的流程
1.当Client输入一条指令:hdfs dfs -put text.txt /text时,这条命令会给到DistributeFileSystem。
2.通过DistributeFileSystem简称DFS会创建DFSClient。
3.DFSClient会与hdfs服务器建立RPC通讯...[2019/3/29]
CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置
1. Hadoop安装包的下载和解压
基于apache原始厂商:https: archive.apache.org/dist/基于Cloudera厂商的cdh本:http: archiveprimary.cloudera.com/cdh5/cdh/5/,Cloudera有免费版...[2019/3/29]
hbase 预分区与自动分区
我们知道,HBASE在创建表的时候,会自动为表分配一个Region,当一个Region过大达到默认的阈值时(默认10GB大小),HBase中该Region将会进行split,分裂为2个Region,以此类推。表在进行split的时候,会耗费大量的资源,频繁的分区对HBase的性能有巨大的影响。所以...[2019/3/29]
辅助排序和Mapreduce整体流程
一、辅助排序
需求:先有一个订单数据文件,包含了订单id、商品id、商品价格,要求将订单id正序,商品价格倒序,且生成结果文件个数为订单id的数量,每个结果文件中只要一条该订单最贵商品的数据。
思路:1.封装订单类OrderBean,实现WritableComparable接口;
...[2019/3/29]
shullfe机制详解
一、shuffle机制概述
shuffle机制就是发生在MR程序中,Mapper之后,Reducer之前的一系列分区排序的操作。shuffle的作用是为了保证Reducer收到的数据都是按键排序的。
二、shuffle机制的流程
还是按照上个随笔MR整体流程的需求来做参考:
...[2019/3/29]
hbase rowkey 的设计hbase rowkey 的设计
什么是rowkey
Hbase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式.
Hbase是采用K,V存储的,那Rowkey就是KeyValue的Key了,Rowkey也是一段二进制码流,最大长度...[2019/3/28]
hbase 过滤器 rowfilter
HBase为筛选数据提供了一组过滤器,通过这个过滤器可以在HBase中的数据的多个维度(行,列,数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键,列明,时间戳定位)。通常来说,通过行键,值来筛选数据的应用场景较多。
1...[2019/3/27]
hbase coprocessor 二级索引
1111MicrosoftInternetExplorer402DocumentNotSpecified7.8 磅Normal0
...[2019/3/27]
大数据及Hadoop的概述
一、大数据存储和计算的各种框架即工具
1.存储:HDFS:分布式文件系统
Hbase:分布式数据库系统
Kafka:分布式消息缓存系统
2.计算:Mapreduce:离线计算框架
storm:...[2019/3/25]
HDFS常用API(1)
一、HDFS集群API所需要jar包的maven配置信息
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId...[2019/3/25]
HDFS及其各组件的机制
一、HDFS运行机制
概述:用户的文件会被切块后存储在多台datanode节点中,并且每个文件在整个集群中存放多个副本,副本的数量可以通过修改配置自己设定。
HDFS:Hadoop Distributed file system,分布式文件系统。
HDFS的机制:
...[2019/3/25]
Mapreduce概述和WordCount程序
一、Mapreduce概述
Mapreduce是分布式程序编程框架,也是分布式计算框架,它简化了开发!
Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序,并发的运行在hadoop集群上。
二、Mapreduce优缺点
...[2019/3/25]
Mapreduce的序列化和流量统计程序开发Mapreduce的序列化和流量统计程序开发
一、Hadoop数据序列化的数据类型
Java数据类型 => Hadoop数据类型
int IntWritable
float FloatWritable
long LongWritable
double ...[2019/3/25]
Mapreduce的排序(全局排序、分区加排序、Combiner优化)
一、MR排序的分类
1.部分排序:MR会根据自己输出记录的KV对数据进行排序,保证输出到每一个文件内存都是经过排序的;
2.全局排序;
3.辅助排序:再第一次排序后经过分区再排序一次;
4.二次排序:经过一次排序后又根据业务逻辑再次进行排序。
...[2019/3/25]
hadoop安装
Linux环境步骤:(root用户密码为123456) 1. 使用useradd hadoop添加用户 2. 使用pa wd hadoop设置用户密码,密码为abc123_ 3. 给用户赋予使用sudo命令的权限。 4. chmod u+w /etc udoers 6. vim /etc udoe...[2019/3/22]
什么是大数据?初步认识大数据(2) - YN-ZJH
企业数据资产
有了大数据的光环,有了从数据中挖掘商业价值的方法和工具之后,那些原本存放在服务器上平淡无奇的陈年旧数一夜之间身价倍增。按照世界经济论坛报告的看法,“大数据为新财富,价值堪比石油"。《大数据时代》一书的作者维克托则乐观地预测,数据列人企业资产负债表只是时间问题。
本质上,任何...[2019/3/22]
cloudera manager 安装配置cloudera manager 安装配置
前面cloudera manager 环境准备和安装我参考的是:
https: blog.csdn.net/m0_38017084/article/detail 82218559
这篇博客,写的非常的详细。
我这主要写几个我安装完毕之后遇到的几个问题。
1、在进行mysql设置的时...[2019/3/21]
什么是大数据?初步认识大数据 - YN-ZJH
大数据是什么?
首先提一个问题:“大数据"是一项专门的技术吗?有的人可能会以为大数据是一项专门的技术,其实不是。“大数据"这三个字只是一门市场语言(Marketing Language),其背后是硬件、数据库、操作系统、I-ladoop等一系列技术的综合应用。
大数...[2019/3/21]
新入坑大数据的小白有困惑
希望各位前辈、大佬能给与一些指点,万分感谢!!!!!!
我是刚入职大数据工作的小白,对大数据的相关知识只能算是有了一个简单的了解,也找了一份大数据的工作(目前还未入职)。
我的困惑是我的大数据之路该往哪个方向走?????在接下来的路上还需要学习那些东西????
希望各位前辈、大佬能给与...[2019/3/18]
数据挖掘算法——Apriori算法数据挖掘算法——Apriori算法
Apriori算法
首先,Apriori算法是关联规则挖掘中很基础也很经典的一个算法。 转载来自:链接:https: www.jianshu.com/p/26d61b83492e
所以做如下补充:
关联规则:形如X→Y的蕴涵式,其中, X和Y分别称为关联...[2019/3/18]
GoldData学习实例-采集官网新闻数据
概述
在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。
news_site(新闻来源)
字段类型说明
id
bigint
主键,自动增长
name
varchar(...[2019/3/18]
克隆虚拟机及配置yum源的步骤及讲解(Hadoop基础)
1、克隆虚拟机
找一台需要克隆的虚拟机但虚拟机必须在关机下进行,(建议将前期Linux环境 配置完成)
在VMware中右键虚拟机找到克隆的选项。
点击克隆
可以克隆他的快照(提前做快照)...[2019/3/14]
基于ubuntu16.04伪分布式安装hadoop2.9.1以及hive2.3.1
一、安装ubuntu操作系统
参考:https: www.cnblogs.com/Alier/p/6337151.html
二、下载hadoop以及hive
hadoop:https: hadoop.apache.org/releases.html
hive:http: hive....[2019/3/13]
Hadoop的HDFS和MapReduce的安装(三台伪分布式集群)
一、创建虚拟机
1、从网上下载一个Centos6.X的镜像(http: vault.centos.org/)
2、安装一台虚拟机配置如下:cpu1个、内存1G、磁盘分配20G(看个人配置和需求,本人配置有点低所以参数有点低)
3、虚拟机安装建议去挑战minidesktop,...[2019/3/12]