经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
 Hadoop

理解大数据

一.什么是大数据   大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据...[2019/9/23]

大数据技术原理与运用知识

一·大数据概述 随着信息技术发展的巨大变革,企业和学术机构纷纷加大技术、资金和人员投入,加强对大数据关键技术的研发与运用。 大数据的发展历程总体上划分为三个重要阶段:萌芽期、成熟期和大规模应用期。   二.大数据概念 大数据的4个特点:数据量大...[2019/9/18]

SQOOP的使用方法

Sqoop是个命令行工具,用来在Hadoop和rdbms之间传输数据。 以Hadoop的角度看待数据流向,从rdbms往Hadoop是导入用sqoop import命令,反之从hadoop往rdbms下发数据用sqoop export命令 以oracle hive为例子,命令举例: s...[2019/9/12]

hadoop 完全分布式搭建总结

完全分布式--------------- 1.配置文件 [core-site.xml]    hdfs 地址 fs.defaultFS=hdfs: 129:8020/ [hdfs-site.xml] 副本   replication=1 伪分布   replicat...[2019/9/11]

大数据之路【第十二篇】:数据挖掘--NLP文本相似度

一、词频----TF • 假设:如果一个词很重要,应该会在文章中多次出现 • 词频——TF(Term Frequency):一个词在文章中出现的次数 • 也不是绝对的!出现次数最多的是“的”&ldqu...[2019/9/10]

hadoop 伪分布启动-fs格式化

1.独立模式(standalone|local)   nothing!   本地文件系统。   不需要启用单独进程。 2.pesudo(伪分布模式)   等同于完全分布式,只有一个节点。   SSH: (Socket),    public + private   ...[2019/9/10]

Hadoop 完全分布式搭建

搭建环境 https: www.cnblogs.com/YuanWeiBlogger/p/11456623.html 修改主机名------------------- 1./etc/hostname   s129 2./etc/hosts   127.0.0.1 localh...[2019/9/10]

大数据之路【第十三篇】:数据挖掘---中文分词

一、数据挖掘---中文分词 • 一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。• 例如:    – 阿三炒饭店:    – 阿三 / 炒饭 / 店     阿三 /...[2019/9/10]

大数据应用常用打包方式

一、简介 在提交大数据作业到集群上运行时,通常需要先将项目打成 JAR 包。这里以 Maven 为例,常用打包方式如下: 不加任何插件,直接使用 mvn package 打包; 使用 maven-a embly-plugin 插件; 使用 maven-shade-plugin 插件; ...[2019/9/10]

腾讯云+阿里云 搭建hadoop + hbase

腾讯云+阿里云 搭建hadoop + hbase

目录 服务器配置 hadoop hbase JAVA测试 历时两天,踩了无数坑最后搭建成功。。。 准备 两台服务器都安装jdk1.8(最好装在相同路...[2019/9/10]

大数据之路【第十四篇】:数据挖掘--推荐算法(Mahout工具)

数据挖掘---推荐算法(Mahout工具) 一、简介 Apache顶级项目(2010.4) Hadoop上的开源机器学习库 可伸缩扩展的 Java库 推荐引擎(协同过滤)、聚类和分类   二、机器学习介绍 通常...[2019/9/10]

hadoop--Unable to load native-hadoop library for your platform解决方法

笔者实验环境:centos 7.4.1708,hadoop-2.6.0-cdh5.14.2. 执行hadoop命令时出现以下告警,不能加载相关库: WARN util.NativeCodeLoader: Unable to load native-hadoop library...[2019/9/2]

hadoop WordCount例子详解。

[学习笔记] 下载hadoop-2.7.4-src.tar.gz,拷贝hadoop-2.7.4-src.tar.gz中hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\...[2019/9/2]

Hbase基本原理

一、hbase是什么  HBase 是一种类似于数据库的存储层,也就是说 HBase 适用于结构化的存储。并且 HBase 是一种列式的分布式数据库,是由当年的 Google 公布的 BigTable 的论文而生。HBase 底层依旧依赖 HDFS 来作为其物理存储。 &...[2019/9/2]

hadoop 安装

hadoop 开源软件,可靠的、分布式、可伸缩的框架。 分布在不同主机上的进程协同在一起构成的应用。 大数据解决了两个问题---------------------- 1T = 1024G1P = 1024T1E = 1024P1Z = 1024E1Y = 1024Z1N =...[2019/9/2]

Hadoop RPC机制详解

     网络通信模块是分布式系统中最底层的模块,他直接支撑了上层分布式环境下复杂的进程间通信逻辑,是所有分布式系统的基础。远程过程调用(RPC)是一种常用的分布式网络通信协议,他允许运行于一台计算机的程序调用另一台计算机的子程序,同时将网络的通信细节隐藏起来,使得用户无需额外地为这个交...[2019/8/30]

Windows用Eclipse来开发hadoop的WordCount的helloworld

[学习笔记] 2.Win7用Eclipse来开发hadoop的WordCount的helloworld网上下载hadoop-eclipse-plugin-2.7.4.jar,将该jar包拷贝到Eclipse安装目录下的dropins文件夹下,我的目录是C:\Users\test\ec...[2019/8/30]

Hadoop的eclipse的插件是怎么安装的?

[学习笔记] 1)网上下载hadoop-eclipse-plugin-2.7.4.jar,将该jar包拷贝到Eclipse安装目录下的dropins文件夹下,我的目录是C:\Users\test\eclipse\jee-oxygen\eclipse\dropins,然后重启Eclip...[2019/8/30]

HDFS介绍~超详细

HDFS(Hadoop Distributed File System)   (1) HDFS--Hadoop分布式文件存储系统   源自于Google的GFS论文,HDFS是GFS的克隆版 HDFS是Hadoop中数据存储和管理的基础 他是一个高容错的...[2019/8/29]

hadoop基本文件配置

[学习笔记] 5)hadoop基本文件配置:hadoop配置文件位于:/etc/hadoop下(etc即:“etcetera”(附加物))core-site.xml:<configuration>     &...[2019/8/29]

hdfs常用命令

[学习笔记] hdfs常用命令:i)防盗版实名手机尾号:73203。 hdfs dfs -mkdir /user 会在hadoop的根目录下创建一个目录。可以通过hdfs dfs -ls / 来查。 ii)在bin目录下,继续:hdfs dfs -put README...[2019/8/29]

Hadoop简介

Hadoop : Hadoop是Apache基金会旗下的一个分布式系统基础架构.主要包括 : 分布式文件系统HDFS,分布式资源管理系统Yarn.可以使得用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的分布式能力进行运算和存储   Hadoop核心构成 &...[2019/8/29]

Hadoop配置环境变量Program~2的用法

[学习笔记] 3)配置环境变量:(环境变量中的~1,~2,~3的用法)i)JAVA_HOME:注意C:\Program Files目录存在空格,变成C:\Progra~1\Java\jdk1.8.0_144。(注意:长于8个字符的文件名和文件夹名,都被简化成前面6个有效字符,后面~1...[2019/8/28]

HBase 系列(九)——HBase 容灾与备份

一、前言 本文主要介绍 Hbase 常用的三种简单的容灾备份方案,即CopyTable、Export/Import、Snapshot。分别介绍如下: 二、CopyTable 2.1 简介 CopyTable可以将现有表的数据复制到新表中,具有以下特点: 支持时间区间 、row 区间 ...[2019/8/27]

HBase 系列(十)—— HBase 的 SQL 中间层 Phoenix

HBase 系列(十)—— HBase 的 SQL 中间层 Phoenix

一、Phoenix简介 Phoenix 是 HBase 的开源 SQL 中间层,它允许你使用标准 JDBC 的方式来操作 HBase 上的数据。在 Phoenix 之前,如果你要访问 HBase,只能调用它的 Java API,但相比于使用一行 SQL 就能实现数据查询,HBase 的 ...[2019/8/27]

HBase 系列(八)——HBase 协处理器

HBase 系列(八)——HBase 协处理器

一、简述 在使用 HBase 时,如果你的数据量达到了数十亿行或数百万列,此时能否在查询中返回大量数据将受制于网络的带宽,即便网络状况允许,但是客户端的计算处理也未必能够满足要求。在这种情况下,协处理器(Coproce ors)应运而生。它允许你将业务计算代码放入在 RegionServ...[2019/8/27]

HBase 系列(七)——HBase 过滤器详解

一、HBase过滤器简介 Hbase 提供了种类丰富的过滤器(filter)来提高数据处理的效率,用户可以通过内置或自定义的过滤器来对数据进行过滤,所有的过滤器都在服务端生效,即谓词下推(predicate push down)。这样可以保证过滤掉的数据不会被传送到客户端,从而减轻网络传...[2019/8/26]

Hadoop FairScheduler

目标 本文档描述FairScheduler,一个允许YARN应用程序公平共享集群资源的调度插件。   概述 公平调度是一个分配资源给所有application的方法,平均来看,是随着时间的进展平等分享资源的。下一代Hadoop可调度多资源类型。...[2019/8/26]

HBase 系列(二)—— HBase 系统架构及数据结构

HBase 系列(二)—— HBase 系统架构及数据结构

一、基本概念 一个典型的 Hbase Table 表如下: 1.1 Row Key (行键) Row Key 是用来检索记录的主键。想要访问 HBase Table 中的数据,只有以下三种方式: 通过指定的 Row Key 进行访问; 通过 Row Key 的 range ...[2019/8/26]

HBase 系列(四)—— HBase 集群环境配置

一、集群规划 这里搭建一个 3 节点的 HBase 集群,其中三台主机上均为 Regin Server。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 上部署备用的 Master 服务。Master 服务由 Zookeeper 集...[2019/8/26]

CDH6.1.1阿里云安装实践

概念介绍 CDH概览 CDH是Apache Hadoop和相关项目的最完整、最受测试和最流行的发行版。CDH提供Hadoop的核心元素-可伸缩存储和分布式计算-以及基于web的用户界面和重要的企业功能。CDH是Apache许可的开放源码,是唯一提供统一批处理、交互式SQL和交互式搜索以及...[2019/8/22]

Hadoop HDFS读写流程

读取: 1) 客户端调用 DistributedFileSystem 的 Open() 方法打开文件。2) DistributedFileSystem 用 RPC 连接到 NameNode,请求获取文件的数据块的信息;NameNode 返回文件的部分或者全部数...[2019/8/20]

大数据运维方向面试题 - 雄霸天下-无人能挡

文章转载自:http: www.pythonheidong.com/blog/article/3038/    一、基础题 1.请写出http和https请求的区别,并写出遇到过的响应状态码.   一、https协议需要到ca申请证书,一般免费证书...[2019/8/15]

高薪岗位云计算面试题,云计算运维工程师必备 - 雄霸天下-无人能挡

文章转载自:http: www.pythonheidong.com/blog/article/3323/ 云计算产业市场规模快速增长,人才需求数量激增。相关云计算企业加大对核心技术的投入,提高对客户的服务,无论从技术层面,运营商层面还是集成与服务提供层面,人才需求巨大。下面给大家分...[2019/8/15]

云计算面试题知识汇总,云计算面试经验讲解 - 雄霸天下-无人能挡

文章转载自:http: www.pythonheidong.com/blog/article/3336/ 云计算岗位面试其实并没有很多人想的那么复杂,主要是电话面试,估计是面试的人比较少,简单的问了一些技术问题,在问了有一些商务对接方面的问题第一轮,技术面的时候,问了云计算的3个层...[2019/8/15]

【学习笔记】大数据技术原理与应用(MOOC视频、厦门大学林子雨)

1 大数据概述 大数据特性:4v volume velocity variety value 即大量化、快速化、多样化、价值密度低   数据量大:大数据摩尔定律   快速化:从数据的生成到消耗,时间窗口小,可用于生成决策的时间非常少;1秒定律,这和传统的数据挖掘技术有着本质区别(...[2019/8/14]

Hive表导出成csv文件

命令 hive -e " set hive.cli.print.header=true; #将表头输出 select * from data_table where some_query_conditions " | sed '' [\t]/,/g'' > hhd.csv...[2019/8/13]

Hive基本操作

在hive命令终端直接导入文本数据: hive> LOAD DATA LOCAL INPATH ''/home imon/hive_test/a.txt'' OVERWRITE INTO TABLE w_a;    查看特征: hive>...[2019/8/13]

hadoop伪分布模式配置

1. 伪分布配置 实验条件:1台ubuntu服务器,jdk版本1.8.X,Hadoop 版本1.2.X 1.1 h localohost 如果不输入口令就无法用 h登陆localhost,即 h免密登陆,则执行下面的命令,产生公私钥对, 将私钥放入authorized_keys $...[2019/8/12]

一文带你了解什么是数据挖掘

大数据时代已经来临,利用网络和生活中产生的大量数据发现问题并创造价值,使得数据挖掘成了一门新的学科和技术。那么什么是大数据挖掘,数据挖掘的过程是什么,以及它的具体算法又有哪些?今天这篇文章,将带你一起了解数据挖掘的那些事儿。 01、首先,数据挖掘到底是什么?  ...[2019/8/12]

hadoop(二MapReduce)

hadoop(二MapReduce)介绍 MapReduce:其实就是把数据分开处理后再将数据合在一起.Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。...[2019/8/12]

用形象的比喻描述大数据的生态 - batch-norm

用形象的比喻描述大数据的生态 - batch-norm

本文转自于知乎 Xiaoyu Ma 链接:https: www.zhihu.com/question/27974418/answer/38965760 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以...[2019/8/8]

hive 标准hql建表语法格式

一.标准hql建表语法格式1.官方标准语法:(hql不区分大小写,下面[]里的属性是可选属性) 具体参考官网界面:HIVE官网建表说明文档 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(...[2019/8/8]

Hadoop学习(7)-hive的安装和命令行使用和java操作

Hive的用处,就是把hdfs里的文件建立映射转化成数据库的表   但hive里的sql语句都是转化成了mapruduce来对hdfs里的数据进行处理 ,并不是真正的在数据库里进行了操作。 而那些表的定义则是储存在了mysql数据库中,他只是记录相应表的定义 所以你的...[2019/8/7]

比hive快10倍的大数据查询利器presto部署

目前最流行的大数据查询引擎非hive莫属,它是基于MR的类SQL查询工具,会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一般的业务人员也可以直接对大数据进行查询。但因其基于MR,运行速度是一个弊端,通常运行一个查询需等待很久才会有结果。对于此情况,创造了hiv...[2019/8/7]

Hadoop和Spark的Shuffer过程对比解析

Hadoop Shuffer Hadoop 的shuffer主要分为两个阶段:Map、Reduce。 Map-Shuffer: 这个阶段发生在map阶段之后,数据写入内存之前,在数据写入内存的过程就已经开始shuffer,通过设置mapreduce.task.io.sort.mb的参数...[2019/8/6]

hadoop大数据平台安全基础知识入门

概述 以 Hortonworks Data Platform (HDP) 平台为例 ,hadoop大数据平台的安全机制包括以下两个方面: 身份认证 即核实一个使用者的真实身份,一个使用者来使用大数据引擎平台,这个使用者需要表明自己是谁,即提供自己的身份证明,大数据平台需要检验这个证明,确定这个证...[2019/8/6]

Hadoop环境搭建过程中遇到的问题以及解决方法

1.启动hadoop之前, h免密登录slave主机正常,使用命令start-all.sh启动hadoop时,需要输入slave主机的密码,说明 h文件权限有问题,需要执行以下操作: 1)进入. h目录下查看是否有公钥私钥文件authorized_keys、id_rsa、id_rsa.pub ...[2019/8/5]

HDFS基本原理

一、什么是HDFS HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署...[2019/8/5]

大数据学习笔记【一】:Hadoop-3.1.2完全分布式环境搭建(Windows 10)

一、前言   Hadoop原理架构本人就不在此赘述了,可以自行百度,本文仅介绍Hadoop-3.1.2完全分布式环境搭建(本人使用三个虚拟机搭建)。   首先,步骤:   ① 准备安装包和工具:   hadoop-3.1.2.tar.gz   jdk-8u221-linu...[2019/7/31]

472
3
记录数:307 页数:2/7首页上一页1234567下一页尾页
 友情链接:直通硅谷  点职佳  北美留学生论坛
加载更多

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号