从大数据工程师那里知道的大数据学习方法

来源：cnblogs　　作者：白金大数据学习　　时间：2019/10/14 9:39:58　　对本文有异议

首先要认识大数据

什么是大数据？可能有人会说写字楼的所有人的资料信息就是个大数据。NO！这里的数据只能说比较大，但却不能称之为大数据。百度百科上给出了很明确的解释“大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”

在这里还是要推荐下我自己建的大数据学习交流群:142974151，群里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入,大家都是软件开发党，不定期分享干货（只有大数据软件开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴加入。

大数据有五个特点（IBM提出）：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。其中Volume就是普遍认为的数据足够大，因此数据大并不能说就是大数据，话句话说数据大只是大数据其中的一个特点。

大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

现在我们“从相认到相识”，清楚的认识什么是大数据，如果区分大数据和数据大，是我们学习大数据走的第一步。

怎么开始学

拥有了“第一砖”后就是你即将选择师门的时候了，敲开山门的“第二砖”则是学习大数据的基础，就如同在门派中修炼内功，有助你行走江湖，话不多说我们来看看会涉及到哪些基础吧！

1、 javaSE，EE(SSM)

90%的大数据框架都是java写的。

如：MongoDB--最受欢迎的，跨平台的，面向文档的数据库。 Hadoop--用Java编写的开源软件框架，用于分布式存储，并对非常大的数据集进行分布式处理。

Spark --Apache Software Foundation中最活跃的项目，是一个开源集群计算框架。

Hbase--开放源代码，非关系型，分布式数据库，采用Google的BigTable建模，用Java编写，并在HDFS上运行。

2、就是大数据里面的基础和工具