由于新技术,设备和通信手段(如社交网站)的出现,人类生产的数据量每年都在快速增长。我们从2003年开始生产的数据量是50亿千兆字节。如果以磁盘的形式堆积数据,它可能会填满整个足球场。在2011年每两天创建一次,2013年每十分钟创建一次。这个比率仍在增长。虽然所有这些产生的信息是有意义的,并且在处理时可以是有用的,但它被忽略。
- 人产生数据的速度越来越快,机器则更加快,more data usually beats better algorithms,所以需要另外的一种处理数据的方法。
- 硬盘的容量增加了,但性能没有跟上,解决办法是把数据分到多块硬盘,然后同时读取。但带来一些问题:硬件问题:复制数据解决(RAID),分析需要从不同的硬盘读取数据:MapReduce
而Hadoop提供了:
1.可靠的共享存储(分布式存储);2.抽象的分析接口(分布式分析)。
什么是大数据?
大数据意味着真正的大数据,它是大数据集的集合,不能使用传统的计算技术来处理。大数据不仅仅是一个数据,它已经成为一个完整的主题,涉及各种工具,技术和框架。
- 不能使用一台机器进行处理的数据
- 大数据的核心是样本=总体
特性
- 大量性(volume): 一般在大数据里,单个文件的级别至少为几十,几百GB以上
- 快速性(velocity): 反映在数据的快速产生及数据变更的频率上
- 多样性(variety): 泛指数据类型及其来源的多样化,进一步可以把数据结构归纳为结构化(structured),半结构化(semi-structured),和非结构化(unstructured)
- 易变性: 伴随数据快速性的特征,数据流还呈现一种波动的特征。不稳定的数据流会随着日,季节,特定事件的触发出现周期性峰值
- 准确性: 又称为数据保证(data assurance)。不同方式,渠道收集到的数据在质量上会有很大差异。数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低
- 复杂性: 体现在数据的管理和操作上。如何抽取,转换,加载,连接,关联以把握数据内蕴的有用信息已经变得越来越有挑战性
关键技术
1.数据分布在多台机器
可靠性:每个数据块都复制到多个节点
性能:多个节点同时处理数据
2.计算随数据走
网络IO速度 << 本地磁盘IO速度,大数据系统会尽量地将任务分配到离数据最近的机器上运行(程序运行时,将程序及其依赖包都复制到数据所在的机器运行)
代码向数据迁移,避免大规模数据时,造成大量数据迁移的情况,尽量让一段数据的计算发生在同一台机器上
3.串行IO取代随机IO
传输时间 << 寻道时间,一般数据写入后不再修改
大数据领域有什么?
大数据涉及由不同设备和应用程序产生的数据。下面是大数据领域的一些领域。
黑匣子数据 :它是直升机,飞机和喷气机等的组件。它捕捉飞行机组的声音,麦克风和耳机的录音,以及飞机的性能信息。
社会媒体数据 :Facebook和Twitter等社交媒体保存着全球数百万人发布的信息和观点。
证券交易所数据 :证券交易所数据保存关于由客户在不同公司的份额上做出的“买入”和“卖出”决定的信息。
电网数据 :电网数据保持特定节点相对于基站消耗的信息。
运输数据 :运输数据包括车辆的型号,容量,距离和可用性。
搜索引擎数据 :搜索引擎从不同的数据库检索大量数据。

因此,大数据包括大量,高速度和可扩展的数据。其中的数据将有三种类型。
结构化数据 :关系数据。
半结构化数据 :XML数据。
非结构化数据 :Word,PDF,文本,媒体日志
大数据的优势
大数据对我们的生活及其作为现代世界最重要的技术之一的重要性至关重要。跟随是只有几个好处,这是我们所有人都知道的:
使用诸如Facebook的社交网络中存储的信息,营销机构正在了解他们的活动,促销和其他广告媒体的响应。
使用社交媒体中的信息,如喜好和产品对消费者的认知,产品公司和零售组织正在计划他们的生产。
使用关于患者的以前的病史的数据,医院正在提供更好和快速的服务。
大数据技术
大数据技术在提供更准确的分析方面很重要,这可能导致更具体的决策,从而提高业务效率,降低成本,降低业务风险。
为了利用大数据的力量,您需要一个可以实时管理和处理大量结构化和非结构化数据的基础架构,并可以保护数据隐私和安全性。
市场上有来自包括亚马逊,IBM,微软等不同供应商的各种技术来处理大数据。在研究处理大数据的技术时,我们看看以下两类技术:
操作大数据
这包括像MongoDB这样的系统,为实时,交互式工作负载提供操作功能,其中主要捕获和存储数据。
NoSQL大数据系统旨在利用在过去十年中出现的新云计算架构,以允许大量计算廉价高效地运行。这使得操作的大数据工作负载更容易管理,更便宜,更快地实现。
一些NoSQL系统可以基于具有最少编码的实时数据以及不需要数据科学家和附加基础设施的模式和趋势提供洞察。
分析大数据
这包括像大规模并行处理(MPP)数据库系统和MapReduce提供对于可能触及的大部分或所有的数据的回顾性和复杂的分析的分析能力的系统。
MapReduce的提供分析数据的基础上的MapReduce可从单个服务器可以按比例放大至数千高端和低端机即由SQL提供的功能,并且一个系统的互补的新方法。
这两类技术是互补的,并经常一起部署。
操作与分析系统
操作 | 分析 | |
---|---|---|
潜伏 | 1 ms - 100 ms | 1 min - 100 min |
并发 | 1000 - 100,000 | 1 - 10 |
访问模式 | Writes and Reads | Reads |
查询 | Selective | Unselective |
数据范围 | Operational | Retrospective |
最终用户 | Customer | Data Scientist |
技术 | NoSQL | MapReduce,MPP Database |
大数据挑战
与大数据相关的主要挑战如下:
- Capturing data
- Curation
- Storage
- Searching
- Sharing
- Transfer
- Analysis
- Presentation
为了满足上述挑战,组织通常采取企业服务器的帮助。
转载本站内容时,请务必注明来自W3xue,违者必究。