首页 资讯正文

大数据构成、特点、技术、处理、应用这几要素你了解几个?

1.大数据概念

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。大数据(big data)或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。

2.数据的构成

大数据包括交易数据和交互数据集在内的所有数据集 ,如图:

(1)海量交易数据:

企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。

(2)海量交互数据:

源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。

3.大数据特点

首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity,即体量大、多样性、价值密度低、速度快。

第一V是Variety,海量数据有不同格式,第一种是结构化,我们常见的数据,还有半结据化网页数据,还有非结构化视频音频数据。而且这些数据化他们处理方式是比较大的。数据类型繁多,如网络日志、视频、图片、地理位置信息,等等。

第二V就是Volume,量比较大,我们有一些用户化每秒就要进入很多数据,很多客户内部都有几批数据,还有下面淘宝都是几PB数据,所以PB化将是比较常态的情况。

非结构化数据的超大规模和增长,占总数据量的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍

第三V是Velocity,因为数据化会存在时效性,需要快速处理,并得到结果出来。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

第四V是Value:大量的不相关信息,不经过处理则价值较低,属于价值密度底的数据。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。海量数据分析非常复杂,使得过去靠单纯易于关于数据库BI已经不是太适合了。

总的来说,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,如图,具有这些特点的数据,才是大数据。

4.大数据技术

大数据主要有数据采集、数据存储、数据管理和数据分析与挖掘技术等:

(1)数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

(2)数据存取:关系数据库、NOSQL、SQL等。

(3)数据处理:自然语言处理技术。

(4)统计分析:假设检验、显著性检验、差异分析、相关分析、多元回归分析、逐步回归、回归预测与残差分析等。

(5)数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)。

(7)模型预测:预测模型、机器学习、建模仿真。

(8)结果呈现:云计算、标签云、关系图等。

5.大数据处理

(1)采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

(2)导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

(3)统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

(4)挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理

6.大数据应用与案例分析

大数据应用的关键,也是其必要条件,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景。

以下是关于各行各业,不同的组织机构在大数据方面的应用的案例:

(1)大数据应用案例:教育行业

现在,大数据分析已经被应用各个行业,特别是在美国的公共教育中,如图所示,成为教学改革的重要力量。

(2)大数据应用案例:生活娱乐方面

新华社新媒体中心抓取了新浪微 博上提及“爸爸去哪儿”45.5万条原创微博,并对36.7万独立原发作者用户(去除疑似水军账户)、1300余万条用户微博及近1亿的关系进行数据分析。结果发现:《爸爸去哪儿》成为了名副其实的“口碑王”

(3)大数据应用案例:电子商务行业

在电子商务行业,利用大数据技术可以及时了解有多少新客户在多少天内发生二次回购,可以很清晰地知道不同类别的客户的回购周期是多少天,为企业实施精准营销奠定坚实基础,如企业可以利用大数据产生的信息在适当的时机针对不同类别的客户进行促销,为企业带来收入和利润。

大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。

责任编辑:陈近梅

分享: