首页 大数据百科正文

大数据基础知识分享 你也可以成为相关专家

大数据基础知识分享 你也可以成为相关专家

  作为一名网站工作者,每天都和数据打交道。在与数据相关的知识中,大数据这个概念曾经困扰我很久。在逐渐了解一些基础知识后,我才明白大数据到底是什么,具有有什么用处。下面,我将分享我对大数据的一些学习经验,希望能对你有所帮助。

  最开始,我是从网上搜索资料。首先,我从大数据概念入手。我在百度、好搜上寻找大数据的百科定义。

  大数据概念-百度百科

  大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

  在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

  对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

  从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

  为了全面了解大数据的基本概念,请你仔细阅读下面两篇文章,对你深入学习有很大帮助。

  大数据是什么意思

  大数据知识科普:什么叫大数据

  在了解了大数据的基本概念之后,我对它慢慢有了一定认识,但是,我对其中的两个相关概念还是不清楚:云计算和Hadoop

  云计算是什么?Hadoop是什么,他们之间有什么关系?

  云计算概念百度百科解释

  云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。

  对云计算的定义有多种说法。对于到底什么是云计算,至少可以找到100种解释。现阶段广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

  云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。

  美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。XenSystem,以及在国外已经非常成熟的Intel 和IBM,各种“云计算”的应用服务范围正日渐扩大,影响力也无可估量。

云计算概念

  推荐一篇文章:云计算概念详解:共享软硬件资源信息

  在了解云计算概念之后,请你阅读这一篇文章,看完之后,你会对大数据与云计算的关系有一个初步的了解

  大数据和云计算到底是何关系?

  hadoop概念

  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

  用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

  Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

  Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

  项目起源

  Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。

  2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。

  Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要 grep 一个 10TB 的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是 Hadoop 在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。

  推荐阅读:hadoop是什么:分布式系统基础架构

  那么大数据和Hadoop之间又是什么关系呢?请看下面的文章

  大数据与Hadoo之间是什么关系?

  我在了解了以上知识之后,对大数据有了一定了解,如果你想更深入学习,可以买一些大数据相关的专业书籍。同时推荐一个栏目大数据百科|数据观,里面有比较完备的大数据相关知识。如果你已经对大数据方面有很好的研究,推荐标签|数据观以及慕课|数据观,里面有广泛的大数据相关领域知识,可供你自学,相信你会在不久后成为大数据领域的专家。

  本文为数据观原创精编稿件,转载请注明来源:www.cbdio.com,百度一下”数据观:,获取更多大数据相关资讯。

分享:
延伸阅读
    大数据概念_大数据分析_大数据应用_大数据百科专题
    贵州

    贵州大数据产业政策

    贵州大数据产业动态

    贵州大数据企业

    更多
    “智慧中国杯”全国大数据创新应用大赛
    企业
    更多