来源:拓扑社 时间:2017-02-27 09:46:13 作者:数据堂
当前,数据源,特别是数据交易、数据流通对于整个大数据产业的发展起着越来越重要的推动作用。日前,数据堂联合创始人兼副总裁肖永红做客拓扑秀,与大家就大数据产业的发展,尤其是数据流通领域的相关问题进行分享和探讨,他认为:数据流通,服务为本。以下为肖永红先生分享内容:
大数据产业生态初具雏形
首先来看一张大数据产业生态图谱。目前整个大数据产业的发展现状是:大数据产业生态已经初具雏形。其中有几个典型特征:
第一、各个链条上的产业分工逐渐清晰。
第二、底层的数据收集、数据源,中间的数据管理,以及上层的大数据应用等各个领域都已经有了一些代表性的机构或者公司。
总体来说,大数据产业的发展还是处于非常早期的阶段。大数据产业由于分工相对比较细,看起来各个板块之间是相对比较清晰的。另外,大数据的变现还没有到一个很成熟和爆发的阶段。所以,在现阶段由于生存的压力,各个产业图谱上的大数据厂商和机构的位置并不固定。其中会出现一些比如做数据源的会往做大数据应用领域走,也有会有做大数据应用的往数据源这边走。另外还有一些做大数据基础设施的厂商,会和中间的比如做可视化的数据厂商,它们的位置会出现一些腾挪或者是互相观望的状态。大家在做了大数据产业以后,会感觉到自己做的事情没有那么容易赚到钱,所以就会看看其他人是怎么赚钱的。现在的大数据产业就是在混沌中各自寻找自己的位置,找到让自己有安全感或者是能爆发的位置。
在整个大数据产业链分工比较清晰的情况下,因为大家都需要数据资源,所以整个大数据的资产和价值属性开始凸显。其中有几个比较典型的特征:第一、各个地方纷纷成立各种大数据交易所和大数据交易中心;第二、我们可以从各个渠道上看到各种各样的数据在流通、交易。总的来说,21世纪是一个数据为王的时代,数据的价值等同于20世纪的石油。数据是大数据产业的关键资源,数据正在颠覆各个行业的发展模式。
大数据的现状与困境
目前,整个数据流通或者是数据交易市场看起来是比较火热的,这种火热反映了大数据产业的发展现状和困境。大数据现状与困境在于,一方面我们感觉数据很多,比如:行业数据、政府数据、互联网数据、纯线下数据。
第一、行业数据。在这四种数据类型中,行业数据目前的流通情况相对来说是最好的;
第二、互联网数据。互联网数据的流通性也比较好,因为大部分是公开的,我们可以利用爬虫或者是其他工具获取大量的互联网数据;
第三、政府数据。政府数据目前的开放程度相对比较弱,但是我们最近也看到了一个趋势,由于国家鼓励各地方政府部门去开放和共享他们的数据,所以现在大家也可以看到各个地方会有一些数据开放共享平台出来;
第四、纯线下数据。比如:线下的商品、饭菜价格的数据等,这种数据看起来比较分散,也不太容易集中利用。
我们讲到的这四大类数据资源看起来多,但现在所有使用数据的人都会有一个感觉,当你真正用数据的时候,你会发现找不着数据。而另一方面,我们看到一些拥有数据的企业,特别是有巨大价值数据的企业,比如:运营商和BAT等,它们自身的数据都是大家所觊觎的对象。但这些企业对把它们的数据最大程度地公开和开放的诉求或者动力目前还没有那么大。这就造成一个现象:我们感觉数据很多,但是当我们真正想用数据的时候,你会发现找不着。所以,整个大数据产业要想快速发展,就需要解决基础数据源的问题,这是将大数据产业很快做到一定规模的根本性问题。
实际上,国内做数据流通并不是一件新鲜事,尽管这几年看起来异常火爆。从国家层面,包括科技部、中科院以及国家的一些部委在若干年前就已经做了一些科研或者是科学领域的数据共享开放的工程和项目。这些共享平台在我看来应该就是国内数据流通的一种很早期的形式,尽管发挥了很大的作用,但是从商业价值或者商业模式的角度来看,似乎影响也并没有那么大。因为这些平台都是以国家财政补贴或者是财政支持的形式来做的,所以从一开始就没有考虑到可持续的商业模式,因此一直是以半官方的形式在运营。这样就导致整个平台上的数据资源,包括开放的活跃度以及后面产生的商业模式等看起都是有问题的。我们需要考虑的是如何以一种可持续的商业模式来做数据共享和数据流通。
目前,国内数据交易现状还是多种形态并存的状态。总的来说,其实数据共享的形式很早就有,但是这种线上线下的数据交易还是在这几年悄然生长的。用一句古诗形容就是“落霞与孤鹜齐飞,秋水共长天一色”,即现在各种数据交易的形式都有。我认为这些交易中心或者交易平台实际上对早期的大数据发展还是起到了非常大的促进作用,毕竟我们可以通过这些平台来发现一些原来我们根本接触不到的数据,它解决了大数据产业最早期阶段的数据需求,这相当于解决了“马斯洛层次需求理论”中最底层的需求。但是从现在各个数据交易所或者数据交易平台的发展情况来看,这里面还是存在一些问题,比如:数据交易过程中的原始数据能否标准化的问题;数据交易过程中的版权问题等。
从用户使用数据的角度来看,很多用户需要的并不是真正的原始数据,他们需要的是加工处理或者是半加工、半分析过的半成品数据。另外,根据我们这几年的经验来看,假如数据真正开放或者流通以后,并不是所有人都能无障碍或者无门槛的去使用这些数据。实际上数据对使用者还是有一定的技术要求的,或者是要有一定经验才能够去使用的。
所以,从以上几个因素及问题来看,直接交易原始数据的形式至少从现阶段看来还不是一个成熟的形态。原始的数据交易只能解决一些小问题,如果想让这些数据转换成各种价值,还需要有将这些数据转换为一种服务的形态才是正道。这就是我今天讲的主题:数据流通,服务为本。
数据流通,服务为本
什么是“数据流通,服务为本”呢?我们日常在家里用水的时候,你从来不用关心水龙头里面的水是来自于哪个水库。所以我们会畅想,在未来使用数据的时候,是不是也能像使用自来水一样,不用去想那么多,直接是“随用随取”的形式。因此,我们提出了“数据即服务”的模式,我们想通过这种模式将数据拥有方和数据需求方以一种无障碍或者是降低门槛的方式,将两端的需求和资源对接起来,而不是简简单单的通过数据交易来解决大数据产业发展过程中的一些问题。“数据即服务”这种模式需要考虑几个重要环节:
第一、数据从哪来?就是解决数据采集和获取的问题。
第二、要解决数据标准化问题,即拿到数据以后我们要做一些加工、清洗、处理,甚至要做一些关联融汇。
第三、将数据封装成可以便捷使用的数据产品服务,并推广出去。
根据我们在前面提到的,我们将数据分成了四大类型,包括行业数据、政府数据、互联网数据和线下数据,我们需要围绕社会存在的这四种数据类型来想办法解决数据获取问题。
1、数据获取
对于获取互联网上的数据是最简单的,只需要有一些简单的计算机知识,在网上找一个爬虫工具,我们自己就可以去爬京东、淘宝、新闻门户或者社交网站的数据等。但是爬取只是使用互联网数据的第一步,当你将海量的互联网数据爬取下来以后,如何将里面的特征信息提取出来,这还需要用到一些自然语言处理的技术去将海量信息里面的特征语义提取出来才能很好地使用。
对于行业数据,实际上这类数据在社会上流通的比较多,包括:电商的行为数据、搜索行为数据、运营商数据以及人们日常生活消费的数据等,这些数据相对容易去采购或者是通过合作来获取。
对于政府数据,目前的获取办法就是和地方政府一起合作,去做政府数据开放共享的事情。通过参与项目,就可以接触到一些政府数据。但是政府数据对于隐私、安全以及其他因素会考虑的比较多,目前整个政府数据的开放程度还没有那么大,但是至少有很多数据已经在网站上公布出来了,这是一个好现象,我相信很快会有一些核心的、有价值的政府数据会在合理合规的状态下逐渐释放出来。
最后一类是线下数据,这类数据最不起眼,比如:超市的小票数据、商场的WiFi热点、你路过某个地方的门牌号等,这些数据都是纯线下的,它们的特征是比较分散,不容易集中采集,这就需要发动大众和社会的力量,利用众包的方式来帮助我们采集一些数据。
以上是我们讲到的获取行业数据、政府数据、互联网数据以及线下数据的若干种方式。
2、数据处理
刚才我们讲到了数据获取阶段,我们通过若干种方式获取若干领域的数据。其次,我们光有这些数据也没用,你还要对这些数据做加工、清洗和处理,这个环节会包含:
第一、数据清洗。原始数据会存在大量数据的脱敏、去噪、去重等,这些数据的质量并不好,在这种情况下就需要对这些数据进行二次清洗和处理。
第二、非结构化数据处理。由于社会上产生的数据大部分都是非结构化的,比如:语音、视频、在互联网上爬取的若干微博数据、以及在交通路面上开车产生大量的视频监控数据等。对于这些非结构化数据,特别是海量的非结构化数据一下子涌到你面前的时候,处理起来是一个大问题。所以数据处理的第二个重要环节是如何利用一些工具和手段对非结构化数据进行快速处理,将里面的特征信息提取出来。
第三、数据关联。这部分工作实际上在整个数据处理环节是最有价值的一环。因为社会上产生数据的来源有很多,但这些数据之间或多或少拥有这样或者是那样的一些关联。有些数据可以通过手机ID的维度关联起来,也有可能是以某个人的姓名关联起来,也有可能是以中关村或者是海淀黄庄这样的位置属性关联起来。在这部分,要根据手上所掌握的数据资源去做数据的关联分析,然后通过一些手段融汇起来,这样整个数据的价值才能起到1+1>2的放大作用。
第四、数据服务。在数据处理以后,肯定需要被使用,这就涉及到数据服务的形态,正如刚才讲到的“用数据就像使用自来水一样方便”。在数据服务阶段,我们可以把数据包装成服务接口,也就是API的形式,这样的好处在于,将接口包装出来以后,再附上接口的使用说明,就可以使大部分人在不掌握太多计算机技能的情况下就可以使用到这些数据。使用API数据的另外一个好处是,它的原始数据不会被交易出去,只是每次调用一些自己所需要使用的数据,最大地保留了原始数据的版权,还可以避免一些其他问题。
3、数据应用
当数据获取回来以后,肯定需要去利用它。目前在整个大数据产业,已经有相对成熟的商业模式或者是数据变现能力的,包含以下几个领域:
第一、精准营销。比如:每天在浏览手机新闻客户端时,你会发现一些精准的,或者是个性化的广告推送,实际上这就是大数据应用比较成熟的领域,即精准营销。
第二、征信&信用。这块数据主要是与人和企业的一些基本信息、行为信息以及爱好、偏好等相关,主要用在征信和信用领域,这在金融领域应用比较广泛。
第三、人工智能或者IT智能化。我们现在可以看到大量的语音识别、图像识别以及文本识别的产品出来,在这一领域,底层也会需要大量的语音数据、图片数据或者是文本数据。
第四、医疗健康。目前在医疗健康领域的数据流通相对比较缓慢,因为涉及到隐私或者是其他方面的原因,还处于发展比较慢的阶段。
4、关于安全、隐私、版权
数据流通和数据服务的过程中不可避免的会碰到几个问题:安全、隐私、版权。这三个问题本身都是各自独立的问题,要分开考虑,不可混为一谈。
对于隐私来说,不仅是个人用户,实际上对于企业用户都存在隐私问题。在数据流通的各个环节,实际上从一开始原始数据的采集、获取,以及中间数据处理和数据服务环节都要考虑隐私保护问题。比如:我们利用众包的方式去采集人的语音数据时,我们在一开始就需要和被采集人将这件事情说清楚。比如:我们要采集的这些数据会有什么用途,和用户说清楚这些数据未来的应用场景是怎样的;另外,我们可能也会付费,同时还需要和用户签署数据的授权使用协议。在数据处理过程中,最大程度的去保护用户的个人隐私,比如:数据里面本来包含了一些个人隐私信息,就需要将它匿名化或者是处理掉。
关于版权问题,实际上是一个比较难的问题。因为我们所知道的互联网上产生的很多数据,它们的版权很难说清楚。比如新浪微博的数据,它是属于新浪公司,还是属于每一个发微博的个人,这确实很难界定清楚。在这种情况下,既然社会上对数据的使用需求还挺大,我们认为应该尽量搁置所有权,而去强调使用权。在数据版权不明或者是很难说清楚的情况下,可以优先强调使用权,先把数据的价值使用起来。但在数据所有权很清晰的情况下,我觉得还是要保护数据所有权人的权益。
关于安全问题。安全对于所有的大数据企业来说,在商业服务或者是商业模式的设计上,这是一个要守住的红线,有些东西是绝对不能碰的。
5、数据定价
另外一个大家比较关心的是数据定价的问题。实际上,由于数据本身的特性,它很难有一个标准的定价,比如:一套数据对于A来说就非常有用,它可能值10万,但是对于B来说,可能发挥不了什么价值,这些数据对于他来说就是没用的,一文不值。目前整个数据流通中的定价还是处于供方市场状态,即有数据的人是老大,它们拥有更多的数据定价权,从本质上来说,它还是一个卖方市场。当然我们现在看到:数据定价会有一个趋势,参与角力的角色会越来越多,甚至包括数据需求方。目前,政府,包括一些市场监管机构也在提出要对数据定价或者是数据流通过程中的关键环节进行监控。所以,未来我们会考虑让数据拥有方、数据服务方、数据需求方以及市场监管方进来,一起达到一种平衡,来给数据定一个相对比较合理的价格。
从精英狂欢到广场群舞
从整个数据流通的发展情况来看,“从精英狂欢到广场群舞”,这句话概括了目前整个数据流通发展的情况。我们看到的一些比较有价值的数据,特别是以BAT为代表的这种拥有大价值数据的机构,例如:百度拥有海量的搜索数据,阿里拥有海量的电商数据,腾讯拥有海量的社交数据,这三类数据从各自一方来说都是非常有价值的。而且我相信对于BAT来说,是互相觊觎对方数据的,但是由于商业利益上的问题,大家的数据目前又不能打通,所以目前的结局是,BAT在各自的数据基础上,去产生一些比较成熟的商业模式。比如:京东白条、阿里小贷等都是基于各自的用户数据而产生的一种互联网金融的商业模式。
我们看到早期的数据还是由这些大佬们在玩,但是由于数据流通,包括出现数据交易所、数据交易中心、数据交易平台以及数据共享开放平台等各种形式,使得越来越多的数据从幕后走到了台前,公开出来,让大家看到了整个面貌。这样的话,其实整个社会的数据公开或者共享的量目前还是逐步增长的。我们可以看到很多众创空间,包括一些孵化器或者是创业团队都在围绕数据做一些新的产品或者是商业模式的探索,这种接触到数据的用户面越来越广。所以我总结为一句话,即“从精英狂欢到广场群舞”,这是一件好事情。
大数据的发展进程
实际上数据共享这个概念并不新鲜,它很早就在若干领域出现了。应该是先有共享,然后逐步有了交易,因为交易一开始是比较敏感的,但是当大数据交易这个概念出现的时候,交易这个词就没那么敏感了。交易能够解决一小部分数据问题,但是它解决不了类似于像数据版权或者是用户所需要的并不是原始数据的问题。所以我们又提出了数据不仅仅是共享交易,还得做数据资源的运营和服务。
随着大数据行业整体水平的提升以及人民群众日益提高的生活水平需要,他们对于所需要的数据,要求会越来越高,而且要求的层次会分得越来越细。如果我们把原始数据比作小麦,现在的大数据产业需要的就不只是小麦了,有人需要把小麦加工成饺子粉,也有人需要将小麦加工成面包粉,还有人需要蛋糕粉等。所以我们提供数据的层次,需要越来越丰富的手段和越来越多样的数据产品。
从数据的另外一个特性来说,因为数据不是一个标准化的商品,可能以2C或者是C2C这种数据交易形态存在。当然,我们以前也做过,包括也看到一些同行做过,但是做起来还是比较困难的。目前更好的方式可能还是从2B的角度切入,更容易产生价值。总的来说,数据流通发展的进程是从V1.0发展到V2.0,即从数据共享交易到运营服务;从提供小麦到提供各种面粉产品;从模式来看,会经历从2C到2B的状态。
数据堂
数据堂(831428)始终秉承“专注数据共享价值”的企业理念,打通数据获取、数据处理、数据服务环节,融合和盘活各类数据资源,推动相关技术、应用和产业的创新,实现数据价值最大化,致力成为全球最大的数据资源运营商。
责任编辑:陈近梅