首页 观点正文

从伦理安全看大数据的本质

  我们谈论大数据,就不能回避数据的公有权与私有权及其界定。不久前,阿里巴巴与顺丰,就数据交换问题产生摩擦,以至于切断了数据接口。此事闹得沸沸扬扬,天猫(淘宝系)国家主管部门介入后,数据接口重新恢复,但电商与快递公司之间的矛盾依旧。

  理想状态下,数据的权限、权益应当有非常清晰的划分;对于用户私有数据的使用,应当遵循经用户授权的原则。但这往往难以实现,例如用户在网站、APP上的注册资料,通常就被数据企业列为数据资产,这些数据不仅被企业用于其他类别的业务,即通过所谓的数据挖掘分析,向潜在用户开展精准营销,而且还经常出现转手数据的现象。尽管用户大多对此不满,然而由于用户一方很难采集企业滥用数据的依据,且很多情况下无法清晰的概括数据遭滥用的后果,所以上述现象即便提出投诉、举报,也很难寻求令人满意的解决。

  再来看大数据时代,所不可避免出现的隐性偏差风险。美国波士顿市政府曾推出一款手机APP,鼓励市民通过APP向政府报告路面坑洼情况,借此加快路面维修进展。但该款APP的使用,却因为老年居民使用智能手机的比率偏低,导致政府收集到的数据多为年轻人反馈数据,所以导致老人步行受阻的一些小型坑洼,反而长期得不到及时处理。

  大数据时代,还经常出现数据安全问题。尤其是公共管理部门、业务得到普遍应用而带有公共性质的数据平台企业,一旦发生数据泄露,后果就会变得格外严重。中国数据化思考领先人物、阿里巴巴集团前副总裁、首任阿里数据委员会会长、红杉资本中国基金专家合伙人车品觉在其所著的《数据的本质:无人不是分析师》一书中分析指出,大数据应用要格外注重伦理问题,而这其中涉及到的数据安全,又是重中之重。在他看来,安全原则要想得到业务方面的支持,转化为业务应用中的安全操作,必须契合企业的商业目标、风险承受能力和部署能力。

  车品觉认为,目前国内企业对于数据安全还没有形成共识,对于本文开篇所提及到数据权限与权益的合理区分(公有权与私有权的划分)、隐性偏差风险等的认知也很不平衡,这对于大数据的继续纵深发展会造成影响。《数据的本质:无人不是分析师》这本书颇为尖锐的提出,“大数据行业一直在忽略、回避和否认数据伦理问题。忽略的原因就是害怕:害怕一检查就露出破绽,害怕过度关注伦理会扼杀创新,害怕伦理问题太过棘手而无从解决。”这显然不是解决问题的正确态度。笔者赞同书中观点,在大数据、人工智能、机器学习等新生事物还在快速发展的过程中,及早确定数据伦理法则,非常重要,这将有利于而不是阻碍新生事物的健康成长。比如,基于算法和数据的无人驾驶汽车,目前尚未得到大规模应用,就应当尽早研判确定其边界和规则,以避免未来在推广过程中遭遇伦理冲突。

  《数据的本质:无人不是分析师》是本土作者撰写的以大数据、人工智能等新科技主题的图书中的上佳之作。整本书基于大数据在中国国内的发展进程,从应用热点和难点入手,多视角分析了数据驱动、数据应用的实质,深入剖析了数据治理的核心。全书开篇指出,商业基础正因众多终端带来的全域大数据而发生着变化,如此之多和零散的数据及维度的叠加,使得数据利用的真正难题,变成了保证有效地存储、更新、辨识和连接数据。例如,很多人都同时拥有多部手机、平板电脑,还有多张信用卡,以及多个可连接上网的智能化应用电器,企业能不能辨识出客户分散在这些设备/银行账户之间的信息,能不能建立数据联系,又能不能结合客户线上线上的行为数据进行进一步的分析研判,这对于包括大数据企业在内的各行业企业都提出了严峻的挑战。

  这本书也再度重申了数据相关性的重要性。数据收集活动的出发点来自于企业业务需要或者可以应对未来的业务发展,书中以阿里巴巴的数据实践为例对于如何围绕业务的长中短期目标,发展必要的数据能力进行了说明。在谈到数据流动、数据连通时,书作者强调要实现数据各方的互惠互利,找到利益驱动的本源,寻找共同的痛点。事实上,包括阿里巴巴在内,大型企业内部不同部门、流程之间的数据共享,也建立在利益驱动的基础上,而政府不同部门之间、不同地区的政府之间以及政府与企业之间,要实现数据共享,显然需要首先寻求共识、共同利益的基础,为数据流动创造动力。

  大数据时代在成为热词后,数据使用已经深入人心,也切切实实的体现在了对于公共管理及各行业运营水平的推动之上。这本书归结指出,未来,数据应用将像电力一样,成为必需品、公共产品,渗透到公共生活、经济生活的各个方面。书作者阐述了如何选择人工智能与大数据的切入点的具体战略,包括从零开始创建好的专有数据集;确保数据量与试图解决的问题之间建立密切联系、数据的收集、处理和运用,要从最小化应用做闭环,基于众多应用做长远规划;严肃对待数据的标准和质量问题,提高数据质量,等等。

责任编辑:陈近梅

分享: