大数据时代，如何避免信息“裸奔”的恐慌？

2019-08-16 作者：

大数据时代，数据无疑是最大众最重要的资产，然而层出不穷的数据泄露事件，导致个人信息“裸奔”，引发了社会各界对数据安全的担忧。

2016年8月，美国国安局网站遭黑客组织入侵，“瘫痪”近一昼夜。

2017年10月，南非史上最大规模数据泄露，共有3160万份用户的个人资料被公之于众，连总统祖马和多位部长都未能幸免。

2018年3月，Facebook首次曝出史上最大数据泄露事件。事件涉及的数据分析机构“剑桥分析”（Cambridge Analytica）被曝擅自利用经由Facebook获取5000万用户的个人资料，留档以用于在2016总统大选期间定向宣传。

据金雅拓（Gemalto）发布的《全球范围内公共数据泄露事件严重程度指数》，2018年上半年，全球每天有超过2500万条数据遭到入侵或泄露，相当于每秒291条，最令人担忧的是，泄露的数据中只有不到百分之一的经过加密。

阿里巴巴集团技术副总裁、阿里巴巴首席安全专家杜跃进曾指出，目前的数据安全领域可用一个词来形容——数据恐慌。

“所有公众、全世界的人谈数据色变，我们看到各种各样数据泄露、数据滥用，我们看到各种精准化服务，我们认为背后是不是有人随时随地偷看我们隐私，我们并不清楚背后真相是什么。”

种种事件表明，因信息泄露造成的安全隐患日益严重，数据安全值得高度重视。那么，大数据时代，如何保障身份信息安全？数据安全对个人、企业乃至国家意味着什么？应该如何构有效地建数据安全体系？

今年5月26日，在中国国际大数据产业博览会（以下简称“数博会”） “数据安全”高端对话上，各路专家学者就“如何保障数据安全”展开了一场巅峰对话，关于数据安全的种种问题，或许我们可以从中获得一些思路和启发。

一、大数据对信息安全的机遇与挑战

中国科学院院士、中国互联网协会理事长邬贺铨认为大数据对信息安全带来挑战的同时也信息安全保护的有力手段。

挑战一：现在，数据采集点成了我们拒绝攻击的跳板。因为往往传感器是在线的，所以很容易受到大量木马、黑客的入侵。一旦被控制，很容易变成服务器攻击。

挑战二：数据是很有价值的，目前，信息泄露问题十分严重。美国有统计过，医疗信息的泄露会给医疗行业损失每年大约60亿美元。医疗信息泄露影响很多人，在美国曾经大概影响到1/3的美国人都会受到影响。

挑战三：为了防止数据被盗，我们会把数据分布式存储，然后进行加密；但是实际上黑客木马有些攻击不完全是要解析你的数据，而是利用数据进行勒索。所以，除了防止自己的数据被盗窃，同时还要防止数据被人锁死。

挑战四：大数据本身实际上也会造成一些人工智能上的判断错误。多伦多大学曾经研究过，如果在获取数据上受到一些干扰，准确度是会大大下降，人脸识别准确度会从100%降到0.5%。

挑战五：实际上，我们用匿名的办法，可以给我们信息带来保护。但是位置很难匿名，通过曾经到过的位置可以识别出95%的用户。也就是说，即便是匿名，也不能保证不被识别。

上述问题是大数据带来的信息安全挑战，但大数据本身可以帮助我们在信息安全保护方面是有好处的。

首先，大数据技术可以拓展信息安全保护边界，将威胁发现范围扩展到包括数据资产、软件资产、实物资产、人员资产、服务资产和其他为产业提供支持的无形资产。

其次，通过对海量日志大数据的分析，可以挖掘发现大量新的网站攻击特征、网站漏洞、溯源定位攻击源。

最后，大数据工具还特别适合用高级持续性威胁的检测和取证。通过大数据分析，实际上可以把进来的APT的风险一步步找到，来找到它潜伏的地方，甚至是攻击的来源。此外，人工智能对网络安全风险处理有比较高的效率。人工智能本身可以对网络流量、的数据、成千上万的关联点分析，可以发现异常，可以对企业的预计数据以及外部关联数据关联起来，找出网络风险评估，对伪装的恶意文件包括僵尸网络可以通过人工智能技术分辨出蛛丝马迹来。同时，大数据与人工智能的结合，可以实现制定数据风险模型和恶意内容库，通过外部的舆情采集并关联用户行为信息，制定数据风险模型并及时更新调优规整。

如今，大数据已经成为信息社会的热点，也是信息安全博弈的焦点。大数据应用本身既是安全防御的重点，也是保障网络与信息安全的有力手段。我们需要将大数据与人工智能和物联网技术结合，增强信息安全保障能力。当然，从技术、产业和管理多维度来保障大数据的安全还需要一个基本前提，那就是需要人才和法规来支撑。

二、关于数据安全的六大误解

在2019数博会上，企业界大咖也就信息安全做了解读，阿里巴巴集团技术副总裁、阿里巴巴首席安全专家杜跃进表示，在一个像现在这样充满了不确定性、快速变化的时代，我们是否需要反思一下我们对数据安全理解是否要不断调整。我们是否对数据安全的存在误以下解呢？

是否存在“限制数据采集就能保护数据安全”的误解。现在很多人熟悉当一个应用向大家采集数据时，要你同意才行，并且要最少够用。

是否认为精准营销就等于隐私侵犯呢？现在存在各种各样恐慌，觉得我们随便说一句话，当天有一个应用推销你说过话的东西，其实这是一种误解。

大数据安全能防止我们的数据被偷吗？。今天我们大家在讲大数据，但是我们今天要解决的问题不是大数据安全，我们今天要解决问题是大数据时代下数据安全。

DT时代是否和IT时代一样，先有应用后有数据呢？在IT时代，我们先要有一个披萨，按照这个配料去买材料，降低成本，提高效率，减少出错率，但是这并不是DT时代特点，至少不是未来三十年供数字经济或者第四次工业革命时代的特点。

过去的思路和方法，能够解决今天的数据安全吗？传统信息安全或者网络安全是以系统为中心的安全，而今天数据跟非常多产品、系统、服务、人员甚至企业之间极快速流转，这是一个全新的问题，需要新的方法、重新定义。

数据是石油，所以我们是不是应该像保护石油一样保护数据？。石油是一个总量有限一次性消费的资源，但数据完全不是，数据是人类自己加工生产出来的。

通过对上述误解的思考，我觉得有许多启发。

首先，我们应该思考如何适应未来。对于处于第四次工业革命间的我们，适应社会发展是一个巨大的挑战，我们需要开放、创新的思维，快速的试点迭代，同时具备更大的视野和格局才能适应未来。

其次，我们应该重新定义数据安全。对一个组织来说，当数据给到一个组织的时候，不要说有多少APP，它的系统是否安全，我们先看这个组织是否安全，你是否信任它，或者你有多信任它。

中国有5000家企业，每一家企业未来都面临数据问题。目前，数据没有成熟标准，一定要走到很多方面更自主的多方面配合参与的治理模式，我们不是为了安全而安全，这种治理模式下最终希望达到的目的：是让数据安全和数据流动能正促进。安全不仅仅是成本和责任，安全意味着更好的商业机会。把安全变成内在动力，只有这样，企业才更愿意提升自己数据安全，而不是等着别人开罚单。

三、大数据时代的网络信息安全核心

天融信科技集团CEO李雪莹认为大数据时代中数据安全才是网络信息安全的核心，原有的安全措施不能应对现有问题，建立与之匹配的新的信息安全策略和系统方法论才是大数据时代信息安全保护的重中之重。

数据安全是网络安全重要组成部分，《网络安全法》当中最后一句提到，保证网络数据完整性、保密性、可用性的能力。网络安全不仅包括网络信息系统，还包括其中的数据。因此，之前我们一直关注物理安全、网络安全、超系统安全、平台安全、应用安全，现在更重要的是数据安全。

近几年，在数据安全方面，国家开始出台、制定相关法律法规及标准。那么，在这些法律法规的基础上，我们如何构建数据安全防护体系呢？

数据流动和多状态特点，给数据安全防护体系建设带来很大挑战。

要建一个安全体系，要知道这些信息数据是什么样的，哪些是关键数据，哪些是敏感数据。因为数据是流动的状态，对数据要做全生命周期管理，到底数据生命周期状态是什么样，怎么能够全面掌握呢。实际的情况就是，现在通常所用的还是原有的安全措施。所以，它很难去应对复杂的数据安全这个问题。我们更多的采用考虑实体部分的策略，没有考虑到数据流动性特点，所以很难适应数据多变的场景。综合下来，我们实际上在数据安全建设当中缺乏系统方法论。

那么，如何构建数据安全防护体系？

我们还是要以网络安全通用防护作为基础，以保障关键数据为核心。运用数据分级和分类，在管理过程当中采用数据治理，最后实现对数据全生命周期保护，这是我们在建立数据安全防护体系中的总体思路。

基于这样的思路，首先，数据安全防护范围要做到两个全覆盖：第一个是覆盖全场景，在整个信息系统链条当中，每一点上的数据都要做覆盖；第二个全覆盖是对于我们要管理的关键数据覆盖全生命周期，从它的产生到销毁。

其次，在可信的环境当中，有数据产生、存储、流转、使用、销毁都会在发生。到终端会产生数据，会使用数据，也会流转出去，也会在终端把它销毁掉。这三层上面，可以把数据全生命周期防护起来。这一过程中。我们管理中心要做的就是对数据所有相关的做相应管控。

既然有这样总体思路，我们运用了这样一个技术，在具体建设当中要贯彻三同步：同步规划、同步建设和同步运行。

第一点是以数据安全为视角，来牵引防护体系的同步规划；第二是具体建设当中要以治理评估手段推动同步建设；第三是同步运行，同步运行的侧重点或者关键点就是以能力支撑服务来保障整个体系同步运行。

我们需要认识到，数据安全防护体系是不断进化的，从之前被动的防护状态向主动防护去转变，从静态防护向动态防护转变，从之前的单点向整体的体系化防护转变，从最开始粗放型的大块防护转向更精准防护。这就是我们未来，整个防护体系进化的目标。

综合以上几位专家的观点，我们不难看出，就目前而言，无论从数据本身特点还是技术发展方面，或从法律法规及大众意识方面看，要构建数据安全体系都不是一件容易的事情。而且，我们在重视因数据泄露造成的安全隐患的同时，也不能忽略大数据时代下，社会在快速向前发展的事实。

这意味着，我们需要一个更加全面的思考维度。用户数据隐私保护须兼顾发展与安全。正如中央网信办互联网舆情中心数据分析处处长潘峰所说，要辩证看待发展与安全两者之间的关系，既要实现发展又要确保安全；确保安全才能实现发展，实现发展才能确保安全。

四、大数据时代的身份安全保护

励讯集团全球高级副总裁及首席信息安全官菲拉维欧·维拉纳斯特论述了个人身份与信息安全守护之间的关系。

他认为今天的个人数据是非常具有价值的。有的时候，打开系统的钥匙由一个人掌握，那么，对这些人的身份就需要进行保护就非常必要，保证了人的身份认证，才能确保系统不被别的人伪造钥匙打开大门。

过去，人的身份认证一般通过人们在数字世界中生活生成在系统中的数字指纹和数字足迹组成，这些数据足迹会实现一个身份，这些身份是实体的可观测的数据点，比如账户密码组合、生物特征、安全设备等等都与信息和程序相关。这些信息对我们在进行大数据分析时是非常重要的，因为我们需要去进行身份的识别才行。

现在，有很多技术可以对身份进行识别，我们会把所有信息用来进行身份的识别和统一，来确保在运行程序的时候声称自己是谁的用户确实是他自己。在这个过程当中，我们可以去构建一个以身份为中心，能够体现其属性与其他身份之间关系的网络图，或者是社交网络图。

如今，身份现在已经成为了欺诈的主要目标。有很多黑客会伪造别人的身份来进行商业犯罪、网络犯罪。一般来说，身份盗窃有两种，一种是身份数据的盗窃，比如说偷取了你的账户名和密码，就可以登录你的账户。还有一种身份欺诈方式，那就是合成身份，相比前者规模更大。从全球层面上来看，根据统计，每年有2000万人因为身份合成欺诈受害，并导致严重损失。

那么，我们如何解决这些欺诈的攻击问题？

从技术角度层面看，我们要先把数据拿到，把它联系起来，然后建立起一个非常大的数据图，通过独特不变的唯一标识符（LexID），准确定位各个数据源中同一身份的相关数据。将此基本事实用于身份验证、基于知识的身份确认、以及为为行为分析提供背景信息，利用这样一种唯一标识符的身份识别强关联的关系来进行验证。

从安全角度层面看，第一点我们必须通过不同算法，密码算法作为基石来进行监测，而且关注新的方式、新的技术来解决，包括哈希函数算法，我们必须随时关注包括防御方和攻击方之间攻方效果，而且不断改进我们防御效率。

第二点，AI技术这块也是欺诈防御当中越来越多，包括像利用机器学习，同时，欺诈分子和攻击者也利用AI技术。因此，如果我们不跟进新技术发展，是远远不够的，甚至我们必须领先于攻击分子一步，不然没有办法防御的。

第三点，现在从很多低延迟或者延时攻击来看，会导致攻击变得比较强势，而且多层级的攻击也是网络攻击新的特点，我们一定要在相关背景信息了解这些客户真正是谁，要通过所谓行政方法、管理方法、科学方法了解真正身份。

第四点，我们一定要用几率与算法的大数据关联技术来准确体现实体身份，而且我们基于传统的规则算法和几率算法是不可比拟的。

五、信息安全和密码学

2015年度图灵奖获得者、美国国家工程院院士、加密实验室首席科学家惠特菲尔德·迪菲提到了密码学是信息保障不可缺少的一部分。

惠特菲尔德·迪菲提到在美国，信息保障一开始指的是信息沟通的安全，也就是加密，一直到“信息安全”，这就是一种通讯和计算安全的整合，随后又把它延展到“信息保障”的领域，这个保障其实就如字面所言，就是要保证你在一些不能保证的领域，确保它是安全的。

信息保障关乎于两方面融合，第一个是信息稳定，就是保证系统去准确运作，保障在所有自然条件下，无论是不利或有利条件下都能保证它的工作；第二就是信息安全，要保证哪怕是受到攻击情况下这个信息系统也能够正常工作。

信息安全有三大关键要素，第一是可利用性，一般来说它总是我们需要让这个系统能在线做好它该做的工作；第二点是完整性，我们想要确定信息的来源是你所期望的那个来源，且过程当中没有被人篡改过；第三点是保密性，在某一些系统当中，特别重要的一些系统，比如银行的系统当中，想要确保别人不能知道你不想让他们知道的信息。在我看来，前两点的重要性比第三点更重要一些。

目前，我们还面临着一个很大的问题——安全计算。我们想让计算机替我们人类做复杂计算，但我们没有办法编出一个程序确保它百分百永远按照我们想法去运作。

那么，如何确保这些程序都可以满足我们的标准呢？怎么样确保我们能够针对这些二进制的代码进行一系列的流程验证，就能确保它百分之百安全了呢？

密码学是大家公认解决办法。把数据进行一定程度的混淆，使得只有拥有密码、拥有密钥的人才能够解锁，了解它原本的信息。在信息安全和密码学的关系当中，密码学是信息安全的核心，我认为信息安全当中，密码学是绝对不可或缺的一部分。虽然，密码学在解决问题过程当仍然存在一些问题，可以用其他技术进行加密；但是，没有密码学就绝对不会有信息安全。

一方面，密码学保证真实性。因为入侵者发出的信息会被破解为乱码，大家看到这些经过非正常加密的信息，就知道这个信息已经被篡改了；另一方面，密码学可以保证保密性。比如说以前的无线电通讯、卫星通讯，这些信号可以让偷听者拦截到信息，但是没有密钥就无法破解，无法了解信息的具体内容。

我认为，保障是非常值得的，必须要去做。数据量越大，安全保障的重要性显然就越大，有太多案例已经证明了这一点，甚至我们没有办法判断这些案例当中软件到底写得怎么样。