医疗数据安全风险分析与防护之九：数据流动带来的安全问题

在大数据时代，数据作为资源要素，需要保持高效率流动，才能持续产生价值。医疗数据作为“皇冠上的明珠”，也需要不断流动，即使不让它流动，医疗数据也会在黑市“暗潮汹涌”。在云计算和大数据的时代，阻止数据流动无异于逆潮流的螳臂当车，主动拥抱数据流动才是前进的方向。但是自由流动需要有一定的约束和前提：洪水的自由流动会摧毁庄稼和城市，数据的自由流动同样会摧毁每个人的生活。洪水需要在各种大小堤坝的约束下在河道中有序的流动和分流，最终奔流入海。数据也需要在指定的通道内有序的流动和分流，最终到达正确的目标。

流动安全，作为数据安全的基本命题之一，在本系列文章《五大维度透视医疗数据安全五大维度透视医疗数据安全》、《从医院的五个数据域解剖安全风险》和《医疗行业数据安全的主要风险和应对分析》都有阐述。本篇重点聚焦于如何解决数据的流动安全问题。

数据流动安全的本质：未知和失控

1、数据流动的本质之一：在未知中流动

当一个人不知道自己是否有敏感数据以及敏感数据的分布之处，自然也就无从感知数据的流动，这是最大的风险之一。设想一下，我们拥有的敏感数据正在被发送给不恰当的人，而这背后一切的交易过程都被掩盖了，只有受到安全事件的干扰时，我们才意识到敏感数据的重要性。

敏感数据就像秘密一样，一传十、十传百，一旦泄露，我们无法终止其流动，因为拿到数据的人永远无法意识到数据对个体的重要性。

大量的敏感数据正在源源不断地流动到本不相关的人和区域中，可以说，数据在未知中流动是普遍的现象。

2、数据流动的本质之二：在失控中流动

数据总是从高安全区域流动到低安全区域，最终流动到不受管控的区域。譬如，我们的数据总是从安全级别较高的生产系统流动到安全级别较低的测试系统、管理系统，再流动到其它部门，并最终流动到机构外部。在数据流动过程中，如果你对敏感数据具有清晰的认知，依然会发现自身对于敏感数据的控制力逐渐在减弱，最终走向完全不可控制的局面，也就是失控。

失控，是数据流动的常态化结果。要么不流动，要么失控。但在大数据时代，你无法让数据不流动，所以你最终只能走向失控。

数据流动安全解决方案

如上所述，无论数据在未知中、还是在失控中流动，数据最终都会走向失控。当数据失去控制后，就无法对其施加任何安全措施。所以我们需要在数据失去控制之前就施加安全措施，需要注意的是，作用的安全措施不应该依赖于安全设备，也就是说，安全措施需要作用在数据上，而不是作用在环境上。

数据流动安全解决方案的目标：在数据流动之前掌控数据，在数据流动失去控制之前，控制流动路线。当数据流动失去控制之后，至少要求完成流动溯源或实现流动限制。基于这个诉求，可以从四个方面来构造数据流动安全解决方案：

(1) 敏感数据发现和分级分类：发现敏感数据并进行分级分类。

(2) 源端控制或者数据内置的安全性：在数据流动之前进行安全措施保护，使其在流动中保持数据安全性。源端控制的主要手段：脱敏、加密、水印。

(3) 制度性检查和审计：数据提供方通过制度性的审计检查推动数据接收方合规使用数据。

(4) 数据流动可视化：通过流动可视化来更好地发现可能存在的数据流动风险。

1、敏感数据发现和分级分类

敏感数据发现和分级分类主要目标是为了解决数据在未知中流动的问题。从原则上，所有流动的数据必须是已知的，不允许未知的数据发生流动。敏感数据发现和分级分类具体可以参见本系列文章之《数据安全不可或缺的基础工程：分级分类治理》。

2、源端控制或者数据内置的安全性

源端控制的主要手段包括：脱敏、加密和水印。

（1）脱敏

脱敏是数据流动安全核心的措施之一，脱敏的目标是让脱敏后的数据可以公开流动而不会对数据本身的机密性造成威胁。如果脱敏措施得当，脱敏就可以成为对抗流动失控的最佳利器。目前脱敏主要在两类数据层面上进行：隐私数据和重要数据。

隐私数据脱敏之后将无法还原该数据，因此无法判断信息属于特定的个人或者特定的机构，从而实现在数据流动和使用过程中的隐私保护。在数据流动中面临的最大挑战就是隐私保护的挑战，虽然国家还没有明确立法规定个人数据归个人所有，但这已经成为具体操作中的基本规范：包含隐私信息的数据流动需要获得当事人的授权。隐私脱敏则从技术上把个人数据变更为机构数据，使其可以在机构的授意之下自由流动甚至交易。

重要数据脱敏和隐私脱敏不同，属于商业机密或者国家机密脱敏的范畴。比如针对疾病诊疗记录，沉淀了医疗机构的多年心血和积累，属于医疗机构核心竞争力，比如券商和基金的投资组合等等。不同于隐私数据脱敏后的自由流动，我们需要从根本上控制重要数据的流动。

（2）加密

当脱敏无法满足数据流动诉求的时候，加密就成为了数据流动的必然选择。加密本质上是一种访问控制措施，在施加一定控制的时候可以确保数据流动到合适的目标。当数据在流动中和落地之后都处于加密状态，意味着只有经过认证的目标才可以接受数据和使用数据，从而实现数据流向的控制。加密虽然可以实现一次控制，但无法实现二次控制。当数据流动到了弱控制力甚至零控制力机构之后，加密没有办法控制数据处理和再次落地之后的数据再次流动，比如文档拍照，数据库数据终端落地等情况。

（3）水印

当数据完全失去控制之后，作为数据提供方需要有一个溯源机制来确认当数据泄露事件发生之后在哪个环节发生了数据泄露。水印技术主要提供两方面的作用：版权确认和泄露追踪。

版权确认：通过水印确认该数据属于谁所有，版权确认往往作用重要的商业机密之上。
泄露追踪：当数据泄露的时候确认数据在哪个环节被泄露。

3、制度检查和审计

从理论上讲，由于数据的可复制性质，大部分情况下即使发生了数据交易，数据产权依然由数据原始提供方所有，获得方仅仅获得了数据使用权和加工权。数据提供方有权利检查数据接受方如何使用数据，数据接受方有义务向数据提供方提供数据使用报告，完成数据使用合规。制度性的审计主要提供数据流动安全的监督作用，从事后检查审计的角度让数据流动风险控制在一定范畴之内。

4、数据流动可视化

碎片化的工作最终总是会使人顾此失彼。由于数据流动本质性的高风险特征，数据流动过程可视化从某种程度上会成为数据流动安全解决方案的必须组成部分，通过可视化让人随时介入数据流动风险评判，降低数据流动安全风险。

推荐阅读