10月30-31日,2024汽车技术与装备发展论坛在苏州召开,政府领导,院士专家,装备、汽车及产业链企业高层齐聚,围绕“共筑汽车产业新质生产力”年度主题,聚焦新技术、新装备、新生态展开深入研讨,探索装备制造与汽车产业的融合发展路径。论坛由1场闭门会、1场开幕大会、2场特色活动和4场分论坛构成,搭建起国内首个聚焦“汽车技术与装备发展”领域的高端对接平台。其中,在2024汽车技术与装备发展论坛之面向全球车型研发的信息安全合规技术论坛上,西班牙Denodo大中华区技术总监郭杰发表了演讲。以下内容为现场发言实录:
尊敬的各位领导,各位嘉宾,大家下午好!非常荣幸在这里代表Denodo公司参与咱们2024汽车技术与装备发展论坛,在有关汽车信息安全与合规技术这样的一个领域来介绍我们数据虚拟化是如何帮助我们的企业来完成企业的数据安全合规。
我今天介绍部分会分为四个主题,我会介绍一下有关数据安全法案以及Denodo软件的产品的技术,包括一些案例的介绍,最后我会有一个有关产品的演示。
因为这个演示时间稍微长一点,我会把前面介绍的部分尽可能用简单的语言给大家做一个快速的总结。
有关最早的《数据安全法案》大家可以追溯到欧洲GDPR的法案,那这个法案从草拟到最终法案的生效,其实经过了长达几十年的时间。
GDPR对于企业和个人而言意味着什么?首先是《通用数据保护条例》的缩写,它也是今天世界上最为严格的隐私和安全的法律法规。
如果我们违背了数据法案里面对信息安全的这样一些约束和要求,企业将会面临非常高额的罚金。那么这里要指出的是,我们主要是处理了有关比如说涉及欧盟的公民和个人的相关的这些数据,或者为这些人在提供商品服务的同时,即便我们的组织企业不再欧洲,实际上它也要受到法案的约束。
我们看到它的法案里面有关惩戒的条款分为两个等级,最高可以按照2000万欧元或者是企业全球收入的4%,以较高者为准,来进行这样的一个金额的处罚。
截止2023年底GDPR法案的这样的一个罚金,总的规模已经达到44亿欧元的金额。其实最近一次因为GDPR所造成的企业的受罚的行为,其实也很近。在8月底的时候,欧洲的数据保护局对美国的网络企业UBOR、WBOR违背了数据安全方案进行了大约2.9亿欧元的罚款。
那么,我们提到有关数据安全法案,数据保护的时候,可能会想到说如此高昂的罚金,所以大家可能就要去远离对这些个人隐私的,个人资料的数据预处理。
但事实上其实数据法案本身的初衷是为了约束大家对这些相关涉及到个人隐私数据的合规使用,或者是叫适度的使用,不要过度消费甚至是滥用有关个人隐私的这样一个信息。
所以,所有涉及到触及这些信息的采集、收集到处理的过程,企业和组织需要去承担相应的义务。当然也会承担相应法律上的约束。
正因如此,当然最早是欧洲的GDPR法案,但其实我们会看到全球71%的国家,今天已经有了相应的类似的这样一些法案。同时有9%的国家也已经有了立法的草案,只有15%的国家现在还没有立法。当然还有最后5%的国家,可能今天还没有那么多的数据,可以因此而立法。
当然在国内我们大家都很熟悉的,有关《网安法》《数安法》《个人信息保护法》等,其实今天也在做着类似的事情,帮助我们的企业更好的约束对个人隐私信息的使用和利用。
正因如此,当企业今天有机会去处理服务有关隐私数据的时候,大家可能需要重新审视我们今天的环境和可能面临的挑战。
首先,除了法案本身的一些约束以外,今天大家毫无疑问地都会意识到说数据非常的重要,我们在越来越多的场景下都试图把内部的、外部的这样一些数据联合起来加以利用。
同时,近两年有关大模型AI技术的快速发展,他更加增强了企业利用数据的这样一个意识,而与此同时,我们也看到虽然这些法案的初衷是类似的,但其实在不同地区法案本身还是有着一些具体法规层面的这样一些不同。
所以如何更好的遵从不同地区的法案,特别是汽车企业出海的大背景下,如何满足法律法规的要求,也是大家去思考的一个很主要的问题。
在这个过程中,Denodo公司我们其实是一家已经成立了25年之久的的一家软件公司,我们所提供的技术叫做数据虚拟化、数据编织的技术。
那么我们这样的一个技术主要是应用在有关数据管理,数据集成的领域。那么在过往的过程中,大家涉及到说数据集成的这样的一个操作的时候,很容易想到的一种方法是将数据进行一个物理的移动,复制拷贝的过程。正因如此,因为我们把数据从一个地方移动到另一个地方去,所以很容易会联想到说是不是涉及到了对个人隐私数据的这样的一个任意的访问和保存的问题。
数据虚拟化我们希望如果我们不去或者说我们尽量少的移动数据,甚至我们完全不移动数据的话,但同时我们也可以去满足企业对数据访问和集成的要求,这样的一种能力,就叫做数据虚拟化。
所以,他其实是近乎数据的终端的消费应用与数据源层中间的这样的一个定位,我们是这样的一种功能性的中间件的技术。
通过这样的一个技术,我们就可以让企业所有对数据访问的应用,可以通过数据虚拟化层也叫做统一的数据访问层来对接和集成内外部的各种不同类型的种种的数据源。
在这个过程中,因为我们在一个位置对数据就可以进行一个更加容易的管理,同时,也可以适当的屏蔽和隐藏掉那些不应该让最终用户所看到的数据。
同时,他也有效的避免了我们将数据进行多个版本的复制拷贝的这样一些问题,另外我们也可以有效的跟踪所有使用这个技术访问这些数据的一些人的这样的一些审计信息,确保我们的信息的有效和安全。
还有他也可以帮助我们追踪数据所保存的实际的这样一些物理的位置。所以这些都是通过数据虚拟化技术可以帮助我们的企业更容易的完成数据集成和数据保护的这样的一个措施的。
在这里,其实我们有很多国外的全球的这样一些成功的企业,都成功应用数据虚拟化,在今天数据架构里面完成了有关的数据管理和集成。
比如说全球跨国的生产制造型的企业,它本身业务遍布全球各个大洲,在每一个大洲都有各自的数据中心,而在每一个数据中心又都有很多不同部门、不同业务的数据来源,首先他可以在他每一个数据中心,通过数据虚拟化的技术很容易访问他本地数据中心的不同类型数据源的有效的集成和访问。
而同时,如果要进行跨地域数据访问的时候,每一个数据中心通过数据虚拟化的集群,他把他作为一种安全可靠的数据源,又可以给其他地区的这样的一些数据访问提供一个有效的便捷的数据访问的链路。
与此,在降低数据管理成本的同时,也更好的满足了一些数据安全合规的要求。
比如大型的制药公司,他可能为了欧洲的GDPR法案的要求,同样他希望不去进行数据上的复制,同时有效的应用满足这些数据监管的要求,然后通过虚拟化的方式来为他的不同部门的数据应用,提供一个有效的数据安全可靠的访问。
比如说通过报表、报告分析这样的一些方式,来及时有效的浏览数据。比如说像科技公司,他也是利用数据虚拟化,他日常要做很多有关数据本身的一些管理维护的操作,那么在过去一种所谓的点到点,端到端的一个数据管理链条里面,他需要花费很多的人力和时间维护这些数据。
比如说过期的数据可能要进行一些删除的操作,客户提到说每个月要有上万条数据请求来进行处理的时候,过去可能需要一个非常庞大的专业团队来维护,而通过数据虚拟化的方式可以很好地节省这方面的时间和人力的花费,更好满足有关数据安全法案像GDPR的要求,降低因此所造成的潜在的罚款罚金的问题。
接下来,我通过产品演示来具体看一下,我们怎么通过数据虚拟化的方式,来去管理数据,来去应用一个安全合规的数据环境。
环境大概是这个样子。如图(右)下面我们会模拟几个有效的数据表格,比如说我们涉及到个人隐私的客户数据,比如说有客户住址的数据,可能是在不同的数据表里,这时候为了满足不同应用的需求,我们可能会把不同的表连接起来,变成一个像客户视图的访问。
与此同时,这些数据存储涉及到个人隐私类型的信息,在这个过程中,如果个人本身是知晓这些数据可能会被企业加以利用,他允许来进行分享的话,其实他会有单独所谓的授权的这样一个表。
我们可以看到左边这样一个表,就是对个人隐私信息的一个授权表。授权可能说我在信息里面的姓名的信息可以分享,比如说年龄的信息可以分享,或者我的住址的信息可以分享,他可以单独来对他们进行单独的授权的控制。这时候我们会看到基于这样的一个授权信息和我们客户信息联合之后的结果,给到不同的场景,给到不同部门的人去访问的时候,他应该基于不同的一些需求,基于不同安全合规的要求,加以不同的控制方式。
比如说,我们给一个客户支持部门的人去看的时候,他可能不需要去访问客户有关的年龄的信息。这时候即便进行一个数据探索,我们需要把相关年龄的信息屏蔽掉。
如果说一个数据科学团队,去访问这个数据的时候,其实他只是关心一些所谓的内部的关联规律,他甚至不需要关注到具体的这些个人信息的时候,我们希望对所有的这些包含个人信息在内的这些字段全部进行模糊化的处理,那这个模糊化处理之后,保留了原始记录之间的联系,但是我们看不到准确有效的信息。
而市场部门去看这些信息的时候,可能就会根据每一个人授权的这样一些信息访问范围,某些记录是允许的,某些记录是不允许的,某些记录里面的某些年龄信息是可以看的,其他可能住址信息是不允许看的,这时候根据授权表的信息对他加以授权。
我们接下来一起来看Denodo的演示。
我先通过管理员的身份登录的是数据市场、数据目录的应用,企业的用户可以通过数据目录环境,可以自由探索企业内部的甚至是外部的授权访问的数据资产。
比如说他会有一些推荐,可以看什么,最常看的数据信息是什么。这里面有我发布的客户数据。那么在看客户数据的时候,我们会看到他相应的一些类别、标签的信息或者其他人对这些信息的推荐等,当然也会有通过大模型自动生成的一些有关描述类的信息。
在模式的地方,我们可以看到这个视图里面具体字段的信息,甚至我想看到说,当前这个信息背后的一个来龙去脉,我可以通过数据研习的方式,来看到他背后的数据查询的逻辑是什么。当然,我想看具体数据分布状态的时候,也有可能通过数据概要的信息,看到每一个不同字段数据曲直的分布。
在看到有什么样的数据信息的同时,我也可以去查询这个数据,随意组织一些任意的数据探索和查询,比如说我通过拖拉拽的方式,建立起一个快速的查询,来执行查询。
这时候我看到当前可以访问的信息,现在我是一个管理员的身份,所以我们可以看到所有的信息,我们全部都可以浏览。现在我们把它退出来,换一个身份来进行登录。
我们现在用客户支持部门人员的身份登录之后还是访问这个数据,当然我们也可以看到类似的这些数据结构的信息,这时候我们注意到在看这个数据结构的时候,客户支持的部门是能看到有一个年龄相关的信息,但实际上我们刚才讲我们不允许他去访问这个字段里面的具体的内容,所以当我们来进行查询的时候,我们看到其实在这个地方就已经通过对这种数据资产的保护,我们没有允许他授权来访问这些字段的信息,自然他也就不允许进行查询的时候,浏览到其中有关年龄部分的一个信息。
类似的话我们看到在进行一个数据的来龙去脉,分析的时候,他没有相关的授权,所以他是无权看到背后的底层的结构化信息。
我们再换一个,我们现在用数据科学家的身份来登录。我们刚才讲数据科学家的团队,他可能不需要关注具体的信息,他需要进行模糊化的数据处理,所以还是相同的数据,如果我们来对他进行一个查询的话,,我们看到所有的信息都已经经过了模糊化的处理,而数值类型的字段,我们通过随机化的处理方式,把它变成不包含实际准确数据的这样一个内容。
我们再来看一下市场部门。
通过市场部门人员去访问的时候,刚才我们讲这个信息将会进行一个处理,他做怎样的处理?比如说你看到第三条记录,这个个人是没有授权访问他的人员姓名的信息,所以姓名的信息就被隐蔽掉了。
前面这两条记录,你看到他没有授权访问E-mail的信息,所以E-mail的信息没有授权访问。第13个人,你会看到所有的信息他所有的信息都没有授权访问,所以所有的信息你都看不到,都会进行一个模糊化的处理。
如何实现它?我们把刚才所谓的授权表通过一个接口的方式,我们对外可以进行一个修改。比如说授权表,针对于第13人这条记录,我如果想要他可以访问姓名的信息,我把他的接口更改一下。E-mail的信息,年龄的信息,我都允许他去访问,地址的信息不允许,我模拟把它更改一下,现在这个人的信息我们看到他授权已经修改的,我们看再来访问它的时候,我们看再来执行一下,我们看到第13个人,所有全面的信息,刚才说了有关姓名、年龄、E-mail的信息都允许授权访问,但是地址的信息不允许访问的情况下,仍旧将他进行了模糊化的一个匿名的处理。
如何实现他们?在有关数据的管理的部门,我们会有专门的安全策略的一些设定,我们会基于刚才所谓的不同的数据类的标签,基于他不同的身份的信息,我们会添加上相应的这样一些安全处理规则,主要通过这样的一个规则,直接把他应用上,同一份数据在经过不同的这样一些访问场景进行处理的时候,确保他可以经过一个安全有效的访问。
这是我今天的DEMO的介绍。大家如果对Denodo数据虚拟化的技术比较感兴趣,也欢迎会后与我们公司来进行联系。
谢谢大家。
(注:本文根据现场速记整理,未经演讲嘉宾审阅)
联系邮箱:info@gasgoo.com
客服QQ:531068497
求职应聘:021-39197800-8035
新闻热线:021-39586122
商务合作:021-39586681
市场合作:021-39197800-8032
研究院项目咨询:021-39197921
版权所有2011|未经授权禁止复制或建立镜像,否则将追究法律责任。
增值电信业务经营许可证 沪B2-2007118 沪ICP备07023350号