数据安全系列文章(三):AI训练数据的新来源——合成数据

原创 创新研究院 2025-04-01 10:52 辽宁

人工智能需要大量训练数据,而日益严格安全法律法规使得访问和使用真实世界的数据集越来越困难。 合成数据技术可以模拟真实的数据,用作训练机器学习模型、测试软件应用程序

一. 合成数据概述

在上一篇数据安全流转系列文章中,我们介绍了数据脱敏和匿名化技术[1]。然而脱敏/匿名化后的数据仍然可能存在敏感信息。而随着人工智能的飞速发展,机器学习和人工智能应用需要收集、标注和维护大量数据集,这既费钱又费时。除此之外,日益严格的隐私合规和数据安全法律法规使得访问和使用真实世界的数据集越来越困难。与算力和算法相比,算据(计算所需的数据)的匮乏是人工智能应用快速发展的最大障碍。

因此,越来越多的企业开始转向合成数据(Synthetic Data)[2],即使用机器学习算法来生成数据,为敏感和高风险的真实世界数据提供一个有效且经济实惠的替代方案。随着生成式人工智能的发展,生成合成数据变得越来越容易。

2023 年 5 月提出的新欧盟人工智能法案进一步强调了对合成数据重要性的认可,该法案第 10 条和第 54 条以及其他人工智能相关条款都明确提到了 “合成数据“。监管框架内的这一认可促进了其在各行业中的作用。数据隐私和安全要求往往限制了对真实世界数据集的访问。由于合成数据与真实数据不具有一对一的相关性,因此在开展分析项目时,合成数据可用于训练机器学习模型、测试软件应用程序以及填补数据集的空白。合成数据对金融、医疗保健和保险行业至关重要,因为这些行业的数据隐私和安全要求限制了对真实数据集的访问。

 

二. 常用合成数据技术

合成数据是通过程序创建的,各种技术主要分为三个分支:基于机器学习的模型(Machine Learning-Based Models,)、基于代理的模型(Agent-Based Models)和手工方法(Hand-Engineered Methods)。图1展示了合成数据的常用技术。

图1 合成数据常用技术

2.1

 基于机器学习的模型

使用基于机器学习的模型创建合成数据有几种不同的方法,具体取决于用例和数据要求。其中最常见的包括:

  • 生成对抗网络(Generative Adversarial Network, GAN)模型[3]:合成数据的生成由两个神经网络来实现,一个用于生成新的合成数据,另一个用于对数据质量进行评估和分类。这种方法已被广泛用于生成合成时间序列、图像和文本数据。

  • 变分自编码器(Variational Autoencoder,VAE)[4]:使用一个生成对抗网络和一个额外的编码器来生成合成数据,这些数据高度逼真,在结构、特征和特性上与真实数据相似。

  • 高斯 Copula[5]:使用统计学方法生成具有所需特征(如符合正态分布)的真实合成数据。

  • 基于Transformer的模型[6]:这类模型,如 OpenAI 的 GPT模型,擅长捕捉数据中错综复杂的模式和依赖关系。通过在大型数据集上进行训练,它们可以学习底层结构,并生成与原始分布非常相似的合成数据。基于Transformer的模型已被广泛应用于自然语言处理任务,同时也被应用于计算机视觉、语音识别、图像合成、音乐生成和视频序列生成等领域。图2是HuggingFace上关于合成数据的一些模型。

图2 HuggingFace上的合成数据模型

2.2

基于代理的模型

基于代理的模型模拟系统中单个代理(实体)的行为以生成合成数据。这些模型尤其适用于单个实体的行为可以代表整体行为的情况。以下 几个典型的例子:

  • 交通模拟:在交通研究中,基于代理的模型可用于模拟单个车辆在城市道路上的行驶。每辆车都被视为一个代理,具有特定的加速、减速和变道规则。这种方法可以生成合成的交通流量数据,有助于测试和优化交通系统。

  • 流行病学模型 : 基于代理的模型常用于流行病学中传染病的传播模拟。模型中的每个人都代表一个代理,这个代理与其他代理的相互作用(如接触率、感染概率)决定了疾病的传播速度。

  • 市场模拟 : 在金融领域,基于代理的模型可以模拟金融市场中个体交易者的行为。每个交易员代理可能有不同的策略和风险偏好。通过模拟他们的互动和交易决策,模型可以生成合成的金融市场数据,用于测试交易算法和风险管理策略。

2.3

手工方法

手工方法涉及生成合成数据的规则和算法。当基础数据分布已被充分理解,并可使用特定数学或统计模型表示时,通常会使用这些方法。

  • 基于规则的数据生成方法 :合成数据是根据一组预定义的规则和条件创建的。例如,假设有一个包含客户信息的销售交易数据集。要生成合成数据,可以定义以下规则:“为每个客户创建新的交易,随机设置购买金额和日期,确保购买日期在原始数据的合理范围内”。

  • 参数模型方法 : 参数模型是数据分布的数学表示,合成数据通过从这些模型中抽样生成。

  • 随机抽样方法 :合成数据从现有数据中随机抽样生成。例如,如果有一个人的年龄数据集,可以从原始数据集中随机抽取年龄来生成合成数据。

  • 线性插值方法: 假设有一个包含时间序列数据点的数据集。可以使用线性插值在现有数据点之间生成合成数据点,从而创建更平滑的时间序列表示法。

综上,每种方法都有其优点,有些算法可以结合使用,以优化特定用例的合成数据生成,最佳方法将取决于企业的需求和数据要求。


三. 合成数据的优势

合成数据使企业能够利用复杂的数据,而不会像真实数据那样增加风险和隐私问题。此外,合成数据的生成速度比真实数据更快、更准确,是开发工作流程的理想选择。使用合成数据的其他一些主要优势包括:

  • 更好地控制数据集的质量和格式

  • 降低数据管理和分析的相关成本

  • 更高质量的数据集可提高机器学习算法的性能

  • 加快开发工作流程和项目的周转时间

  • 提高敏感数据源(如医疗记录或财务数据)的隐私性和安全性

 

四. 合成数据用于隐私合规下的数据分析

合成数据能准确模拟真实世界的数据。它可以模拟开发和测试工作流程中生产的数据,也可以用于提高机器学习算法的质量。合成数据的典型应用场景包含:

4.1

合成数据用于隐私合规下的数据分析

如今,企业数据越来越多,其商业价值也日益得到认可。云服务提供商(Cloud Service Provider,CSP)提供了有效的数据分析工具,如谷歌分析(Google Analytics),以便从企业内部的数据中提取价值。但是,企业必须遵守相关的数据保护和隐私法规。可使用合成数据保护隐私,公共和私营机构可以在不破坏数据与 CSP 之间隔离的情况下提取最大数据价值。

4.2

合成数据用于机器学习降本增效

高级分析是指利用大数据和机器学习技术来洞察复杂系统并做出预测。数据科学家在使用机器学习时,会遇到数据集有限或质量不高的问题,而合成数据有助于填补这些空白并提高结果的准确性。无论是用于预测建模还是财务风险管理,合成数据都能显著提高分析系统的性能和结果。此外,它还能帮助企业降低与数据管理、分析和存储相关的成本。

4.3

合成数据用于软件开发和测试

随着软件开发方法的不断变化和发展,获取真实数据集的需求日益增长。合成数据可帮助开发人员在获得真实数据之前了解系统或程序的功能、逻辑和流程。合成数据可以帮助测试和调试新功能、优化性能、改善用户体验以及创建真实的测试用例。此外,合成数据还能帮助开发人员更快地排除故障,缩短完成开发工作流程所需的时间。

4.4

合成数据用于信息安全

随着数据安全相关法律的不断完善,企业对将真实世界的数据集用于机器学习模型或敏感应用感到担忧。合成数据是帮助解决这些问题的强大工具,它运行训练算法并创建符合隐私法规的应用程序。合成数据还能为机器学习模型的训练提供真实的数据集,从而帮助安全团队检测、预防和应对威胁和恶意攻击。合成数据保留了真实世界数据的重要统计属性,消除了容易被逆向工程和滥用的可识别特征,因此可用于识别和预防欺诈活动、勒索软件攻击和其他网络安全威胁。

五. 小结

合成数据是通过计算机生成的虚拟数据,通常用于替代或补充真实数据。合成数据具有隐私保护、降低数据获取成本等众多优势,在机器学习、医疗领域有着广泛的应用场景。随着生成对抗网络、变分自编码器、大模型等技术的发展,合成数据的质量和多样性将显著提升。大模型(尤其是生成式预训练模型,如GPT、DALL·E、Stable Diffusion等),可以高质量的生成文本、图象、语音和音频、多模态数据的生成。

随着大模型生成能力的增强,合成数据的质量将越来越接近真实数据;相对应的,合成数据可以更广泛地应用于各个领域的大模型训练,形成自我增强的闭环。


参考文献

 

[1] https://mp.weixin.qq.com/s/jEqYr7Bws_8H7oXkLrXFcA

[2] https://en.wikipedia.org/wiki/Synthetic_data

[3] https://medium.com/the-research-nest/exploring-gans-to-generate-synthetic-data-ca48f8a4b518

[4] https://visualstudiomagazine.com/articles/2021/05/06/variational-autoencoder.aspx

[5]https://arxiv.org/abs/2101.00598

[6]https://developer.nvidia.com/blog/generating-synthetic-data-with-transformers-a-solution-for-enterprise-data-challenges/

内容编辑:创新研究院 高翔
    责任编辑:创新研究院 陈佛忠


本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们


绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

图片

长按上方二维码,即可关注我


阅读原文

跳转微信打开

原始链接: https://mp.weixin.qq.com/s?__biz=MzIyODYzNTU2OA==&mid=2247498608&idx=1&sn=b1b132af2ba4c34868b6ca3ac7a826e0&chksm=e99edf65d1da890f46a54f353a906c4b62d11126586877b71128dbd4a684986347653267af7b&scene=58&subscene=0#rd
侵权请联系站方: [email protected]

相关推荐

换一批