新闻资讯

龙蟠汇办公室
地址:南京市秦淮区龙蟠中路419号 人保(南京)金融大厦 A座9、10楼
电话:8625-84715285
苏州分所
地址:苏州工业园区苏州大道西9号苏州国际财富广场西塔1001室
电话:86512-67888330
江北分所
地址:南京市江北新区浦滨路150号中科创新广场20号楼1303室
淮安分所
地址:淮安市纯如路1号南昌北路与母爱路交汇处东北角
新高的研究院 | 生成式人工智能服务的监管要来了——《生成式人工智能服务管理办法(征求意见稿)》亮点及建议
2017年以来,全国人民代表大会常务委员会陆续制定和颁布了《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》,构成了我国维护网络安全的基本法律体系,为我国网络安全、数据安全、个人信息保护提供了基本遵循。但近年来,随着网络科技发展日新月异,一系列立法时难以预测的新问题逐渐暴露出来,立法的滞后性、宏观性表现显著,急需低位阶的规章针对具体问题进行补充。为此,国家互联网信息办公室发布《互联网信息服务算法推荐管理规定》,对各大互联网平台中利用大数据进行个性化推荐作出规范;发布《互联网信息服务深度合成管理规定》,对人脸生成、替换、操控等深度合成技术作出规范。
随着ChatGPT的火爆,相关的数据安全问题引起国内外的广泛关注,尤其是个人隐私泄露的风险问题被舆论推上风口浪尖。ChatGPT现阶段在我国尚不能正常使用,但在这短短的间隙期间内,敏锐的国内互联网巨头迅速跟进,3月27日百度开发的“文心一言”上线;4月7日阿里开发的 “通义千问”开放测试,两者目前均处于测试阶段,还未推出可以广泛应用的成熟产品。为应对上述新变化和新问题,2023年4月11日,国家互联网信息办公室发布了《生成式人工智能服务管理办法(征求意见稿)》(以下简称《管理办法》),向社会公开征求意见。
一、生成式人工智能对数据安全的威胁
1 数据安全事件的威胁已引起广泛关注
2023年3月25日,OpenAI发文证实了部分用户可能会看到另一位用户的姓名、电子邮件地址、支付地址、信用卡信息、对话主题及记录,并将ChatGPT临时关闭。ChatGPT的原理决定了其会将用户聊天用于后续算法训练。这一泄露事件加深了用户的担忧,担心其提供的涉及个人隐私、商业秘密的内容被ChatGPT在其他场景中披露出去。三星公司在发生员工将机密信息上传ChatGPT处理的情况后,在公司内部通报并考虑禁用ChatGPT;意大利个人数据监管局(GPDP)3月31日宣布暂时禁用 ChatGPT,并对其涉嫌违反欧盟《通用数据保护条例》(GDPR)和意大利数据保护法规展开调查;中国支付清算协会官网4月10日发布公告倡议,提示慎用ChatGPT,指出此类智能化工具有跨境数据泄露等风险。
2 人工智能可以广泛搜集个人信息及秘密
用户在注册、使用过程中提供的个人信息(住址、电话、邮箱等)、个人敏感信息(如精确定位、人脸识别信息等)通常能够得到识别、保护,但对于生成式人工智能来说,用户在与AI对话过程中有意无意透露的个人信息、商业秘密等能否被AI有效识别并避免泄露,以及AI在从多个用户处获得相关联信息后,能否间接获得相关隐私及秘密信息。我们通过阅读各大AI服务商提供的隐私政策的相关描述,可以获知信息搜集存在于对话的全过程:
(1)ChatGPT:隐私政策第一条“我们搜集的个人信息”中提到会搜集“用户内容”,具体描述为“当您使用我们的服务时,我们可能会收集您向我们的服务提供的输入、文件上传或反馈中包含的个人信息”;第二条“我们如何使用个人信息”中提到“聚合或者去识别化信息”,具体描述为“我们可能会对个人信息进行汇总或去识别化,并使用汇总的信息来分析我们服务的有效性、改进和增加我们服务的功能、进行研究和用于其他类似目的……我们将以匿名或去身份识别形式保留和使用去身份识别信息,我们不会尝试重新识别信息。”
综合上述信息可以看出,ChatGPT承认会搜集用户对话中包含的个人信息,同时会将搜集到的个人信息匿名化处理后,从事AI模型的训练活动。
(2)通义千问:通义千问由阿里主导开发,目前处于测试阶段,需要使用邀请码参与试用,其隐私政策已经在官网公布。其隐私政策第二章“信息收集及使用”提到:“我们需要接收并记录您与通义千问对话时所输入的文本信息……在经过去标识化且无法重新识别特定个人的前提下,我们会使用单个对话内的上下文信息提高通义千问的智能性”。同时提到“如您输入的内容(包括但不限于对话信息、评价、反馈)涉及第三方的信息(包括但不限于个人信息),在输入这些信息之前,您需确保您已经取得合法的授权,避免泄露他人个人信息,侵犯他人权利。”
综合上述内容可以看出,与ChatGPT一样,通义千问也会搜集用户对话,在去识别化后训练模型。除此之外,通义千问为避免“第三方信息”泄露,要求用户在输入前确认其“取得合法授权”。
由此看来, ChatGPT与通义千问均会收集用户的输入信息,在去识别化后训练模型,但针对是否可以从多个用户获得相关联的信息后,间接获得相关隐私及秘密信息的问题,二者在隐私政策中均未作出特别安排。
二、《管理办法》亮点解读
面对生成式人工智对数据安全带来的威胁,在其尚未普及阶段,国家前瞻性地制定相应规章进行规制,有助于防范违法违规风险,维护国家、社会重大利益、维护用户合法权益。
1 规范的对象针对性强
《管理办法》第二条第一款明确了“研发、利用生成式人工智能产品,面向中华人民共和国境内公众提供服务的,适用本办法。”第二款将“生成式人工智能产品”定义为:“本办法所称生成式人工智能,是指基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。”可见,《管理办法》的制定就是针对以ChatGPT为代表的AI系统,规范其利用大数据算法训练模型,生成文本、图片等的技术。
2 规范的行为具体明确
《管理办法》第十一条对用户最担忧的泄密问题做出明确规定,“提供者在提供服务过程中,对用户的输入信息和使用记录承担保护义务。不得非法留存能够推断出用户身份的输入信息,不得根据用户输入信息和使用情况进行画像,不得向他人提供用户输入信息。法律法规另有规定的,从其规定。”此前ChatGPT曾爆出漏洞,一些用户可以看到其他用户的输入内容,引起用户的广泛担忧,担心自己与ChatGPT的对话内容发生泄露。《管理办法》第十一条针对用户在使用以ChatGPT为代表生成式人工智能产品最为关心的问题,明确规定了服务提供者的信息保护义务,要求服务提供者不得非法留存、向他人提供用户的输入信息。
3 规范的方式详细具体
《管理办法》第六条、第八条、第九条、第十三条、第十五条、第十六条、第十七条、第十九条对服务提供者提出了评估备案、人工标注、用户实名认证、建立投诉机制、对用户进行指导、监管用户合法合规使用等要求,并要求服务提供者发现漏洞应采取内容过滤等措施,同时在三个月内完成模型的优化训练防止同样的问题再次发生。
《管理办法》第八条、第十六条是规范方式规定中的亮点。要求对AI生成的内容进行标注,使其能够区别于真人为作者的文字内容、真实拍摄的图片等,能够有效预防知识产权侵权、虚假信息传播等问题。但笔者认为,这些规定在具体推行过程中可能存在困难,比如AI合成的图片被打上水印将大幅降低其使用价值,再如如何对文字内容进行标记等等。对于AI生成的内容进行标注在《互联网信息服务深度合成管理规定》就有规定,《管理办法》第十六条也提到了该管理规定,但两者都未提及具体的操作办法。《管理办法》第八条直接将标注规则的制定交给了服务提供者。相信随着生成式人工智能产品的普及,各大服务提供者通过积极尝试,最终可以研究探索出具有可操作性的方法并被法律法规所吸纳。
三、对数据安全保护途径的一些思考
1 手动标识
《管理办法》第八条、第十六条要求对AI生成的内容进行标注。既然通过标识的方式能够区分真实与虚构,也能够通过标识区别保密与非密;既然生成式AI现阶段难以识别用户的输入内容是否涉及商业秘密、个人隐私,建议在对话框中增加标识功能,让用户自主标识其输入内容是否涉密。对于非密内容,遵守隐私政策中的约定,在去标识化后可用于训练模型;对于涉密内容,从避免通过AI与其他用户的对话外泄、不纳入模型训练素材等方面增加其保密强度。考虑到现阶段模型的完善大量依靠用户输入内容的训练,可以仅对付费用户开放上述功能。针对保密需求较强的企业用户,可以开发“保密模式”,确保公司员工输入的所有内容均采取最严格的保密措施。
2 完善自动识别算法
在用户输入的内容中疑似包含涉密信息时,及时提醒用户撤回或询问用户是否需要加密处理。在基本能够判断用户存在涉嫌套取他人个人隐私、商业秘密的行为和操作时,应主动向用户确认需求,如其需求违法应拒绝提供相应信息。该自动识别功能应作为上述手动标识的补充,在用户疏于保护自身涉密信息时作出提示,同时识别、拒绝用户的违法请求。对算法优化更新后应及时将相应内容补充至用户协议、隐私政策中,同将该功能以显著的方式在用户页面中进行展示,提示用户增强保密意识,如涉及保密内容及时启用相关功能。
作者
尹悦红、裴麒宇、岳天笔
团队介绍
本所一级合伙人尹悦红团队律师长期深耕国企合规、投资并购、破产重整、公司治理以及数据安全、安全生产、生态环境、反垄断等领域的法律服务,尤其擅长为大中型、集团型国有企业、民营企业和外商投资企业合规、合同管理等提供专业化法律服务。本团队律师长期服务于省市国企和上市公司;熟悉国企相关法律服务,擅长设计、评估、制定企业的合规组织架构、制度体系。同时在知识产权与数据信息专项合规建设、安全生产专项合规建设、生态环境专项合规建设、劳动人事专项合规建设等具有丰富经验,不断为客户提供更为系统的全方位合规法律服务,帮助客户构建完整的合规体系。