|

财经

当deepseek们走向端侧 用户数据安全成必答题丨端侧AI战事

来源:21世纪经济报道

媒体

2025-02-12 12:12:41

(原标题:当deepseek们走向端侧 用户数据安全成必答题丨端侧AI战事)

文/傅宏宇 阿里研究院人工智能治理中心主任

近年来,各类大模型开始规模化应用于智能手机、PC、智能汽车等端侧设备,进一步强化了设备在图文等领域的处理能力,拓展了人机交互场景,能够更灵活地响应用户需求。尤其是最近deepseek的破圈,密集部署,加速了端侧AI进展。

云侧大模型拥有强大的算力,能够处理复杂的任务和大规模的数据,提供深度的分析和决策能力。而端侧模型虽然算力有限,但可以快速响应本地的简单任务,减少数据传输和等待时间,提高系统的整体效率。端侧模型和云侧模型配合使用,能够带来更为高效、便捷、经济的模型服务,满足各类场景中差异化的需求。

在端云协同的大模型应用过程中,用户-模型交互数据密切,较多涉及个人隐私或企业商业秘密,而随着AI Agent(智能体)的加速推广,模型需要分解复杂任务,并且调度管理各个应用,也就需要访问和汇聚用户和多个应用中的数据,交互数据也从单一的用户一方数据向各种来源的三方数据扩展。模型对于数据的使用和处理过程本身就具有黑箱化特征,由于涉及一方、三方的多数据来源,对于交互数据怎么使用、会用到哪些数据等问题较难向用户解释清晰。此外,在模型黑箱化的情况下还叠加了一层执行环境的“黑箱”,由于用户担心平台“超级权限”的存在,以及对云上数据安全机制的不了解,容易对平台缺乏信任,担心数据在未被授权情况下被模型学习使用,带来数据滥用或泄露的安全风险。第三方报告显示,公司高管对生成式AI在数据安全(Data Security)和决策透明(Decision Transparency)的担忧分别从2023年的17%和9%,迅速上升到2024年的46%和35%1而头部生成式AI研发和应用公司的安全部门负责人,也都将敏感数据泄露(63%)、敏感数据过度分享(60%)、对个人信息的不合理使用(55%)作为最关心的安全挑战2

解决端云协同中的交互数据安全问题,首先需要保障执行环境安全、尊重用户权益,建立用户信任基础。保障用户-模型数据交互安全保障不是从零开始,首先需要建设云侧、端侧等执行环境的安全保障能力,采取协议承诺、技术管控等方式让用户对自身数据可控可管可审计,为用户进一步使用模型、与模型进行数据交互奠定信任基础。一是要保障用户数据处理环境的安全一致性。无论是端侧还是云侧,用户-模型交互处理的整体环境应当在数据安全保障级别上需要和用户私域等同,用户数据在各类执行环境中都受到同等的安全保护,例如对企业用户需高度关注企业商业秘密在传输、存储过程中的加密和防攻击,应用处理过程中的权限限制,对个人用户则要保障对其个人数据的控制权和安全性,保证对数据处理的知情同意。二是要保障用户对自身数据的高度可控性。严格遵守用户指令,以用户授权为前提,强化权限保护、数据可控性、可审计性,责任可追踪。通过授权和密钥控制,保障用户数据的私密性,对用户数据管控和滥用防控,让用户了解并控制各执行环境中的数据使用情况,避免超权限、超范围、超目的的数据访问,做到“操作可审计”。在发现事故后快速定位问题源头,区分是用户不当使用、系统漏洞还是外部攻击等行为所导致的安全风险,做到“责任可追溯”。

而在保障执行环境安全、尊重用户权益的基础,进一步针对用户使用模型的特点,基于数据交互状态进行链路解析和针对性的安全治理。在以模型推理为代表的、模型通过API接口接受或调取用户数据的场景里,用户通过API接口向模型输入用户数据,模型利用用户主动输入数据,依据用户指令,基于模型自身能力提供推理分析、内容生成等服务,如果用户对结果有精准度、实效性、定制化等仅依靠模特通用能力难以实现的要求,模型则会进一步调用用户的补充数据,以及在模型服务域中存储于RAG数据库里的用户数据。用户输入数据和模型调用的补充数据作为用户输入数据与模型交互,并与模型输出数据一起存储于模型服务域的交互数据存储之中。交互数据存储中除了存储用户和模型的交互数据外,还存储了用户调用模型日志、模型运行状态、生成内容的安全状况等元数据。

推理场景中用户提供的数据类型多样,交互数据存储可能包含更为全面的用户-模型交互历史记录数据,此类数据的敏感度高,但同时也构成了模型理解用户意图、了解用户需求、向用户提供定制化服务的信息基础。应对推理场景的用户-模型交互数据风险,需要更为全面的、体系化的模型服务用户数据安全保障机制,强化用户输入数据的源头管理,以及交互数据存储的安全保障,并对用户进行主动提示和告知,提高用户-模型数据交互的透明度和可审计性。具体包括进行输入数据提示和确认,实现交互数据可审计,规范模型服务安全等。

而在以Agent/Model as an OS为代表的、用户数据-三方数据-模型混合交互场景里,模型在执行复杂任务时需要更高的自主性,除了通过提供推理服务等方式与用户进行数据交互外,还需要调用三方APP、程序、插件或工具,获取三方数据,为用户执行更为复杂的任务,实现包括意图理解、指令规划、流程设计、内容编排等系列功能。此类场景的特点是模型处于数据交互链路的中心,多来源数据同时与模型交互需要实现“可合可分”,在促进各类数据向模型汇聚的同时厘清各来源数据的利用规则、安全要求和后续责任。混合交互场景存在的数据安全挑战包括(1)三方数据来源之中包含对Agent执行任务所需的用户数据,例如利用模型完成旅游行程规划任务需要获取在交通、餐饮、住宿APP中的用户数据,这些数据虽然是用户数据,但向模型汇聚的过程中涉及数据的跨主体转移,需要获取用户的授权,并对数据的处理过程采取相应的保护;(2)由他人合法持有的三方商业数据,需要模型服务提供方和数据来源方对数据获取的方式、范围、目的,对数据使用的对价和责任分配方式进行明确约定,保障各方合法的数据权益,做到“可合可分”;(3)模型服务提供方对数据交互的执行环境承担安全保障义务,以保证Agent服务的高效稳定、保护各方数据的安全和私密状态。

为保证多方数据有效可用、来源可分、责任可判,可以从以下方面进行治理:(1)对于存储在三方APP或插件中的用户数据的汇聚使用,需要事前获得用户的明确授权,向用户告知使用的目的、获取的数据范围和数据存储、删除规则,并在模型日志中记录三方来源的用户数据使用情况,供用户查阅审计;(2)对于需要调用的三方数据,模型服务提供方应当与三方数据来源方签订数据使用协议,保证三方数据的可及性和合法性,对于因三方数据问题影响模型服务、对用户带来损失、引发安全事件的,对各方的后续责任进行约定;(3)对多方数据来源的总体管理,模型服务提供方需对三方数据来源方(如APP、插件)承担管理责任,明确三方数据来源方准入、数据上架规则,建立多方数据利用执行安全标准,向用户公开公示多方数据来源管理规则和重大事件的处置情况。

总体而言,用户-模型数据交互链路虽然较为复杂,但针对主要场景核心安全风险进行针对性的治理,可以实现用户数据向模型传输、在模型域存储、被模型训练或推理使用、在模型输出中呈现等各环节的有效管控,配合云执行环境基础安全保障、安全服务响应、模型内生安全加固等机制,引入可信第三方的评估审计,能够最大程度保障用户对模型数据使用的知情权和控制权,防止用户数据被非授权用于模型训练、通过模型泄露,让用户能够放心地使用模型,获得更好的模型服务。

同时也可以观察到,模型对数据利用呈现明显的多源性特点,尤其在agent场景,模型需要汇聚用户在三方APP中的数据以及三方来源数据,要求“用的时候能拿得来”,同时为了保证各方数据的价值实现和责任分配,又需要“用前用后能切分”,现有制度并不完全适配多方数据“能合能分”的实际要求。特别是使用的不同数据源难以完全由用户直接授权,而“概括性授权”的合理性尚无定论;而一旦后链路出现数据安全事件,又需要对各方的权责进行明确切分,但在模型进行应用编排时,从不同来源的数据中拆解数据链路,对问题源头进行精准定位也面临挑战。但从促进技术发展、提高模型服务能力的角度,事前过严的数据使用限制确实会影响模型能力的发展,限制以Agent为代表的复杂应用服务。面向未来,需要进一步构建顺应大模型技术特点、符合大模型数据利用规律的数据制度,促进数据的共享、开放以及向大模型的汇聚。 

参考资料:

1 Lucidworks,The State of Generative AI in Global Business: 2024 Benchmark Report,P9

2 Microsoft Security,Accelerate AI Transformation with Strong Security,P12

21世纪经济报道

2025-02-12

证券之星资讯

2025-02-11

首页 股票 财经 基金 导航