杭州君同未来科技有限责任公司

一站式Get！Agent应用风险治理指南

新闻动态

2025.03.30

君同场景化治理方案✖️3

在以生成式大模型为代表的人工智能技术深度渗透产业转型变革的进程中，人们已经熟悉通过Chat的方式与模型交互完成指令的下达，并获取信息的反馈；与此同时，RAG和Agent相关应用的广泛推进也极大推动大模型技术落地。君同基于“用户、数据源、软件工具”三个对象与生成式大模型的交互方式，构建了以“Chat、RAG、Agent”为主题的场景化治理解决方案。

如下图所示，用户以Chat的方式通过浏览器、APP或者各种插件接口将指令下达至模型，如不借助外部资源，模型根据自身训练后所掌握的能力直接向用户反馈答案，完成交互；当模型自身训练后的结果不足以支撑对用户需求的有效、充分反馈时，通过RAG类技术可以将在线的数据信息以检索的形式获取回本地，或者直接调用本地的数据源信息支持对用户请求的反馈；更进一步，模型也可通过调用软件的方式执行命令或内嵌对信息的搜集整理再反馈给用户，以Agent的方式完成大模型应用的落地。在每个具体的交互过程中，可以进一步嵌套更多的用户与模型，模型与数据，模型与工具多重交互，完成更加复杂的模型场景应用。

图注：君同创新性提出 Chat-RAG-Agent 场景交互框架图

君同针对包括Chat与用户的交互、RAG与数据源的交互、Agent与软件工具的交互在内的上述三类交互方式的应用，提供场景化可信治理方案，通过统一的可信评估框架、动态风险监测机制及场景化合规适配方案，为人工智能技术在关键领域的规模化应用提供全生命周期可信保障。

Chat基底模型治理：针对智能客服、多轮交互、反馈应答等场景，构建基于大语言模型的对话系统可信框架，通过数据筛选、模型优化、风险防控等维度，全面检测不良信息、防护模型风险，保障金融、政务等领域对话服务的安全可控。

RAG治理：针对企业级知识管理需求，开发行业垂直领域 RAG 系统可信治理方案，通过设置RAG全方位可靠性评测基准，利用内容安全防护和恶意攻击防护技术，解决数据污染、恶意攻击等关键风险问题，打造助力金融风控、智能制造等领域实现从数据资产到智能决策的可信路径。

Agent治理：面向自动化运维、边缘智能等场景，全新推出智能体可信治理方案，实现从环境感知、策略生成到行动执行的全链路风险检测和管控，重点解决重复任务、状态漂移、越权访问、隐私泄露、幻觉等可靠性相关难题，打造助力边缘智能、自动化运维、工业制造等高价值领域的智能Agent信任基座。

本文聚焦「君同Agent场景化服务治理方案」首发亮相

助力实现模型与数据源的可信交互

👇

一、Agent治理背景

1、Agent定义与应用

Agent是具备自主感知、智能决策与精准执行能力的复杂系统，在自动化服务与个性化交互领域发挥着日益重要的作用。其系统架构通常以大语言模型（LLM）为核心基础，通过任务解析、任务规划、任务执行和效果验证四大功能模块的协同运作，构建起完整的智能处理闭环。该系统的运行机制遵循严谨的认知-决策-执行-验证范式：首先，系统会精准解析用户指令中的任务目标，并借助多模态传感器实时采集任务所需的环境信息；其次，运用先进的算法模型对信息进行深度处理，实现任务的智能分解与路径规划；继而，基于预设目标与动态决策机制，灵活调用外部工具资源执行具体操作；最终，通过持续的状态监测与效果评估，实现系统的自我优化与迭代升级。这种从环境感知到智能决策，再到精准执行与验证反馈的完整闭环，构成了智能体自主运行的核心逻辑框架，确保了系统在复杂场景下的适应性与可靠性。

2、Agent技术核心挑战

2025年被称为Agent元年，其应用潜力巨大，但同时伴随新的人工智能风险，风险范围包含在Agent触发和参与的一系列事件和交互中，这些潜在风险对人类来说通常不可见，且无法被有效阻止。君同在进行风险研究和风险处置实践中，按照风险发生阶段对风险做了梳理，（风险介绍见文末附录），具体风险视图如下：

图注：Agent应用阶段风险视图

二、方案能力特性

君同围绕Agent安全风险评测、Agent安全风险防护两个层面提出攻防一体的Agent场景化服务治理方案，旨在有效应对和处置 Agent面临的内生能力安全威胁、系统框架安全威胁，提高其对外部攻击的主动防御能力，实现Agent的安全、可控、合规应用。

图注：Agent治理方案能力框架图

1、Agent全角度评测

Agent全角度评测体系从Agent内生能力的可靠性风险与Agent与外部环境的交互风险角度出发，具体将评测体系划分为Agent内生能力评测与Agent系统框架评测。

Agent内生能力评测：能力评测从Agent的核心执行链路出发，覆盖Agent环境感知→决策规划→动作执行→结果输出四大执行阶段，包括Agent感知能力评测、规划指令评测、规划意图偏差评测、思维幻觉评测、行为边界评测、输出安全评测等，从而精确评测各阶段安全风险。
Agent系统框架评测：系统评测从系统层核心攻击链条出发，构建了“本体-行为-环境”三维评测体系，三个维度层层递进，有效涵盖Agent自身行为到外部交互的系统性安全性评测，包括系统权限边界评测、系统恶意软件评测、第三方组件评测，形成系统安全评测方案的闭环。

2、Agent全流程防护

Agent全流程防护体系从Agent执行链路防护、Agent基座防护两个防护角度出发，实现全流程的Agent安全防护。

Agent链路防护：链路防护针对Agent输入到输出的任务执行全流程，解决因外部交互、环境感知、规划决策等环节漏洞引发的安全问题，包括用户恶意指令识别、规划能力纠正、外部工具检测、感知偏差防护、感知环境检测、多Agent传染防护等，实现Agent动态行为安全防护。
Agent基座防护：基座防护侧重于关注Agent运行依赖的底层系统与组件，解决因为权限机制缺陷、外部组件等引发的安全问题，包括第三方组件检测、Agent系统权限边界控制、Agent框架供应链检测等，以增强Agent的内生安全性。

三、方案应用场景

1、边缘端智能助手安全治理

需求痛点：边缘端智能助手领域，用户通过 Agent 控制家中的智能灯泡、智能音箱、智能门锁等设备，实现家居的智能化和自动化。然而，Agent与智能软件的深度交互一旦不受控制，会为用户带来很大困扰甚至极大安全威胁。

方案收益：对Agent的行为边界、系统权限边界等进行安全评测，实现对恶意指令识别，规划能力的纠正，增强Agent的可控性，保障用户智能助手的安全性，恶意检测准确率达到95%。

2、工业制造Agent安全治理

需求痛点：在智能制造场景中，Agent 协助调度机器人、控制产线设备、优化生产流程。由于 Agent 直接影响物理世界的生产行为，一旦决策错误或指令失控，可能导致产线停摆、设备损坏甚至人身伤害。

方案收益：对工业 Agent 的任务规划、设备控制权限、状态感知能力进行治理，防止状态漂移、越权控制等问题。引入多级权限机制与异常行为检测，确保 Agent 行为在安全边界内运行。系统稳定性提升1倍，设备误操作率下降75%。

3、自动化客服Agent安全治理

需求痛点：客服领域，Agent能够同时处理大量客户请求，解决了人工客服在繁忙时段的漏接和延迟问题，提升服务质量的同时有效降低人力成本。面对海量查询时，如何保障客服响应的准确性与效率变得十分关键。

方案收益：对自动化客服Agent进行意图偏差风险、输出安全测评，并对感知偏差、第三方组件漏洞风险等进行有效防护，提高客户响应的准确性、及时性、完整性，响应的效率提升90%。

风险附录

风险一：环境认知偏差风险

Agent因感知、理解或建模环境时存在错误或局限性，导致其决策与真实环境需求产生偏离的风险。这类风险源于Agent对环境的不完全观测、数据偏差或对抗干扰，可能引发不可预测的故障，尤其在安全敏感场景中后果严重。

风险二：任务漂移风险

Agent在长期运行或多任务场景中，因环境动态变化、目标函数冲突或学习机制缺陷，逐渐偏离预设任务目标，导致行为失效或产生非预期后果的风险。尤其在持续学习、多目标优化和开放环境交互的场景中后果严重，可能引发系统性失控或资源浪费。

风险三：上下文污染风险

Agent在处理多步任务或交互过程中，其依赖的上下文信息被注入错误、误导性数据或对抗性干扰，导致后续决策偏离预期目标的风险。

风险四：任务约束冲突风险

Agent在执行任务时，因预设的多种约束条件（如安全性、效率性、伦理规则、资源限制等）无法同时满足，导致决策僵局或被迫违反部分约束的风险，可能引发系统失效、资源浪费或伦理争议。

风险五：计算可行性崩塌风险

指Agent因计算资源不足、算法复杂度剧增或环境动态性超出预设边界，导致其无法在有限时间和资源内完成关键决策或任务执行的风险，可能引发决策延迟、逻辑混乱甚至系统崩溃。

风险六：越权执行风险

指Agent在执行任务时超出其预设权限或授权范围进行操作的可能性，可能导致系统失控、数据泄露或意外后果。

风险七：恶意软件植入风险

指攻击者利用Agent的功能或漏洞，将恶意代码、后门程序或其他有害负载在Agent执行任务过程中植入系统，可能导致数据泄露、系统控制权丧失或供应链污染。

风险八：自我验证失真风险

指Agent在自我评估、自我验证或自我监控过程中产生的认知偏差或判断错误，导致系统无法准确评估自身状态、行为合规性或任务执行效果的风险。

风险九：记忆窃取风险

指攻击者通过技术手段非法访问、提取或篡改智能Agent的记忆数据（如上下文缓存、历史会话、知识库、模型参数等），导致敏感信息泄露、隐私侵犯或Agent行为被恶意操控的安全威胁。