Inspur Electronic Information Industry Co.,Ltd.

Inspur Electronic Information Industry Co.,Ltd. zh_CN PRN Asia 智能体发布前不能遗漏的一步！元脑企智EPAI：用量化评估补齐上线前关键环节 2026-05-11 10:58:00 一、如何判断可上线？企业智能体评估遇难题许多企业在智能体开发上已经走了99步，但往往卡在"到底能不能上线"这最后一步。因为缺乏量化数据支持，开发团队不敢上线发布，业务方不敢落地使用。目前，企业智能体应用评估普遍存在如下问题： 1. 真实数据难获取：数据是评估的"燃料"，很多企业内部数据分散混乱，质量参差，导致缺少可靠的评估集，无法真实有效判断是否达成业务目标。 2. 评估维度单一：多数评估方式过于关注"分数"或"准确率"，忽略了企业生产环境同样看重的性能效率、可靠稳定性等关键维度。 3. 人工评估周期长：面对复杂的智能体场景，人工评估成本呈指数级增长，且评估结果带有很强的主观性，导致评估结果出现偏差。二、元脑企智EPAI为智能体发布提供可靠依据针对上述挑战，元脑企智EPAI大模型应用开发平台通过数据闭环和自动化评分，补齐智能体上线前最关键的"质量验证"环节。 1. 数据管理闭环，助力AI应用持续优化元脑企智EPAI提供企业级的数据集管理和评测集管理，实现了"业务数据-评估集-模型优化"的无缝流转。支持业务数据自动沉淀为评估数据集，帮助企业用户基于真实业务数据评测新开发的智能体应用，确保了AI应用能随业务逻辑快速迭代。 2. 对比模式，高效筛选最优AI应用面对林林总总的底座模型和复杂的提示词（Prompt）组合，元脑企智EPAI支持"模型+提示词"双维度对比模式。开启对比后，企业用户可以直观预览不同配置下的实战表现，进而选择更适合特定企业场景的模型和提示词。 3. 自动化评分，毫秒级完成深度测评报告元脑企智EPAI引入先进的自动化评分体系，针对回答准确率、tokens总数、TTFT和TPS等评估指标进行毫秒级打分，并生成深度测评报告，帮助企业用户高效判断大模型应用是否满足业务要求。三、实践分享：仅需四步，高效上线"论文助手" 下面分享一个"论文助手"的实践。这类智能体应用可用于搜索专业论文、撰写论文模板和框架等，帮助研究机构、高校或企业大幅提升论文检索和撰写效率。如何判断应用是否能够正式上线？借助元脑企智EPAI，用户仅需四步，即可解决这个问题。第一步：构建高质量数据集构建应用前，基于网络搜索和问卷调查积累整理的数据集无法判断数据质量。借助元脑企智EPAI平台的数据评分任务，用户可自动对数据集进行AI辅助评分，从事实正确性、满足用户需求、公平与可负责程度、创造性、综合得分等5个方面评估数据的质量。根据打分数据，从中剔除低质数据，快速筛选出高质量的"真值"数据作为评测集。第二步：开启智能体"对比调试" 在构建智能体应用过程中，用户可通过元脑企智EPAI平台的智能体"对比调试"，完成通用大模型与学术垂域模型同台测试： * 点击"开启对比"，进入对比模式，分别选择通用大模型和垂类模型，提示词可采用同一个。 * 发送问题后，两个模型+Prompt会分别输出回答的内容，由人工判断哪个模型更优。结果显示，经过微调的中型模型配合结构化Prompt，在检索论文质量方面得分更高，且输出内容更符合Prompt要求，整体输出内容更加精炼，占用推理输出Tokens更少。第三步：全自动压测在上线应用前，用户可基于第一步筛选的评测集，系统模拟用户的真实提问，对应用进行批量压测，再对应用生成结果进行自动打分，并生成量化的评测报告。元脑企智EPAI提供得分、请求失败率、总tokens、TPS、TTFT等多维度评估指标。基于这些指标，校方可评估应用的性能、稳定性、精度是否达到业务要求。 * 得分：应用回复问题的准确率。 * 请求失败率：应用响应问题的稳定性。 * 总tokens：应用回答问题占用的输出总tokens，代表应用输出内容的长度，作为衡量API使用成本的依据。 * TPS：Transactions Per Second，服务器每秒处理的事务数，衡量系统吞吐量和性能瓶颈的重要指标。 * TTFT：Time To First Token，从请求发送到收到第一个输出 Token 的时间，即首Token延迟，衡量应用推理性能的关键指标之一。评测报告显示，"论文助手"的生成准确率达95%以上，响应稳定且请求失败率为零，达到了正式上线的标准。第四步：数据闭环流转应用上线后，通过元脑企智EPAI平台智能体应用日志模块，用户可记录线上的真实提问，同时可将这些日志数据导出并再次回流到数据集，从而自动扩充评测库，完成线上业务数据的闭环，确保"论文助手"随学术热点持续更新迭代。四、结语在大模型应用进入工业化生产的今天，评估已成为确保AI应用稳健落地的关键。元脑企智EPAI凭借数据闭环与自动化评测能力，解决了企业智能体应用评估难题。未来，元脑企智EPAI将持续深耕行业评测模板、多模态评估及安全性增强等前沿领域，助力企业在AI转型的浪潮中，走得更稳、更远。 ]]> 北京2026年5月11日 /美通社/ -- 在企业落地AI的过程中，很多智能体应用在内部测试时"看起来不错"，可一旦推向真实业务场景，却常常回答不准、响应太慢或稳定性表现欠佳。这背后的一大原因是很多企业在智能体上线前缺乏系统性评测。

如何在上线前量化智能体的业务实战能力？如何从海量的模型与提示词组合中精准筛选出"最优解"？元脑企智EPAI平台为企业构建了一套智能体研发到上线的量化标准，帮助企业精准评估智能体的性能，顺利跨越智能体上线前的最后一关。

一、如何判断可上线？企业智能体评估遇难题

许多企业在智能体开发上已经走了99步，但往往卡在"到底能不能上线"这最后一步。因为缺乏量化数据支持，开发团队不敢上线发布，业务方不敢落地使用。目前，企业智能体应用评估普遍存在如下问题：

1. 真实数据难获取：数据是评估的"燃料"，很多企业内部数据分散混乱，质量参差，导致缺少可靠的评估集，无法真实有效判断是否达成业务目标。

2. 评估维度单一：多数评估方式过于关注"分数"或"准确率"，忽略了企业生产环境同样看重的性能效率、可靠稳定性等关键维度。

3. 人工评估周期长：面对复杂的智能体场景，人工评估成本呈指数级增长，且评估结果带有很强的主观性，导致评估结果出现偏差。

二、元脑企智EPAI为智能体发布提供可靠依据

针对上述挑战，元脑企智EPAI大模型应用开发平台通过数据闭环和自动化评分，补齐智能体上线前最关键的"质量验证"环节。

1. 数据管理闭环，助力AI应用持续优化

元脑企智EPAI提供企业级的数据集管理和评测集管理，实现了"业务数据-评估集-模型优化"的无缝流转。支持业务数据自动沉淀为评估数据集，帮助企业用户基于真实业务数据评测新开发的智能体应用，确保了AI应用能随业务逻辑快速迭代。

2. 对比模式，高效筛选最优AI应用

面对林林总总的底座模型和复杂的提示词（Prompt）组合，元脑企智EPAI支持"模型+提示词"双维度对比模式。开启对比后，企业用户可以直观预览不同配置下的实战表现，进而选择更适合特定企业场景的模型和提示词。

3. 自动化评分，毫秒级完成深度测评报告

元脑企智EPAI引入先进的自动化评分体系，针对回答准确率、tokens总数、TTFT和TPS等评估指标进行毫秒级打分，并生成深度测评报告，帮助企业用户高效判断大模型应用是否满足业务要求。

三、实践分享：仅需四步，高效上线"论文助手"

下面分享一个"论文助手"的实践。这类智能体应用可用于搜索专业论文、撰写论文模板和框架等，帮助研究机构、高校或企业大幅提升论文检索和撰写效率。如何判断应用是否能够正式上线？借助元脑企智EPAI，用户仅需四步，即可解决这个问题。

第一步：构建高质量数据集

构建应用前，基于网络搜索和问卷调查积累整理的数据集无法判断数据质量。借助元脑企智EPAI平台的数据评分任务，用户可自动对数据集进行AI辅助评分，从事实正确性、满足用户需求、公平与可负责程度、创造性、综合得分等5个方面评估数据的质量。根据打分数据，从中剔除低质数据，快速筛选出高质量的"真值"数据作为评测集。

第二步：开启智能体"对比调试"

在构建智能体应用过程中，用户可通过元脑企智EPAI平台的智能体"对比调试"，完成通用大模型与学术垂域模型同台测试：

点击"开启对比"，进入对比模式，分别选择通用大模型和垂类模型，提示词可采用同一个。
发送问题后，两个模型+Prompt会分别输出回答的内容，由人工判断哪个模型更优。

结果显示，经过微调的中型模型配合结构化Prompt，在检索论文质量方面得分更高，且输出内容更符合Prompt要求，整体输出内容更加精炼，占用推理输出Tokens更少。

第三步：全自动压测

在上线应用前，用户可基于第一步筛选的评测集，系统模拟用户的真实提问，对应用进行批量压测，再对应用生成结果进行自动打分，并生成量化的评测报告。

元脑企智EPAI提供得分、请求失败率、总tokens、TPS、TTFT等多维度评估指标。基于这些指标，校方可评估应用的性能、稳定性、精度是否达到业务要求。

得分：应用回复问题的准确率。
请求失败率：应用响应问题的稳定性。
总tokens：应用回答问题占用的输出总tokens，代表应用输出内容的长度，作为衡量API使用成本的依据。
TPS：Transactions Per Second，服务器每秒处理的事务数，衡量系统吞吐量和性能瓶颈的重要指标。
TTFT：Time To First Token，从请求发送到收到第一个输出 Token 的时间，即首Token延迟，衡量应用推理性能的关键指标之一。

评测报告显示，"论文助手"的生成准确率达95%以上，响应稳定且请求失败率为零，达到了正式上线的标准。

第四步：数据闭环流转

应用上线后，通过元脑企智EPAI平台智能体应用日志模块，用户可记录线上的真实提问，同时可将这些日志数据导出并再次回流到数据集，从而自动扩充评测库，完成线上业务数据的闭环，确保"论文助手"随学术热点持续更新迭代。

四、结语

在大模型应用进入工业化生产的今天，评估已成为确保AI应用稳健落地的关键。元脑企智EPAI凭借数据闭环与自动化评测能力，解决了企业智能体应用评估难题。未来，元脑企智EPAI将持续深耕行业评测模板、多模态评估及安全性增强等前沿领域，助力企业在AI转型的浪潮中，走得更稳、更远。

]]> 浪潮信息AIStation推出企业Token服务平台！ 2026-04-28 17:11:00 企业智能体为何必须先建立Token平台？随着大模型应用进入深水区，企业AI正在从"模型工具"转变为"智能体系统"。智能体开始承担业务执行、流程决策与自动化协同，逐步成为企业新的"数字劳动力"。但一个被很多企业忽视的现实是：没有Token平台，就无法真正完成智能体转型。这是因为智能体已成为持续消耗Token的系统工程。在传统大模型阶段，一次请求对应一次推理，Token消耗是短时、可控的。但在智能体体系中，一个任务需要多个智能体协同，一次请求依赖多轮推理和工具调用，一个流程意味着持续运行的Token消耗链路，这使得Token消耗不再可预测、调用路径高度复杂、成本呈链路级放大。如果继续采用"分散调用外部API"的模式，势必造成企业Token管理和调度混乱、成本居高不下。如果建立Token平台，企业将获得三项关键能力：一是主动调度，企业可按任务选择最优模型，将高价值任务与低成本任务分层运行；二是结构优化，企业可轻松识别无效调用，并优化Prompt与调用链路；三是内部可控，通过构建统一的Token池，降低外部Token采购规模。因此，企业要推进智能体转型，就必须建立Token平台。数据不出域要求企业建立自有Token平台智能体的本质是深度参与企业业务流程，这意味着调用中包含大量企业内部数据，决策链路涉及核心业务逻辑。在这种情况下，企业必须保证数据不出域、调用可控、行为可审计。但在外部Token调用模式下，Token消耗发生在企业之外，调用路径不可用，且数据流转缺乏完整审计，这将带来数据安全风险、合规风险和业务控制风险。通过建立自有Token平台，企业可以在内部掌控Token的流转路径与消耗，从而有效避免外部风险，并确保企业核心数据始终保持在自己的控制范围内。因此，企业要真正推进智能体落地，必须先建立内部Token统一入口。企业自有Token平台管理Token成本更有效在智能体规模化运行后，Token成本将成为最大运营支出之一。如果所有调用按外部Token计费，成本将完全随调用量增长，这意味着企业在为外部AI基础设施持续付费，且没有定价权。一家进入智能体规模化阶段的企业每月消耗Token可能高达万亿，如果外部API平均价格为3元/百万Token，那么年成本将高达3600万元。而在实际运行中，20%–50%为无效或低效调用，高成本模型被过度使用，多系统重复消耗。如果没有Token平台，这些成本将长期存在且持续放大。而建立Token平台后，企业可以实现资源最优配比、调用路径优化、全链路审计合规，从而将 Token 运营成本降至最低。上述企业建立Token平台后，预计其Token年成本可下降至1800-2500万元，每年节省千万成本。可以说，在智能体时代，Token是新的算力货币，Token平台是新的基础设施。 AIStation助力企业快速构建Token平台浪潮信息AIStation推出企业Token服务平台，正是为企业提供这一关键基础设施能力，帮助企业快速构建企业Token平台。 * 赋能开发者：一键即用，让Token获取"零等待" 效率倍增：告别冗长申请与复杂参数配置。开发者在AIStation平台内可"一键秒取"API Key，将获取资源的时间成本压缩至零。统一接入，多模型切换：通过平台统一的URL聚合能力，开发者无需多次修改代码，即可实现多模型能力的平滑切换与快速集成，极大缩短了AI原型到产品的上线周期。用量可视化：通过清晰的实时仪表盘，开发者能时刻感知资源消耗，养成精细化开发的习惯，避免无效调用。 * 赋能管理者：全局统筹，让资源投入"每一分都算得清" 精细化"颗粒度"管控：管理者可根据部门、项目、人员维度，设定严格的 Token 使用配额，确保优质算力精准流向核心业务。事前防范，事中审计：实时监控消耗明细，平台提供毫秒级异常预警。不仅能及时拦截违规调用，更通过全链路的可溯源审计，为企业的资源规划提供科学的决策依据。显著降低运营成本：通过集中化的Token池管理，企业可以清晰识别哪些模型性价比最高，哪些任务消耗过高，从而在保障业务运行的前提下，最大化Token资源的使用效率，切实削减不必要的运营成本。 * 仅需三步，即刻开启 Token 自由企业无需进行繁重的二次开发，借助浪潮信息AIStation，通过简单三步，仅需数天即可快速建立Token平台：平台部署：一键开启AIStation Token服务功能模块。策略定义：根据部门业务需求，一键配置资源配额权限。极速接入：开发者在开发环境中通过标准接口调用，实现业务即刻接入。在智能体时代，Token就是新的算力货币，Token平台就是新的基础设施。浪潮信息AIStation通过更智能、更高效的Token服务，帮助企业快速建立Token平台，完成智能体转型。未来，浪潮信息AIStation将持续以企业实际需求为导向，迭代优化服务能力，为企业内Token使用人员与管理者提供更优质、更高效的服务，助力企业在AI时代实现高质量发展。 ]]> 北京2026年4月28日 /美通社/ -- 在智能体与大模型应用浪潮下，Token已不仅是数据调用单位，更是企业的"算力货币"。谁先建立Token平台，谁就拥有了AI时代最具成本竞争力的基础设施。

浪潮信息AIStation推出企业Token服务平台，通过"一键获取"与"精细治理"，帮助企业快速建立Token平台，从源头降低Token运营成本，加速迈进智能体时代。

企业智能体为何必须先建立Token平台？

随着大模型应用进入深水区，企业AI正在从"模型工具"转变为"智能体系统"。智能体开始承担业务执行、流程决策与自动化协同，逐步成为企业新的"数字劳动力"。但一个被很多企业忽视的现实是：没有Token平台，就无法真正完成智能体转型。

这是因为智能体已成为持续消耗Token的系统工程。在传统大模型阶段，一次请求对应一次推理，Token消耗是短时、可控的。但在智能体体系中，一个任务需要多个智能体协同，一次请求依赖多轮推理和工具调用，一个流程意味着持续运行的Token消耗链路，这使得Token消耗不再可预测、调用路径高度复杂、成本呈链路级放大。如果继续采用"分散调用外部API"的模式，势必造成企业Token管理和调度混乱、成本居高不下。

如果建立Token平台，企业将获得三项关键能力：一是主动调度，企业可按任务选择最优模型，将高价值任务与低成本任务分层运行；二是结构优化，企业可轻松识别无效调用，并优化Prompt与调用链路；三是内部可控，通过构建统一的Token池，降低外部Token采购规模。因此，企业要推进智能体转型，就必须建立Token平台。

数据不出域要求企业建立自有Token平台

智能体的本质是深度参与企业业务流程，这意味着调用中包含大量企业内部数据，决策链路涉及核心业务逻辑。在这种情况下，企业必须保证数据不出域、调用可控、行为可审计。但在外部Token调用模式下，Token消耗发生在企业之外，调用路径不可用，且数据流转缺乏完整审计，这将带来数据安全风险、合规风险和业务控制风险。

通过建立自有Token平台，企业可以在内部掌控Token的流转路径与消耗，从而有效避免外部风险，并确保企业核心数据始终保持在自己的控制范围内。因此，企业要真正推进智能体落地，必须先建立内部Token统一入口。

企业自有Token平台管理Token成本更有效

在智能体规模化运行后，Token成本将成为最大运营支出之一。如果所有调用按外部Token计费，成本将完全随调用量增长，这意味着企业在为外部AI基础设施持续付费，且没有定价权。

一家进入智能体规模化阶段的企业每月消耗Token可能高达万亿，如果外部API平均价格为3元/百万Token，那么年成本将高达3600万元。而在实际运行中，20%–50%为无效或低效调用，高成本模型被过度使用，多系统重复消耗。如果没有Token平台，这些成本将长期存在且持续放大。

而建立Token平台后，企业可以实现资源最优配比、调用路径优化、全链路审计合规，从而将 Token 运营成本降至最低。上述企业建立Token平台后，预计其Token年成本可下降至1800-2500万元，每年节省千万成本。

可以说，在智能体时代，Token是新的算力货币，Token平台是新的基础设施。

AIStation助力企业快速构建Token平台

浪潮信息AIStation推出企业Token服务平台，正是为企业提供这一关键基础设施能力，帮助企业快速构建企业Token平台。

赋能开发者：一键即用，让Token获取"零等待"

效率倍增：告别冗长申请与复杂参数配置。开发者在AIStation平台内可"一键秒取"API Key，将获取资源的时间成本压缩至零。

统一接入，多模型切换：通过平台统一的URL聚合能力，开发者无需多次修改代码，即可实现多模型能力的平滑切换与快速集成，极大缩短了AI原型到产品的上线周期。

用量可视化：通过清晰的实时仪表盘，开发者能时刻感知资源消耗，养成精细化开发的习惯，避免无效调用。

赋能管理者：全局统筹，让资源投入"每一分都算得清"

精细化"颗粒度"管控：管理者可根据部门、项目、人员维度，设定严格的 Token 使用配额，确保优质算力精准流向核心业务。

事前防范，事中审计：实时监控消耗明细，平台提供毫秒级异常预警。不仅能及时拦截违规调用，更通过全链路的可溯源审计，为企业的资源规划提供科学的决策依据。

显著降低运营成本：通过集中化的Token池管理，企业可以清晰识别哪些模型性价比最高，哪些任务消耗过高，从而在保障业务运行的前提下，最大化Token资源的使用效率，切实削减不必要的运营成本。

仅需三步，即刻开启 Token 自由

企业无需进行繁重的二次开发，借助浪潮信息AIStation，通过简单三步，仅需数天即可快速建立Token平台：

平台部署：一键开启AIStation Token服务功能模块。

策略定义：根据部门业务需求，一键配置资源配额权限。

极速接入：开发者在开发环境中通过标准接口调用，实现业务即刻接入。

在智能体时代，Token就是新的算力货币，Token平台就是新的基础设施。浪潮信息AIStation通过更智能、更高效的Token服务，帮助企业快速建立Token平台，完成智能体转型。未来，浪潮信息AIStation将持续以企业实际需求为导向，迭代优化服务能力，为企业内Token使用人员与管理者提供更优质、更高效的服务，助力企业在AI时代实现高质量发展。

]]> 浪潮信息直播发布业界首个企业级OpenClaw方案"企千虾" 2026-04-03 20:11:00 企业规模化"养虾"的三大困境今年，开源社区的OpenClaw极大降低了构建数字员工的门槛。但要在企业内部实现从"单点试用"向"规模化集群"的跨越，依然面临着以下核心痛点：安全合规的"深水区"：安全是企业级智能体落地的首要前提。对于金融、医疗等严苛行业，敏感数据经过第三方云端面临出域泄露的致命风险。桌面服务直接暴露于集群外部，缺乏统一的认证与鉴权层，既存在安全盲区，也难以满足企业对访问管控的合规要求。此外，智能体运行权限过高、链路不透明带来的潜在漏洞，使得企业在缺乏物理与逻辑双重防线时，不敢轻易交付核心业务。批量部署门槛高、管理难：当应用规模从几个Demo扩展到上百个生产实例时，手动搭建Node.js环境、处理复杂组件依赖的传统方式效率极低。碎片化的摸索不仅推高了人力投入，不兼容带来的效率瓶颈也让企业陷入了"高价代部署"的怪圈，亟需重构标准化的自动交付体系。算力成本的"无底洞"： Agent的自主规划机制决定了其极度消耗Token，一个复杂任务可能触发数十次循环调用，导致消耗量呈指数级上升。以当前公有云按量计费模式为例，参考Claude Opus 4.6的使用，一名资深程序员日均消耗约1亿Token，月均开销可达10万元。IT预算极易因Token激增而"填不平"，企业迫切需要将波动的支出转化为可预测、可管控的固定成本。企千虾方案发布：底层安全防线筑牢"龙虾池"，实现企业级Agent规模化管控「企千虾」是浪潮信息为企业级OpenClaw规模化落地打造的安全、高效、易用的端到端解决方案。该方案基于元脑服务器实现本地化部署，元脑x86服务器承担OpenClaw的批量部署与管理，元脑AI服务器则专职负责模型推理，实现资源利用率与执行效率的最大化，通过沙箱隔离与底层管控筑牢安全防线，从根源上解决OpenClaw私有化部署中的安全风险与权限管控难题。方案深度融合开源项目ClawManager，支持在本地私有化环境中，数千个OpenClaw实例一键部署、集群统一升级、Skills技能一键迁移，并提供全生命周期集中管理能力，让OpenClaw真正满足生产级要求，从个人应用走向稳定、可管、可控的企业级规模化应用。「企千虾」方案架构图 ClawManager作为近期开源的GitHub热门项目，是一个专为企业级Kubernetes环境打造的OpenClaw集群管理平台，也是「企千虾」方案的龙虾管家。ClawManager基于Kubernetes原生能力构建，通过直观的"控制台点选"模式，实现了从用户鉴权、配额分配到实例部署、资源监控的全生命周期自动化管理。基于「企千虾」方案，企业可针对业务场景优化算力配置，在本地高效构建与管理复杂"龙虾"集群。方案提供安全便捷的企业级Agent应用部署能力，助力"养虾"从难到易、从乱到稳、从贵到省。其核心特点如下：一键便捷操作，从小时级到分钟级的自动化交付。方案可通过Kubernetes清单实现一键批量部署，将复杂的环境搭建与组件依赖处理简化为分钟级的自动创建。发布现场，技术团队通过真机演示深度还原了「企千虾」方案的自动化流转能力。基于在元脑服务器上执行Kubernetes清单，仅需数十秒即可完成10个"龙虾"（OpenClaw）实例的批量部署，并利用CSV批量导入功能，瞬间实现千级用户账号的创建与资源配额分配。普通用户登录后，可秒级拉起预集成Ubuntu桌面与OpenClaw镜像的"个人AI电脑"，所有实例均运行在严格隔离的安全沙箱中，宿主机零风险。筑牢安全防线，私有化部署数据不出域。方案基于全流程私有化部署，从架构层面实现所有数据交互留在本地。内置自研KOS操作系统及KSecure安全组件，构建涵盖运行环境防护、Skill应用安全及RAG知识库权限管控的三层纵深防御体系，有效拦截恶意指令、提示词注入及勒索行为。发布会实操环节则通过"隔离沙箱+动态网关"展现工级安全性：每个Agent实例在独立沙箱中运行，实现与宿主机物理隔离；AI网关依据内置30余条风控规则，对敏感请求实时切回内网安全模型或直接拦截，确保数据交互全程可控、可追溯。成本精益管控，让算力成本与投入产出比清晰可见。企业可实现模型用量的可视化查询，确保每次业务调用的Token消耗精准归因。技术团队在发布实操中完整展示了管理者视角：通过"AI审计"可穿透查看任务执行细节，包括审计事件、实时Token用量及预估费用；进入"成本中心"，则可从汇总视角俯瞰全局投入，系统自动统计输入/输出Token总量、预估外部单价费用及内部模型核算成本。该机制将不可控的公有云按量计费，转化为可预测、可核算的本地硬件固定成本。同时，通过按需分配资源配额，最大化利用服务器性能，避免算力闲置与浪费。实操演示，AI审计token用量统计稳定护航千虾运行，支持单机千路的高并发支撑。依托最新一代元脑x86服务器，方案可实现单机千路Agent稳定运行，满足7×24小时不间断作业需求。发布现场，技术人员通过"家底"盘点，利用kubectl get nodes实时展示集群内多台就绪节点的资源负载，将CPU、内存及磁盘占用可视化，从根源上避免资源过载导致的系统崩溃。同时，配合InManage数据中心管理软件的专家级监控与状态持久化技术，确保容器重启后核心数据不丢失，彻底消除因普通PC性能不足、锁屏或卡顿带来的业务中断风险。实操演示，单机多路的高并发运行性能实测：本地部署深度摸底，针对不同业务负载的"量体裁衣" 发布现场，技术团队分享了针对OpenClaw通用服务器部署的深度性能摸底，通过拆解不同规模企业的业务特征，为「企千虾」方案沉淀出一套差异化容器配置指南。这种黄金配置方案，可保证算力不浪费、成本可控可落地。基础场景最佳性价比：经过穷举CPU与内存组合测试，技术团队发现2C4G（2核CPU、4GB内存）是日常简单应用的最佳平衡点。该配置能覆盖企业日常80%的基础AI助手需求，既确保了系统运行的丝滑稳定，又彻底规避了因规格过高导致的算力闲置；研发编译场景优化：针对开发者关注的高负载代码编译场景，现场展示了一组极具冲击力的对比数据。实测显示，将CPU核心从2核翻倍至4核，任务时间可缩短34.6%。由于编译伴随大量中间文件产生，IO写峰值可达1GB/s，因此必须选配NVMe SSD以消除IO瓶颈；长对话与客服场景：在客服、智能知识库等需要多轮对话的业务中，测试揭示了"内存空间"与"响应速度"的交换逻辑。测试显示，有上下文的任务比无上下文快34%，但内存消耗增长达3倍。针对此类场景，建议选配大容量内存以支撑上下文存储，减少模型重复解析任务的开销。差异化容器配置指南 ]]> 北京2026年4月3日 /美通社/ -- 4月2日，浪潮信息直播发布业界首个企业级OpenClaw方案——「企千虾」，为企业规模化部署、管理和应用OpenClaw，打造了安全、高效、易用的全链路方案。实操演示了「企千虾」基于元脑服务器实现本地化部署，通过沙箱隔离与底层系统级管控，从根源上解决OpenClaw私有化部署中的安全风险与权限管控难题。方案深度融合开源项目ClawManager，支持在本地私有化环境中，数千个OpenClaw实例一键部署、集群统一升级、Skills技能一键迁移，并提供全生命周期集中管理能力，让OpenClaw真正满足生产级要求，从个人应用走向稳定、可管、可控的企业级规模化应用。

企业规模化"养虾"的三大困境

今年，开源社区的OpenClaw极大降低了构建数字员工的门槛。但要在企业内部实现从"单点试用"向"规模化集群"的跨越，依然面临着以下核心痛点：

安全合规的"深水区"：安全是企业级智能体落地的首要前提。对于金融、医疗等严苛行业，敏感数据经过第三方云端面临出域泄露的致命风险。桌面服务直接暴露于集群外部，缺乏统一的认证与鉴权层，既存在安全盲区，也难以满足企业对访问管控的合规要求。此外，智能体运行权限过高、链路不透明带来的潜在漏洞，使得企业在缺乏物理与逻辑双重防线时，不敢轻易交付核心业务。

批量部署门槛高、管理难：当应用规模从几个Demo扩展到上百个生产实例时，手动搭建Node.js环境、处理复杂组件依赖的传统方式效率极低。碎片化的摸索不仅推高了人力投入，不兼容带来的效率瓶颈也让企业陷入了"高价代部署"的怪圈，亟需重构标准化的自动交付体系。

算力成本的"无底洞"：Agent的自主规划机制决定了其极度消耗Token，一个复杂任务可能触发数十次循环调用，导致消耗量呈指数级上升。以当前公有云按量计费模式为例，参考Claude Opus 4.6的使用，一名资深程序员日均消耗约1亿Token，月均开销可达10万元。IT预算极易因Token激增而"填不平"，企业迫切需要将波动的支出转化为可预测、可管控的固定成本。

企千虾方案发布：底层安全防线筑牢"龙虾池"，实现企业级Agent规模化管控

「企千虾」是浪潮信息为企业级OpenClaw规模化落地打造的安全、高效、易用的端到端解决方案。该方案基于元脑服务器实现本地化部署，元脑x86服务器承担OpenClaw的批量部署与管理，元脑AI服务器则专职负责模型推理，实现资源利用率与执行效率的最大化，通过沙箱隔离与底层管控筑牢安全防线，从根源上解决OpenClaw私有化部署中的安全风险与权限管控难题。方案深度融合开源项目ClawManager，支持在本地私有化环境中，数千个OpenClaw实例一键部署、集群统一升级、Skills技能一键迁移，并提供全生命周期集中管理能力，让OpenClaw真正满足生产级要求，从个人应用走向稳定、可管、可控的企业级规模化应用。

「企千虾」方案架构图

ClawManager作为近期开源的GitHub热门项目，是一个专为企业级Kubernetes环境打造的OpenClaw集群管理平台，也是「企千虾」方案的龙虾管家。ClawManager基于Kubernetes原生能力构建，通过直观的"控制台点选"模式，实现了从用户鉴权、配额分配到实例部署、资源监控的全生命周期自动化管理。

基于「企千虾」方案，企业可针对业务场景优化算力配置，在本地高效构建与管理复杂"龙虾"集群。方案提供安全便捷的企业级Agent应用部署能力，助力"养虾"从难到易、从乱到稳、从贵到省。其核心特点如下：

一键便捷操作，从小时级到分钟级的自动化交付。方案可通过Kubernetes清单实现一键批量部署，将复杂的环境搭建与组件依赖处理简化为分钟级的自动创建。发布现场，技术团队通过真机演示深度还原了「企千虾」方案的自动化流转能力。基于在元脑服务器上执行Kubernetes清单，仅需数十秒即可完成10个"龙虾"（OpenClaw）实例的批量部署，并利用CSV批量导入功能，瞬间实现千级用户账号的创建与资源配额分配。普通用户登录后，可秒级拉起预集成Ubuntu桌面与OpenClaw镜像的"个人AI电脑"，所有实例均运行在严格隔离的安全沙箱中，宿主机零风险。

筑牢安全防线，私有化部署数据不出域。方案基于全流程私有化部署，从架构层面实现所有数据交互留在本地。内置自研KOS操作系统及KSecure安全组件，构建涵盖运行环境防护、Skill应用安全及RAG知识库权限管控的三层纵深防御体系，有效拦截恶意指令、提示词注入及勒索行为。发布会实操环节则通过"隔离沙箱+动态网关"展现工级安全性：每个Agent实例在独立沙箱中运行，实现与宿主机物理隔离；AI网关依据内置30余条风控规则，对敏感请求实时切回内网安全模型或直接拦截，确保数据交互全程可控、可追溯。

成本精益管控，让算力成本与投入产出比清晰可见。企业可实现模型用量的可视化查询，确保每次业务调用的Token消耗精准归因。技术团队在发布实操中完整展示了管理者视角：通过"AI审计"可穿透查看任务执行细节，包括审计事件、实时Token用量及预估费用；进入"成本中心"，则可从汇总视角俯瞰全局投入，系统自动统计输入/输出Token总量、预估外部单价费用及内部模型核算成本。该机制将不可控的公有云按量计费，转化为可预测、可核算的本地硬件固定成本。同时，通过按需分配资源配额，最大化利用服务器性能，避免算力闲置与浪费。

实操演示，AI审计token用量统计

稳定护航千虾运行，支持单机千路的高并发支撑。依托最新一代元脑x86服务器，方案可实现单机千路Agent稳定运行，满足7×24小时不间断作业需求。发布现场，技术人员通过"家底"盘点，利用kubectl get nodes实时展示集群内多台就绪节点的资源负载，将CPU、内存及磁盘占用可视化，从根源上避免资源过载导致的系统崩溃。同时，配合InManage数据中心管理软件的专家级监控与状态持久化技术，确保容器重启后核心数据不丢失，彻底消除因普通PC性能不足、锁屏或卡顿带来的业务中断风险。

实操演示，单机多路的高并发运行

性能实测：本地部署深度摸底，针对不同业务负载的"量体裁衣"

发布现场，技术团队分享了针对OpenClaw通用服务器部署的深度性能摸底，通过拆解不同规模企业的业务特征，为「企千虾」方案沉淀出一套差异化容器配置指南。这种黄金配置方案，可保证算力不浪费、成本可控可落地。

基础场景最佳性价比：经过穷举CPU与内存组合测试，技术团队发现2C4G（2核CPU、4GB内存）是日常简单应用的最佳平衡点。该配置能覆盖企业日常80%的基础AI助手需求，既确保了系统运行的丝滑稳定，又彻底规避了因规格过高导致的算力闲置；

研发编译场景优化：针对开发者关注的高负载代码编译场景，现场展示了一组极具冲击力的对比数据。实测显示，将CPU核心从2核翻倍至4核，任务时间可缩短34.6%。由于编译伴随大量中间文件产生，IO写峰值可达1GB/s，因此必须选配NVMe SSD以消除IO瓶颈；

长对话与客服场景：在客服、智能知识库等需要多轮对话的业务中，测试揭示了"内存空间"与"响应速度"的交换逻辑。测试显示，有上下文的任务比无上下文快34%，但内存消耗增长达3倍。针对此类场景，建议选配大容量内存以支撑上下文存储，减少模型重复解析任务的开销。

差异化容器配置指南

]]> 浪潮信息AIStation 5.4发布：打造企业级Agent算力底座，已支持OpenClaw 2026-03-04 17:15:00 平台支持：大模型跨多GPU部署与统一管理； Embedding、Rerank、OCR等小模型共享单卡资源；不同推理任务按负载动态分配算力。模型推理资源不再被固定绑定，而是按需使用，使企业在相同硬件条件下能够运行更多Agent实例，大幅提升算力投入产出比。服务运行更稳定：模型推理服务具备企业级SLA能力在Agent系统中，真正影响用户体验的往往不是Agent逻辑，而是模型推理阶段的稳定性。面对批量文档处理或长期数据采集任务，AIStation通过实时负载监控动态调整资源分配，减少执行中断风险，保障长链路任务连续运行。 AIStation V5.4构建了全维度模型服务监控体系，支持对以下关键指标进行实时观测与调度： TTFT（首字延迟） TPOT（逐Token延迟） E2E端到端响应时间并发负载与资源利用率 AIStation可在OpenClaw业务流量上升时自动补充推理资源，避免响应抖动与任务中断；流量回落后自动释放冗余算力，实现稳定性与成本的动态平衡。配合精准的按量计费与成本分摊能力，企业可以真正实现"用多少付多少"，以最优的成本结构支撑企业数字员工全天候运行。管理运维更简单：统一模型服务中心实现集中治理 AIStation V5.4构建统一的大模型服务聚合中心，实现模型服务的企业级治理能力。通过算力池化与按需调度机制，模型推理资源利用率显著提升，在相同硬件条件下支持更多Agent副本运行，有效降低企业总体TCO：封装50+主流模型服务；提供统一API接口规范；支持权限与Token访问控制；精确统计每一次AI任务成本。企业无需分别管理多个模型服务系统，即可完成智能体所需模型能力的统一纳管，大幅降低系统集成与运维复杂度。最佳实践，AIStation为OpenClaw提供稳定算力底座面向企业高并发、多智能体调度的场景，AIStation与OpenClaw深度协同并形成了清晰分工： OpenClaw部署在元脑x86服务器上，负责智能体任务编排与任务执行，包括Agent流程编排、工具调用（Skills）、业务逻辑执行，决定"怎么做"； AIStation部署在AI服务器上，负责算力与模型推理服务保障，包括模型加载、推理调度、算力池化管理、全链路监控，保障"做得稳"。通过将模型推理能力从Agent运行环境中抽离，企业无需在每个OpenClaw实例中重复部署模型服务，即可获得统一、高可用、可扩展的模型能力，从架构层面提升系统稳定性与可维护性。 AIStation V5.4现已全面支持OpenClaw，仅需三步即可打造企业级智能体员工： Step 1：环境部署与网络互通部署AIStation V5.4：在AI服务器上完成AIStation V5.4的安装，将GPU资源加入统一资源池；部署OpenClaw运行环境：在通用服务器上完成OpenClaw基础环境的搭建，确保与AIStation V5.4网络互通。 Step 2：模型服务发布与API对接在AIStation V5.4中发布模型服务：一键部署业务所需模型（如Kimi、DeepSeek、GLM、Qwen等），平台自动生成统一API接口与访问密钥；配置OpenClaw连接：在OpenClaw的配置文件中，填入AIStation V5.4提供的API接口地址与密钥，即可完成模型服务的对接适配。整个过程仅需修改几行配置，无需任何代码改造。 Step 3：业务调试与正式上线端到端调试：启动OpenClaw调用统一模型服务，完成业务全流程测试，验证性能与稳定性；正式上线运行：确认无误后，即可投入生产环境。此时AIStation负责底层的负载均衡与弹性伸缩，OpenClaw专注执行业务指令。 AIStation是面向企业级训练与推理场景打造的一体化人工智能开发平台，覆盖模型开发、训练、部署、发布与服务全流程。随着AI智能体逐步成为企业数字化核心生产力，稳定可靠的模型推理基础设施将成为AI落地的关键支撑。未来，浪潮信息AIStation将持续围绕企业级AI应用场景深化技术能力，为OpenClaw等智能体系统提供长期稳定的模型服务与算力保障，加速AI智能体在各行业的规模化应用。 ]]> 北京2026年3月4日 /美通社/ -- 随着大模型从"对话助手"向"能执行任务的AI智能体"演进，企业的关注焦点正从模型算法能力，转向智能体在真实生产环境中的稳定运行能力。在规模化落地过程中，推理服务的稳定性、算力资源的高效利用率以及多智能体系统的长期可靠性，已成为决定智能体商业价值释放的关键因素。

针对这一行业共性挑战，浪潮信息发布AIStation V5.4人工智能开发平台，并成功实现了与开源智能体框架OpenClaw的最佳实践。面向企业高并发、多智能体调度的场景，OpenClaw的任务执行模块运行在元脑x86服务器上，负责智能体的任务编排与执行；而其核心的模型推理部分则运行在AI服务器上，由AIStation平台统一进行模型加载、推理调度、算力池化管理和全链路监控，为企业智能体应用构建起一个稳定、高可用的模型推理环境。

为什么企业智能体"跑起来"这么难？

以OpenClaw为代表的AI智能体正在承担越来越复杂的任务。但当企业从单个试点走向多智能体协同办公时，一个重要问题浮现：每个OpenClaw实例都需要大模型支持，且不同智能体所需模型各异。若为每个实例单独部署模型服务，将引发多重挑战：

一是算力利用失衡。大模型推理通常占用多卡资源，而Embedding、Rerank、OCR等插件模型负载较轻，传统部署方式导致GPU资源碎片化严重。

二是模型服务稳定性不足。长上下文推理、流式生成对延迟极为敏感，在多个OpenClaw智能体并发调用模型的高峰期，容易出现响应波动甚至任务中断，直接影响员工使用体验。

三是管理与运维复杂。不同OpenClaw实例对接不同模型，模型接口不统一、权限难以管控、资源无法精确分摊，智能体越多，管理负担越重，最终阻碍规模化推广。

AIStation让智能体真正"跑得稳、跑得快、跑得省"

AIStation V5.4围绕企业Agent运行特征进行升级，通过算力协同、性能调度与服务管控三大核心能力，构建稳定可靠的模型推理基础设施。

算力利用更高效：统一调度，让同等硬件承载更多Agent

智能体任务通常需要串并联调用多个模型。AIStation V5.4通过算力池化与资源细粒度调度机制，打破传统"一模型一资源"的使用模式，实现多类型模型的协同运行。

平台支持：
大模型跨多GPU部署与统一管理；
Embedding、Rerank、OCR等小模型共享单卡资源；
不同推理任务按负载动态分配算力。

模型推理资源不再被固定绑定，而是按需使用，使企业在相同硬件条件下能够运行更多Agent实例，大幅提升算力投入产出比。

服务运行更稳定：模型推理服务具备企业级SLA能力

在Agent系统中，真正影响用户体验的往往不是Agent逻辑，而是模型推理阶段的稳定性。面对批量文档处理或长期数据采集任务，AIStation通过实时负载监控动态调整资源分配，减少执行中断风险，保障长链路任务连续运行。

AIStation V5.4构建了全维度模型服务监控体系，支持对以下关键指标进行实时观测与调度：

TTFT（首字延迟）
TPOT（逐Token延迟）
E2E端到端响应时间
并发负载与资源利用率

AIStation可在OpenClaw业务流量上升时自动补充推理资源，避免响应抖动与任务中断；流量回落后自动释放冗余算力，实现稳定性与成本的动态平衡。配合精准的按量计费与成本分摊能力，企业可以真正实现"用多少付多少"，以最优的成本结构支撑企业数字员工全天候运行。

管理运维更简单：统一模型服务中心实现集中治理

AIStation V5.4构建统一的大模型服务聚合中心，实现模型服务的企业级治理能力。通过算力池化与按需调度机制，模型推理资源利用率显著提升，在相同硬件条件下支持更多Agent副本运行，有效降低企业总体TCO：

封装50+主流模型服务；
提供统一API接口规范；
支持权限与Token访问控制；
精确统计每一次AI任务成本。

企业无需分别管理多个模型服务系统，即可完成智能体所需模型能力的统一纳管，大幅降低系统集成与运维复杂度。

最佳实践，AIStation为OpenClaw提供稳定算力底座

面向企业高并发、多智能体调度的场景，AIStation与OpenClaw深度协同并形成了清晰分工：

OpenClaw部署在元脑x86服务器上，负责智能体任务编排与任务执行，包括Agent流程编排、工具调用（Skills）、业务逻辑执行，决定"怎么做"；

AIStation部署在AI服务器上，负责算力与模型推理服务保障，包括模型加载、推理调度、算力池化管理、全链路监控，保障"做得稳"。

通过将模型推理能力从Agent运行环境中抽离，企业无需在每个OpenClaw实例中重复部署模型服务，即可获得统一、高可用、可扩展的模型能力，从架构层面提升系统稳定性与可维护性。

AIStation V5.4现已全面支持OpenClaw，仅需三步即可打造企业级智能体员工：

Step 1：环境部署与网络互通

部署AIStation V5.4：在AI服务器上完成AIStation V5.4的安装，将GPU资源加入统一资源池；

部署OpenClaw运行环境：在通用服务器上完成OpenClaw基础环境的搭建，确保与AIStation V5.4网络互通。

Step 2：模型服务发布与API对接

在AIStation V5.4中发布模型服务：一键部署业务所需模型（如Kimi、DeepSeek、GLM、Qwen等），平台自动生成统一API接口与访问密钥；

配置OpenClaw连接：在OpenClaw的配置文件中，填入AIStation V5.4提供的API接口地址与密钥，即可完成模型服务的对接适配。整个过程仅需修改几行配置，无需任何代码改造。

Step 3：业务调试与正式上线

端到端调试：启动OpenClaw调用统一模型服务，完成业务全流程测试，验证性能与稳定性；

正式上线运行：确认无误后，即可投入生产环境。此时AIStation负责底层的负载均衡与弹性伸缩，OpenClaw专注执行业务指令。

AIStation是面向企业级训练与推理场景打造的一体化人工智能开发平台，覆盖模型开发、训练、部署、发布与服务全流程。随着AI智能体逐步成为企业数字化核心生产力，稳定可靠的模型推理基础设施将成为AI落地的关键支撑。

未来，浪潮信息AIStation将持续围绕企业级AI应用场景深化技术能力，为OpenClaw等智能体系统提供长期稳定的模型服务与算力保障，加速AI智能体在各行业的规模化应用。

]]> 跑通 "产研用" 闭环，佛山南海构建 "AI+ 医疗卫生" 新生态，加速基层实践推广 2026-01-29 16:09:00 框架发布：以"一体两翼三轮驱动"明确区域推进机制当前，人工智能已成为医疗卫生"强基层、固基础、保基本"的核心支撑。2025年11月，国家卫健委等五部门联合发布《关于促进和规范"人工智能+医疗卫生"应用发展的实施意见》，明确提出到2030 年，实现基层诊疗智能辅助全覆盖的目标。为贯彻落实国家、广东省和佛山市人工智能发展部署，会上，市、区卫健局、区政数局、区经促局领导，研究院代表、医院代表及生态伙伴代表共同发布了南海区"人工智能+医疗卫生"生态共建框架，以 "人民健康"为主体，依托"技术突破"与"场景深化"两翼，通过"产、研、用"三方协同，形成"一体两翼三轮驱动"的推进机制。 * "一体"：以"人民健康"为主体，以基层提质增效为主线，通过人工智能全面赋能，推动服务模式从"以治疗为中心"向"以健康为中心"转变，为居民提供覆盖全生命周期的健康服务。 * "两翼"：以"技术突破"与"场景深化"双向展开。一翼是以算力、算法、数据为核心，持续夯实技术基座，保持区域竞争力；另一翼是以医疗、医药、医保"三医联动"为脉络，不断拓宽和深化人工智能应用场景，确保技术扎根于真实需求。 * "三轮驱动"：即"产、研、用"协同驱动。强化政策引导，激发市场主体的创新活力，深化与企业、高校及科研机构的产学研合作，坚持以医疗机构和患者的实际应用效果为检验标准，形成闭环生态。框架明确了四大重点任务：一是夯实"智能基座"，筑牢数据与算力根基，探索医疗数据要素市场化配置改革的实践路径；二是深化"智慧场景"，重点推动人工智能+临床诊疗、患者服务、中医药服务及科研教学等应用场景，推动人工智能从医院向社区延伸，贯穿健康服务全流程；三是构建"产业生态"，探索"政府推动、多方参与、合作共赢、利益共享"的共建模式，形成特色产业集群；四是创新"体制机制"，总结"南海区‘人工智能+医疗卫生'生态共建"的探索经验，形成可复制、可推广的共建模式。多方观点呼应框架：以需求牵引、科研支撑与产业协作推动规模化落地本次研讨会围绕AI+医疗落地的共性挑战展开讨论，包括数据合规要求高、技术与临床需求易脱节、基层缺少好用工具等问题。与会各方一致认为，要让技术真正扎根临床一线，关键在于以需求为牵引、以底座为支撑、以生态协作为路径，推动AI能力深度嵌入诊疗全流程。 * 用方视角：以临床需求与应用效果作为检验标准佛山市南海区人民医院院长关紫云围绕"需求洞察与生态共建――南海人医的AI+医疗实践"，分享了该院依托本土脱敏病历，自主研发AI原生智慧医疗系统的实践经验。她从医院实践出发，用鲜活的案例、翔实的场景，揭示了AI与医疗融合的核心需求与落地路径，强调生态共建必须扎根于临床需求、服务于患者健康。目前，系统上线已累计服务12.67万患者，错号率降低20%，病历质量提升60%。这一先行实践为框架所强调的"以应用效果为导向、形成闭环生态"提供了样板验证，也为后续标准化推广提供了清晰的评价参照。 * 研方视角：以数据体系与前沿研究夯实技术底座中山大学孙逸仙纪念医院余运芳博士以"AI+与大数据赋能临床诊疗"为主题，从临床实际诊疗出发，阐述了新一代生成式人工智能在乳腺疾病、肺部疾病、急重症疾病的精准疾病诊断、治疗方案优化的研发成果。相关研究为框架"技术突破翼"的持续演进提供了方法与能力支撑，也为AI与临床需求的精准对齐提供了可借鉴路径。 * 产方视角：以平台化能力与场景化适配实现可复制推广作为深耕医疗领域的HIT厂商，天锐医健总经理练旭明聚焦"算法赋能医疗场景应用的思考与实践"，剖析了AI技术落地医疗领域的关键难点与突破路径，并介绍了其在南海区实践中联合生态伙伴优化模型训练、推进场景化适配的经验，已实现AI导诊、病历质控、随访管理等功能与医院业务流的融合，推动AI能力真正服务于诊疗提效与患者体验改善。浪潮信息大模型研发专家张卉则从技术支撑的角度，阐释了借助元脑企智EPAI企业大模型开发平台构筑医疗智能体基座，实现AI+医疗的规模化落地的实战经验。她指出，通过元脑企智EPAI平台提供数据准备、模型训练、服务部署、知识检索、应用框架等系列工具，可调度多元算力与多模算法，支持伙伴通过工作流可视化编排调试智能体，灵活调用本地插件与 MCP 工具，实现大模型应用与医院业务流的深度契合。生态伙伴无需从零搭建技术栈，即可基于平台能力快速开发或升级产品，并与客户现有系统实现融合，提升交付效率与复制速度。通过清晰的产业分工与紧密的生态协作，南海区将国家的"人工智能+"战略，转化为可落地、可评估、可推广的基层实践――一方面以智能基座和平台化能力降低落地门槛，另一方面以真实场景和效果指标牵引持续迭代，并通过产研用闭环协同解决"临床需求与技术研发两张皮"的难题，形成可复制的产业落地机制。在生态共建框架的指引下，浪潮信息也将持续深化"平台+生态"双轮驱动战略，携手生态伙伴迭代升级元脑企智EPAI平台等核心产品能力，打造更多跨领域、可复用的人工智能+产业协同新路径，推动优质医疗资源通过AI技术真正下沉至群众"家门口"，为实现基层医疗智能化全覆盖筑牢坚实支撑。 ]]> 北京2026年1月29日 /美通社/ -- 1月22日，佛山市南海区"人工智能+医疗卫生"生态共建研讨会成功举办。市、区相关部门领导，佛山市南海区人民医院、浪潮信息、天锐医健等医疗机构及企业代表齐聚一堂，共话"人工智能+医疗卫生"深度融合的发展蓝图。会上，南海区"人工智能+医疗卫生"生态共建框架正式发布，标志着区域智慧医疗生态建设从试点迈入标准化、规模化推进的新阶段。

此前，佛山市南海区人民医院、浪潮信息与天锐医健依托南海区医工科创研究院的平台，聚焦临床痛点与数据安全，打造"AI 原生智慧医疗系统"并完成落地验证，成功跑通了"产研用"协同路径。这一"南海实践"为全区"人工智能+医疗卫生"生态共建框架的落地与规模化推广，提供了坚实的样板支撑与实践基础。

框架发布：以"一体两翼三轮驱动"明确区域推进机制

当前，人工智能已成为医疗卫生"强基层、固基础、保基本"的核心支撑。2025年11月，国家卫健委等五部门联合发布《关于促进和规范"人工智能+医疗卫生"应用发展的实施意见》，明确提出到2030 年，实现基层诊疗智能辅助全覆盖的目标。

为贯彻落实国家、广东省和佛山市人工智能发展部署，会上，市、区卫健局、区政数局、区经促局领导，研究院代表、医院代表及生态伙伴代表共同发布了南海区"人工智能+医疗卫生"生态共建框架，以 "人民健康"为主体，依托"技术突破"与"场景深化"两翼，通过"产、研、用"三方协同，形成"一体两翼三轮驱动"的推进机制。

"一体"：以"人民健康"为主体，以基层提质增效为主线，通过人工智能全面赋能，推动服务模式从"以治疗为中心"向"以健康为中心"转变，为居民提供覆盖全生命周期的健康服务。
"两翼"：以"技术突破"与"场景深化"双向展开。一翼是以算力、算法、数据为核心，持续夯实技术基座，保持区域竞争力；另一翼是以医疗、医药、医保"三医联动"为脉络，不断拓宽和深化人工智能应用场景，确保技术扎根于真实需求。
"三轮驱动"：即"产、研、用"协同驱动。强化政策引导，激发市场主体的创新活力，深化与企业、高校及科研机构的产学研合作，坚持以医疗机构和患者的实际应用效果为检验标准，形成闭环生态。

框架明确了四大重点任务：一是夯实"智能基座"，筑牢数据与算力根基，探索医疗数据要素市场化配置改革的实践路径；二是深化"智慧场景"，重点推动人工智能+临床诊疗、患者服务、中医药服务及科研教学等应用场景，推动人工智能从医院向社区延伸，贯穿健康服务全流程；三是构建"产业生态"，探索"政府推动、多方参与、合作共赢、利益共享"的共建模式，形成特色产业集群；四是创新"体制机制"，总结"南海区‘人工智能+医疗卫生'生态共建"的探索经验，形成可复制、可推广的共建模式。

多方观点呼应框架：以需求牵引、科研支撑与产业协作推动规模化落地

本次研讨会围绕AI+医疗落地的共性挑战展开讨论，包括数据合规要求高、技术与临床需求易脱节、基层缺少好用工具等问题。与会各方一致认为，要让技术真正扎根临床一线，关键在于以需求为牵引、以底座为支撑、以生态协作为路径，推动AI能力深度嵌入诊疗全流程。

用方视角：以临床需求与应用效果作为检验标准

佛山市南海区人民医院院长关紫云围绕"需求洞察与生态共建――南海人医的AI+医疗实践"，分享了该院依托本土脱敏病历，自主研发AI原生智慧医疗系统的实践经验。她从医院实践出发，用鲜活的案例、翔实的场景，揭示了AI与医疗融合的核心需求与落地路径，强调生态共建必须扎根于临床需求、服务于患者健康。目前，系统上线已累计服务12.67万患者，错号率降低20%，病历质量提升60%。这一先行实践为框架所强调的"以应用效果为导向、形成闭环生态"提供了样板验证，也为后续标准化推广提供了清晰的评价参照。

研方视角：以数据体系与前沿研究夯实技术底座

中山大学孙逸仙纪念医院余运芳博士以"AI+与大数据赋能临床诊疗"为主题，从临床实际诊疗出发，阐述了新一代生成式人工智能在乳腺疾病、肺部疾病、急重症疾病的精准疾病诊断、治疗方案优化的研发成果。相关研究为框架"技术突破翼"的持续演进提供了方法与能力支撑，也为AI与临床需求的精准对齐提供了可借鉴路径。

产方视角：以平台化能力与场景化适配实现可复制推广

作为深耕医疗领域的HIT厂商，天锐医健总经理练旭明聚焦"算法赋能医疗场景应用的思考与实践"，剖析了AI技术落地医疗领域的关键难点与突破路径，并介绍了其在南海区实践中联合生态伙伴优化模型训练、推进场景化适配的经验，已实现AI导诊、病历质控、随访管理等功能与医院业务流的融合，推动AI能力真正服务于诊疗提效与患者体验改善。

浪潮信息大模型研发专家张卉则从技术支撑的角度，阐释了借助元脑企智EPAI企业大模型开发平台构筑医疗智能体基座，实现AI+医疗的规模化落地的实战经验。她指出，通过元脑企智EPAI平台提供数据准备、模型训练、服务部署、知识检索、应用框架等系列工具，可调度多元算力与多模算法，支持伙伴通过工作流可视化编排调试智能体，灵活调用本地插件与 MCP 工具，实现大模型应用与医院业务流的深度契合。生态伙伴无需从零搭建技术栈，即可基于平台能力快速开发或升级产品，并与客户现有系统实现融合，提升交付效率与复制速度。

通过清晰的产业分工与紧密的生态协作，南海区将国家的"人工智能+"战略，转化为可落地、可评估、可推广的基层实践――一方面以智能基座和平台化能力降低落地门槛，另一方面以真实场景和效果指标牵引持续迭代，并通过产研用闭环协同解决"临床需求与技术研发两张皮"的难题，形成可复制的产业落地机制。

在生态共建框架的指引下，浪潮信息也将持续深化"平台+生态"双轮驱动战略，携手生态伙伴迭代升级元脑企智EPAI平台等核心产品能力，打造更多跨领域、可复用的人工智能+产业协同新路径，推动优质医疗资源通过AI技术真正下沉至群众"家门口"，为实现基层医疗智能化全覆盖筑牢坚实支撑。

]]> 中国信通院：元脑SD200首个通过《超节点测试大纲》评测，Token速度快至8.73ms! 2026-01-12 10:20:00 浪潮信息元脑SD200超节点元脑SD200超节点是基于浪潮信息创新研发的多主机低延迟内存语义通信架构，以开放系统设计在单机内实现64路本土AI芯片的高速互连，单机可承载4万亿参数单体模型，或部署多个万亿参数模型组成的智能体应用，实现多模型协同执行复杂任务。 ]]> 北京2026年1月12日 /美通社/ -- 当前，面对千亿乃至万亿参数大模型训练与推理日益增长的应用需求，传统一机八卡服务器已难以满足性能要求，超节点新型计算产品应运而生。中国信息通信研究院（以下简称"中国信通院"）持续开展服务器、超节点等先进计算产品的行业研究和评测服务，有力推动相关产品迭代升级与行业应用落地。

2025年11月，浪潮信息旗下"元脑服务器SD200"参与中国信通院组织的超节点服务器评估测试。本次测试依据中国信通院牵头编制的《超节点测试大纲》标准，重点围绕互联带宽与大语言模型DeepSeek-R1-671B推理性能展开。元脑SD200超节点在测试中表现优异，Token生成速度（TPOT）达到8.73ms，标志着该产品已具备支撑大模型推理和智能体应用的相关成熟能力，成为国内首个通过该项测试的本土超节点产品。

浪潮信息元脑SD200超节点

元脑SD200超节点是基于浪潮信息创新研发的多主机低延迟内存语义通信架构，以开放系统设计在单机内实现64路本土AI芯片的高速互连，单机可承载4万亿参数单体模型，或部署多个万亿参数模型组成的智能体应用，实现多模型协同执行复杂任务。

]]> "AI+基层医疗"如何落地？佛山市南海区人民医院用实践给出答案！ 2025-12-25 11:18:00 从信息化的深耕到智能化的抉择南海人医的AI医疗实践，离不开其长达二十年对医疗信息化的深耕。身处发达地区、改革开放的前沿阵地，南海人医的医疗信息化建设也走在前列。早在2009年，当多数医院仍停留在纸质病历阶段时，该院便率先启动电子病历系统推广工作，成为区域医疗信息化建设的先行者。 2017年，时任分管信息部的副院长关紫云敏锐洞察到医疗行业数智化发展趋势，牵头按照电子病历五级标准及互联互通的要求，对医院信息化体系进行全面升级。此次升级不仅规范了医疗数据的采集、存储与使用流程，更成功打通了各科室、各业务系统间的数据壁垒，为后续AI应用筑牢了基础。 2022年，南海人医从南海东部城市中心迁到西部欠发达的狮山副中心，区域内医疗资源分布不均、基层服务能力薄弱的问题凸显。身为院长的关紫云发现，医院在推进医疗服务下沉过程中，信息难以有效传递至一级医院及社区卫生服务中心，基层患者面临"不知挂哪个科""号源难预约""病史重复采集"等困境，基层医生也缺乏优质的诊疗辅助工具。 2022年底，ChatGPT引发了AI大模型热潮，关紫云对此高度关注。虽然医院此前已开展AI医疗的初步探索，如放射科采用了边缘算法小模型，但这类小模型仅在单一业务场景提升效率，应用范围有限。对于大模型可能给医疗带来的变革，关紫云坦言当时还"看不清楚"，为此她专程赴浙江大学参加相关学习班。学完归来，她便牵头谋划医院AI布局，核心目标就是让AI服务于临床诊疗、惠及基层群众。大模型热潮迅速蔓延至医疗行业，各路AI厂商纷至沓来，大多推销基于顶级三甲医院专科数据训练的"高大上"产品。南海人医抱着开放心态试用，结果却不尽如人意。关紫云解释道："这些产品擅长识别罕见病、疑难病，但我们的患者以常见病、多发病为主；它们基于专科思维开发，而社区医疗更需要全科诊断思维。"此外，这些大模型听不懂粤语，对于陈阿婆这类基层老年患者而言，无异于筑起了一道数字壁垒。 "拿来主义"可能导致的"水土不服"，让关紫云坚定了自主研发的想法：南海人医需要打造一个能扎根社区、理解方言、具备全科诊断思维的医疗智能体。探索"产研用"协同落地模式落地传统IT技术，医院作为使用者，往往直接采用IT厂商提供的标准化产品或方案；而部署AI技术，医院不仅是使用者，更成为核心参与者——大模型只有跟医院的医疗数据和实际场景深度融合，才能打造成为适配医院需求的私域大模型，而且大模型还要跟随技术升级和数据更新持续迭代升级。为此，部署AI大模型不能照搬传统IT模式，需要寻求优势互补、能持续适配的合作伙伴协同推进。在南海区政府的鼎力支持下，南海人医牵头成立专项研究院，创新搭建"产研用"三方协同平台，构建优势互补的生态合作模式。在该模式中，各方职责明确、定位清晰，形成闭环协作体系： * 南海人医作为应用方，既是高质量数据供给者，牵头组织临床专家开展数据标注、质量控制与伦理审核工作，从源头保障数据的合规性与可用性；更是需求定义者与应用效果验证者，要锚定真实痛点设定AI目标，通过临床团队的严格评估与反馈，实现技术与医疗的深度融合，确保AI真正服务于医疗效率提升与诊疗质量优化。 * 浪潮信息作为AI技术提供者，牢筑"AI基座"支撑。其不仅为协同平台提供了性能强劲的算力硬件，还搭建了成熟完备的元脑企智EPAI大模型开发平台。这一技术底座让医院及其伙伴天锐医健在严守医疗数据安全的前提下，无需从零搭建复杂技术栈，即可高效开展模型本地化训练、微调和部署工作，大幅降低大模型的落地门槛。 * 天锐医健则专注于"场景融合"任务，其核心价值在于深刻理解医院业务流程（如HIS系统、电子病历系统等），基于浪潮信息的算力支撑与大模型开发平台，进行场景化的应用开发与集成，将AI能力无缝嵌入医生诊疗、患者服务的日常软件与工具中，实现AI技术的"开箱即用"。专项研究院作为中立性协作平台，以民办非企的身份运作，有利于突破传统体制机制限制，负责知识产权界定、项目流程管理、成果转化推动以及对外合作拓展，通过多方资源整合与协同发力破解人才、技术、资源难题，为项目顺利落地与持续迭代提供坚实保障。打造全流程赋能的"AI医疗团队" 长期以来，患者"挂错号"导致反复退改签、诊疗延误，成为浪费医疗资源和患者时间的顽疾。"产研用"三方成立的项目组，首先锚定患者需求最迫切、痛点最突出的导诊场景，2023年年底，项目正式启动，核心目标明确：依托大模型技术，打造一款支持粤语交互、契合全科医学逻辑的智慧医疗系统。历经一年的研发与测试，该系统于2024年12月正式上线。截至目前，AI原生（AI native）智慧医疗系统已累计服务12.67万患者，平均导诊耗时仅3.5分钟，较传统人工导诊效率提升近20倍，患者错号率下降20%。尤为关键的是，这套AI原生系统，实现了流畅的粤语交互功能，破解了像陈阿婆这样基层老年患者的语言沟通障碍。首战告捷后，"产研用"三方团队在智能导诊的基础上持续深耕，不断拓展AI应用场景，成功实现门诊全流程AI覆盖。其中，病史采集助手可在导诊后或医生接诊前，通过自然语言对话完成病史采集，并自动生成初步病历，使医生病历书写效率提升约30%；病历质控系统基于医院历史质控病历数据训练而成，能够实时核查病历的完整性与逻辑合理性，助力病历质量提升25%；AI智能随访系统则显著提升随访覆盖率，减少因患者失访导致的复诊流失与健康风险。 "我们构建的不是一个孤立的AI工具，而是一个覆盖‘诊前、诊中、诊后'的全流程‘AI医疗团队‘'，与人类医生协同作战。"关紫云这样诠释其AI医疗实践成果。如今，这套"智能医疗团队"已深度融入就医全流程，为患者、医生和医院带来了更便捷、高效的使用体验。医院还在拓展全科"AI医疗团队"成员，急诊领域成为下一个突破方向。医院计划依托急诊病例数据优化算法，搭建急诊预警模型，通过实时分析患者症状与生命体征，快速识别高危患者，优先调配诊疗资源。在推进AI医疗建设的过程中，关紫云愈发意识到高质量数据的价值。她表示，医院未来将持续推进高质量多模态医疗数据集建设，为模型优化提供更坚实支撑；同时还将基于"产研用"合作机制，加速技术迭代与应用场景拓展，持续赋能医疗服务高质量发展。用AI破解基层医疗难题当前我国正在大力推进紧密型县域医共体建设，核心目标就是破解基层医疗资源不均和能力不足的难题。而南海人医的AI+医疗的实践，为这一目标的实现提供了技术赋能的新思路。南海人医的AI蓝图，从绘制之初就不是局限于本院围墙之内，而是要扩展到整个县域医共体机构。据关紫云介绍，目前南海人医正在牵头推进医共体智能协作平台建设，构建"全科+专科"服务模式，平台将以AI为中枢重构分级诊疗流程，形成"基层预诊+上级诊疗+基层随访"的闭环服务，推动区域医疗资源互通共享。在具体服务流程中，像陈阿婆一样的患者在社区卫生服务中心即可通过AI系统完成精准预问诊与智能分诊。符合转诊条件的患者，系统会直接预约南海人医的号源，实现诊疗信息同步；南海人医的医生在接诊前，便能提前掌握患者在社区的初诊情况；诊治后，康复方案可下转至社区，由AI系统辅助随访。这一模式不仅减少了患者跨区域奔波，真正实现"数据多跑路，患者少跑腿"，更实现了优质资源与基层服务的有效衔接。对于基层医生而言，AI系统既是诊疗辅助工具，也是学习平台，通过病例分析、诊疗建议等功能，可以显著提升其疾病识别能力与规范化水平；南海人医还通过医共体平台提供专业培训、远程会诊等支持，助力基层医疗人才队伍建设。 "我就是要尽我所能让AI+医疗真正扎下根、用起来！"关紫云坚定地表示。目前，南海人医已在大沥镇等3个社区卫生服务中心完成智能医疗系统的先行试点部署，后续将逐步推进，实现辖区内所有社区卫生服务中心的全覆盖。今年11月，国家卫健委印发《关于促进和规范"人工智能+医疗卫生"应用发展的实施意见》，明确提出到2030年，基层诊疗智能辅助应用基本实现全覆盖，缓解基层医疗资源短缺问题。南海人医的"AI+医疗"创新实践，从最初服务本院患者，到逐步覆盖医共体内所有基层医疗机构，不仅为南海区推进基层诊疗智能辅助应用打造了可复制、可推广的实践样板，也为徘徊在智能化转型路口的县域医院，提供了一条务实可行、成效显著的创新路径。 ]]> 北京2025年12月25日 /美通社/ -- 清晨，75岁的陈阿婆踱步走进家附近的大沥镇社区卫生服务中心。她对着智能终端屏幕，用一口地道的广州话，诉说着困扰多日的胸闷不适。令她暖心的是，屏幕那头的AI"医生"，也用同样亲切的乡音柔声回应。不到三分钟，问诊结束。系统精准研判，其症状与心血管问题高度相关，便自动为她预约了南海区人民医院心血管内科的专家号。

等陈阿婆就诊时，她的完整病史早已同步至接诊医生的电脑中，医生无需反复追问，便能精准切入诊疗方案。"以前看病好折腾，排队咨询、挂号少说也要一俩小时；现在在家门口就能约好专家号，真是省事多咯！"陈阿婆的由衷感慨，正是南海区人民医院（简称南海人医）以"AI+医疗"赋能基层民生的生动缩影。

南海人医是佛山南海区规模最大的三甲医院，也是区域医共体核心医院——连接着12家二级及以上医疗机构、140余家社区卫生服务中心。该院在"人工智能+"行动与县域医共体建设浪潮中，携手浪潮信息、天锐医健创新 "产研用"协同模式，推动AI技术落地生根，赋能医疗服务提质增效，为全国县域医院的智能化转型和智能医共体建设打造了可推广复制的"南海样板"。

从信息化的深耕到智能化的抉择

南海人医的AI医疗实践，离不开其长达二十年对医疗信息化的深耕。身处发达地区、改革开放的前沿阵地，南海人医的医疗信息化建设也走在前列。早在2009年，当多数医院仍停留在纸质病历阶段时，该院便率先启动电子病历系统推广工作，成为区域医疗信息化建设的先行者。

2017年，时任分管信息部的副院长关紫云敏锐洞察到医疗行业数智化发展趋势，牵头按照电子病历五级标准及互联互通的要求，对医院信息化体系进行全面升级。此次升级不仅规范了医疗数据的采集、存储与使用流程，更成功打通了各科室、各业务系统间的数据壁垒，为后续AI应用筑牢了基础。

2022年，南海人医从南海东部城市中心迁到西部欠发达的狮山副中心，区域内医疗资源分布不均、基层服务能力薄弱的问题凸显。身为院长的关紫云发现，医院在推进医疗服务下沉过程中，信息难以有效传递至一级医院及社区卫生服务中心，基层患者面临"不知挂哪个科""号源难预约""病史重复采集"等困境，基层医生也缺乏优质的诊疗辅助工具。

2022年底，ChatGPT引发了AI大模型热潮，关紫云对此高度关注。虽然医院此前已开展AI医疗的初步探索，如放射科采用了边缘算法小模型，但这类小模型仅在单一业务场景提升效率，应用范围有限。对于大模型可能给医疗带来的变革，关紫云坦言当时还"看不清楚"，为此她专程赴浙江大学参加相关学习班。学完归来，她便牵头谋划医院AI布局，核心目标就是让AI服务于临床诊疗、惠及基层群众。

大模型热潮迅速蔓延至医疗行业，各路AI厂商纷至沓来，大多推销基于顶级三甲医院专科数据训练的"高大上"产品。南海人医抱着开放心态试用，结果却不尽如人意。关紫云解释道："这些产品擅长识别罕见病、疑难病，但我们的患者以常见病、多发病为主；它们基于专科思维开发，而社区医疗更需要全科诊断思维。"此外，这些大模型听不懂粤语，对于陈阿婆这类基层老年患者而言，无异于筑起了一道数字壁垒。

"拿来主义"可能导致的"水土不服"，让关紫云坚定了自主研发的想法：南海人医需要打造一个能扎根社区、理解方言、具备全科诊断思维的医疗智能体。

探索"产研用"协同落地模式

落地传统IT技术，医院作为使用者，往往直接采用IT厂商提供的标准化产品或方案；而部署AI技术，医院不仅是使用者，更成为核心参与者——大模型只有跟医院的医疗数据和实际场景深度融合，才能打造成为适配医院需求的私域大模型，而且大模型还要跟随技术升级和数据更新持续迭代升级。

为此，部署AI大模型不能照搬传统IT模式，需要寻求优势互补、能持续适配的合作伙伴协同推进。在南海区政府的鼎力支持下，南海人医牵头成立专项研究院，创新搭建"产研用"三方协同平台，构建优势互补的生态合作模式。在该模式中，各方职责明确、定位清晰，形成闭环协作体系：

南海人医作为应用方，既是高质量数据供给者，牵头组织临床专家开展数据标注、质量控制与伦理审核工作，从源头保障数据的合规性与可用性；更是需求定义者与应用效果验证者，要锚定真实痛点设定AI目标，通过临床团队的严格评估与反馈，实现技术与医疗的深度融合，确保AI真正服务于医疗效率提升与诊疗质量优化。
浪潮信息作为AI技术提供者，牢筑"AI基座"支撑。其不仅为协同平台提供了性能强劲的算力硬件，还搭建了成熟完备的元脑企智EPAI大模型开发平台。这一技术底座让医院及其伙伴天锐医健在严守医疗数据安全的前提下，无需从零搭建复杂技术栈，即可高效开展模型本地化训练、微调和部署工作，大幅降低大模型的落地门槛。
天锐医健则专注于"场景融合"任务，其核心价值在于深刻理解医院业务流程（如HIS系统、电子病历系统等），基于浪潮信息的算力支撑与大模型开发平台，进行场景化的应用开发与集成，将AI能力无缝嵌入医生诊疗、患者服务的日常软件与工具中，实现AI技术的"开箱即用"。

专项研究院作为中立性协作平台，以民办非企的身份运作，有利于突破传统体制机制限制，负责知识产权界定、项目流程管理、成果转化推动以及对外合作拓展，通过多方资源整合与协同发力破解人才、技术、资源难题，为项目顺利落地与持续迭代提供坚实保障。

打造全流程赋能的"AI医疗团队"

长期以来，患者"挂错号"导致反复退改签、诊疗延误，成为浪费医疗资源和患者时间的顽疾。"产研用"三方成立的项目组，首先锚定患者需求最迫切、痛点最突出的导诊场景，2023年年底，项目正式启动，核心目标明确：依托大模型技术，打造一款支持粤语交互、契合全科医学逻辑的智慧医疗系统。

历经一年的研发与测试，该系统于2024年12月正式上线。截至目前，AI原生（AI native）智慧医疗系统已累计服务12.67万患者，平均导诊耗时仅3.5分钟，较传统人工导诊效率提升近20倍，患者错号率下降20%。尤为关键的是，这套AI原生系统，实现了流畅的粤语交互功能，破解了像陈阿婆这样基层老年患者的语言沟通障碍。

首战告捷后，"产研用"三方团队在智能导诊的基础上持续深耕，不断拓展AI应用场景，成功实现门诊全流程AI覆盖。

其中，病史采集助手可在导诊后或医生接诊前，通过自然语言对话完成病史采集，并自动生成初步病历，使医生病历书写效率提升约30%；病历质控系统基于医院历史质控病历数据训练而成，能够实时核查病历的完整性与逻辑合理性，助力病历质量提升25%；AI智能随访系统则显著提升随访覆盖率，减少因患者失访导致的复诊流失与健康风险。

"我们构建的不是一个孤立的AI工具，而是一个覆盖‘诊前、诊中、诊后'的全流程‘AI医疗团队‘'，与人类医生协同作战。"关紫云这样诠释其AI医疗实践成果。如今，这套"智能医疗团队"已深度融入就医全流程，为患者、医生和医院带来了更便捷、高效的使用体验。

医院还在拓展全科"AI医疗团队"成员，急诊领域成为下一个突破方向。医院计划依托急诊病例数据优化算法，搭建急诊预警模型，通过实时分析患者症状与生命体征，快速识别高危患者，优先调配诊疗资源。

在推进AI医疗建设的过程中，关紫云愈发意识到高质量数据的价值。她表示，医院未来将持续推进高质量多模态医疗数据集建设，为模型优化提供更坚实支撑；同时还将基于"产研用"合作机制，加速技术迭代与应用场景拓展，持续赋能医疗服务高质量发展。

用AI破解基层医疗难题

当前我国正在大力推进紧密型县域医共体建设，核心目标就是破解基层医疗资源不均和能力不足的难题。而南海人医的AI+医疗的实践，为这一目标的实现提供了技术赋能的新思路。

南海人医的AI蓝图，从绘制之初就不是局限于本院围墙之内，而是要扩展到整个县域医共体机构。据关紫云介绍，目前南海人医正在牵头推进医共体智能协作平台建设，构建"全科+专科"服务模式，平台将以AI为中枢重构分级诊疗流程，形成"基层预诊+上级诊疗+基层随访"的闭环服务，推动区域医疗资源互通共享。

在具体服务流程中，像陈阿婆一样的患者在社区卫生服务中心即可通过AI系统完成精准预问诊与智能分诊。符合转诊条件的患者，系统会直接预约南海人医的号源，实现诊疗信息同步；南海人医的医生在接诊前，便能提前掌握患者在社区的初诊情况；诊治后，康复方案可下转至社区，由AI系统辅助随访。

这一模式不仅减少了患者跨区域奔波，真正实现"数据多跑路，患者少跑腿"，更实现了优质资源与基层服务的有效衔接。对于基层医生而言，AI系统既是诊疗辅助工具，也是学习平台，通过病例分析、诊疗建议等功能，可以显著提升其疾病识别能力与规范化水平；南海人医还通过医共体平台提供专业培训、远程会诊等支持，助力基层医疗人才队伍建设。

"我就是要尽我所能让AI+医疗真正扎下根、用起来！"关紫云坚定地表示。目前，南海人医已在大沥镇等3个社区卫生服务中心完成智能医疗系统的先行试点部署，后续将逐步推进，实现辖区内所有社区卫生服务中心的全覆盖。

今年11月，国家卫健委印发《关于促进和规范"人工智能+医疗卫生"应用发展的实施意见》，明确提出到2030年，基层诊疗智能辅助应用基本实现全覆盖，缓解基层医疗资源短缺问题。

南海人医的"AI+医疗"创新实践，从最初服务本院患者，到逐步覆盖医共体内所有基层医疗机构，不仅为南海区推进基层诊疗智能辅助应用打造了可复制、可推广的实践样板，也为徘徊在智能化转型路口的县域医院，提供了一条务实可行、成效显著的创新路径。

]]> 浪潮信息刘军：AI产业不降本难盈利，1元钱/每百万Token的成本还远远不够！ 2025-12-25 10:01:00 浪潮信息首席AI战略官刘军智能体时代，token成本就是竞争力回顾互联网发展史，基础设施的"提速降费"是行业繁荣的重要基石。从拨号上网以Kb计费，到光纤入户后百兆带宽成为标配，再到4G/5G时代数据流量成本趋近于零——每一次通信成本的显著降低，都推动了如视频流媒体、移动支付等全新应用生态的爆发。当前的AI时代也处于相似的临界点，当技术进步促使token单价下滑之后，企业得以大规模地将AI应用于更复杂、更耗能的场景，如从早期的简短问答，到如今支持超长上下文、具备多步规划与反思能力的智能体……这也导致单任务对token的需求已呈指数级增长。如果token成本下降的速度跟不上消耗量的指数增长，企业将面临更高的费用投入。这昭示着经济学中著名的"杰文斯悖论"正在token经济中完美重演。来自多方的数据也有力佐证了token消耗量的指数级增长趋势。火山引擎最新披露的数据显示，截至今年12月，字节跳动旗下豆包大模型日均token使用量突破50万亿，较去年同期增长超过10倍，相比2024年5月刚推出时的日均调用量增长达417倍；谷歌在10月披露，其各平台每月处理的token用量已达1300万亿，相当于日均43.3万亿，而一年前月均仅为9.7万亿。谷歌公布其token处理量变化当使用量达到"百万亿token/月"的量级时，哪怕每百万token成本只下降1美元，也可能带来每月1亿美元的成本差异。刘军认为："token成本就是竞争力，它直接决定了智能体的盈利能力。要让AI真正进入规模化普惠阶段，token成本必须在现有基础上继续实现数量级的下降。" 深挖token成本"暗箱"：架构不匹配是核心瓶颈当下，全球大模型竞赛从"盲目堆算力"转向"追求单位算力产出价值"的新阶段。单位算力产出价值受到能源价格、硬件采购成本、算法优化、运营成本等多种因素的影响，但不可否认的是，现阶段token成本80%以上依然来自算力支出，而阻碍成本下降的核心矛盾，在于推理负载与训练负载截然不同，沿用旧架构会导致算力、显存与网络资源难以同时最优，造成严重的"高配低效"。一是算力利用率（MFU）的严重倒挂。训练阶段MFU可达50%以上，但在推理阶段，特别是对于追求低延迟的实时交互任务，由于token的自回归解码特性，在每一轮计算中，硬件必须加载全部的模型参数，却只为了计算一个token的输出，导致昂贵的GPU大部分时间在等待数据搬运，实际MFU往往仅为5%-10%。这种巨大的算力闲置是成本高企的结构性根源。二是"存储墙"瓶颈在推理场景下被放大。在大模型推理中，随着上下文长度的增加，KV Cache呈指数级增长。这不仅占用了大量的显存空间，还导致了由于访存密集带来的高功耗。这种存算分离不仅带来数据迁移功耗和延迟，还必须配合使用价格高昂的HBM，已经成为阻碍token成本下降的重要瓶颈。三是网络通信与横向扩展代价愈发高昂。当模型规模突破单机承载能力时，跨节点通信成为新瓶颈。传统RoCE或InfiniBand网络的延迟远高于芯片内部的总线延迟，通信开销可能占据总推理时间的30%以上，导致企业被迫通过堆砌更多资源来维持响应速度，推高了总拥有成本（TCO）。对此，刘军指出，降低token成本的核心不是"把一台机器做得更全"，而是围绕目标重构系统：把推理流程拆得更细，支持P/D分离、A/F分离、KV并行、细粒度专家拆分等计算策略，让不同计算模块在不同卡上按需配置并发，把每张卡的负载打满，让"卡时成本"更低、让"卡时产出"更高。基于全新超扩展架构，元脑HC1000实现推理成本首次击破1元/每百万token 当前主流大模型的token成本依然高昂。以输出百万token为例，Claude、Grok等模型的价格普遍在10-15美元，国内大模型虽然相对便宜，也多在10元以上。在天文数字级别的调用量下，如此高的token成本让大规模商业化应用面临严峻的ROI挑战。要打破成本僵局，必须从计算架构层面进行根本性重构，从而大幅提升单位算力的产出效率。主流LLM的百万token价格 (注：9月26日(AICC2025大会当日)数据，9月29日DeepSeek发布V3.2 Exp价格降为3元/每百万Token) 为此，浪潮信息推出元脑HC1000超扩展AI服务器。该产品基于全新设计的全对称DirectCom极速架构，采用无损超扩展设计，可高效聚合海量本土AI芯片，支持极大推理吞吐量，推理成本首次击破1元/每百万token，为智能体突破token成本瓶颈提供极致性能的创新算力系统。元脑HC1000超扩展AI服务器刘军表示："我们看到原来的AI计算是瞄着大而全去建设的，五脏俱全，各种各样的东西都在里面。但是当我们聚焦降低token成本这一核心目标之后，我们重新思考系统架构设计，找到系统瓶颈，重构出一个极简设计的系统。" 元脑HC1000创新设计了DirectCom极速架构，每计算模组配置16颗AIPU，采用直达通信设计，解决传统架构的协议转换和带宽争抢问题，实现超低延迟；计算通信1:1均衡配比，实现全局无阻塞通信；全对称的系统拓扑设计，可以支持灵活的PD分离、AF分离方案，按需配置计算实例，最大化资源利用率。全对称DirectCom极速架构同时，元脑HC1000支持超大规模无损扩展，DirectCom架构保障了计算和通信均衡，通过算网深度协同、全域无损技术实现推理性能1.75倍提升，并且通过对大模型的计算流程细分和模型结构解耦，实现计算负载的灵活按需配比，单卡MFU最高可提升5.7倍。超大规模无损扩展此外，元脑HC1000通过自适应路由和智能拥塞控制算法，提供数据包级动态负载均衡，实现KV Cache传输和All to All通信流量的智能调度，将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍。刘军强调，当前"1元/每百万token"还远远不够，面对未来token消耗量的指数级增长，若要实现单token成本的持续、数量级下降，需要推动计算架构的根本性革新。这也要求整个AI产业的产品技术创新，要从当前的规模导向转为效率导向，从根本上重新思考和设计AI计算系统，发展AI专用计算架构，探索开发大模型芯片，推动算法硬件化的专用计算架构创新，实现软硬件深度优化，这将是未来的发展方向。 ]]> 北京2025年12月25日 /美通社/ -- 当前全球AI产业已从模型性能竞赛迈入智能体规模化落地的"生死竞速"阶段，"降本" 不再是可选优化项，而是决定AI企业能否盈利、行业能否突破的核心命脉。在此大背景下，浪潮信息推出元脑HC1000超扩展AI服务器，将推理成本首次击穿至1元/每百万token。这一突破不仅有望打通智能体产业化落地"最后一公里"的成本障碍，更将重塑AI产业竞争的底层逻辑。

浪潮信息首席AI战略官刘军强调，当前1元/每百万token的成本突破仅是阶段性胜利，面对未来token消耗量指数级增长、复杂任务token需求激增数十倍的必然趋势，现有成本水平仍难支撑AI的普惠落地。未来，AI要真正成为如同 "水电煤" 般的基础资源，token成本必须在现有基础上实现数量级跨越，成本能力将从"核心竞争力"进一步升级为"生存入场券"，直接决定AI企业在智能体时代的生死存亡。

浪潮信息首席AI战略官刘军

智能体时代，token成本就是竞争力

回顾互联网发展史，基础设施的"提速降费"是行业繁荣的重要基石。从拨号上网以Kb计费，到光纤入户后百兆带宽成为标配，再到4G/5G时代数据流量成本趋近于零——每一次通信成本的显著降低，都推动了如视频流媒体、移动支付等全新应用生态的爆发。

当前的AI时代也处于相似的临界点，当技术进步促使token单价下滑之后，企业得以大规模地将AI应用于更复杂、更耗能的场景，如从早期的简短问答，到如今支持超长上下文、具备多步规划与反思能力的智能体……这也导致单任务对token的需求已呈指数级增长。如果token成本下降的速度跟不上消耗量的指数增长，企业将面临更高的费用投入。这昭示着经济学中著名的"杰文斯悖论"正在token经济中完美重演。

来自多方的数据也有力佐证了token消耗量的指数级增长趋势。火山引擎最新披露的数据显示，截至今年12月，字节跳动旗下豆包大模型日均token使用量突破50万亿，较去年同期增长超过10倍，相比2024年5月刚推出时的日均调用量增长达417倍；谷歌在10月披露，其各平台每月处理的token用量已达1300万亿，相当于日均43.3万亿，而一年前月均仅为9.7万亿。

谷歌公布其token处理量变化

当使用量达到"百万亿token/月"的量级时，哪怕每百万token成本只下降1美元，也可能带来每月1亿美元的成本差异。刘军认为："token成本就是竞争力，它直接决定了智能体的盈利能力。要让AI真正进入规模化普惠阶段，token成本必须在现有基础上继续实现数量级的下降。"

深挖token成本"暗箱"：架构不匹配是核心瓶颈

当下，全球大模型竞赛从"盲目堆算力"转向"追求单位算力产出价值"的新阶段。单位算力产出价值受到能源价格、硬件采购成本、算法优化、运营成本等多种因素的影响，但不可否认的是，现阶段token成本80%以上依然来自算力支出，而阻碍成本下降的核心矛盾，在于推理负载与训练负载截然不同，沿用旧架构会导致算力、显存与网络资源难以同时最优，造成严重的"高配低效"。

一是算力利用率（MFU）的严重倒挂。训练阶段MFU可达50%以上，但在推理阶段，特别是对于追求低延迟的实时交互任务，由于token的自回归解码特性，在每一轮计算中，硬件必须加载全部的模型参数，却只为了计算一个token的输出，导致昂贵的GPU大部分时间在等待数据搬运，实际MFU往往仅为5%-10%。这种巨大的算力闲置是成本高企的结构性根源。

二是"存储墙"瓶颈在推理场景下被放大。在大模型推理中，随着上下文长度的增加，KV Cache呈指数级增长。这不仅占用了大量的显存空间，还导致了由于访存密集带来的高功耗。这种存算分离不仅带来数据迁移功耗和延迟，还必须配合使用价格高昂的HBM，已经成为阻碍token成本下降的重要瓶颈。

三是网络通信与横向扩展代价愈发高昂。当模型规模突破单机承载能力时，跨节点通信成为新瓶颈。传统RoCE或InfiniBand网络的延迟远高于芯片内部的总线延迟，通信开销可能占据总推理时间的30%以上，导致企业被迫通过堆砌更多资源来维持响应速度，推高了总拥有成本（TCO）。

对此，刘军指出，降低token成本的核心不是"把一台机器做得更全"，而是围绕目标重构系统：把推理流程拆得更细，支持P/D分离、A/F分离、KV并行、细粒度专家拆分等计算策略，让不同计算模块在不同卡上按需配置并发，把每张卡的负载打满，让"卡时成本"更低、让"卡时产出"更高。

基于全新超扩展架构，元脑HC1000实现推理成本首次击破1元/每百万token

当前主流大模型的token成本依然高昂。以输出百万token为例，Claude、Grok等模型的价格普遍在10-15美元，国内大模型虽然相对便宜，也多在10元以上。在天文数字级别的调用量下，如此高的token成本让大规模商业化应用面临严峻的ROI挑战。要打破成本僵局，必须从计算架构层面进行根本性重构，从而大幅提升单位算力的产出效率。

主流LLM的百万token价格 (注：9月26日(AICC2025大会当日)数据，9月29日DeepSeek发布V3.2 Exp价格降为3元/每百万Token)

为此，浪潮信息推出元脑HC1000超扩展AI服务器。该产品基于全新设计的全对称DirectCom极速架构，采用无损超扩展设计，可高效聚合海量本土AI芯片，支持极大推理吞吐量，推理成本首次击破1元/每百万token，为智能体突破token成本瓶颈提供极致性能的创新算力系统。

元脑HC1000超扩展AI服务器

刘军表示："我们看到原来的AI计算是瞄着大而全去建设的，五脏俱全，各种各样的东西都在里面。但是当我们聚焦降低token成本这一核心目标之后，我们重新思考系统架构设计，找到系统瓶颈，重构出一个极简设计的系统。"

元脑HC1000创新设计了DirectCom极速架构，每计算模组配置16颗AIPU，采用直达通信设计，解决传统架构的协议转换和带宽争抢问题，实现超低延迟；计算通信1:1均衡配比，实现全局无阻塞通信；全对称的系统拓扑设计，可以支持灵活的PD分离、AF分离方案，按需配置计算实例，最大化资源利用率。

全对称DirectCom极速架构

同时，元脑HC1000支持超大规模无损扩展，DirectCom架构保障了计算和通信均衡，通过算网深度协同、全域无损技术实现推理性能1.75倍提升，并且通过对大模型的计算流程细分和模型结构解耦，实现计算负载的灵活按需配比，单卡MFU最高可提升5.7倍。

超大规模无损扩展

此外，元脑HC1000通过自适应路由和智能拥塞控制算法，提供数据包级动态负载均衡，实现KV Cache传输和All to All通信流量的智能调度，将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍。

刘军强调，当前"1元/每百万token"还远远不够，面对未来token消耗量的指数级增长，若要实现单token成本的持续、数量级下降，需要推动计算架构的根本性革新。这也要求整个AI产业的产品技术创新，要从当前的规模导向转为效率导向，从根本上重新思考和设计AI计算系统，发展AI专用计算架构，探索开发大模型芯片，推动算法硬件化的专用计算架构创新，实现软硬件深度优化，这将是未来的发展方向。

]]> 本土工业软件领军者加入元脑生态，将打造工业设计仿真联合方案 2025-12-05 11:09:00 天河软件深耕基础工业软件研发三十年，是国内机械CAD应用标准的核心主导者，自主研发的THCAD系列产品与TH-ICloud云平台，覆盖计算机辅助设计（CAD）、工艺设计（CAPP）、研发管理（PLM）等领域，拥有三大系列百余项自主知识产权产品，并入选工信部"工业软件优秀产品"等多个权威目录，累计服务超7000家企业级用户、60余万行业使用者，业务遍及装备制造、新能源汽车、电力装备等多个领域。在智能制造加速落地的今天，工业软件是数字化转型的核心引擎。特别是CAD/CAE软件，更是制造业研发的核心支撑工具。传统制造企业长期面临工业软件种类繁杂、授权成本高昂、合规使用压力大、软件与数据管理分散、算力需求增加、资源分配紧张等挑战。面对这些挑战，在元脑生态的框架内，天河软件将与浪潮信息联合打造工业设计仿真联合方案。该方案整合天河软件THCAD系列产品、ModelExpress企业级模型图纸数据交流平台、浪潮信息元脑AI服务器、AIStation人工智能开发平台等明星产品，精准覆盖CAD设计、模型图纸管理等核心应用场景，保障高效的用户和数据管理，助力制造企业实现工业软件本土替代，显著降低部署成本，从而提升研发和管理效率，加速产品迭代和创新。在CAD设计方面，该方案具有全面兼容、极速稳定、内核安全、AI智能设计等优点，能够帮助制造企业以传统方案1/5的投入成本构建自主、智能的CAD设计体系，大幅降低技术依赖风险，显著提升设计效率，保障研发数据安全。在模型图纸数据管理方面，该方案可满足制造企业跨部门图纸协作、数据互通等高频场景需求，仅需不到常规三维软件部署成本的20%，即可实现模型快速加载、格式无损转换与高效编辑。天河软件总经理兰富荣表示："制造业智能化转型的核心是研发数字化的持续深化以及AI与数字化的务实有效融合。元脑生态为我们提供了从算力支撑到生态资源的全栈保障，推动AI技术在研发设计、生产制造、质量管理等全流程场景的深度应用。我们将持续深化与浪潮信息的合作，让本土化工业软件与先进AI技术深度融合，为智能制造的高质量发展提供更具性价比的中国软件方案。" 浪潮信息渠道推进部总经理毛柏林指出："天河软件在工业软件领域三十年的技术沉淀和丰富的行业落地经验，进一步完善了元脑生态在制造业领域的应用布局。双方将以'算力+软件+服务'的协同模式，推动联合方案从试点验证走向规模普及，携手以软件之智，共赋智造之能。" 元脑生态由浪潮信息发起，旨在破解产业AI落地难题。通过聚合浪潮信息及生态伙伴的优质AI能力，构建领先的全栈AI解决方案，助力用户智能转型升级。目前，元脑生态已对接600余家算法厂商、8000余家系统集成商，并搭建商业协作线上平台AIStore。该平台兼具知识资源、交流服务与商机孵化功能，赋能"百模"与"千行"对接，已在智能制造、智慧金融、智慧科研等领域成功落地应用，助力千行百业加速AI产业创新，高效释放生产力。 ]]> 北京2025年12月5日 /美通社/ -- 近日，天河智造（北京）科技股份有限公司（下称"天河软件"）与浪潮信息正式达成元脑生态战略合作。双方将共同打造工业设计仿真联合方案，精准覆盖CAD设计、模型图纸管理等核心应用场景，助力制造企业实现工业软件本土替代，显著降低部署成本，提升研发和管理效率，促进制造业数智化转型。

天河软件深耕基础工业软件研发三十年，是国内机械CAD应用标准的核心主导者，自主研发的THCAD系列产品与TH-ICloud云平台，覆盖计算机辅助设计（CAD）、工艺设计（CAPP）、研发管理（PLM）等领域，拥有三大系列百余项自主知识产权产品，并入选工信部"工业软件优秀产品"等多个权威目录，累计服务超7000家企业级用户、60余万行业使用者，业务遍及装备制造、新能源汽车、电力装备等多个领域。

在智能制造加速落地的今天，工业软件是数字化转型的核心引擎。特别是CAD/CAE软件，更是制造业研发的核心支撑工具。传统制造企业长期面临工业软件种类繁杂、授权成本高昂、合规使用压力大、软件与数据管理分散、算力需求增加、资源分配紧张等挑战。

面对这些挑战，在元脑生态的框架内，天河软件将与浪潮信息联合打造工业设计仿真联合方案。该方案整合天河软件THCAD系列产品、ModelExpress企业级模型图纸数据交流平台、浪潮信息元脑AI服务器、AIStation人工智能开发平台等明星产品，精准覆盖CAD设计、模型图纸管理等核心应用场景，保障高效的用户和数据管理，助力制造企业实现工业软件本土替代，显著降低部署成本，从而提升研发和管理效率，加速产品迭代和创新。

在CAD设计方面，该方案具有全面兼容、极速稳定、内核安全、AI智能设计等优点，能够帮助制造企业以传统方案1/5的投入成本构建自主、智能的CAD设计体系，大幅降低技术依赖风险，显著提升设计效率，保障研发数据安全。

在模型图纸数据管理方面，该方案可满足制造企业跨部门图纸协作、数据互通等高频场景需求，仅需不到常规三维软件部署成本的20%，即可实现模型快速加载、格式无损转换与高效编辑。

天河软件总经理兰富荣表示："制造业智能化转型的核心是研发数字化的持续深化以及AI与数字化的务实有效融合。元脑生态为我们提供了从算力支撑到生态资源的全栈保障，推动AI技术在研发设计、生产制造、质量管理等全流程场景的深度应用。我们将持续深化与浪潮信息的合作，让本土化工业软件与先进AI技术深度融合，为智能制造的高质量发展提供更具性价比的中国软件方案。"

浪潮信息渠道推进部总经理毛柏林指出："天河软件在工业软件领域三十年的技术沉淀和丰富的行业落地经验，进一步完善了元脑生态在制造业领域的应用布局。双方将以'算力+软件+服务'的协同模式，推动联合方案从试点验证走向规模普及，携手以软件之智，共赋智造之能。"

元脑生态由浪潮信息发起，旨在破解产业AI落地难题。通过聚合浪潮信息及生态伙伴的优质AI能力，构建领先的全栈AI解决方案，助力用户智能转型升级。目前，元脑生态已对接600余家算法厂商、8000余家系统集成商，并搭建商业协作线上平台AIStore。该平台兼具知识资源、交流服务与商机孵化功能，赋能"百模"与"千行"对接，已在智能制造、智慧金融、智慧科研等领域成功落地应用，助力千行百业加速AI产业创新，高效释放生产力。

]]> 从"只会看路"到"情境感知"：ICCV 2025自动驾驶挑战赛冠军方案详解 2025-11-19 17:09:00 图1 SimpleVSF整体架构图 SimpleVSF框架可以分为三个相互协作的模块：基础：基于扩散模型的轨迹候选生成框架的第一步是高效地生成一套多样化、高质量的候选轨迹集合。 * 技术选型：采用扩散模型（Diffusion-based Trajectory Generator）。 * 作用：扩散模型基于自车状态和环境的鸟瞰图（BEV）表示进行条件生成。其优势在于能够捕捉轨迹分布的多模态性，生成一系列在运动学上可行且具有差异性的锚点（Anchors），为后续的精确评估提供充足的"备选方案"。核心：VLM 增强的混合评分机制(VLM-Enhanced Scoring) SimpleVSF采用了混合评分策略，它搭建了高层语义与低层几何之间的桥梁。其工作原理如下： A．语义输入：利用一个经过微调的VLM（Qwen2VL-2B[4]）作为语义处理器。VLM 接收以下三种信息：（i）前视摄像头图像：提供场景的视觉细节。（ii）自车状态：实时速度、加速度等物理量。（iii）高层驾驶指令：规划系统输入的抽象指令，如"左转"、"向前行驶"等。 B.输出认知指令：VLM根据这些输入，输出认知指令（Cognitive Directives）。这些指令是高层的、类似于人类思考的抽象概念，例如：纵向指令："保持速度"、"加速"、"缓慢减速"、"停车" 横向指令："保持车道中心"、"微调向左"、"大角度右转" C.可学习的特征融合：这些抽象的语言/指令（如"停车"）首先通过一个可学习的编码层（Cognitive Directives Encoder），被巧妙地转换为密集的数值特征。这个VLM特征随后与自车状态和传统感知输入拼接（Concatenated），共同作为轨迹评分器解码的输入。通过这种显式融合，VLM的高层语义理解不再是模型隐含的特性，而是直接参与到轨迹的数值代价计算中。保障：双重轨迹融合策略（Trajectory Fusion）为了实现鲁棒、平衡的最终决策，SimpleVSF 采用了两种融合机制来保障最终输出轨迹的质量。 A.量化融合：权重融合器（Weight Fusioner, WF） * 机制：这是一个基于定量严谨性的主机制。它负责将来自多个评分器和多个模型（包括VLM增强评分器和传统评分器）的得分进行高效聚合。 * 融合流程：（i）指标聚合：将单个轨迹在不同维度（如碰撞风险、舒适度、效率）上的得分进行初次聚合。（ii）模型聚合：采用动态加权方案，根据当前场景的重要性，动态地调整来自不同模型（如多个VLM增强评分器）的聚合得分的权重。 * 作用：确保了在大多数常规场景下，最终的决策是基于多方输入、统计学上最可靠的选择。 B. 质性融合：VLM融合器（VLM Fusioner, VLMF）图2 VLM融合器的轨迹融合流程 * 机制：旨在通过VLM的定性推理能力进行最终的语义精炼。 * 融合流程：（i）轨迹精选：从每一个独立评分器中，选出排名最高的轨迹。（ii）LQR 模拟与渲染：这些精选轨迹通过 LQR 模拟器进行平滑处理，确保运动学可行性。然后，它们被可视化并渲染到当前的前视摄像头图像上，形成一个包含"潜在行动方案"的视觉信息图。（iii）将包含渲染轨迹的图像以及文本指令提交给一个更大、能力更强的 VLM 模型（Qwen2.5VL-72B[5] ），并明确要求 VLM 根据场景和指令，定性选择出"最合理"的轨迹。 * 作用：赋予了系统一道语义校验关卡，确保最终决策不仅数值最优，更在高层认知和常识上合理。三、实验结果为验证优化措施的有效性，浪潮信息AI团队在Navhard数据子集上进行了消融实验，结果如下表所示。以Version A作为基线（baseline）。表1 SimpleVSF在Navhard数据子集不同设置下的消融实验在不同特征提取网络的影响方面，浪潮信息AI团队使用了三种不同的Backbones，即V2-99[6]、EVA-ViT-L[7]、ViT-L[8] ，分别对应Version A、Version B、Version C。结果表明，Backbones的选择对性能起着重要作用。ViT-L明显优于其他Backbones。在VLM增强评分器的有效性方面，Version D和Version E集成了VLM增强评分器，Version D优于对应的相同backbone的传统评分器Version A，证明了语义指导的价值。虽然Version E的个体性能与对应的相同backbone的传统评分器Version C相比略低，但VLM增强评分器的真正优势在于它们的融合潜力。在轨迹融合策略的性能方面，通过融合策略，浪潮信息AI团队观察到了最显著的性能提升。WF B+C+D+E在Navhard数据集上取得了47.18的EPDMS得分。最终，浪潮信息AI团队在Private_test_hard分割数据集上也使用了这四个评分器的融合结果。VLMF A+B+C也取得了令人印象深刻的 EPDMS 47.68，但由于提交规则限制，未在最终的排行榜提交中使用此融合策略。表2 SimpleVSF在竞赛Private_test_hard数据子集上的表现在最终榜单的Private_test_hard分割数据集上，浪潮信息AI团队提出的SimpleVSF框架在排行榜上获得了第一名，取得了53.06的总EPDMS分数。对于Stage I，它在TLC（交通灯合规性）上获得了100分，在DAC（可驾驶区域合规性）和 DDC（驾驶方向合规性）上获得了99.29分，这展示了模型的鲁棒性及其对关键交通规则的遵守能力。对于Stage I和Stage II，浪潮信息AI团队的NC（无过失碰撞）分数在所有参赛团队中处于领先地位。虽然其他方法可能在某些方面表现出色，但浪潮信息AI团队的SimpleVSF在指标上实现了综合平衡。四、总结本文介绍了获得端到端自动驾驶赛道第一名的"SimpleVSF"算法模型。SimpleVSF框架成功地将视觉-语言模型从纯粹的文本/图像生成任务中引入到自动驾驶的核心决策循环，完成了从"感知-行动"到"感知-认知-行动"的升维。 [1] Chitta, K.; Prakash, A.; Jaeger, B.; Yu, Z.; Renz, K.; Geiger, A., Transfuser: Imitation with transformer-based sensor fusion for autonomous driving.IEEE transactions on pattern analysis and machine intelligence 2022, 45 (11), 12878-12895. [2] Liao, B.; Chen, S.; Yin, H.; Jiang, B.; Wang, C.; Yan, S.; Zhang, X.; Li, X.; Zhang, Y.; Zhang, Q. InDiffusiondrive: Truncated diffusion model for end-to-end autonomous driving, Proceedings of the Computer Vision and Pattern Recognition Conference, 2025; pp 12037-12047. [3] Li, Z.; Yao, W.; Wang, Z.; Sun, X.; Chen, J.; Chang, N.; Shen, M.; Wu, Z.; Lan, S.; Alvarez, J. M., Generalized Trajectory Scoring for End-to-end Multimodal Planning.arXiv preprint arXiv:2506.06664 2025. [4] Wang, P.; Bai, S.; Tan, S.; Wang, S.; Fan, Z.; Bai, J.; Chen, K.; Liu, X.; Wang, J.; Ge, W., Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution.arXiv preprint arXiv:2409.12191 2024. [5] Bai, S.; Chen, K.; Liu, X.; Wang, J.; Ge, W.; Song, S.; Dang, K.; Wang, P.; Wang, S.; Tang, J., Qwen2. 5-vl technical report.arXiv preprint arXiv:2502.13923 2025. [6] Lee, Y.; Hwang, J.-w.; Lee, S.; Bae, Y.; Park, J. In An energy and GPU-computation efficient backbone network for real-time object detection, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2019; pp 0-0. [7] Fang, Y.; Sun, Q.; Wang, X.; Huang, T.; Wang, X.; Cao, Y., Eva-02: A visual representation for neon genesis.Image and Vision Computing 2024, 149, 105171. [8] Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Dehghani, M.; Minderer, M.; Heigold, G.; Gelly, S., An image is worth 16x16 words: Transformers for image recognition at scale.arXiv preprint arXiv:2010.11929 2020. ]]> 北京2025年11月19日 /美通社/ -- 近日，在全球权威的ICCV 2025自动驾驶国际挑战赛（Autonomous Grand Challenge）中，浪潮信息AI团队所提交的"SimpleVSF"（Simple VLM-Scoring Fusion）算法模型以53.06的出色成绩斩获端到端自动驾驶赛道（NAVSIM v2 End-to-End Driving Challenge）第一名。

SimpleVSF深度融合了传统轨迹规划与视觉-语言模型（Vision-Language Model, VLM）的高级认知能力，能够理解复杂的交通情境，突破了现有端到端自动驾驶模型"只会看路、缺乏思考"的局限。这得益于两大关键创新：一方面，引入VLM增强打分器，使打分器不再仅仅依赖于原始的传感器数据，而是能够理解深层的交通意图和"常识"，从而选出更安全、更合理的驾驶方案；另一方面，采用双重轨迹融合决策机制（权重融合器和VLM融合器），进一步融合多个打分器选出的轨迹，确保最终决策不仅数值最优，而且语义合理。

本篇文章将根据浪潮信息提交的技术报告"SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving"，详解其使用的创新架构、优化措施和实验结果。

一、背景与挑战

近年来，自动驾驶技术飞速发展，正从传统的模块化流程（Modular Pipeline）逐步迈向更高效、更具鲁棒性的端到端（End-to-End）范式。传统的模块化系统（感知、定位、规划、控制）容易在各模块间积累误差，且面对复杂场景时，信息的层层传递往往导致决策滞后或次优。端到端方法旨在通过神经网络直接从传感器输入生成驾驶动作或轨迹，实现信息流的统一与优化。然而，要真正让机器像人类一样在复杂环境中做出"聪明"的决策，仍面临巨大的技术挑战。

NAVSIM框架旨在通过模拟基础的指标来解决现有问题，具体方法是展开场景简化的鸟瞰图（Bird's-Eye View, BEV）抽象，并在一个较短的模拟时间范围内推演出行车轨迹。为了超越仅在人类数据采集中观察到的状态下评估驾驶系统， NAVSIM v2 挑战赛引入了反应式背景交通参与者和真实的合成新视角输入，以便更好地评估模型的鲁棒性和泛化能力。

目前针对该类任务的主流方案大致可分为三类。第一类是基于Transformer自回归的方案，通过路径点的逐一预测得到预测轨迹，代表工作是Transfuser^[1]。第二类是基于Diffusion的方案，通过在去噪时引入各种控制约束得到预测轨迹，代表工作是DiffusionDrive^[2]。第三类是基于Scorer的方案，通过对一个预定义的轨迹词表进行打分筛选得到预测轨迹，代表工作是GTRS^[3]。

二、方法介绍

浪潮信息AI团队提出了SimpleVSF框架，其核心创新在于引入了视觉-语言模型（VLM）作为高层认知引擎，并设计了双重融合策略，将VLM的语义理解能力高效地注入到轨迹评分与选择的全流程中。

图1 SimpleVSF整体架构图

SimpleVSF框架可以分为三个相互协作的模块：

基础：基于扩散模型的轨迹候选生成

框架的第一步是高效地生成一套多样化、高质量的候选轨迹集合。

技术选型：采用扩散模型（Diffusion-based Trajectory Generator）。
作用：扩散模型基于自车状态和环境的鸟瞰图（BEV）表示进行条件生成。其优势在于能够捕捉轨迹分布的多模态性，生成一系列在运动学上可行且具有差异性的锚点（Anchors），为后续的精确评估提供充足的"备选方案"。

核心：VLM 增强的混合评分机制(VLM-Enhanced Scoring)

SimpleVSF采用了混合评分策略，它搭建了高层语义与低层几何之间的桥梁。其工作原理如下：

A．语义输入：利用一个经过微调的VLM（Qwen2VL-2B^[4]）作为语义处理器。VLM 接收以下三种信息：

（i）前视摄像头图像：提供场景的视觉细节。
（ii）自车状态：实时速度、加速度等物理量。
（iii）高层驾驶指令：规划系统输入的抽象指令，如"左转"、"向前行驶"等。

B.输出认知指令：VLM根据这些输入，输出认知指令（Cognitive Directives）。这些指令是高层的、类似于人类思考的抽象概念，例如：

纵向指令："保持速度"、"加速"、"缓慢减速"、"停车"
横向指令："保持车道中心"、"微调向左"、"大角度右转"

C.可学习的特征融合：这些抽象的语言/指令（如"停车"）首先通过一个可学习的编码层（Cognitive Directives Encoder），被巧妙地转换为密集的数值特征。这个VLM特征随后与自车状态和传统感知输入拼接（Concatenated），共同作为轨迹评分器解码的输入。通过这种显式融合，VLM的高层语义理解不再是模型隐含的特性，而是直接参与到轨迹的数值代价计算中。

保障：双重轨迹融合策略（Trajectory Fusion）

为了实现鲁棒、平衡的最终决策，SimpleVSF 采用了两种融合机制来保障最终输出轨迹的质量。

A.量化融合：权重融合器（Weight Fusioner, WF）

机制：这是一个基于定量严谨性的主机制。它负责将来自多个评分器和多个模型（包括VLM增强评分器和传统评分器）的得分进行高效聚合。
融合流程：

（i）指标聚合：将单个轨迹在不同维度（如碰撞风险、舒适度、效率）上的得分进行初次聚合。
（ii）模型聚合：采用动态加权方案，根据当前场景的重要性，动态地调整来自不同模型（如多个VLM增强评分器）的聚合得分的权重。

作用：确保了在大多数常规场景下，最终的决策是基于多方输入、统计学上最可靠的选择。

B. 质性融合：VLM融合器（VLM Fusioner, VLMF）

图2 VLM融合器的轨迹融合流程

机制：旨在通过VLM的定性推理能力进行最终的语义精炼。
融合流程：

（i）轨迹精选：从每一个独立评分器中，选出排名最高的轨迹。
（ii）LQR 模拟与渲染：这些精选轨迹通过 LQR 模拟器进行平滑处理，确保运动学可行性。然后，它们被可视化并渲染到当前的前视摄像头图像上，形成一个包含"潜在行动方案"的视觉信息图。
（iii）将包含渲染轨迹的图像以及文本指令提交给一个更大、能力更强的 VLM 模型（Qwen2.5VL-72B^[5]），并明确要求 VLM 根据场景和指令，定性选择出"最合理"的轨迹。

作用：赋予了系统一道语义校验关卡，确保最终决策不仅数值最优，更在高层认知和常识上合理。

三、实验结果

为验证优化措施的有效性，浪潮信息AI团队在Navhard数据子集上进行了消融实验，结果如下表所示。以Version A作为基线（baseline）。

表1 SimpleVSF在Navhard数据子集不同设置下的消融实验

在不同特征提取网络的影响方面，浪潮信息AI团队使用了三种不同的Backbones，即V2-99^[6]、EVA-ViT-L^[7]、ViT-L^[8]，分别对应Version A、Version B、Version C。结果表明，Backbones的选择对性能起着重要作用。ViT-L明显优于其他Backbones。

在VLM增强评分器的有效性方面，Version D和Version E集成了VLM增强评分器，Version D优于对应的相同backbone的传统评分器Version A，证明了语义指导的价值。虽然Version E的个体性能与对应的相同backbone的传统评分器Version C相比略低，但VLM增强评分器的真正优势在于它们的融合潜力。

在轨迹融合策略的性能方面，通过融合策略，浪潮信息AI团队观察到了最显著的性能提升。WF B+C+D+E在Navhard数据集上取得了47.18的EPDMS得分。最终，浪潮信息AI团队在Private_test_hard分割数据集上也使用了这四个评分器的融合结果。VLMF A+B+C也取得了令人印象深刻的 EPDMS 47.68，但由于提交规则限制，未在最终的排行榜提交中使用此融合策略。

表2 SimpleVSF在竞赛Private_test_hard数据子集上的表现

在最终榜单的Private_test_hard分割数据集上，浪潮信息AI团队提出的SimpleVSF框架在排行榜上获得了第一名，取得了53.06的总EPDMS分数。对于Stage I，它在TLC（交通灯合规性）上获得了100分，在DAC（可驾驶区域合规性）和 DDC（驾驶方向合规性）上获得了99.29分，这展示了模型的鲁棒性及其对关键交通规则的遵守能力。对于Stage I和Stage II，浪潮信息AI团队的NC（无过失碰撞）分数在所有参赛团队中处于领先地位。虽然其他方法可能在某些方面表现出色，但浪潮信息AI团队的SimpleVSF在指标上实现了综合平衡。

四、总结

本文介绍了获得端到端自动驾驶赛道第一名的"SimpleVSF"算法模型。SimpleVSF框架成功地将视觉-语言模型从纯粹的文本/图像生成任务中引入到自动驾驶的核心决策循环，完成了从"感知-行动"到"感知-认知-行动"的升维。

^[1] Chitta, K.; Prakash, A.; Jaeger, B.; Yu, Z.; Renz, K.; Geiger, A., Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. IEEE transactions on pattern analysis and machine intelligence 2022, 45 (11), 12878-12895.

^[2] Liao, B.; Chen, S.; Yin, H.; Jiang, B.; Wang, C.; Yan, S.; Zhang, X.; Li, X.; Zhang, Y.; Zhang, Q. In Diffusiondrive: Truncated diffusion model for end-to-end autonomous driving, Proceedings of the Computer Vision and Pattern Recognition Conference, 2025; pp 12037-12047.

^[3] Li, Z.; Yao, W.; Wang, Z.; Sun, X.; Chen, J.; Chang, N.; Shen, M.; Wu, Z.; Lan, S.; Alvarez, J. M., Generalized Trajectory Scoring for End-to-end Multimodal Planning. arXiv preprint arXiv:2506.06664 2025.

^[4] Wang, P.; Bai, S.; Tan, S.; Wang, S.; Fan, Z.; Bai, J.; Chen, K.; Liu, X.; Wang, J.; Ge, W., Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution. arXiv preprint arXiv:2409.12191 2024.

^[5] Bai, S.; Chen, K.; Liu, X.; Wang, J.; Ge, W.; Song, S.; Dang, K.; Wang, P.; Wang, S.; Tang, J., Qwen2. 5-vl technical report. arXiv preprint arXiv:2502.13923 2025.

^[6] Lee, Y.; Hwang, J.-w.; Lee, S.; Bae, Y.; Park, J. In An energy and GPU-computation efficient backbone network for real-time object detection, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2019; pp 0-0.

^[7] Fang, Y.; Sun, Q.; Wang, X.; Huang, T.; Wang, X.; Cao, Y., Eva-02: A visual representation for neon genesis. Image and Vision Computing 2024, 149, 105171.

^[8] Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Dehghani, M.; Minderer, M.; Heigold, G.; Gelly, S., An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 2020.

]]> 详解：本土AI超节点元脑SD200如何率先实现token生成速度8.9ms 2025-11-10 11:19:00 元脑SD200创新设计满足低延迟推理需求智能体时代的标志性特征是多模型协同与实时决策，每个智能体具备感知-决策-执行的闭环能力，涉及复杂的、多步骤的工作流，需要任务分解、自主决策以及持续的规划和执行。在智能体推理的过程中，即使是单个推理步骤中的延迟也会在多步骤任务中被指数级放大，导致用户体验迟滞。因此，token生成速度正成为影响用户评价的一个关键指标。元脑SD200超节点AI服务器基于高带宽、低延时、原生内存语义的开放总线协议，通过构建高性能交换单元打造3D Mesh高性能互连超扩展系统，支持64张本土AI芯片高密度算力扩展，能够很好地满足DeepSeek等大模型的低延迟推理需求，加快token生成速度。 * 精简互连协议：采用事务层-数据链路层-物理层三层精简互连协议，事务层天然支持Load/Store内存语义；数据链路层支持基于信用的流控机制和链路级错误重传保障；物理层建立10-12低误码率的高可靠物理通道，报文有效数据利用率达成96%以上。 * 全局统一编址：为解决跨主机域通信难题，设计独立于主机域的交换域全局地址空间，将多个独立主机域下的GPU在交换域进行统一的显存编址，为GPU互访提供基础保障。 * 全局地址映射与数据路由：创新研发影子设备技术，通过影子设备将远端GPU映射到本地主机域，实现所有独立主机对全局GPU的显存访问，通过端口高效转发技术实现跨主机P2P访问。定制通信算法深度适配元脑SD200 除了硬件方面的创新，浪潮信息AI团队也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征，完成了通信库、计算框架层面等多方面的优化，充分发挥了元脑SD200的计算性能，最终实现了低延迟推理。同时，也支持预填充-解码 (Prefill-Decode) 分离推理，在满足客户业务场景SLO需求的基础上提供更高性能。通信库层面，针对Allreduce、Allgather、Alltoall等典型通信算子，浪潮信息制定了与元脑SD200深度适配的通信算法。例如，对于Allreduce，为了充分发挥元脑SD200的低延迟优势，专为Allreduce设计了分层算法策略：针对小数据量，采用全量收集，本地规约的低延迟定制One-Shot算法，旨在最小化GPU间的同步与通信开销；针对大数据量，采用高吞吐的定制化环形算法，以彻底解决带宽瓶颈并实现最优带宽利用率。而对于模型应用中最常见的中等数据量，则采用兼顾延迟与带宽的定制Two-Shot算法。浪潮信息更结合芯片缓存特性对此核心场景进行了深度优化：对中小数据量启用无缓存方案以追求极致延迟；对中大数据量则启用缓存方案，从而最大化吞吐效率。实测数据表明，在64 GPU集群上进行DeepSeek R1 671B模型的BF16推理时，针对Batch Size为1的decode阶段（其Allreduce数据量约为14 KB），优化后的算法将通信时延降低了5.8倍。此外，在16 KB至16 MB这一核心数据量区间内，定制优化算法的通信时延相较于未优化前的实现降低了1.6至5.8倍；与传统scale-out系统相比，时延降低幅度则进一步扩大至4.5至12.7倍。全方位框架优化保障计算低延迟框架层面，浪潮信息AI团队完成了并行方式、算子融合、多流水线等多方面优化，来保证计算的低延迟。首先，在并行方式上，选择了整网的张量并行。在此并行模式下，通过模型均匀切分实现了设备间计算负载的完全均衡、各个计算板卡之间计算的完全并行和同步，消除了流水线气泡与负载不均衡问题。同时，元脑SD200的高带宽、低延迟确保了AllReduce、AllGather等通信算子性能的大幅提升，使得通信时间大幅下降，从而实现了超低延迟的推理性能。其次，在算子上，实现了极致的算子融合等优化。GPU的计算速度远远超过了内存带宽的访问速度，从内存中读写数据的时间成本，大部分时候比实际进行计算的时间成本还要高。算子融合可以通过减少不必要的内存读写和计算开销，来显著提升推理速度、降低延迟并减少内存占用，所以基于SGlang框架的已有实现，进行了多个算子的融合。 * 对MLA模块中attn_mla计算前的算子进行融合，该融合算子以Query和Key向量进行RMSnorm计算后的输出为输入，以attn_mla计算的输入q_input、k_input、v_input等为输出，包含bmm计算、rotary_emb计算以及向量拆分转置等计算； * RMSNorm和add计算融合； * 实现int8精度的量化和RMSNorm、silu等激活函数的融合； * 将路由专家分组选择中多个算子的融合为一个算子。最后，也进行了多stream的优化。多个算子计算时，默认在单stream模式下，所有操作都排成一条队，一个接一个地执行。当算子本身的计算量不是很大时，会导致GPU的部分硬件单元在计算时处于空闲状态，也就浪费了计算资源。多stream优化就是为了让这些硬件单元"同时忙起来"，对于相互之间没有依赖关系的操作，可以放到不同的stream中并行执行，提高硬件的利用效率，同时减小整体的计算时间。在多stream并行优化方面，浪潮信息实现了MLA层的多个layernorm计算的并行，并实现了MoE阶段和共享专家计算和路由专家分组选择的并行等，实现了约10%的性能提升。预填充-解码分离软件提高整体计算性能此外，浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件，针对预填充与解码不同的计算特性，使用不同的并行计算策略、硬件配置等，提高系统整体的计算性能。同时在业务部署中，支持节点服务的动态扩展；支持利用负载均衡和键值缓存(KV cache)命中率进行任务分配，把任务下发到键值缓存匹配度相对较高、任务负载相对较小的节点，减少重复计算，同时最大化计算资源利用率。另外，PD分离软件还实现了键值缓存offload技术，可把键值缓存到CPU端内存与分布式存储系统上，增大缓存空间。元脑SD200超节点AI服务器通过高带宽和超低延迟通信、超大显存池、智能路由优化、PD分离推理等创新技术，大幅提升了DeepSeek、Kimi等大模型的推理输出速度。元脑SD200搭载64张本土AI芯片运行DeepSeek R1大模型，当输入长度为4096、输出长度为1024时，单用户token生成达到112 tokens/s，每token生成时间仅为8.9ms，率先实现国内AI服务器token生成速度低于10ms，将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。 ]]> 北京2025年11月10日 /美通社/ -- 近日，在2025人工智能计算大会上，浪潮信息公布，基于元脑SD200超节点AI服务器，DeepSeek R1大模型token生成速度仅需8.9毫秒，创造国内大模型最快token生成速度。

元脑SD200创新设计满足低延迟推理需求

智能体时代的标志性特征是多模型协同与实时决策，每个智能体具备感知-决策-执行的闭环能力，涉及复杂的、多步骤的工作流，需要任务分解、自主决策以及持续的规划和执行。在智能体推理的过程中，即使是单个推理步骤中的延迟也会在多步骤任务中被指数级放大，导致用户体验迟滞。因此，token生成速度正成为影响用户评价的一个关键指标。

元脑SD200超节点AI服务器基于高带宽、低延时、原生内存语义的开放总线协议，通过构建高性能交换单元打造3D Mesh高性能互连超扩展系统，支持64张本土AI芯片高密度算力扩展，能够很好地满足DeepSeek等大模型的低延迟推理需求，加快token生成速度。

精简互连协议：采用事务层-数据链路层-物理层三层精简互连协议，事务层天然支持Load/Store内存语义；数据链路层支持基于信用的流控机制和链路级错误重传保障；物理层建立10-12低误码率的高可靠物理通道，报文有效数据利用率达成96%以上。

全局统一编址：为解决跨主机域通信难题，设计独立于主机域的交换域全局地址空间，将多个独立主机域下的GPU在交换域进行统一的显存编址，为GPU互访提供基础保障。

全局地址映射与数据路由：创新研发影子设备技术，通过影子设备将远端GPU映射到本地主机域，实现所有独立主机对全局GPU的显存访问，通过端口高效转发技术实现跨主机P2P访问。

定制通信算法深度适配元脑SD200

除了硬件方面的创新，浪潮信息AI团队也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征，完成了通信库、计算框架层面等多方面的优化，充分发挥了元脑SD200的计算性能，最终实现了低延迟推理。同时，也支持预填充-解码 (Prefill-Decode) 分离推理，在满足客户业务场景SLO需求的基础上提供更高性能。

通信库层面，针对Allreduce、Allgather、Alltoall等典型通信算子，浪潮信息制定了与元脑SD200深度适配的通信算法。例如，对于Allreduce，为了充分发挥元脑SD200的低延迟优势，专为Allreduce设计了分层算法策略：针对小数据量，采用全量收集，本地规约的低延迟定制One-Shot算法，旨在最小化GPU间的同步与通信开销；针对大数据量，采用高吞吐的定制化环形算法，以彻底解决带宽瓶颈并实现最优带宽利用率。而对于模型应用中最常见的中等数据量，则采用兼顾延迟与带宽的定制Two-Shot算法。浪潮信息更结合芯片缓存特性对此核心场景进行了深度优化：对中小数据量启用无缓存方案以追求极致延迟；对中大数据量则启用缓存方案，从而最大化吞吐效率。

实测数据表明，在64 GPU集群上进行DeepSeek R1 671B模型的BF16推理时，针对Batch Size为1的decode阶段（其Allreduce数据量约为14 KB），优化后的算法将通信时延降低了5.8倍。此外，在16 KB至16 MB这一核心数据量区间内，定制优化算法的通信时延相较于未优化前的实现降低了1.6至5.8倍；与传统scale-out系统相比，时延降低幅度则进一步扩大至4.5至12.7倍。

全方位框架优化保障计算低延迟

框架层面，浪潮信息AI团队完成了并行方式、算子融合、多流水线等多方面优化，来保证计算的低延迟。

首先，在并行方式上，选择了整网的张量并行。在此并行模式下，通过模型均匀切分实现了设备间计算负载的完全均衡、各个计算板卡之间计算的完全并行和同步，消除了流水线气泡与负载不均衡问题。同时，元脑SD200的高带宽、低延迟确保了AllReduce、AllGather等通信算子性能的大幅提升，使得通信时间大幅下降，从而实现了超低延迟的推理性能。

其次，在算子上，实现了极致的算子融合等优化。GPU的计算速度远远超过了内存带宽的访问速度，从内存中读写数据的时间成本，大部分时候比实际进行计算的时间成本还要高。算子融合可以通过减少不必要的内存读写和计算开销，来显著提升推理速度、降低延迟并减少内存占用，所以基于SGlang框架的已有实现，进行了多个算子的融合。

对MLA模块中attn_mla计算前的算子进行融合，该融合算子以Query和Key向量进行RMSnorm计算后的输出为输入，以attn_mla计算的输入q_input、k_input、v_input等为输出，包含bmm计算、rotary_emb计算以及向量拆分转置等计算；

RMSNorm和add计算融合；

实现int8精度的量化和RMSNorm、silu等激活函数的融合；

将路由专家分组选择中多个算子的融合为一个算子。

最后，也进行了多stream的优化。多个算子计算时，默认在单stream模式下，所有操作都排成一条队，一个接一个地执行。当算子本身的计算量不是很大时，会导致GPU的部分硬件单元在计算时处于空闲状态，也就浪费了计算资源。多stream优化就是为了让这些硬件单元"同时忙起来"，对于相互之间没有依赖关系的操作，可以放到不同的stream中并行执行，提高硬件的利用效率，同时减小整体的计算时间。在多stream并行优化方面，浪潮信息实现了MLA层的多个layernorm计算的并行，并实现了MoE阶段和共享专家计算和路由专家分组选择的并行等，实现了约10%的性能提升。

预填充-解码分离软件提高整体计算性能

此外，浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件，针对预填充与解码不同的计算特性，使用不同的并行计算策略、硬件配置等，提高系统整体的计算性能。同时在业务部署中，支持节点服务的动态扩展；支持利用负载均衡和键值缓存(KV cache)命中率进行任务分配，把任务下发到键值缓存匹配度相对较高、任务负载相对较小的节点，减少重复计算，同时最大化计算资源利用率。另外，PD分离软件还实现了键值缓存offload技术，可把键值缓存到CPU端内存与分布式存储系统上，增大缓存空间。

元脑SD200超节点AI服务器通过高带宽和超低延迟通信、超大显存池、智能路由优化、PD分离推理等创新技术，大幅提升了DeepSeek、Kimi等大模型的推理输出速度。元脑SD200搭载64张本土AI芯片运行DeepSeek R1大模型，当输入长度为4096、输出长度为1024时，单用户token生成达到112 tokens/s，每token生成时间仅为8.9ms，率先实现国内AI服务器token生成速度低于10ms，将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。

]]> 浪潮信息刘军：速度就是金钱，AI超节点的商业价值核心是Token交互速度 2025-11-06 17:35:00 浪潮信息首席AI战略官刘军智能体时代，速度就是金钱规模扩展定律（Scaling Law）一直是驱动大模型智能持续增长的底层逻辑，推动着模型参数量从百亿、千亿迈向现在的万亿。在后训练阶段更多的算力投入，能显著提升模型的推理能力，而以推理能力为代表的复杂思维的涌现，是构建智能体应用的基础。另一方面，以DeepSeek为代表的开源大模型极大的降低了创新门槛，加速了智能体产业化的到来。 Scaling Law驱动智能持续进化刘军指出，"智能体产业化的核心三要素是能力、速度和成本。其中，token交互速度决定了智能体的商业价值。在当下最常见的人机对话场景中，基本上按照大概50毫秒的水平，就是每秒输出20个token，人的阅读速度就能跟得上。但很多人还没意识到，未来的智能体时代会更多的出现机器与机器之间的交互场景，对于智能体之间的交互而言，这个速度远远不够，比如说直播电商、量化交易、欺诈防控等特定业务场景中，对token生成速度的最低要求都是10毫秒以下。" 以高强度、实时互动的直播电商场景为例。2024年底，某知名直播电商平台进行了专家组合智能体的A/B实验，实验组部署了经过深度优化的智能体，对照组则使用未经优化的标准版本智能体，优化后的智能体平均响应延迟相较于对照组降低了38%。实验结果表明，部署了低延迟智能体的直播间，其商品交易总额（GMV）平均提升了11.4%，同时用户的复购率也取得了7.8%的显著增长。 38%的延迟降低，并非提升了智能体回答内容的质量，而是确保了这些回答能够被精准地投递在用户购买意图最为强烈的"黄金窗口"期内。在直播电商这类场景中，用户的购买意图是瞬时且易逝的。一个高延迟的回答意味着当智能体还在"思考"时，用户的注意力可能已经转移，或者主播已经开始介绍下一件商品，从而错失了最佳的销售转化窗口。 "在智能体时代，快，不再是可选项，而是商业成功的刚性约束。"刘军强调，"只有当智能体的响应快于业务决策的窗口期，快于用户耐心消逝的临界点……AI才能真正成为核心生产力。" token交互速度正在重塑AI算力价值评估体系事实上，对于token交互速度的考量正在重构AI算力系统的价值评估体系。最近广受关注的InferenceMax™ 开源AI基准测试，正在创造一种动态追踪模型更迭的算力评估体系，试图在真实AI推理环境下衡量各类AI算力系统的综合效率。在这一基准测试中，token生成速度被列为最重要的一项衡量指标。 SemiAnalysis InferenceMAX™ 开源AI基准测试；横轴：交互速度（Interactivity，单位：tok/s/user）；纵轴：单位GPU token吞吐量（Token Throughput per GPU，单位：tok/s/gpu）同时，清华大学与中国软件评测中心（CSTC）对20余家主流大模型服务提供商的综合表现进行了全面评估，联合发布了大模型服务性能排行榜，明确指出延迟指标是用户体验的核心，直接决定用户留存，是平台差异化竞争的首要技术门槛。因此，速度同样也成为了大模型API服务提供商的核心竞争力。当前，全球主要大模型API服务商的token生成速度，基本维持在10~20 毫秒左右，而国内的生成速度普遍高于30毫秒。全球大模型API服务商DeepSeek Token生成速度元脑SD200将token生成速度带入"10毫秒时代" 要实现更低延迟的token生成能力，必然要求底层算力基础设施在系统架构、互联协议、软件框架等关键点上进行协同创新。浪潮信息对元脑SD200超节点AI服务器进行了大量的软硬件协同创新与优化，实现DeepSeek R1大模型单token生成速度低至8.9毫秒，带动国内AI服务器token生成速度率先进入"10毫秒时代"。元脑SD200超节点AI服务器对于为何能在token生成速度上实现如此出色的性能，刘军表示，智能体中各个模型之间的交互，很多时候通信数据包并不是很大，超高的带宽会出现浪费，"就像是从a地到b地修了16车道的高速公路，但是车辆在16车道上只跑了很短的距离，反而在上高速和下高速这两个节点花了很长时间。浪潮信息的优化重点，就是解决车辆上高速和下高速的卡点问题，让车辆直通上来，直通下去。" 元脑SD200采用了独创的多主机3D Mesh系统架构，实现单机64路本土AI芯片高密度算力扩展，原生支持开放加速模组OAM，兼容多元AI芯片。同时，元脑SD200通过远端GPU虚拟映射技术创新，突破跨主机域统一编址难题，实现显存统一地址空间扩增8倍，单机可以提供最大4TB显存和64TB内存，为万亿参数、超长序列大模型提供充足键值缓存空间。基于创新的系统架构设计，元脑SD200单机即可承载4万亿单体模型，或者同时部署由多个万亿参数模型构成的智能体，多模协作执行复杂任务。元脑SD200创新多主机3D Mesh系统架构互连协议的设计是元脑SD200实现极低通信延迟的关键，浪潮信息做了大量的通信优化和技术创新，如采用极致精简的3层协议栈，并原生支持 Load/Store等"内存语义"，让GPU可直接访问远端节点的显存或主存，将基础通信延迟缩短至百纳秒级；另外Open Fabric原生支持由硬件逻辑实现的链路层重传，重传延迟低至微秒级，特别是分布式、预防式的流控机制，实现全局任务均在发送前确保接收端有能力接收，从根本上避免了拥塞和丢包。元脑SD200极低Latency通信除了硬件方面的创新，浪潮信息也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征，完成了通信库、计算框架、PD分离策略等多方面的优化，大幅提升了DeepSeek、Kimi等大模型的推理输出速度。通信库层面，针对Allreduce、Allgather、Alltoall等典型通信算子，浪潮信息制定了与元脑SD200深度适配的通信算法；框架层面，浪潮信息完成了并行方式、算子融合、多流水线等多方面优化，来保证计算的低延迟；在推理阶段，浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件，针对预填充与解码不同的计算特性，使用不同的并行计算策略、硬件配置等，提高系统整体的计算性能。实测数据显示，元脑SD200搭载64张本土AI芯片运行DeepSeek R1大模型，当输入长度为4096、输出长度为1024时，单用户token生成达到112 tokens/s，每token生成时间仅为8.9ms，率先实现国内AI服务器token生成速度低于10ms，将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。未来十年AI经济的增长边界，从某种意义而言，将取决于整个行业在算法、软件和硬件层面协同攻克延迟挑战的能力。"速度就是金钱"不仅是一种新的商业主张，更是驱动下一代人工智能增长的核心经济逻辑。浪潮信息将面向智能体产业化需求，持续以架构创新激发产业创新活力，让AI成为百行千业的生产力和创新力。 ]]> 北京2025年11月6日 /美通社/ -- "在AI超节点系统的设计上，不应该再依照惯性思维，过分追求规模，而是应该从客户视角出发，把token交互速度作为关键衡量指标，这是智能体时代AI超节点的核心商业价值。"这是浪潮信息首席AI战略官刘军近期接受采访时，反复强调的一点。

浪潮信息首席AI战略官刘军

智能体时代，速度就是金钱

规模扩展定律（Scaling Law）一直是驱动大模型智能持续增长的底层逻辑，推动着模型参数量从百亿、千亿迈向现在的万亿。在后训练阶段更多的算力投入，能显著提升模型的推理能力，而以推理能力为代表的复杂思维的涌现，是构建智能体应用的基础。另一方面，以DeepSeek为代表的开源大模型极大的降低了创新门槛，加速了智能体产业化的到来。

Scaling Law驱动智能持续进化

刘军指出，"智能体产业化的核心三要素是能力、速度和成本。其中，token交互速度决定了智能体的商业价值。在当下最常见的人机对话场景中，基本上按照大概50毫秒的水平，就是每秒输出20个token，人的阅读速度就能跟得上。但很多人还没意识到，未来的智能体时代会更多的出现机器与机器之间的交互场景，对于智能体之间的交互而言，这个速度远远不够，比如说直播电商、量化交易、欺诈防控等特定业务场景中，对token生成速度的最低要求都是10毫秒以下。"

以高强度、实时互动的直播电商场景为例。2024年底，某知名直播电商平台进行了专家组合智能体的A/B实验，实验组部署了经过深度优化的智能体，对照组则使用未经优化的标准版本智能体，优化后的智能体平均响应延迟相较于对照组降低了38%。实验结果表明，部署了低延迟智能体的直播间，其商品交易总额（GMV）平均提升了11.4%，同时用户的复购率也取得了7.8%的显著增长。

38%的延迟降低，并非提升了智能体回答内容的质量，而是确保了这些回答能够被精准地投递在用户购买意图最为强烈的"黄金窗口"期内。在直播电商这类场景中，用户的购买意图是瞬时且易逝的。一个高延迟的回答意味着当智能体还在"思考"时，用户的注意力可能已经转移，或者主播已经开始介绍下一件商品，从而错失了最佳的销售转化窗口。

"在智能体时代，快，不再是可选项，而是商业成功的刚性约束。"刘军强调，"只有当智能体的响应快于业务决策的窗口期，快于用户耐心消逝的临界点……AI才能真正成为核心生产力。"

token交互速度正在重塑AI算力价值评估体系

事实上，对于token交互速度的考量正在重构AI算力系统的价值评估体系。最近广受关注的InferenceMax™ 开源AI基准测试，正在创造一种动态追踪模型更迭的算力评估体系，试图在真实AI推理环境下衡量各类AI算力系统的综合效率。在这一基准测试中，token生成速度被列为最重要的一项衡量指标。

SemiAnalysis InferenceMAX™ 开源AI基准测试；横轴：交互速度（Interactivity，单位：tok/s/user）；纵轴：单位GPU token吞吐量（Token Throughput per GPU，单位：tok/s/gpu）

同时，清华大学与中国软件评测中心（CSTC）对20余家主流大模型服务提供商的综合表现进行了全面评估，联合发布了大模型服务性能排行榜，明确指出延迟指标是用户体验的核心，直接决定用户留存，是平台差异化竞争的首要技术门槛。因此，速度同样也成为了大模型API服务提供商的核心竞争力。当前，全球主要大模型API服务商的token生成速度，基本维持在10~20 毫秒左右，而国内的生成速度普遍高于30毫秒。

全球大模型API服务商DeepSeek Token生成速度

元脑SD200将token生成速度带入"10毫秒时代"

要实现更低延迟的token生成能力，必然要求底层算力基础设施在系统架构、互联协议、软件框架等关键点上进行协同创新。

浪潮信息对元脑SD200超节点AI服务器进行了大量的软硬件协同创新与优化，实现DeepSeek R1大模型单token生成速度低至8.9毫秒，带动国内AI服务器token生成速度率先进入"10毫秒时代"。

元脑SD200超节点AI服务器

对于为何能在token生成速度上实现如此出色的性能，刘军表示，智能体中各个模型之间的交互，很多时候通信数据包并不是很大，超高的带宽会出现浪费，"就像是从a地到b地修了16车道的高速公路，但是车辆在16车道上只跑了很短的距离，反而在上高速和下高速这两个节点花了很长时间。浪潮信息的优化重点，就是解决车辆上高速和下高速的卡点问题，让车辆直通上来，直通下去。"

元脑SD200采用了独创的多主机3D Mesh系统架构，实现单机64路本土AI芯片高密度算力扩展，原生支持开放加速模组OAM，兼容多元AI芯片。同时，元脑SD200通过远端GPU虚拟映射技术创新，突破跨主机域统一编址难题，实现显存统一地址空间扩增8倍，单机可以提供最大4TB显存和64TB内存，为万亿参数、超长序列大模型提供充足键值缓存空间。基于创新的系统架构设计，元脑SD200单机即可承载4万亿单体模型，或者同时部署由多个万亿参数模型构成的智能体，多模协作执行复杂任务。

元脑SD200创新多主机3D Mesh系统架构

互连协议的设计是元脑SD200实现极低通信延迟的关键，浪潮信息做了大量的通信优化和技术创新，如采用极致精简的3层协议栈，并原生支持 Load/Store等"内存语义"，让GPU可直接访问远端节点的显存或主存，将基础通信延迟缩短至百纳秒级；另外Open Fabric原生支持由硬件逻辑实现的链路层重传，重传延迟低至微秒级，特别是分布式、预防式的流控机制，实现全局任务均在发送前确保接收端有能力接收，从根本上避免了拥塞和丢包。

元脑SD200极低Latency通信

除了硬件方面的创新，浪潮信息也针对DeepSeek、Kimi等模型的计算特征和元脑SD200的硬件架构特征，完成了通信库、计算框架、PD分离策略等多方面的优化，大幅提升了DeepSeek、Kimi等大模型的推理输出速度。通信库层面，针对Allreduce、Allgather、Alltoall等典型通信算子，浪潮信息制定了与元脑SD200深度适配的通信算法；框架层面，浪潮信息完成了并行方式、算子融合、多流水线等多方面优化，来保证计算的低延迟；在推理阶段，浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件，针对预填充与解码不同的计算特性，使用不同的并行计算策略、硬件配置等，提高系统整体的计算性能。

实测数据显示，元脑SD200搭载64张本土AI芯片运行DeepSeek R1大模型，当输入长度为4096、输出长度为1024时，单用户token生成达到112 tokens/s，每token生成时间仅为8.9ms，率先实现国内AI服务器token生成速度低于10ms，将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。

未来十年AI经济的增长边界，从某种意义而言，将取决于整个行业在算法、软件和硬件层面协同攻克延迟挑战的能力。"速度就是金钱"不仅是一种新的商业主张，更是驱动下一代人工智能增长的核心经济逻辑。浪潮信息将面向智能体产业化需求，持续以架构创新激发产业创新活力，让AI成为百行千业的生产力和创新力。

]]> 浪潮信息AI团队获ICCV 2025 自动驾驶竞赛"端到端自动驾驶"赛道冠军 2025-10-28 18:19:00 浪潮信息AI团队斩获端到端自动驾驶赛道第一名 ICCV2025自动驾驶挑战赛是自动驾驶与具身智能领域极具影响力的国际赛事。本届比赛共设三大赛道，此次浪潮信息AI团队所登顶的端到端自动驾驶赛道（NAVSIM v2 End-to-End Driving Challenge）是ICCV2025最受关注的赛道之一。比赛以NAVSIM v2数据驱动仿真框架作为评估平台，主要考验纯视觉环视相机输入的轨迹预测与行为规划能力，要求在保证行车安全性的前提下，优化车辆的前进效率、避障能力、可行驶区域、驾驶舒适度等九项关键指标，避免模型只在某一单项上表现突出的缺陷。该赛道吸引了来自中国、韩国、瑞典的多家头部智驾企业及知名高校与研究机构。端到端自动驾驶：挑战基于语义理解的类人决策当前，端到端自动驾驶（End-to-End Autonomous Driving）通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失，被广泛认为是实现智能驾驶的重要发展方向。然而，端到端自动驾驶系统在复杂现实路况中的决策能力仍不理想，主要问题在于：现有方法虽能准确识别车辆、车道等实体元素，却难以理解如礼让行人、拥堵跟车等高层次语义与场景常识。因此，在复杂长尾场景下，系统往往仅能依据数据关联做出反应，而无法真正解读交通参与者意图或交互逻辑，从而出现次优决策，限制了其在真实开放道路中的可靠性与泛化能力。在此基础上，如何将深层语义认知能力融入轨迹规划流程，成为了更深层次的技术挑战。首先，将视觉语言模型输出的抽象认知指令，转化为驱动控制系统所需的具象数值化特征，本身就是一个复杂的表示学习问题。其次，在轨迹选择阶段，如何平衡数据驱动的量化评分与知识驱动的语义判断，确保所选轨迹不仅在数学上最优，也在语义和场景常识上合理安全，成为感知与决策间的关键障碍。本届赛题旨在提升端到端自动驾驶模型在复杂动态环境中高效可靠决策的能力。竞赛分为两阶段：第一阶段采用真实场景数据，第二阶段则基于真实场景通过Gaussian Splatting技术生成合成场景，以测试模型对"非真实但物理合理"场景的泛化能力；同时引入"反应式背景交通参与者"，即周围车辆和行人不再是预先设定、机械运动的，而是会根据自车的实时行为做出动态、仿真的反应，这要求模型具备更深层次的交互式预测与意图理解能力，而非简单的轨迹外推。 NAVSIM v2端到端自动驾驶赛题任务概览 EPDMS 53.06分，SimpleVSF框架让自动驾驶模型"懂场景、会思考" 在端到端自动驾驶赛道中，浪潮信息AI团队所提出的SimpleVSF（Simple VLM-Scoring Fusion）框架，有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟，推动自动驾驶决策从"纯几何式"向"认知式"转变。该框架通过引入VLM（Vision-Language Model）与双重融合决策机制，赋予系统深层的场景理解与推理能力，从根本上解决了现有方案在复杂交通语义认知上的不足，成为应对NAVSIM v2等高难度挑战、实现高鲁棒性驾驶的关键。其主要技术创新包括： * VLM增强打分机制，决策质量与场景适应性显著提升通过将前视图像与车辆状态输入VLM模型，生成"加速、右转"等认知指令，再经编码器转换为数值特征，与感知特征融合后输入评分网络。该机制使轨迹评估不再局限于几何信息，更融入了对交通意图与场景语义的理解，从而显著提升了系统在复杂与长尾场景下的决策质量与鲁棒性。实验表明，此VLM增强打分机制为单一模型带来2%的性能提升，在融合决策中提升幅度达到6%。 SimpleVSF算法架构图 * 双重融合决策机制，量化权衡与语义裁决能力双重突破权重融合器作为定量聚合的核心，采用固定权重与动态权重相结合的策略，对多个评分器给出的分数进行精准的加权融合，确保最终轨迹在各项量化指标上达到最优。基于VLM的选择融合器则将各评分器选出的最优轨迹进行视觉渲染，并交由VLM进行最终评判，利用其高层次语义理解能力，选择出最符合上下文场景、最安全合理的轨迹路径。融合机制的引入使决策效果显著提升，融合后的结果相比单一模型性能提升达10%。基于VLM的轨迹选择方法 * 更坚实的基础模型协同，系统性能与鲁棒性全面提升该框架采用扩散模型生成高质量的多样化候选轨迹，奠定规划基础；运用ViT-L等先进视觉骨干网络进行高效、鲁棒的环境特征提取，为下游任务提供可靠表征；并引入Qwen2.5VL系列视觉语言模型，利用其在场景理解与指令生成方面的语义优势，确保系统整体性能基础的坚实与领先。基于VLM自动驾驶决策系统的算法创新，"SimpleVSF"算法框架成功登顶端到端自动驾驶赛道（NAVSIM v2 End-to-End Driving Challenge）榜单，以53.06的EPDMS综合得分创造了本赛道的最高成绩，为探索更高级别的端到端自动驾驶技术提供了有力的支撑与经验。浪潮信息AI团队此次夺冠，是继22、23年登顶nuScenes 3D目标检测纯视觉及多模态榜单，24年在CVPR自动驾驶国际挑战赛"Occupancy & Flow"赛道夺冠后的又一重要成果。未来，浪潮信息AI团队将践行多角度切入，发挥算法、算力融合的AI全栈优化能力，推动自动驾驶领域的技术创新发展。 * 备注：文内所涉术语解释如下扩展预测性驾驶模型评分（The Extended Predictive Driver Model Score，EPDMS）：该指标综合考量轨迹预测与真实轨迹的贴合度、碰撞风险、可行驶区域规范性、车道居中性、通行效率及舒适性等多个维度，全面反映自动驾驶系统的综合表现；高斯泼溅（Gaussian Splatting）：一种新兴的三维场景表示与渲染技术；鸟瞰视图（Bird's Eye View，BEV）：是指将特征信息转化至鸟瞰视角；自车（ego-car）：在自动驾驶领域指代当前车辆自身，通常作为运动主体参与轨迹规划、环境感知等任务；鲁棒（Robust）：是指系统在一定的参数摄动下，维持其它某些性能的特性。 ]]> 北京2025年10月28日 /美通社/ -- 近日，在ICCV 2025自动驾驶国际挑战赛（Autonomous Grand Challenge 2025）中，浪潮信息AI团队凭借其提出的创新框架"SimpleVSF"，以53.06的EPDMS综合得分，在端到端自动驾驶赛道中夺得冠军。该项目创新构建以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案，发挥大模型泛化能力，突破现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限，实现性能领先，为高动态、高交互交通环境下的智能决策提供了全新思路。

浪潮信息AI团队斩获端到端自动驾驶赛道第一名

ICCV2025自动驾驶挑战赛是自动驾驶与具身智能领域极具影响力的国际赛事。本届比赛共设三大赛道，此次浪潮信息AI团队所登顶的端到端自动驾驶赛道（NAVSIM v2 End-to-End Driving Challenge）是ICCV2025最受关注的赛道之一。比赛以NAVSIM v2数据驱动仿真框架作为评估平台，主要考验纯视觉环视相机输入的轨迹预测与行为规划能力，要求在保证行车安全性的前提下，优化车辆的前进效率、避障能力、可行驶区域、驾驶舒适度等九项关键指标，避免模型只在某一单项上表现突出的缺陷。该赛道吸引了来自中国、韩国、瑞典的多家头部智驾企业及知名高校与研究机构。

端到端自动驾驶：挑战基于语义理解的类人决策

当前，端到端自动驾驶（End-to-End Autonomous Driving）通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失，被广泛认为是实现智能驾驶的重要发展方向。然而，端到端自动驾驶系统在复杂现实路况中的决策能力仍不理想，主要问题在于：现有方法虽能准确识别车辆、车道等实体元素，却难以理解如礼让行人、拥堵跟车等高层次语义与场景常识。因此，在复杂长尾场景下，系统往往仅能依据数据关联做出反应，而无法真正解读交通参与者意图或交互逻辑，从而出现次优决策，限制了其在真实开放道路中的可靠性与泛化能力。

在此基础上，如何将深层语义认知能力融入轨迹规划流程，成为了更深层次的技术挑战。首先，将视觉语言模型输出的抽象认知指令，转化为驱动控制系统所需的具象数值化特征，本身就是一个复杂的表示学习问题。其次，在轨迹选择阶段，如何平衡数据驱动的量化评分与知识驱动的语义判断，确保所选轨迹不仅在数学上最优，也在语义和场景常识上合理安全，成为感知与决策间的关键障碍。

本届赛题旨在提升端到端自动驾驶模型在复杂动态环境中高效可靠决策的能力。竞赛分为两阶段：第一阶段采用真实场景数据，第二阶段则基于真实场景通过Gaussian Splatting技术生成合成场景，以测试模型对"非真实但物理合理"场景的泛化能力；同时引入"反应式背景交通参与者"，即周围车辆和行人不再是预先设定、机械运动的，而是会根据自车的实时行为做出动态、仿真的反应，这要求模型具备更深层次的交互式预测与意图理解能力，而非简单的轨迹外推。

NAVSIM v2端到端自动驾驶赛题任务概览

EPDMS 53.06分，SimpleVSF框架让自动驾驶模型"懂场景、会思考"

在端到端自动驾驶赛道中，浪潮信息AI团队所提出的SimpleVSF（Simple VLM-Scoring Fusion）框架，有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟，推动自动驾驶决策从"纯几何式"向"认知式"转变。该框架通过引入VLM（Vision-Language Model）与双重融合决策机制，赋予系统深层的场景理解与推理能力，从根本上解决了现有方案在复杂交通语义认知上的不足，成为应对NAVSIM v2等高难度挑战、实现高鲁棒性驾驶的关键。其主要技术创新包括：

VLM增强打分机制，决策质量与场景适应性显著提升

通过将前视图像与车辆状态输入VLM模型，生成"加速、右转"等认知指令，再经编码器转换为数值特征，与感知特征融合后输入评分网络。该机制使轨迹评估不再局限于几何信息，更融入了对交通意图与场景语义的理解，从而显著提升了系统在复杂与长尾场景下的决策质量与鲁棒性。实验表明，此VLM增强打分机制为单一模型带来2%的性能提升，在融合决策中提升幅度达到6%。

SimpleVSF算法架构图

双重融合决策机制，量化权衡与语义裁决能力双重突破

权重融合器作为定量聚合的核心，采用固定权重与动态权重相结合的策略，对多个评分器给出的分数进行精准的加权融合，确保最终轨迹在各项量化指标上达到最优。

基于VLM的选择融合器则将各评分器选出的最优轨迹进行视觉渲染，并交由VLM进行最终评判，利用其高层次语义理解能力，选择出最符合上下文场景、最安全合理的轨迹路径。

融合机制的引入使决策效果显著提升，融合后的结果相比单一模型性能提升达10%。

基于VLM的轨迹选择方法

更坚实的基础模型协同，系统性能与鲁棒性全面提升

该框架采用扩散模型生成高质量的多样化候选轨迹，奠定规划基础；运用ViT-L等先进视觉骨干网络进行高效、鲁棒的环境特征提取，为下游任务提供可靠表征；并引入Qwen2.5VL系列视觉语言模型，利用其在场景理解与指令生成方面的语义优势，确保系统整体性能基础的坚实与领先。

基于VLM自动驾驶决策系统的算法创新，"SimpleVSF"算法框架成功登顶端到端自动驾驶赛道（NAVSIM v2 End-to-End Driving Challenge）榜单，以53.06的EPDMS综合得分创造了本赛道的最高成绩，为探索更高级别的端到端自动驾驶技术提供了有力的支撑与经验。

浪潮信息AI团队此次夺冠，是继22、23年登顶nuScenes 3D目标检测纯视觉及多模态榜单，24年在CVPR自动驾驶国际挑战赛"Occupancy & Flow"赛道夺冠后的又一重要成果。未来，浪潮信息AI团队将践行多角度切入，发挥算法、算力融合的AI全栈优化能力，推动自动驾驶领域的技术创新发展。

* 备注：文内所涉术语解释如下

扩展预测性驾驶模型评分（The Extended Predictive Driver Model Score，EPDMS）：该指标综合考量轨迹预测与真实轨迹的贴合度、碰撞风险、可行驶区域规范性、车道居中性、通行效率及舒适性等多个维度，全面反映自动驾驶系统的综合表现；

高斯泼溅（Gaussian Splatting）：一种新兴的三维场景表示与渲染技术；

鸟瞰视图（Bird's Eye View，BEV）：是指将特征信息转化至鸟瞰视角；

自车（ego-car）：在自动驾驶领域指代当前车辆自身，通常作为运动主体参与轨迹规划、环境感知等任务；

鲁棒（Robust）：是指系统在一定的参数摄动下，维持其它某些性能的特性。

]]> 大模型实训营开营浪潮信息携手东南大学开启AI+X人才培养新模式 2025-10-17 20:03:00 本次"大模型应用开发实训营"系列课程以真实的教科研需求为核心，采用"基础操作-进阶开发-专家应用"三级能力矩阵设计，包含数据处理、模型微调、智能体开发和MCP协议集成等大模型全链路技术内容。课程注重技术深度与实践性的平衡，通过"理论授课+实战项目+量化考核"三位一体的教学模式，建立标准化工程师认证体系，帮助来自能源动力、生物科学、建筑学、交通运输、网络空间安全等不同专业背景的学生，系统掌握大模型应用开发的关键技术。 "大模型应用开发实训营"的实践环节将依托浪潮信息元脑企智EPAI平台。元脑企智EPAI是浪潮信息自主研发的企业大模型开发平台，该平台集数据准备、模型训练、应用开发于一体，提供高效的端到端开发工具链。在为期三周的系统学习中，学生将亲自动手构建AI应用，实践从数据处理、模型微调到智能体搭建等大模型全链路技术操作，实现"低门槛、高成效"的学习目标，并在最终的结营Demo Day当天，以路演的形式，集中展示高质量的大模型应用案例。东南大学大数据计算中心主任东方教授表示："本次‘大模型应用开发实训营'系列课程的启动，是我们深化产教融合、主动应对人工智能时代人才培养挑战的一次重要探索。我们期待通过校企合作，将产业界最前沿的技术、平台与经验引入校园，为来自不同专业的同学搭建一座从理论通向实践的桥梁，从而激发大家的跨学科创新潜能。" 本次实训营课程的启动，为"AI+X"跨学科人才培养提供了可复制、可推广的实践范式，是产教融合一次扎实而有益的探索。未来，各方将继续加强合作，为学习者整合更丰富的资源与实践机会，助力AI人才生态的繁荣与技术的广泛普及，持续探索更高效、更落地的"AI+X"人才培养新模式。 ]]> 北京2025年10月17日 /美通社/ -- 当前，以大模型为代表的人工智能技术正推动"AI+X"成为高校人才培养的重要方向。然而，AI技术的快速迭代也使理论与实践之间的差距日益凸显。大模型应用开发涵盖数据处理、算法架构设计、工程调优等多个复杂环节，对学生的综合能力提出更高要求。在此背景下，高校与企业正通过产教融合，协同探索育人新路径，助力学生将理论知识转化为实际应用能力。

10月15日，由东南大学国家卓越工程师学院、东南大学大数据计算中心、浪潮信息与Datawhale开源学习社区联合主办的"大模型应用开发实训营"系列课程正式启动。本次实训营采用"理论+实操"双轨教学模式，重点引导学生在学习、科研与就业等场景中应用大模型技术，通过为期三周的系统性课程，助力百余名硕博研究生跨越从AI认知到实战应用的鸿沟，全面提升技术能力与创新思维。

本次"大模型应用开发实训营"系列课程以真实的教科研需求为核心，采用"基础操作-进阶开发-专家应用"三级能力矩阵设计，包含数据处理、模型微调、智能体开发和MCP协议集成等大模型全链路技术内容。课程注重技术深度与实践性的平衡，通过"理论授课+实战项目+量化考核"三位一体的教学模式，建立标准化工程师认证体系，帮助来自能源动力、生物科学、建筑学、交通运输、网络空间安全等不同专业背景的学生，系统掌握大模型应用开发的关键技术。

"大模型应用开发实训营"的实践环节将依托浪潮信息元脑企智EPAI平台。元脑企智EPAI是浪潮信息自主研发的企业大模型开发平台，该平台集数据准备、模型训练、应用开发于一体，提供高效的端到端开发工具链。在为期三周的系统学习中，学生将亲自动手构建AI应用，实践从数据处理、模型微调到智能体搭建等大模型全链路技术操作，实现"低门槛、高成效"的学习目标，并在最终的结营Demo Day当天，以路演的形式，集中展示高质量的大模型应用案例。

东南大学大数据计算中心主任东方教授表示："本次‘大模型应用开发实训营'系列课程的启动，是我们深化产教融合、主动应对人工智能时代人才培养挑战的一次重要探索。我们期待通过校企合作，将产业界最前沿的技术、平台与经验引入校园，为来自不同专业的同学搭建一座从理论通向实践的桥梁，从而激发大家的跨学科创新潜能。"

本次实训营课程的启动，为"AI+X"跨学科人才培养提供了可复制、可推广的实践范式，是产教融合一次扎实而有益的探索。未来，各方将继续加强合作，为学习者整合更丰富的资源与实践机会，助力AI人才生态的繁荣与技术的广泛普及，持续探索更高效、更落地的"AI+X"人才培养新模式。

]]> 2025人工智能计算大会成功举行，浪潮信息携两大创新系统精彩出展 2025-09-30 11:56:00 面向智能体，引领AI推理率先进入"10毫秒、1块钱"时代浪潮信息首席AI战略官刘军出席AICC主论坛，现场分享了《大模型时代的AI计算架构创新》报告，他指出，随着Scaling Law持续推动模型能力跃升，以DeepSeek为代表的开源模型极大的降低了创新门槛，加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的应用上限，交互速度决定了智能体的商业价值，token成本决定了智能体的盈利能力。针对智能体产业化面临的交互速度和token成本两大瓶颈，浪潮信息重磅亮相两大面向智能体优化的AI计算系统。根据实测数据显示，基于元脑SD200超节点AI服务器，实现DeepSeek R1大模型token生成速度仅需8.9毫秒，创造国内大模型最快token生成速度；而在元脑HC1000超扩展AI服务器上，则实现每百万token成本首次击破1元。通过对AI计算架构的持续创新，浪潮信息将为多智能体协同与复杂任务推理的规模化落地，提供高速度、低成本的算力基础设施。多创新联合体协同，促进AI产业开放生态繁荣开源大模型与开放算力的结合，在推动"智能平权"的同时，也在有效驱动海量长尾应用爆发。开放生态已成为实现AI普惠，确保AI产业可持续发展的核心驱动力。在此次大会上，浪潮信息等30多家企业和机构在北京市科委中关村管委会、北京市发展改革委的共同见证下，联合发布了《基于超节点创新联合体，打造行业智能体——智算应用"北京方案"》（以下简称"北京方案"），标志着北京人工智能产业发展进入新阶段。依托北京市完整的AI产业链布局，芯片多元、模型丰富、应用活跃的优势基础上，浪潮信息凭借其在系统架构、标准制定、应用部署等领域的深耕积累，为 "北京方案" 提供关键的技术与算力保障，助力 "北京方案" 迈入生态共建与应用落地的新阶段。此外，浪潮信息还同时参与了"众智FlagOS v1.5"开源生态共建与"北京市可重构算力软硬件协同技术创新中心"建设，携手产业生态伙伴，分别从软件栈与硬件架构两端协同发力，致力于构建开放统一的系统软件平台与自主创新的算力底座，以破解AI生态碎片化与关键技术自主化的核心挑战。 AICC多维亮相：论道AI前沿，夯实算力底座在AICC2025"开放智算中心技术创新论坛"上，由OCP基金会主导的"GW级开放智算中心OCP中国社区小组"正式成立。浪潮信息作为核心参与方加入该工作组，将与全球生态伙伴协同推进开放标准建设，共同构建跨国技术共同体，推动全球协同创新。小组将以开放、高效、绿色为原则，致力于打造可信赖、可扩展的下一代AI基础设施，并率先在中国树立GW级开放智算中心的全球标杆。会议期间，浪潮信息也参与出席FlagOS开放计算开发者大会、AI赋能低空经济发展论坛、AI for Science论坛、智算中心与算力服务论坛、智能驾驶创新与应用论坛等多个分论坛，并发表系列主题演讲，与产业专家围绕AI前沿技术趋势与应用实践展开思想碰撞。同期，浪潮信息全栈智算系统、芯片与互联、算力服务等创新成果集中亮相展区，企业大模型开发平台元脑企智EPAI、AI服务器阵列、液冷算力舱模型等一系列明星产品云集，为人工智能技术的规模化应用与产业深化发展提供了坚实底座。此外，以超节点为算力基座的"北京方案"在展区重磅亮相，系统展示了从芯片、算力到大模型的全产业链创新成果。 ]]> 北京2025年9月30日 /美通社/ -- 9月26日，2025人工智能计算大会（AICC）在北京中关村展示中心成功举行。会上，浪潮信息面向智能体时代，亮相了元脑SD200超节点AI服务器和元脑HC1000超扩展AI服务器两大创新系统，引领国内服务器的AI推理率先进入"10毫秒、1块钱"时代。同时，围绕人工智能+落地，与众多生态伙伴携手创立多个创新生态联合体，并集中展示全栈智算产品与解决方案，以开放协同的生态布局，加速AI产业生态建设与完善。

面向智能体，引领AI推理率先进入"10毫秒、1块钱"时代

浪潮信息首席AI战略官刘军出席AICC主论坛，现场分享了《大模型时代的AI计算架构创新》报告，他指出，随着Scaling Law持续推动模型能力跃升，以DeepSeek为代表的开源模型极大的降低了创新门槛，加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的应用上限，交互速度决定了智能体的商业价值，token成本决定了智能体的盈利能力。

针对智能体产业化面临的交互速度和token成本两大瓶颈，浪潮信息重磅亮相两大面向智能体优化的AI计算系统。根据实测数据显示，基于元脑SD200超节点AI服务器，实现DeepSeek R1大模型token生成速度仅需8.9毫秒，创造国内大模型最快token生成速度；而在元脑HC1000超扩展AI服务器上，则实现每百万token成本首次击破1元。通过对AI计算架构的持续创新，浪潮信息将为多智能体协同与复杂任务推理的规模化落地，提供高速度、低成本的算力基础设施。

多创新联合体协同，促进AI产业开放生态繁荣

开源大模型与开放算力的结合，在推动"智能平权"的同时，也在有效驱动海量长尾应用爆发。开放生态已成为实现AI普惠，确保AI产业可持续发展的核心驱动力。

在此次大会上，浪潮信息等30多家企业和机构在北京市科委中关村管委会、北京市发展改革委的共同见证下，联合发布了《基于超节点创新联合体，打造行业智能体——智算应用"北京方案"》（以下简称"北京方案"），标志着北京人工智能产业发展进入新阶段。依托北京市完整的AI产业链布局，芯片多元、模型丰富、应用活跃的优势基础上，浪潮信息凭借其在系统架构、标准制定、应用部署等领域的深耕积累，为 "北京方案" 提供关键的技术与算力保障，助力 "北京方案" 迈入生态共建与应用落地的新阶段。

此外，浪潮信息还同时参与了"众智FlagOS v1.5"开源生态共建与"北京市可重构算力软硬件协同技术创新中心"建设，携手产业生态伙伴，分别从软件栈与硬件架构两端协同发力，致力于构建开放统一的系统软件平台与自主创新的算力底座，以破解AI生态碎片化与关键技术自主化的核心挑战。

AICC多维亮相：论道AI前沿，夯实算力底座

在AICC2025"开放智算中心技术创新论坛"上，由OCP基金会主导的"GW级开放智算中心OCP中国社区小组"正式成立。浪潮信息作为核心参与方加入该工作组，将与全球生态伙伴协同推进开放标准建设，共同构建跨国技术共同体，推动全球协同创新。小组将以开放、高效、绿色为原则，致力于打造可信赖、可扩展的下一代AI基础设施，并率先在中国树立GW级开放智算中心的全球标杆。

会议期间，浪潮信息也参与出席FlagOS开放计算开发者大会、AI赋能低空经济发展论坛、AI for Science论坛、智算中心与算力服务论坛、智能驾驶创新与应用论坛等多个分论坛，并发表系列主题演讲，与产业专家围绕AI前沿技术趋势与应用实践展开思想碰撞。

同期，浪潮信息全栈智算系统、芯片与互联、算力服务等创新成果集中亮相展区，企业大模型开发平台元脑企智EPAI、AI服务器阵列、液冷算力舱模型等一系列明星产品云集，为人工智能技术的规模化应用与产业深化发展提供了坚实底座。此外，以超节点为算力基座的"北京方案"在展区重磅亮相，系统展示了从芯片、算力到大模型的全产业链创新成果。

]]> AI推理进入"10毫秒、1块钱"时代！浪潮信息发布面向智能体优化AI计算系统 2025-09-28 11:14:00 随着Scaling Law持续推动模型能力跃升，以DeepSeek为代表的开源模型极大的降低了创新门槛，加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的应用上限，交互速度决定了智能体的商业价值，token成本决定了智能体的盈利能力。仅需8.9毫秒！元脑SD200引领token生成速度率先进入"10毫秒时代" 浪潮信息最新公布，基于元脑SD200超节点AI服务器运行DeepSeek R1大模型，单token生成速度低至8.9毫秒，带动国内AI服务器token生成速度率先进入"10毫秒时代"。元脑SD200基于创新研发的多主机低延迟内存语义通信架构，在单机内实现了64路本土AI芯片的高速统一互连，单机可承载4万亿参数单体模型，或部署多个万亿参数模型组成的智能体应用，实现多模型协同执行复杂任务。为实现极低的通信延迟，元脑SD200采用精简高效的三层协议栈，原生支持多种内存语义操作，避免冗余数据拷贝，将基础通信延迟降至百纳秒级，硬件化链路层重传与分布式预防式流控进一步适配高吞吐、低延迟的 AI 推理场景。元脑HC1000，推理成本首次击破1元/每百万token 浪潮信息重磅发布元脑HC1000超扩展AI服务器，基于全新开发的全对称DirectCom极速架构，无损超扩展设计聚合海量本土AI芯片、支持极大推理吞吐量，推理成本首次击破1元/每百万token，为智能体突破token成本瓶颈提供极致性能的创新算力系统。元脑HC1000通过全面优化降本和软硬协同增效，创新16卡计算模组设计、单卡"计算-显存-互连"均衡设计，大幅降低单卡成本和每卡系统分摊成本。同时，全对称的系统拓扑设计支持超大规模无损扩展。据测算，元脑HC1000通过算网深度协同、全域无损技术，实现推理性能相比传统RoCE提升1.75倍，单卡模型算力利用率最高提升5.7倍。未来，智能体带来的推理算力需求将呈现出指数级的爆发式增长。浪潮信息将通过软硬件协同设计与深度优化，持续推动AI计算架构的创新与突破，不断实现token生成"提速降本"，积极促进大模型、智能体等人工智能技术与实体经济的深度融合，让人工智能成为千行百业的生产力和创新力。 ]]> 北京2025年9月28日 /美通社/ -- 9月26日，在2025人工智能计算大会上，浪潮信息公布，基于元脑SD200超节点AI服务器，DeepSeek R1大模型token生成速度仅需8.9毫秒，创造国内大模型最快token生成速度；而最新发布的元脑HC1000超扩展AI服务器，实现每百万token成本首次击破1元。浪潮信息对AI计算架构的持续创新，旨在解决智能体产业化面临的交互速度和token成本两大瓶颈，为多智能体协同与复杂任务推理的规模化落地，提供高速度、低成本的算力基础设施。

随着Scaling Law持续推动模型能力跃升，以DeepSeek为代表的开源模型极大的降低了创新门槛，加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的应用上限，交互速度决定了智能体的商业价值，token成本决定了智能体的盈利能力。

仅需8.9毫秒！元脑SD200引领token生成速度率先进入"10毫秒时代"

浪潮信息最新公布，基于元脑SD200超节点AI服务器运行DeepSeek R1大模型，单token生成速度低至8.9毫秒，带动国内AI服务器token生成速度率先进入"10毫秒时代"。

元脑SD200基于创新研发的多主机低延迟内存语义通信架构，在单机内实现了64路本土AI芯片的高速统一互连，单机可承载4万亿参数单体模型，或部署多个万亿参数模型组成的智能体应用，实现多模型协同执行复杂任务。为实现极低的通信延迟，元脑SD200采用精简高效的三层协议栈，原生支持多种内存语义操作，避免冗余数据拷贝，将基础通信延迟降至百纳秒级，硬件化链路层重传与分布式预防式流控进一步适配高吞吐、低延迟的 AI 推理场景。

元脑HC1000，推理成本首次击破1元/每百万token

浪潮信息重磅发布元脑HC1000超扩展AI服务器，基于全新开发的全对称DirectCom极速架构，无损超扩展设计聚合海量本土AI芯片、支持极大推理吞吐量，推理成本首次击破1元/每百万token，为智能体突破token成本瓶颈提供极致性能的创新算力系统。

元脑HC1000通过全面优化降本和软硬协同增效，创新16卡计算模组设计、单卡"计算-显存-互连"均衡设计，大幅降低单卡成本和每卡系统分摊成本。同时，全对称的系统拓扑设计支持超大规模无损扩展。据测算，元脑HC1000通过算网深度协同、全域无损技术，实现推理性能相比传统RoCE提升1.75倍，单卡模型算力利用率最高提升5.7倍。

未来，智能体带来的推理算力需求将呈现出指数级的爆发式增长。浪潮信息将通过软硬件协同设计与深度优化，持续推动AI计算架构的创新与突破，不断实现token生成"提速降本"，积极促进大模型、智能体等人工智能技术与实体经济的深度融合，让人工智能成为千行百业的生产力和创新力。

]]> 云天畅想加入元脑生态，加速教育行业AIGC应用落地 2025-09-02 11:52:00 作为全球云计算科技企业，云天畅想凭借自研软硬一体化计算架构解决方案，为云游戏、AI数字人、AIGC实时交互等场景提供深度支撑。其技术实力已在产业级场景中充分验证：主导时尚人工智能研究院、北疆文化时尚大模型等多个AIGC平台核心模块开发与优化迭代，服务超百家头部云服务商、大型互联网平台及游戏开发商。在教育领域，云天畅想为深圳大学、北京服装学院、上海电影学院等高校搭建3D设计渲染、虚拟仿真、影视与虚拟制作等教学平台，将综合生产效率提升3倍以上，人员运维成本与单任务渲染成本均降低60%以上，项目制作周期缩短30%，显著提升教学效率与质量。基于元脑生态框架，双方将充分发挥算力基础设施与行业应用场景的互补优势，针对高校及职业教育领域AI人才培养的痛点难点，联合打造集教学、实验、管理于一体的人工智能AIGC实训平台与智能体应用开发平台。其中，AIGC实训平台依托浪潮信息算力平台、元脑企智EPAI企业大模型开发平台、AIStation人工智能开发平台，集成主流通用大模型、垂类模型及设计软件，以AI赋能创作，实现文生图、文生视频、线稿绘图片等多模态内容生成。该平台可最大化利用算力资源，支持个人低配终端电脑或手机通过浏览器登录使用，大幅降低"教、学、练"门槛，助力教育机构快速培育AIGC实战型人才。人工智能AIGC实训平台智能体应用开发平台则聚焦教育管理、教学辅助场景，基于元脑企智EPAI提供AI工程化全流程服务――从数据处理到模型预训练、微调及推理，同时实现多类型算力资源统一纳管与智能调度。使用者无需深入掌握复杂编程与技术细节，通过图形化界面和自动化工具，即可快速构建并部署文献综述生成助手、论文助手、教学内容生成助手、校园服务助手等智能体应用，帮助高校高效打造安全私密、应用精专、开箱即用的大模型通用应用及个性化端到端解决方案。元脑企智EPAI应用界面云天畅想副总裁费立纬表示："教育智能化转型需‘算力下沉'与‘场景上浮'双向发力。元脑生态为我们提供从算力、算法到工具的全栈支持，未来将重点突破AIGC在跨学科教学、个性化学习等场景的应用，让技术切实服务于教育普惠与质量提升，推动优质AI教育服务触达更多师生，助力教育数字化转型与创新人才培养。" 浪潮信息渠道推进部总经理毛柏林指出："云天畅想在AIGC场景的技术积累和落地经验，完善了元脑生态在教育行业的应用布局。双方将以‘平台+实训+服务'三位一体模式，推动大模型技术从实验室走进课堂，助力构建‘AI赋能教育、教育培育人才'的正向循环。" 未来，双方将循着"技术研发-场景验证-生态推广"的创新路径，在智慧教学、教育管理、产教融合等领域打造标杆案例，为高校及教育机构提供可复制、可推广的AIGC解决方案，推动教育数字化转型从"单点突破"迈向"规模普及"，让算力与AI技术真正服务于教育高质量发展。元脑生态由浪潮信息发起，旨在破解产业AI落地难题。通过聚合浪潮信息及生态伙伴的优质AI能力，构建领先的全栈AI解决方案，助力用户智能转型升级。目前，元脑生态已对接600余家算法厂商、8000余家系统集成商，并搭建商业协作线上平台AIStore。该平台兼具知识资源、交流服务与商机孵化功能，赋能"百模"与"千行"对接，已在智能制造、智慧金融、智慧科研等领域成功落地应用，助力千行百业加速AI产业创新，高效释放生产力。 ]]> 北京2025年9月2日 /美通社/ -- 近日，深圳云天畅想信息科技有限公司（下称"云天畅想"）与浪潮信息正式签署元脑生态战略合作协议。双方将聚焦教育行业AIGC应用落地，在AIGC实训平台、智能体平台等领域开展全方位技术协作与联合方案研发，加速AI技术与教育教学深度融合，为数字教育创新注入新动能。

作为全球云计算科技企业，云天畅想凭借自研软硬一体化计算架构解决方案，为云游戏、AI数字人、AIGC实时交互等场景提供深度支撑。其技术实力已在产业级场景中充分验证：主导时尚人工智能研究院、北疆文化时尚大模型等多个AIGC平台核心模块开发与优化迭代，服务超百家头部云服务商、大型互联网平台及游戏开发商。在教育领域，云天畅想为深圳大学、北京服装学院、上海电影学院等高校搭建3D设计渲染、虚拟仿真、影视与虚拟制作等教学平台，将综合生产效率提升3倍以上，人员运维成本与单任务渲染成本均降低60%以上，项目制作周期缩短30%，显著提升教学效率与质量。

基于元脑生态框架，双方将充分发挥算力基础设施与行业应用场景的互补优势，针对高校及职业教育领域AI人才培养的痛点难点，联合打造集教学、实验、管理于一体的人工智能AIGC实训平台与智能体应用开发平台。

其中，AIGC实训平台依托浪潮信息算力平台、元脑企智EPAI企业大模型开发平台、AIStation人工智能开发平台，集成主流通用大模型、垂类模型及设计软件，以AI赋能创作，实现文生图、文生视频、线稿绘图片等多模态内容生成。该平台可最大化利用算力资源，支持个人低配终端电脑或手机通过浏览器登录使用，大幅降低"教、学、练"门槛，助力教育机构快速培育AIGC实战型人才。

人工智能AIGC实训平台

智能体应用开发平台则聚焦教育管理、教学辅助场景，基于元脑企智EPAI提供AI工程化全流程服务――从数据处理到模型预训练、微调及推理，同时实现多类型算力资源统一纳管与智能调度。使用者无需深入掌握复杂编程与技术细节，通过图形化界面和自动化工具，即可快速构建并部署文献综述生成助手、论文助手、教学内容生成助手、校园服务助手等智能体应用，帮助高校高效打造安全私密、应用精专、开箱即用的大模型通用应用及个性化端到端解决方案。

元脑企智EPAI应用界面

云天畅想副总裁费立纬表示："教育智能化转型需‘算力下沉'与‘场景上浮'双向发力。元脑生态为我们提供从算力、算法到工具的全栈支持，未来将重点突破AIGC在跨学科教学、个性化学习等场景的应用，让技术切实服务于教育普惠与质量提升，推动优质AI教育服务触达更多师生，助力教育数字化转型与创新人才培养。"

浪潮信息渠道推进部总经理毛柏林指出："云天畅想在AIGC场景的技术积累和落地经验，完善了元脑生态在教育行业的应用布局。双方将以‘平台+实训+服务'三位一体模式，推动大模型技术从实验室走进课堂，助力构建‘AI赋能教育、教育培育人才'的正向循环。"

未来，双方将循着"技术研发-场景验证-生态推广"的创新路径，在智慧教学、教育管理、产教融合等领域打造标杆案例，为高校及教育机构提供可复制、可推广的AIGC解决方案，推动教育数字化转型从"单点突破"迈向"规模普及"，让算力与AI技术真正服务于教育高质量发展。

]]> 数宇智汇加入元脑生态，以"知识中枢"加速智能服务应用落地 2025-08-22 15:37:00 数宇智汇是由浙工大智研院孵化的创新型企业，聚焦"技术+安全+合规"三位一体的AI智能化方向，提供智寻知识平台、智能问询机器人、智能化改造提升、大模型评测与备案等产品与服务。数宇智汇自主研发的智寻知识平台堪称企业级智能知识管理的"中枢系统"，该平台融合先进的RAG技术与基座大模型部署方案，支持用户构建私有知识库，赋能智能问答、文本读写等基础能力，同时结合多模态数字人交互技术，大幅提升用户交互体验。数宇智汇的"数语"问询机器人提供7X24小时在线的专业问询服务能力，支持接入DeepSeek等百余种主流大模型，深度融合私有化知识库，支持深度服务AI AGENT定制开发，通过定制专属形象与语音，提供高效精准的智能问答服务。在元脑生态的框架内，数宇智汇将联合浪潮信息，重点围绕智算一体机、多模态数字人、私有知识库及智能问询等领域展开深度合作，加速智寻知识平台、"数语"问询机器人等重点产品的商业化进程。智寻知识平台已与浪潮信息元脑企智EPAI企业大模型开发平台完成适配。双方将重点面向高校招生咨询、金融报告分析等场景，共同落地标杆项目。在高校招生咨询场景，融合招生政策、专业介绍等信息，实现考生疑问的即时解答与个性化推荐；在金融报告分析生成场景，有效解决金融数据复杂、图表数量多且处理难和人工编写研报效率低，准确性、一致性、专业性不足等挑战，数据清洗效率提升8倍，研报编写时间缩短80%，人力成本降低25%。在问询机器人方面，数宇智汇将借助元脑企智EPAI，加速文旅问询机器人、司法智能问询机器人等智能体的开发、评估、上线，通过"数字导览+智能问答+实时检索"一体化融合，提升用户体验与运营效率。双方合作开发的司法智能问询机器人，有效解决了司法咨询量大、人力不足、咨询质量参差不齐、法律知识普及难度大、案件预判效率低等行业痛点，人工回复法律咨询问题时间从10分钟缩至1分钟内，用户满意度提升50%，人力成本降低30%。对于此次合作，数宇智汇总经理俞山青表示："元脑生态的多元算力与场景资源，与数宇智汇的AI技术产品形成了完美互补。加入元脑生态，不仅能推动智寻知识平台、智能问询机器人更快落地到金融、制造等关键行业，更能通过与生态伙伴的协同，推动多模态大模型、边缘智能等技术的产品化突破。我们期待与元脑生态伙伴深度联动，共同实现‘AI能力即服务'的规模化应用。" 浪潮信息渠道推进部总经理毛柏林指出："数宇智汇在大模型知识管理、智能交互等领域的技术积累，为元脑生态注入了新的活力。元脑生态始终致力于构建‘算力-算法-场景'协同的创新平台，数宇智汇的加入将进一步完善生态的AI应用层布局。我们相信，双方的合作不仅能为行业客户提供更优质的智能服务解决方案，更能推动AI技术在安全合规的前提下加速落地，为数字经济发展注入新动能。" 元脑生态由浪潮信息发起，面向产业AI落地难题，聚合浪潮信息和左右手伙伴的优质AI能力，构建领先的全栈AI解决方案，助力用户智能转型升级。目前，元脑生态已对接600+算法厂商、8000+系统集成商，并打造了商业协作线上平台AIStore，作为知识资源平台、交流服务平台和商机孵化平台，赋能"百模"与"千行"的对接，在智能制造、智慧金融、智慧科研等领域实现成功牵手和落地应用，助力千行百业加速AI产业创新，高效释放生产力。 ]]> 北京2025年8月22日 /美通社/ -- 近日，杭州数宇智汇科技发展有限责任公司（以下简称 "数宇智汇"）与浪潮信息签署元脑生态战略合作协议。双方将围绕大模型知识平台、智能问答机器人等核心领域展开深度合作，通过技术协同、资源互补推动AI智能化解决方案的商业化落地，共同为教育、文旅、金融等行业提供更高效、安全、合规的智能化服务，助力千行百业加速智能化转型。

数宇智汇是由浙工大智研院孵化的创新型企业，聚焦"技术+安全+合规"三位一体的AI智能化方向，提供智寻知识平台、智能问询机器人、智能化改造提升、大模型评测与备案等产品与服务。数宇智汇自主研发的智寻知识平台堪称企业级智能知识管理的"中枢系统"，该平台融合先进的RAG技术与基座大模型部署方案，支持用户构建私有知识库，赋能智能问答、文本读写等基础能力，同时结合多模态数字人交互技术，大幅提升用户交互体验。数宇智汇的"数语"问询机器人提供7X24小时在线的专业问询服务能力，支持接入DeepSeek等百余种主流大模型，深度融合私有化知识库，支持深度服务AI AGENT定制开发，通过定制专属形象与语音，提供高效精准的智能问答服务。

在元脑生态的框架内，数宇智汇将联合浪潮信息，重点围绕智算一体机、多模态数字人、私有知识库及智能问询等领域展开深度合作，加速智寻知识平台、"数语"问询机器人等重点产品的商业化进程。

智寻知识平台已与浪潮信息元脑企智EPAI企业大模型开发平台完成适配。双方将重点面向高校招生咨询、金融报告分析等场景，共同落地标杆项目。在高校招生咨询场景，融合招生政策、专业介绍等信息，实现考生疑问的即时解答与个性化推荐；在金融报告分析生成场景，有效解决金融数据复杂、图表数量多且处理难和人工编写研报效率低，准确性、一致性、专业性不足等挑战，数据清洗效率提升8倍，研报编写时间缩短80%，人力成本降低25%。

在问询机器人方面，数宇智汇将借助元脑企智EPAI，加速文旅问询机器人、司法智能问询机器人等智能体的开发、评估、上线，通过"数字导览+智能问答+实时检索"一体化融合，提升用户体验与运营效率。双方合作开发的司法智能问询机器人，有效解决了司法咨询量大、人力不足、咨询质量参差不齐、法律知识普及难度大、案件预判效率低等行业痛点，人工回复法律咨询问题时间从10分钟缩至1分钟内，用户满意度提升50%，人力成本降低30%。

对于此次合作，数宇智汇总经理俞山青表示："元脑生态的多元算力与场景资源，与数宇智汇的AI技术产品形成了完美互补。加入元脑生态，不仅能推动智寻知识平台、智能问询机器人更快落地到金融、制造等关键行业，更能通过与生态伙伴的协同，推动多模态大模型、边缘智能等技术的产品化突破。我们期待与元脑生态伙伴深度联动，共同实现‘AI能力即服务'的规模化应用。"

浪潮信息渠道推进部总经理毛柏林指出："数宇智汇在大模型知识管理、智能交互等领域的技术积累，为元脑生态注入了新的活力。元脑生态始终致力于构建‘算力-算法-场景'协同的创新平台，数宇智汇的加入将进一步完善生态的AI应用层布局。我们相信，双方的合作不仅能为行业客户提供更优质的智能服务解决方案，更能推动AI技术在安全合规的前提下加速落地，为数字经济发展注入新动能。"

元脑生态由浪潮信息发起，面向产业AI落地难题，聚合浪潮信息和左右手伙伴的优质AI能力，构建领先的全栈AI解决方案，助力用户智能转型升级。目前，元脑生态已对接600+算法厂商、8000+系统集成商，并打造了商业协作线上平台AIStore，作为知识资源平台、交流服务平台和商机孵化平台，赋能"百模"与"千行"的对接，在智能制造、智慧金融、智慧科研等领域实现成功牵手和落地应用，助力千行百业加速AI产业创新，高效释放生产力。

]]> 积算科技推出AlphaFold3"即点即用"算力服务，现已开放免费试用 2025-08-13 14:00:00 结构配色方案：按子单位（左图）；结构配色方案：模型置信度（右图）积算科技诞生于全球生成式AI浪潮，专注于智能算力服务市场，致力于成为中国最具价值的智能算力服务商，聚焦互联网、运营商、高校、新能源汽车等领域的多家头部客户提供算力服务。公司拥有万卡级先进智能算力资源池，提供裸金属、智能算力系统、专属智能算力系统等算力服务产品，适用于大模型训练与推理、算法研究、大数据分析、自动驾驶、智能科学计算等多元场景。其运维和服务团队具备大规模智能算力系统设计建设、大模型开发应用及性能优化能力，可提供全栈大模型应用开发服务支持，并根据客户需求提供灵活服务模式。 ]]> 北京2025年8月13日 /美通社/ -- 近日，北京积算科技有限公司（以下简称"积算科技"）推出一站式AlphaFold3在线算力服务，现已开放免费使用。其内置优化后的AlphaFold3模型，支持图形化界面创建容器、低代码启动任务，通过在线服务让科研人员绕开繁琐的部署、设置和调试，实现零门槛使用，以更简单、高效的方式完成蛋白质结构预测。

AlphaFold3一经发布就广受关注，它利用Transformer、扩散模型和进化信息多序列比对，不仅能高精度预测蛋白质结构，更能预测大部分生物分子的结构及其相互作用。与传统方法相比，在预测蛋白质与一些分子的"对接"方面精度提升高达50%，在药物研发、疾病机理研究、精准医学等领域应用广泛。

AlphaFold3计算过程高度复杂，涉及大规模MSA、深度特征提取、迭代结构预测及优化，对算力平台硬件配置要求高：GPU计算卡需要大容量显存和高带宽、计算节点大容量内存、数据存储容量超700G等。同时使用门槛高，在部署和使用过程中，往往需要通过命令行直接在操作系统界面进行操作，涉及数十句代码命令，需要操作人员具备一定的计算机编程基础。如果通过官方网站使用AlphaFold3，则存在每个账户每天限额20个任务、仅够试错2-3个靶点、输入长度限制等问题。

针对以上问题，积算科技在其算力服务平台正式上线AlphaFold3应用，为用户提供高效、易用的在线算力服务。用户开通服务后，无需部署即可在线使用AlphaFold3的全部功能，无需排队等待，支持最大5120AA（氨基酸，amino acid）的输入，并具有低代码操作、图形化容器搭建等特点，可大幅提升用户的使用体验。

积算科技算力服务平台支持图形化界面、低代码开发，极大地降低了使用门槛。用户远程登录平台后，通过图形化界面快速创建容器环境，只需要通过鼠标点击选择预置好的镜像、数据集及用户自行上传的输入序列，30秒内便可完成预测前的所有准备。之后，用户只需要进入容器，通过集成好的在线shell界面输入简单的两句代码，为AlphaFold3程序指定文件位置，回车运行即可体验强大算力带来的高水平运算速度。

支撑该算力服务平台的算力系统以高速InfiniBand计算网络为核心构建，配置全闪NVMe SSD共享存储，计算节点采用64核处理器核心、1TB大容量内存、8张GPU计算卡，显存容量超640G，为用户带来极高的性能体验，加速结果生成。此外，平台基于容器进行算力调度和资源管理，具备强大的平台管理、用户管理、资源管理等功能，帮助用户快速完成蛋白质结构预测。

积算科技秉承以客户为中心的服务理念，来自生物、医学、材料学、计算机等不同专业领域的团队成员紧密合作，从初期调研，到软件安装，再到作业测试，全程提供专业、可靠的技术解决方案。此外，积算科技撰写了AlphaFold3使用教程，帮助用户快速上手。

以740aa_4a5s.json为例，输出的结果存放在用户指定的文件夹。由于AlphaFold3并未集成结果可视化模块，待任务完成后，客户可将结果文件夹中的cif及json文件下载，使用pymol或paeViewer等工具进行可视化分析。

实测结果图如下（740aa_4a5s.json）：

结构配色方案：按子单位（左图）；结构配色方案：模型置信度（右图）

积算科技诞生于全球生成式AI浪潮，专注于智能算力服务市场，致力于成为中国最具价值的智能算力服务商，聚焦互联网、运营商、高校、新能源汽车等领域的多家头部客户提供算力服务。公司拥有万卡级先进智能算力资源池，提供裸金属、智能算力系统、专属智能算力系统等算力服务产品，适用于大模型训练与推理、算法研究、大数据分析、自动驾驶、智能科学计算等多元场景。其运维和服务团队具备大规模智能算力系统设计建设、大模型开发应用及性能优化能力，可提供全栈大模型应用开发服务支持，并根据客户需求提供灵活服务模式。

]]> 浪潮信息发布"元脑SD200"超节点，面向万亿参数大模型创新设计 2025-08-08 21:07:00 当前，混合专家模型(MoE)的高效架构正在驱动大模型参数规模持续扩展，国内外前沿大模型的参数量快速突破万亿规模，这给算力系统架构提出新的挑战。一方面，模型参数量增加和序列长度增加带来的键值缓存(KV cache)激增，需要智能计算系统具有超大显存空间承载，依靠单芯片或节点的性能提升已难以为继；且其推理过程作为通信敏感型计算，对分布式计算通信延时要求极高，需要构建更大向上扩展(Scale up)高速互连域。另一方面，智能体AI开启多模型协作的新范式，其推理过程需要生成比传统模型多近百倍的数据词元(token)，导致计算量激增。元脑SD200超节点AI服务器是浪潮信息面向万亿参数大模型AI时代而设计，创新研发多主机低延迟内存语义通信架构，基于开放总线交换技术构建，在单机内实现了64路GPU芯片的高速统一互连，成功解决万亿大模型对超大显存空间和超低通信延时的核心需求。在开放架构之上，元脑SD200通过智能总线管理和开放的预填充-解码(Prefill-Decoder)分离推理框架实现软硬件深度协同，智能化管理复杂AI计算任务。 - 在架构层面，元脑SD200基于自主研发的开放总线交换技术首创多主机三维网格系统架构，实现64路本土GPU芯片高速互连；通过创新远端GPU虚拟映射技术，突破多主机交换域统一编址难题，实现显存统一地址空间扩增8倍，单机可以提供最大4TB显存和64TB内存，为万亿参数、超长序列大模型提供充足键值缓存空间。同时，依托百纳秒级超低延迟链路，构建64卡大高速互连域统一原生内存语义通信，实测结果表明，在推理过程常见的小数据包通信场景中，全规约(All Reduce)性能表现优异，显著提升计算与通信效率。 - 在系统层面，根据万亿参数大模型计算、通信需求特征，浪潮信息开发智能总线管理系统，实现超节点64卡全局最优路由的自动创建，支持不同拓扑切换，资源按需切分。对于全规约、全聚集(All Gather)等典型通信算子，开展不同数据量大小的细粒度通信策略设计，如多层级通信机制等，实现通信延时进一步降低。同时依托开放的PD分离框架，支持异步KV Cache高效传输与差异化并行策略，在提升业务服务级别目标的同时保持对多元算力的兼容性，实现计算与通信架构的深度协同优化。元脑SD200超节点AI服务器通过软硬协同系统创新，成功向上扩展突破芯片性能边界，在大模型场景中展示出优异的性能表现。结合优化的PD分离框架，SD200超节点满机运行DeepSeek R1全参模型推理性能超线性提升比为3.7倍，满机运行Kimi K2全参模型推理性能超线性提升比为1.7倍。当前，开源模型的飞跃式进步正在加速智能时代的到来，推动研发范式从封闭走向开放协作。同时，随着大模型参数量的持续提升，对算力基础设施的建设提出了更高要求。浪潮信息通过开放系统架构创新，为开源大模型的规模化落地和应用创新提供关键支撑。 ]]> 北京2025年8月8日 /美通社/ -- 8月7日，浪潮信息发布面向万亿参数大模型的超节点AI服务器"元脑SD200"。该产品基于浪潮信息创新研发的多主机低延迟内存语义通信架构，以开放系统设计向上扩展支持64路本土GPU芯片。元脑SD200可实现单机内运行超万亿参数大模型，并支持多个领先大模型机内同时运行及多智能体实时协作与按需调用，目前已率先实现商用。在实际评测中，元脑SD200运行DeepSeek R1和Kimi K2等全参模型的64卡整机推理性能实现超线性扩展。

当前，混合专家模型(MoE)的高效架构正在驱动大模型参数规模持续扩展，国内外前沿大模型的参数量快速突破万亿规模，这给算力系统架构提出新的挑战。一方面，模型参数量增加和序列长度增加带来的键值缓存(KV cache)激增，需要智能计算系统具有超大显存空间承载，依靠单芯片或节点的性能提升已难以为继；且其推理过程作为通信敏感型计算，对分布式计算通信延时要求极高，需要构建更大向上扩展(Scale up)高速互连域。另一方面，智能体AI开启多模型协作的新范式，其推理过程需要生成比传统模型多近百倍的数据词元(token)，导致计算量激增。

元脑SD200超节点AI服务器是浪潮信息面向万亿参数大模型AI时代而设计，创新研发多主机低延迟内存语义通信架构，基于开放总线交换技术构建，在单机内实现了64路GPU芯片的高速统一互连，成功解决万亿大模型对超大显存空间和超低通信延时的核心需求。在开放架构之上，元脑SD200通过智能总线管理和开放的预填充-解码(Prefill-Decoder)分离推理框架实现软硬件深度协同，智能化管理复杂AI计算任务。

- 在架构层面，元脑SD200基于自主研发的开放总线交换技术首创多主机三维网格系统架构，实现64路本土GPU芯片高速互连；通过创新远端GPU虚拟映射技术，突破多主机交换域统一编址难题，实现显存统一地址空间扩增8倍，单机可以提供最大4TB显存和64TB内存，为万亿参数、超长序列大模型提供充足键值缓存空间。同时，依托百纳秒级超低延迟链路，构建64卡大高速互连域统一原生内存语义通信，实测结果表明，在推理过程常见的小数据包通信场景中，全规约(All Reduce)性能表现优异，显著提升计算与通信效率。

- 在系统层面，根据万亿参数大模型计算、通信需求特征，浪潮信息开发智能总线管理系统，实现超节点64卡全局最优路由的自动创建，支持不同拓扑切换，资源按需切分。对于全规约、全聚集(All Gather)等典型通信算子，开展不同数据量大小的细粒度通信策略设计，如多层级通信机制等，实现通信延时进一步降低。同时依托开放的PD分离框架，支持异步KV Cache高效传输与差异化并行策略，在提升业务服务级别目标的同时保持对多元算力的兼容性，实现计算与通信架构的深度协同优化。

元脑SD200超节点AI服务器通过软硬协同系统创新，成功向上扩展突破芯片性能边界，在大模型场景中展示出优异的性能表现。结合优化的PD分离框架，SD200超节点满机运行DeepSeek R1全参模型推理性能超线性提升比为3.7倍，满机运行Kimi K2全参模型推理性能超线性提升比为1.7倍。

当前，开源模型的飞跃式进步正在加速智能时代的到来，推动研发范式从封闭走向开放协作。同时，随着大模型参数量的持续提升，对算力基础设施的建设提出了更高要求。浪潮信息通过开放系统架构创新，为开源大模型的规模化落地和应用创新提供关键支撑。

]]> 积算科技上线赤兔推理引擎服务，创新解锁FP8大模型算力 2025-07-30 16:25:00 赤兔推理引擎由北京清程极智科技有限公司（以下简称"清程极智"）开发，并联合清华大学团队发布开源版本。其核心价值在于，打破了FP8模型原生部署时GPU必须支持FP8精度的要求。通过底层算子优化（如GeMM、MoE的指令级重构）和编译技术创新，赤兔早在今年三月即首次实现在非FP8精度卡上原生运行FP8高精度模型，并确保推理过程几乎零精度损失。积算科技联合清程极智，完成了赤兔推理引擎在积算科技PowerFul-AI应用开发平台上的验证测试。测试结果表明，赤兔推理引擎在积算科技PowerFul-AI平台上运行稳定、性能表现优异，满足双方兼容性认证的各项标准，能够快速完成DeepSeek、Qwen等大模型推理部署，并支持基于非FP8精度GPU卡实现FP8模型部署，相比于使用BF16精度部署，GPU算力需求减半。以部署DeepSeek-R1-671B为例，原需4台8卡机2560GB显存，现仅需2台8卡机1280GB显存即可满足要求。积算科技PowerFul-AI平台携手赤兔推理引擎，将为AI大模型应用开发打造"成本减半、零性能损耗"的解决方案，提供构建企业知识库开发、智能体搭建等功能，助力企业用户灵活快速构建大模型通用应用及个性化端到端解决方案。 PowerFul-AI是积算科技的大模型应用落地解决方案，能够为AI大模型落地应用提供高效、易用、安全的端到端开发平台，帮助企业及科研机构高效开发部署AI大模型应用。目前，PowerFul-AI已经全面适配DeepSeek R1、DeepSeek V3等模型。用户只需选择镜像和模型文件，并配置模型所需的算力资源，即可快速完成模型部署，实现DeepSeek的"分钟级"上线。积算科技诞生于全球生成式AI浪潮，专注于智能算力服务市场，致力于成为中国最具价值的智能算力服务商，聚焦互联网、运营商、高校、新能源汽车等领域的多家头部客户提供算力服务。公司拥有万卡级先进智能算力资源池，提供裸金属、智能算力系统、专属智能算力系统等算力服务产品，适用于大模型训练与推理、算法研究、大数据分析、自动驾驶、智能科学计算等多元场景。其运维和服务团队具备大规模智能算力系统设计建设、大模型开发应用及性能优化能力，可提供全栈大模型应用开发服务支持，并根据客户需求提供灵活服务模式。 ]]> 北京2025年7月30日 /美通社/ -- 近日，北京积算科技有限公司（以下简称"积算科技"）宣布其算力服务平台上线赤兔推理引擎。积算科技PowerFul-AI应用开发平台与赤兔合作，打造高性价比的模型轻量化部署方案。用户通过远程算力平台预置的模型镜像与AI工具，仅需50%的GPU算力即可解锁大模型推理、企业知识库搭建、智能体开发，加速大模型在智能问答、报告生成、客服助手、智能体等典型行业场景的落地。

赤兔推理引擎由北京清程极智科技有限公司（以下简称"清程极智"）开发，并联合清华大学团队发布开源版本。其核心价值在于，打破了FP8模型原生部署时GPU必须支持FP8精度的要求。通过底层算子优化（如GeMM、MoE的指令级重构）和编译技术创新，赤兔早在今年三月即首次实现在非FP8精度卡上原生运行FP8高精度模型，并确保推理过程几乎零精度损失。

积算科技联合清程极智，完成了赤兔推理引擎在积算科技PowerFul-AI应用开发平台上的验证测试。测试结果表明，赤兔推理引擎在积算科技PowerFul-AI平台上运行稳定、性能表现优异，满足双方兼容性认证的各项标准，能够快速完成DeepSeek、Qwen等大模型推理部署，并支持基于非FP8精度GPU卡实现FP8模型部署，相比于使用BF16精度部署，GPU算力需求减半。以部署DeepSeek-R1-671B为例，原需4台8卡机2560GB显存，现仅需2台8卡机1280GB显存即可满足要求。

积算科技PowerFul-AI平台携手赤兔推理引擎，将为AI大模型应用开发打造"成本减半、零性能损耗"的解决方案，提供构建企业知识库开发、智能体搭建等功能，助力企业用户灵活快速构建大模型通用应用及个性化端到端解决方案。

PowerFul-AI是积算科技的大模型应用落地解决方案，能够为AI大模型落地应用提供高效、易用、安全的端到端开发平台，帮助企业及科研机构高效开发部署AI大模型应用。目前，PowerFul-AI已经全面适配DeepSeek R1、DeepSeek V3等模型。用户只需选择镜像和模型文件，并配置模型所需的算力资源，即可快速完成模型部署，实现DeepSeek的"分钟级"上线。

]]>