DeepSeek模型首次引入“稀疏注意力”机制

发布：2025-09-30 08:40 | 焦点来源：联合早报中文网

中国人工智能深度求索（DeepSeek）更新了一个实验性的模型，称之为迈向新一代架构的步骤。

据彭博社报道，DeekSeek星期一（9月29日）发布帖子，概述了DeepSeek-V3.1-Exp平台，并解释该平台引入一种名为DeepSeek Sparse Attention的“稀疏注意力机制”。

DeekSeek还暗示正在与中国晶片制造商合作开发该模型。

最新版本在V3.1的基础上，引入旨在探索和优化人工智能训练和运行的机制。DeepSeek表示，此举是对长文本的训练和推理效率进行探索性的优化和验证。

今年初，DeepSeek的R1模型以精妙的算法震惊硅谷，如今它正致力于开发新产品，以巩固在中国人工智能领域的领先地位。

您查看的内容可能不完整，部分内容和推荐被拦截！请对本站关闭广告拦截和阅读模式，或使用自带浏览器后恢复正常。

热度：加载中...°

更多内容访问：焦点专栏：

“无人机航母”海试在即军事专家料也能弹射歼-35等有

DeepSeek模型首次引入“稀疏注意力”机制

中国人工智能深度求索（DeepSeek）更新了一个实验性的模型，称之为迈向新一代架构的步骤。据彭博社报道，DeekSeek星期一（9月29日）发布帖子，概述

华夏凯德商业REIT上市首日涨幅12.6%

华夏凯德商业REIT（CapitaLand Commercial C-REIT，简称CLCR）星期一（9月29日）在上海证券交易所挂牌上市。这是中国第一只由国际化不动产资管公司

陈杰豪：新渝过去10年投资总额增长逾一倍

我国数码发展及新闻部兼卫生部高级政务部长陈杰豪指出，10年来新加坡和重庆关系显著加强，双边投资总额增长逾一倍，从2015年的57亿美元增至2024年的

阅读下一篇

美发布出口管制穿透性规则中国商务部批极其恶劣

热文排行榜

三天

一周

1 韩咏红：解放军9月的高层人事动向信号

2 中国特稿：劏房哀歌即将成往事住户喜忧交织盼未来

3 朝外长访华或为中国高层赴平壤阅兵铺路

4 美媒：习近平寻求特朗普在台湾问题让步明确表明反台独

5 韩高官：APEC峰会期间特朗普金正恩或恢复首脑外交

6 中共四中全会10月20日至23日召开

7 中国大使辞行拜会菲总统期望两国相向而行推动关系重回正轨

8 欧盟指中国减排目标令人失望北京批双重标准

9 广州致命车祸：遇难者是大一女学生肇事司机是大学教师

10 消息：美军拟几周内入境打击委内瑞拉毒贩

1 新疆军区政委司令员双双缺席习近平接见驻疆军官文东升中将陪同

2 韩咏红：解放军9月的高层人事动向信号

3 下午察：福建舰电磁弹射震动美国？

4 社论：严防分裂性政治冒头

5 中国商飞据报大幅下调C919飞机交付目标

6 杨丹旭：TikTok交易谁是赢家？

7 于泽远：中国军迷的狂欢月

8 中国特稿：劏房哀歌即将成往事住户喜忧交织盼未来

9 朝外长访华或为中国高层赴平壤阅兵铺路

10 习近平率两常委出席新疆庆祝大会释放维稳为主强化经济信号

即时新闻更多>

美发布出口管制穿透性规则中国商务部批极

09月30日 08时40分45秒

DeepSeek模型首次引入“稀疏注意力”机制

09月30日 08时40分42秒

“无人机航母”海试在即军事专家料也能弹

09月30日 07时36分41秒

中共四中全会10月20日起召开 “十五五”规

09月30日 07时36分32秒

李强会见朝鲜外长：愿加强战略沟通深化协作

09月30日 07时36分22秒

华夏凯德商业REIT上市首日涨幅12.6%

09月29日 22时55分59秒

陈杰豪：新渝过去10年投资总额增长逾一倍

09月29日 22时55分56秒

中国拟推5000亿人民币新型政策性金融工具

09月29日 22时55分53秒

中国K字签证周三上路　分析：时机恰到好处

09月29日 22时55分49秒

韩国为中国旅游团试行免签入境

09月29日 22时55分46秒

立即注册早报中文网每日新闻简报