DeepSeek新模型传因华为晶片问题推迟发布

(北京/伦敦综合讯)知情人士说,中国初创企业深度求索(DeepSeek)新的人工智能(AI)模型训练过程中因为与华为晶片相关的问题,不得不延迟发布。

英国《金融时报》引述三名知情人士报道,深度求索自1月发布其R1模型后,在中国官方的鼓励下,弃用了美国晶片巨头英伟达的系统,改为采用中国科技巨头华为的昇腾处理器,却持续在R2模型的训练过程中遇到技术问题。

一名熟悉情况的人透露,这些技术问题是R2模型无法按照原定计划于5月发布的主要原因,使深度求索失去原有的竞争优势。

知情人士还指出,尽管华为已安排一批工程技术人员协助深度求索使用昇腾晶片研发R2模型,相关的训练运行仍无法顺利完成。因此,R2模型仍须依赖英伟达晶片进行训练,昇腾晶片则用于模型推理。不过,深度求索据悉仍在与华为合作探讨如何让昇腾晶片与新模型的推理兼容。

所谓训练,指的是利用大量数据优化模型性能;推理则是经过训练的AI模型通过对实时数据的分析推断结果的过程。

知情者还透露,深度求索创始人梁文锋已在公司内部表示对R2模型的进展不满意,且希望团队把资源投入到另一更高阶的模型,让公司在AI领域中保持领先地位。

业内人士说,相对英伟达的产品,中国制造的晶片在稳定性、晶片间互联,以及软件方面的性能都处于劣势。

留意华为AI生态系统的加州大学伯克利分校AI研究员古普塔(Ritwik Gupta)则称,虽然昇腾晶片在模型训练方面仍有问题,但他相信这只是成长必经之痛,华为最终将能克服这些困难。

腾讯科技引述市场消息指,深度求索R2预计将在8月15日至30日间发布,但接近该公司的人士否定了此消息。

中美科技竞争日趋紧张之际,中国政府据报就企业购买英伟达晶片一事,约谈了数家互联网公司,要求企业解释采购原因。据第一财经报道,其中被约谈的腾讯星期三(8月13日)晚间召开业绩交流会并强调,公司目前有足够的晶片进行模型训练和升级,推理方面也有不同的晶片选择;公司也会在软件方面进一步提升推理效率,以减少对晶片能力的依赖。

您查看的内容可能不完整,部分内容和推荐被拦截!请对本站关闭广告拦截和阅读模式,或使用自带浏览器后恢复正常。