中国人工智能起步公司深度求索(DeepSeek)发布其热门推理模型R1的首次更新版本,称新版R1模型深度思考能力得到强化,整体表现上已接近美国竞争对手OpenAI和谷歌推出的顶尖模型。
DeepSeek星期四(5月29日)晚在官方微信公众号发文称,DeepSeek R1模型已完成小版本升级,当前版本为DeepSeek-R1-0528。
文章称,DeepSeek-R1-0528仍然使用去年12月所发布的DeepSeek V3 base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。相较于旧版R1,新版模型在复杂推理任务中的表现有了显著提升。
文章特别提到,更新后的R1模型对“幻觉”问题(错误或误导性输出)进行了优化,在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%至50%左右。其他方面的提升则包括更贴近人类偏好的创意写作,和更好的前端代码生成、角色扮演能力。
DeepSeek表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中,取得当前中国“所有模型中首屈一指的成绩”,在整体表现上已接近OpenAI的o3和谷歌的Gemini-2.5-Pro等美国顶尖模型。
DeepSeek同时也说,该公司在蒸馏DeepSeek-R1-0528的思维链后,训练中国科技巨头阿里巴巴的Qwen3-8B基础模型,得到了DeepSeek-R1-0528-Qwen3-8B,在性能上比原版模型高出10%。
DeepSeek称:“我们相信,DeepSeek-R1-0528 的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。”
DeepSeek也将继续开源新版R1模型,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
另据路透社报道,今年1月发布的R1在全球引发热议,导致中国以外的科技股暴跌,挑战了“扩展人工智能需要巨大算力和投资”这一观点。阿里巴巴和腾讯等中国科技巨头此后纷纷发布声称超越DeepSeek的模型。
报道称,DeepSeek的成功也颠覆美国出口管制阻碍中国人工智能进步的看法,因为它以极低成本发布了与美国行业领先模型相当甚至更好的人工智能模型。
为了应对来自DeepSeek的竞争,谷歌的Gemini已推出折扣版本,而OpenAI也降低了价格,并发布对算力要求更低的o3 Mini模型。
DeepSeek曾在3月发布V3大型语言模型的升级版。外界普遍预计DeepSeek将推出R1的后续版本R2,路透社3月曾引述消息人士称,R2最初计划在5月发布。
宇树科技更名为股份有限制公司 疑为上市铺路
中国人形机器人公司宇树科技更名股份有限制公司,引发市场对其准备上市的猜测。
宇树科技星期四(5月29日)向合作伙伴发布通知称,因公司发展需要,杭州宇树科技有限公司即日起名称变更为杭州宇树科技股份有限公司。届时,原公司所有业务由新公司名称继续经营,原公司签订的所有合同继续有效。
据《证券时报》和澎湃新闻报道,国家企业信用信息公示系统显示,宇树科技已经进行市场主体类型变更,从有限责任公司变更为股份有限公司。
宇树科技更名引发市场对其准备上市的猜测。业内人士分析称,这一变更可等同于完成股份制改革,此举可能是为IPO上市铺路。
宇树科技相关负责人回应称,改名行为是公司运营方面的常规变更。
据报道,今年2月,市场曾传出消息称宇树完成新一轮融资。CEO王兴兴否认这一消息,表示新股东是和老股东相互转股进入。
今年4月,香港行政长官李家超在参访宇树科技时询问是否计划赴港上市。王兴兴表示,后续有可能,但不确定。
宇树科技与深度求索(DeepSeek)等另外五家科技创新企业并称为“杭州六小龙”,受到广泛关注。今年春节联欢晚会期间,由宇树科技人形机器人表演的舞蹈节目引发热议。