
中国初创公司DeepSeek(深度求索)发布一款价格低廉的大语言模型DeepSeek-R1,其性能比拟美国OpenAI开发的最新一代模型o1,但训练成本更低。
综合新华社、英国《金融时报》等报道,世界经济论坛2025年年会开幕当天,中国量化巨头幻方量化旗下的子公司深度求索公司1月20日发布最新开源模型DeepSeek-R1。
据深度求索介绍,DeepSeek-R1在后训练阶段大规模使用强化学习技术,在仅有极少标注数据的情况下,极大提升模型推理能力。这意味着该模型的训练跳过了监督微调(SFT)的步骤。

在第三方基准测试中,DeepSeek-R1在算法类代码场景和知识类测试中的得分略低于OpenAI的o1,但在工程类代码场景、美国数学竞赛项目上均超越o1模型。
令外界更关注的是,与o1性能比肩的DeepSeek-R1,训练成本比o1低了五十分之一。
此外,深度求索提供更加低廉的收费方案,每百万tokens(大模型基本单位,1000个tokens约等于500个汉字)仅需16元人民币(下同),远低于o1模型每百万tokens要价438元。

去年12月,深度求索公司发布DeepSeek-V3模型,仅使用2048块英伟达弱化版的H800晶片,花两个月就训练出性能比肩GPT4.0的模型。
DeepSeek能在多大程度上转化为实际的科学和技术应用,还是仅仅在基准测试中表现优异,仍有待观察。
但微软首席执行官兼OpenAI战略合作伙伴纳德拉1月22日在瑞士达沃斯世界经济论坛上说:“看到深度求索的新模型,真是令人印象深刻,不仅因为他们有效地构建一个开源模型,还因为它的推理计算效率极高。我们应该非常严肃地看待中国的AI进展。”

美国CNBC报道称,这款模型的发布已在硅谷引起恐慌。
由于美国出口管制限制中国企业采购最先进的人工智能计算晶片,中国企业正着力于通过优化软件、算法等方式,以更加低的训练成本开发模型。目前越来越多迹象显示,中国企业已取得巨大突破。
另据路透社报道,除了深度求索公司,中国字节跳动星期三(1月22日)发布豆包大模型1.5 Pro,并称该模型在美国数学竞赛项目基准测试中表现优于o1模型。

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。注册地位于浙江省杭州市拱墅区环城北路169号汇金国际大厦西1幢1201室,法定代表人为裴湉。

天桥起重
HUAWEI
Dahua Technology
3M制造业
陕煤化工集团
Gemtique
中国石油
延长石油
IAA Show
LASTON
PALEXPO
中油工程
German Machine Tool Builders Association
维远光伏产业
IFEMA
Iteca Exhibitions
QIIE青岛进博会
吉祥星科技
陕西有色金属
天元化工
中杭贸易
首匠装饰工程
长城润滑油
PV EXPO
Expocentre
Hannover Messe
KUNVII
HealthCare
大唐旗舰店
Time Out Group
TOSHIBA
National Media
Dowpol Chemical
MFV Expositions
神木职教中心
海康威视-HIK VISION
DETROIT AUTO SHOW 2022
中国航空工业集团宣传片 - 大国起飞
坐着高铁看中国 十月一日出发
中航工业直升机:新生活 新高度
International trade fair for joining technology
中央经济工作会议在北京举行
拉斯维加斯公务航空会议展
新一代军用大型运输机 运-20 鲲鹏宣传片
法国巴黎蓬皮杜艺术中心重新开门迎客
醉美榆能化-陕西延长中煤榆林能源化工有限公司
拜登与贺锦丽就任美国第46任总统与副总统
2019年多特蒙德国际纹身及穿环艺术展览会
美国华府暴动 示威者攻入国会大厦 造成4死
英国出现变异新冠病毒 部分地区调升防控级别
伊斯坦布尔国际食品及加工技术展览会
唐三彩盘子
原装正品直销价格优惠德国依博罗厂家直销手柄蝶阀Z011-A
防腐化工储罐
2024年英国伯明翰电子烟展览会
2025广州国际大米杂粮展览会暨世界粮油博览会
2024美国Display Week显示周/SID年会
2021年第七届中国(广州)国际冷链设备暨生鲜配送展览会
2022年广州国际水产养殖展览会
航空座椅夹
意大利里米尼城市介绍
纽伦堡 - 玩具都城
慕尼黑 - 伊萨尔河畔的酒都
法兰克福 - 欧洲金融中心
迪拜 - Dubal
俄罗斯 - 战斗民族和套娃的国家
葡萄牙 - 软木塞之乡
西班牙 - 斗牛士的故乡



