自建低成本生成式人工智能的热潮才刚刚开始

  据报道,OpenAI 正以 3000 亿美元的更高估值筹集更多资金,但对基于生成式人工智能热潮的大型科技股泡沫的担忧,已经削弱了市场领先企业的地位。...

自建低成本生成式人工智能的热潮才刚刚开始

  据报道,OpenAI 正以 3000 亿美元的更高估值筹集更多资金,但对基于生成式人工智能热潮的大型科技股泡沫的担忧,已经削弱了市场领先企业的地位。

  中国的 DeepSeek 的出现是一个主要原因,现在,数十亿美元的人工智能数据中心建设正受到审视,阿里巴巴联合创始人蔡崇信最近也发出了警告。

  但在斯坦福大学和加州大学伯克利分校等顶尖学校的计算机科学家当中,仅需 30 美元就能构建一个大语言模型的能力,带来了 “顿悟” 时刻。

  当 DeepSeek 发布其 R1 模型,并声称仅花费 600 万美元就实现了其生成式人工智能大语言模型时,包括微软投资的 OpenAI 在内的美国人工智能市场领先企业所投入的数十亿美元资金,立即受到了审视。

  DeepSeek 的成本分析仍然受到怀疑,投资者对 OpenAI 的信心也并未减弱。据报道,它准备以高达 3000 亿美元的估值进行一轮 400 亿美元的融资,并表示今年的收入将增长两倍,达到 127 亿美元。热门人工智能芯片公司 CoreWeave 本周也希望重振不稳定的首次公开募股(IPO)市场,并开启人工智能股票发行热潮。但对人工智能市场是否发展过快、支出水平是否过高的担忧也并未停止。

  今年到目前为止,“七巨头” 科技股一直是市场表现最差的股票之一,就在本周,阿里巴巴联合创始人蔡崇信警告称,他看到了美国人工智能泡沫正在形成的迹象。随着对人工智能发展以及美国在人工智能竞赛中领先地位的预期不断调整,其影响已经广泛蔓延,从要求实施更严厉的芯片禁运以减缓中国的发展,到另一方面,风险投资家们向中国的人工智能开发者投入更多资金。

  但对于美国人工智能领域的一些人来说,一切仍在全速前进,因为生成式人工智能领域的廉价采购热潮,让研究人员能够以前所未有的方式推动大语言模型的构建能力,而在 DeepSeek 出现之前,他们似乎无法做到这一点。

  加州大学伯克利分校的研究人员是最早对 DeepSeek 进行小规模语言模型复现的团队之一,而且仅花费了 30 美元。这是在公共云上租用两块英伟达 H200 图形处理器(GPU),并使用一个简单游戏来训练 “30 亿参数”(3B)模型的费用 —— 这里的 “30 亿” 指的是模型中的参数数量,实际上比最复杂的大语言模型(其参数数量可达数万亿)要少得多。

  “在 DeepSeek R1 发布后,我们立即启动了这个项目。”TinyZero 项目负责人、该校研究生研究员潘佳怡说。

  OpenAI 的突破对该团队的研究兴趣同样至关重要,潘佳怡表示,他们对一种新的人工智能推理范式很着迷,这种范式 “旨在让人工智能在做出回应之前多花些时间思考”。

  但 DeepSeek R1 是首个有助于解释如何实现这种 “先思考再回答” 能力的公开研究,这种能力提高了人工智能模型的性能。“我们非常好奇这种算法是如何工作的。” 潘佳怡说。但潘佳怡补充道,即便 DeepSeek 据说只花了 600 万美元来训练其 R1 模型,这对他们来说 “还是太贵了”。

  TinyZero 项目背后的主要思路是,如果在减小模型规模的同时降低任务复杂度,模型仍然能够展现出涌现的推理行为。这些调整将大幅降低成本,同时仍能让研究人员测试和观察实际的推理行为。

  人工智能的 “顿悟” 时刻

  为了验证这一思路,该团队在一个名为 “倒计时”(Countdown)的数学游戏中复现了 DeepSeek R1-Zero 算法,这个游戏更注重推理能力,而不是基于已有的 “领域” 知识(即数学知识)来寻找解决方案。在这个游戏中,人工智能需要得出一个目标数字,可以通过加、减、乘或除来实现。

  起初,TinyZero 采用随机的方法来寻找目标数字;然而,经过训练,它开始学会调整方法,找到更好、更快的解决方案。而且,即使任务复杂度和模型规模都降低了,该模型仍然能够展现出涌现的推理行为。它通过在游戏的参数范围内学习玩这个游戏,学会了推理。

  “我们证明了,即使是像 30 亿参数这么小的模型,也能学会对简单问题进行推理,并开始学会自我验证和寻找更好的解决方案。” 潘佳怡说。她表示,这是 DeepSeek R1 和 OpenAI o1 发布成果中的一个关键结果,通常被称为 “顿悟时刻”。

  虽然最大的人工智能模型、DeepSeek 和 TinyZero 这样的项目之间存在显著差异,但涌现的推理行为是相似的,TinyZero 这样的成功案例表明,预算有限的研究人员、工程师和爱好者也能够接触到前沿的人工智能算法。

  “我们的项目吸引了很多人访问我们在 GitHub 上的页面,复现实验并亲自体验‘顿悟’时刻。” 潘佳怡说。

  斯坦福大学的研究人员最近发布了他们关于使用 “倒计时” 游戏来观察人工智能如何学习的预印本论文,并克服了之前阻碍他们进展的工程挑战。

  “TinyZero 很棒。” 该项目的首席研究员卡尼什克・甘地说,因为它使用了 “倒计时” 游戏,这是斯坦福团队引入并正在研究的一个任务。

  其他人工智能项目的开源也起到了重要作用,包括由 TikTok 的母公司字节跳动创建的火山引擎强化学习系统(VERL)。“VERL 对我们运行实验至关重要。” 甘地说。“这种一致性极大地帮助了我们进行实验,并实现了更快的迭代周期。”

  超越 “大实验室”,依靠开源

  斯坦福团队试图理解为什么一些大语言模型在推理能力上有显著提升,而另一些则停滞不前,甘地表示,他不再期望与推理、智能和改进相关的计算机科学突破必然来自大型实验室。“即使在大型实验室内部,对当前大语言模型的科学理解也存在缺失,因为其能力在不断提高。在自主开发人工智能、开源和学术界方面,有很大的空间可以在此做出贡献。” 他说。

  像斯坦福大学和加州大学伯克利分校的这些项目,将基于如何训练能够自我提高推理能力的模型的研究,带来更多的共享开发成果。

  但即使是这些超低成本的模型,也比研究人员所解释的要昂贵。

  人工智能商业咨询公司 OneSix 的高级首席机器学习科学家尼娜・辛格表示,TinyZero 这样的项目的开源方面依赖于在其他基础模型之上进行训练,其中不仅包括 VERL,还包括阿里云开源的通义千问(Qwen)大语言模型。“所说的 30 美元训练成本不包括通义千问最初的训练时间,阿里巴巴在将其作为开源权重发布之前,在这上面投入了数百万美元。” 她说。

  辛格表示,这并不是对 TinyZero 的批评,而是强调了开源权重模型的重要性 —— 即使没有完全开源人工智能数据和架构,这些模型也会向公众发布训练参数,从而推动进一步的研究和创新。

  “针对特定任务进行微调的较小人工智能模型,能够以更小的规模和成本与大得多的模型相媲美。” 辛格说。

  随着越来越多的个人、学者和小型公司期望在无需进行大规模基础设施投资的情况下就能参与到人工智能领域,尝试模仿基础模型的性能并针对特定任务进行微调的趋势正在增长。辛格举了 Sky-T1 的例子,它为用户提供了花费 450 美元训练自己的 o1 模型的能力,还有阿里巴巴的通义千问,最低只需 6 美元就能进行人工智能模型的微调。

  辛格预计,较小项目的开源权重模型将促使主要参与者采用更开放的方法。“自主微调以及社区驱动的模型改进的成功,给像 OpenAI 和 Anthropic 这样的公司带来了压力,要求它们为其受 API 限制的模型提供合理依据,尤其是当开源替代方案在特定领域开始达到或超过它们的能力时。” 她说。

  TinyZero 最重要的发现之一是,数据质量和针对特定任务的训练,比单纯的模型规模更重要。

  “这是一个重大发现,因为它挑战了行业中普遍存在的观点,即只有像 ChatGPT 或(Anthropic 的)Claude 这样拥有数千亿参数的大规模模型,才能够进行自我修正和迭代学习。” 辛格说。“这个项目表明,我们可能已经越过了一个临界点,即额外增加参数带来的收益在递减 —— 至少对于某些任务来说是这样。”

  这意味着人工智能领域的重点可能正在从模型规模转向效率、可及性和有针对性的智能。

  或者正如 TinyZero 团队在项目页面上自己所说:“你可以用不到 30 美元亲自体验‘顿悟’时刻。”

本文来自作者[燕归空]投稿,不代表手机游戏立场,如若转载,请注明出处:https://sjyxw.cn0731.cn/brand/t2-2025047432.shtml

(3)

文章推荐

  • 服装销售下降原因分析和提升方案

    网上科普有关“服装销售下降原因分析和提升方案”话题很是火热,小编也是针对服装销售下降原因分析和提升方案寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。服装销售下降原因分析和提升方案为了确保事情或工作有序有力开展,往往需

    2025年01月30日
    686
  • 四川多地麻将室棋牌室关门

    网上有关“四川多地麻将室棋牌室关门”话题很是火热,小编也是针对四川多地麻将室棋牌室关门寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。近期国内疫情影响,据江苏卫健委报告,扬州疫情爆发围绕棋牌室展开。四川麻将馆通风条件差,人群聚集,容易造成病毒的传播。为了防控疫

    2025年02月13日
    754
  • 全不靠怎么胡

    网上有关“全不靠怎么胡”话题很是火热,小编也是针对全不靠怎么胡寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。问题一:QQ麻将全不靠怎么胡牌十三不靠就是说必须拿到三种牌,一种拿到147,一种拿到258,一种拿到369.比如说:147万258条369饼,或者

    2025年02月14日
    892
  • 手游赚人民币排行榜有哪些?

    网上有关“手游赚人民币排行榜有哪些?”话题很是火热,小编也是针对手游赚人民币排行榜有哪些?寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。手游赚人民币排行榜有,蜀门手游,大话西游手游,倩女幽魂赚钱,征途2手游。1、蜀门手游蜀门手游是由上海云蟾研发方趣科技运营的

    2025年02月16日
    846
  • 白重恩:建议把提振消费纳入地方政府重要考核指标

    专题:第八届中国企业改革发展峰会暨成果发布会  第八届中国企业改革发展峰会暨成果发布会2月22日在北京召开,主题为“启航2025:新蓝图新动能新作为”。清华大学文科资深教授、清华大学经济管理学院院长白重恩出席并演讲。  他表示,中国与美国的消费结构存在较大差距,尤其是在健康保健等服务领域。

    2025年02月23日
    3
  • 消息称7-11母公司放弃580亿美元管理层收购计划

      据报道,日本Seven&i控股公司将放弃由该零售商的创始家族牵头的580亿美元管理层收购计划,此前伊藤忠商事株式会社退出了该计划。  这家7-11便利店的母公司将在不久的董事会会议上决定此事,并将致力于独立提升公司价值,此前该公司拒绝了加拿大便利店巨头Alimentation

    2025年02月27日
    5
  • 日本央行行长在G-20会议上态度谨慎 重申购买债券的可能性

      日本央行行长植田和男在全球主要经济体经济决策者本周会议上凸显谨慎态度,官员们指出不确定性在上升。  “我的印象是,存在很大的不确定性——而且有很多,”包括美国的关税措施及对这些措施的反应,植田和男周四在开普敦参加二十国集团(G-20)财长和央行行长会议后对记者表示。  “我们将评估其将如

    2025年02月28日
    4
  • 信音电子2024年预估营收7.87亿元 净利润逾7000万元

    上证报中国证券网讯信音电子3月7日晚间发布2024年度业绩快报,预计实现营业收入78689万元,同比增长1.67%;归属于上市公司股东的净利润7043万元,同比下降2.92%;扣除非经常性损益后的归属于上市公司股东的净利润7155万元,同比下降11.56%;截至2024年12月31日,公司总资产为

    2025年03月10日
    4
  • 股指期货窄幅震荡 IM主力合约跌0.48%

      2025年3月19日,股指期货窄幅震荡,沪深300股指期货(IF)主力合约涨0.15%,上证50股指期货(IH)主力合约涨0.34%,中证500股指期货(IC)主力合约跌0.23%,中证1000股指期货(IM)主力合约跌0.48%。  A股三大指数今日集体下跌,截至收盘,沪指跌0.1%

    2025年03月19日
    4
  • AI如何赋能行业?如何应对AI带来的机遇和挑战?业内专家这么说

    专题:春启新程聚福于民—中国民营经济高质量发展论坛  3月29日,“中国民营经济高质量发展论坛”在泉州举行,本次活动由新浪财经、剑南春、上海高级金融研究院联合主办,泉州市数字经济促进会、泉州市大数据产业协会、常青藤闽商学院协办。  在以《AI赋能高质量发展的新动力》为题的圆桌讨论环节,谈到

    2025年03月29日
    3

发表回复

本站作者后才能评论

评论列表(4条)

  • 燕归空
    燕归空 2025年04月05日

    我是手机游戏的签约作者“燕归空”!

  • 燕归空
    燕归空 2025年04月05日

    希望本篇文章《自建低成本生成式人工智能的热潮才刚刚开始》能对你有所帮助!

  • 燕归空
    燕归空 2025年04月05日

    本站[手机游戏]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 燕归空
    燕归空 2025年04月05日

    本文概览:  据报道,OpenAI 正以 3000 亿美元的更高估值筹集更多资金,但对基于生成式人工智能热潮的大型科技股泡沫的担忧,已经削弱了市场领先企业的地位。...

    联系我们

    邮件:手机游戏@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们