嘿咯AI新闻

这篇文章是关于深度学习(DeepSeek)在推理时Scaling的新论文,主要介绍了一种新的方法Self-Principled Critique Tuning (SPCT) 来提升通用奖励模型(GRM)的推理时间可扩展性。这项研究的主要贡献包括: 1. 提出了一种新方法 Self-Principled Critique Tuning (SPCT),用于提升通用奖励模型在推理阶段的可扩展性,并由此训练出 DeepSeek-GRM 系列模型。 2. 引入了一种元奖励模型(meta RM),使 DeepSeek-GRM 的推理效果在超越传统投票机制的基础上得到进一步提升。 3. 实验证明,SPCT 在生成质量和推理阶段的可扩展性方面,明显优于现有方法,并超过了多个强大的开源模型。 4. SPCT 的训练方案还被应用到更大规模的语言模型上。研究者们发现推理阶段的扩展性收益甚至超过了通过增加模型规模所带来的训练效果提升。 5. 提出了一种基于规则的在线强化学习(rule-based online RL),通过不断优化生成的准则和评论,进一步增强泛化型奖励生成能力。 6. 采用逐点 GRM,能以统一格式为任意数量响应生成奖励。 7. 预训练 GRM 对 RM 数据中不同响应数量的查询 - 响应对进行轨迹采样,每个查询 - 响应对采样次。拒绝策略也采用统一标准:拒绝预测奖励与真实值不符(错误)的轨迹,以及所有次轨迹均正确(过于简单)的查询 - 响应对。 8. 通过基于规则的在线 RL,研究者对 GRM 进行了进一步的微调。与 DeepSeek R1 不同的是,没有使用格式奖励。而是,为了确保格式和避免严重偏差,KL 惩罚采用了较大的系数。

2025-04-04 14:32

标题:AI设计新突破:即梦3.0模型惊艳亮相,中文处理能力显著提升 近期,AI设计领域迎来重大进展,即梦3.0模型凭借其卓越的中文处理能力和丰富的插画风格,赢得了广泛关注。这一版本不仅在英文生成方面表现出色,更在中文设计上实现了质的飞跃,展现出令人惊叹的设计实力。 通过一系列精心设计的实测案例,即梦3.0能够精准地完成从电影海报到时尚杂志、从可爱表情包到专业摄影棚拍摄的各类设计需求。无论是细腻的插画风格还是写实风格的文案撰写,该模型都能游刃有余地应对,展现出极高的设计灵活性和创造力。 特别值得一提的是,即梦3.0在处理中文内容时展现出了显著的进步。与以往版本相比,其在中英文字体的生成上几乎能做到一次过,无需反复抽卡,极大提高了工作效率。同时,该模型在色彩搭配和光影把握方面也表现出色,能够营造出既符合审美又具有艺术感的设计作品。 对比评测环节更是直观展示了即梦3.0与其他两款AI工具(GPT-4o、Ideogram 3.0)在设计领域的竞争实力。尽管各有特色,但即梦3.0在整体表现上更胜一筹,尤其是在细节处理和色彩运用上展现出更高的水准。 目前,即梦3.0正处于灰测阶段,我们诚邀广大用户积极参与体验,共同见证这一AI设计领域的新突破。同时,我们也将持续带来更多有趣的AI评测内容,敬请期待。 关于即梦3.0的更多信息和下载链接,请访问我们的官方网站:https://jimeng.jianying.com/。

2025-04-03 20:31

DeepResearcher 是一个基于强化学习(Reinforcement Learning, RL)的 AI 研究平台,旨在通过端到端的 RL scaling 在真实网络环境中训练 AI 模型以执行复杂的研究任务。该平台利用 Google Cloud's Inducer 和 Hugging Face's Transformers 等技术,结合分布式 CPU 服务器集群架构,实现了高效的任务分配、网络爬取、信息提取和搜索策略调整。 论文中详细介绍了 DeepResearcher 的训练架构,包括其与实时搜索引擎互动的能力、网页搜索工具的设计、以及如何通过智能体行为来模拟人类研究者的研究过程。此外,还讨论了 DeepResearcher 在多个问答数据集上的表现,展示了其在超过基线的性能提升,特别是在处理 OOD(Out-of-Domain)问题时展现出的泛化能力。 研究团队通过实验证明了在真实环境中训练 AI 模型的重要性,并探讨了 RL scaling 在解决真实世界挑战中的工程挑战。他们指出,尽管本地 RAG(Reinforcement Learning Agents)在特定条件下表现良好,但在面对复杂多变的真实网络环境时,需要采用端到端的 RL scaling。 论文最后部分讨论了 DeepResearcher 在训练过程中涌现的认知能力,如规划、交叉验证、反思调整策略等,这些能力反映了强化学习过程中的非预期特性。此外,研究还探讨了训练演化趋势,包括性能提升、工具调用次数增加以及推理步骤的扩展。 总结而言,DeepResearcher 是一个展示强化学习在 AI 研究领域应用潜力的平台,它不仅提高了 AI 模型在真实环境下的性能,还揭示了在复杂网络环境中进行端到端强化学习的潜在优势。

2025-04-03 18:30

2025年,DeepSeek R1等推理大模型在AI领域掀起技术革新浪潮。面对快速发展的AI领域,如何精准把握航帆成为关键问题。ICLR 2025即将在新加坡举行,机器之心与合作伙伴共同举办「云帆·ICLR 2025 AI Talent Meetup」,旨在为青年才俊探讨前沿技术与应用落地提供平台,助力人才发展。活动时间:4月24日17:00-20:30,地点在新加坡市中心。报名审核通过后,活动小助手将主动添加您的微信,并发送 Meetup 入场通知或邀请函。更多详情敬请关注机器之心后续公告。

2025-04-03 18:30

Anthropic 推出 “Claude for Education” 计划,助力高校教育与批判性思维。该计划提供定制版 Claude AI 聊天机器人,配备学习模式、研究论文模板等资源,以提升学生批判性思维能力。目前,已有美国东北大学、尚普兰学院和英国伦敦政治经济学院与 Anthropic 签署协议,确保所有学生都能使用 Claude for Education。Anthropic 计划通过 “学生大使” 和 AI “开发者” 项目吸引更多学校加入,扩大在高校市场的影响力。

2025-04-03 18:30

腾讯元宝的「收藏夹」功能经过升级,新增了对多种格式内容的支持,包括文字、图片、文件和链接等。这一改进使用户能够更有效地管理和回顾各种有价值的信息,如灵感笔记、重要文件和有用的网页链接。此外,升级后的「收藏夹」支持多端同步,允许用户在不同设备间无缝切换,随时随地继续处理收藏的内容。这一功能旨在帮助用户捕捉并保存那些稍纵即逝的灵感和未完成的思考,提高日常工作和生活的效率。

2025-04-03 18:30

加州大学伯克利分校和加州理工学院的研究团队开发了ProteinDT多模态框架,利用文本描述辅助蛋白质设计。该框架结合序列与结构信息,并整合大量生物知识,通过对比性语言-蛋白质预训练方法实现文本与蛋白质序列的对齐。研究团队还设计了三项下游任务验证框架有效性,包括文本生成蛋白质任务、零样本文本引导的蛋白质编辑任务以及ProteinCLAP学习表征稳健性与泛化能力的评估。这一创新方法不仅开启了蛋白质设计的新篇章,也为生物科技领域带来了新的应用前景。

2025-04-03 18:30

维也纳大学和上海海洋大学的研究人员开发出了一款名为「Ayu」的机器学习工具,显著提升了微生物分泌蛋白预测的效率。该研究利用基于氨基酸组成(AAC)的蛋白质适应信号来识别海洋细胞外蛋白,并成功将性能与最先进的亚细胞位置预测工具进行了比较。在Tara Oceans宏基因组和元转录组数据集上的应用中,Ayu能够回收两倍以上的蛋白质,比当前最广泛使用的鉴定方法高出53%。这项研究不仅揭示了海洋环境对暴露于其中的蛋白质有特定影响,还表明盐度是关键因素。此外,Ayu模型通过使用经过验证的特征描述符,改进了当前的亚细胞位置预测方法,并显示出优于其他分类器的性能。团队最终保留了多类和序数两个版本的Ayu,以应对不平衡类别的问题。这项研究为微生物分泌组的研究开辟了新的方向,并为未来的海洋生物学和生物地球化学研究提供了重要的工具。

2025-04-03 16:29

UC伯克利和加州理工学院的研究人员提出了一种基于文本描述的多模态框架,用于蛋白质设计。该框架包括三个步骤:ProteinCLAP、Facilitator和解码器,通过对比性语言学习双模态表征对齐,并使用条件生成模型生成蛋白质序列。实验结果显示,在三项下游任务中,ProteinDT均取得最佳命中率,定性分析结果进一步证明了其有效性。

2025-04-03 16:29

OpenAI的o3模型运行成本飙升,单次任务费用从3000美元涨至30000美元。这一变化突显了先进AI模型在特定任务上的高昂成本,对行业构成挑战。尽管Arc Prize Foundation调整了模型的成本,但o3high配置的性能与计算资源消耗显著增加,导致费用激增。此外,OpenAI可能为企业客户提供高端定制服务并收取高额费用,引发了对AI技术商业化和成本控制的关注。

2025-04-03 16:29