嘿咯AI新闻

英伟达推出创新AI架构优化技术,解决大型语言模型推理效率瓶颈。该技术通过合并依赖性较低的FFN层为更宽的FFN,实现并行计算,显著提升推理速度和资源效率。实验表明,Ultra-253B-Base在批量大小为32时,推理延迟降低了1.71倍,每个token的计算成本降低了35倍。此外,Ultra-253B-Base在多个评测基准上取得了优异的成绩,内存使用量减少了一半。FFN融合技术已在不同规模的模型上得到验证,显示出良好的通用性。这项研究表明,通过深入分析和巧妙的架构设计,可以显著提升LLM的效率。

2025-03-31 14:11

CycleResearcher 是来自西湖大学和UCL等机构的研究团队在自动化科研方向发布的一项突破性成果。该研究首次实现了可训练的科研流程的全链路端到端训练,覆盖智能文献检索、模型主动提问、强化学习迭代优化论文创新点、方法论架构设计、实验设计到论文自动生成的完整闭环。 这项技术的主要亮点包括: 1. 通过强化学习实现科研过程的自动迭代改进,能够模拟完整的科研流程,包括文献综述、研究构思、论文撰写,以及模拟实验结果。 2. 发布了两个大规模数据集(Review-5k 和 Research-14k),用于评估和训练学术论文评审和生成模型。 3. CycleResearcher 模型能够生成质量接近人类撰写预印本的论文,实现 31.07% 的接受率。 4. CycleReviewer 模型能够模拟同行评议,对生成的论文进行评估和反馈。 5. 通过迭代反馈训练阶段,研究人员首先通过拒绝采样获取样本,通过 CycleReviewer 的打分构成偏好对,两个模型相互配合,通过强化学习的方式不断优化,CycleResearcher 根据 CycleReviewer 的反馈不断改进自身的论文生成策略,CycleReviewer 则根据 CycleResearcher 生成的论文不断提高自身的评审能力。 6. 实验结果显示,CycleResearcher 生成论文的模拟评审平均得分达到 5.36 分,超过目前 AI Scientist 的 4.31 分,且十分接近人类真实预印本的平均水平(5.24 分)。同时,CycleResearcher 论文的接受率达到了 35.13%,远高于 AI Scientist 的 0%。 7. 提供了完整的开源资源套件,包括不同规模模型、大规模训练数据集和详尽教程。 总之,CycleResearcher 是一项具有重要应用前景的技术,有望为科研人员提供更高效、准确的科研辅助工具。

2025-03-31 12:11

来自机器之心的AI技术文章《200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba》介绍了一个名为AReaL的开源强化学习训练框架,该框架由蚂蚁技术研究院和清华大学交叉信息院吴翼团队联合发布。AReaL旨在通过其创新的数据蒸馏技术和大规模强化学习训练,实现高效稳定的分布式训练,并让每个人都能以极低的成本实现最强的推理训练效果。 AReaL-boba是首个全面拥抱xAI公司所采用的SGLang推理框架的开源训练系统,对比初代AReaL训练大幅度提升训练吞吐。使用AReaL-boba即可以128张H800规模在1天内训练完成SOTA 1.5B推理模型,以256张H800规模在2天内完成SOTA 7B推理模型训练。此外,AReaL团队还开源了推理模型、所有的训练数据以及全部的训练脚本和评估脚本,确保人人可复现。 在最新的AReaL v0.2版本AReaL-boba中,其7B模型数学推理分数刷新同尺寸模型AIME分数纪录,并且仅仅使用200条数据复刻QwQ-32B,以不到200美金成本实现最强推理训练效果。

2025-03-31 12:11

千寻智能完成5.28亿元Pre-A轮融资,由阿美P7 Ventures领投,多家资本深度参与。公司成立于2024年,拥有顶尖团队,专注于具身智能领域,包括AI和机器人技术。其自研VLA Spirit v1抢先版在柔性物体操作上取得突破,即将发布Moz1人形机器人。千寻智能以“顶尖人才驱动颠覆性创新”为战略,加速构建产学研融合的人才体系,并致力于推动具身智能技术的全球发展。

2025-03-31 12:11

AI版论文搜索工具Ai2 PaperFinder推出,提供超过800万篇全文和1.08亿篇摘要,帮助用户快速找到相关研究。该平台通过强大的文献检索功能和文献合成功能,节省查阅时间,提升科研效率。同时,Ai2团队不断开发新功能,为科学家提供全面支持。

2025-03-31 12:11

联想首席技术官Tolga Kurtoglu在2025/26财年誓师大会上强调,AI行业正快速迭代,但尚未实现成熟能力为用户创造价值。Kurtoglu提出未来AI发展关键在于构建以用户为中心的解决方案,打造差异化优势。他描绘了未来AI图景:端侧、云端、边缘等多模型和智能体协同运作,提供简约体验与强大能力融合的AI服务。为实现这一愿景,联想将建立模型工厂,采用先进模型编排技术和智能体开发框架,提升AI智能体的部署速度和质量。这将使联想具备向用户交付超级AI智能体的能力。

2025-03-31 12:11

Meta公司因涉嫌使用未出版书籍训练AI模型引发关注,引发了对创作者权益及AI训练数据合法性的广泛讨论。

2025-03-31 12:11

京东申请注册JoyAI商标,涉及科学仪器、餐饮住宿等多领域。此举可能影响AI行业的商业应用和政策发展。

2025-03-31 12:11

AI工具DeepSeek在2025年2月的月访问量超越ChatGPT,达到5.25亿次,成为全球增长最快的AI工具之一。这一变化标志着DeepSeek在AI市场的强劲增长,令业内人士为之一振。DeepSeek以其高效的功能和用户友好的界面吸引了大量用户,尤其是在数据分析和信息检索领域。目前,DeepSeek占据6.58%的市场份额,位列第三,仅次于ChatGPT和Canva。这种竞争局面不仅反映了AI工具市场的活跃程度,也突显了DeepSeek作为新兴力量的潜力。

2025-03-31 12:10

苹果公司计划推出名为“Health+”的AI健康教练应用,该应用将利用人工智能技术为用户提供个性化的健康改善建议。这一服务最早可能在2026年春季或夏季通过iOS 19.4更新推出。苹果正在积极推进这一项目的开发工作,并已开始与医护人员合作进行数据培训。

2025-03-31 10:10