嘿咯AI新闻

这篇文章主要介绍了密歇根大学安娜堡分校的研究团队开发的一个名为“RoboCrafter-QA”的基准测试,用于评估大型语言模型(LLM)在软体机器人设计中的表现。该研究通过问答形式对模型进行评估,旨在探索这些模型能否担任软体机器人设计的“自然选择器”。 研究团队使用了多种多模态 LLM 来评估其对软体机器人设计的理解能力。他们创建了一个名为“RoboCrafter-QA”的基准测试,专门用于评估多模态 LLM 在软体机器人设计中的表现。这个基准测试包括12种不同的任务环境,涵盖了运动任务、物体操作、攀爬与平衡任务等。 研究结果显示,尽管当前最先进的 LLM 在区分明显不同的设计时表现良好,但在处理细微性能差异时仍面临挑战。此外,提供清晰、全面的任务描述对于 LLM 做出正确设计选择至关重要。模型表现出偏向选择更优设计的趋势,这与其预训练方式可能有关。 实用价值方面,LLM 辅助机器人设计初始化被探索,以提供参考环境中的高奖励和低奖励设计实例,测试了 LLM 是否能为新环境生成可行的初始设计。实验结果表明,具有参考知识的 LLM 生成的设计全部有效,平均奖励值达 0.115,方差仅为 0.035。 未来研究方向包括探索 LLM 驱动的控制策略优化、扩展设计空间复杂性、研究仿真到现实的迁移,以及整合多模态提示(视觉、触觉)增强 LLM 的设计理解。这些研究将为未来的软体机器人设计和开发提供重要的理论和技术指导。

2025-04-06 10:38

FoundationStereo 是一个由英伟达研究院开发的立体深度估计模型,旨在解决零样本泛化问题。该模型通过大规模合成数据集的自筛选流程和单目先验适配技术,实现了无需微调即可在多样场景中实现高精度深度估计。此外,该模型还引入了注意力混合成本过滤(AHCF)和轴向平面卷积(APC)等创新技术,显著提升了模型在不同领域的鲁棒性和精度。 在实验性能方面,FoundationStereo 在多个基准测试上超越了现有的立体匹配算法,特别是在 Middlebury、ETH3D 等排行榜上表现优异。此外,该模型还获得了 CVPR 2025 的满分评审,并开源。 总的来说,FoundationStereo 不仅展示了其在零样本泛化方面的突破,也为未来三维视觉感知技术的发展提供了新的方向和可能性。

2025-04-06 10:38

这篇文章深入探讨了人工智能领域的一个重要进展——模型上下文协议(MCP),它允许AI模型与外部数据源和工具之间的无缝交互。文章从MCP的定义、工作原理、工作流程以及实际应用等方面进行了全面的介绍,展示了这一技术如何帮助AI系统更安全、高效地访问外部资源,并提高其性能和可靠性。 首先,文章强调了MCP的重要性,指出AI模型的局限性往往源于它们无法直接访问或操作外部数据和工具。MCP的出现解决了这一问题,使得AI模型能够安全地与外部数据源和工具进行交互,从而扩展了AI的能力边界。 其次,文章详细介绍了MCP的工作原理,包括主机、服务器、客户端和智能体的角色和功能。通过这种设计,MCP实现了一种标准化的数据交换方式,使得不同来源的数据和工具能够被统一管理和调用,从而提高了AI系统的灵活性和可扩展性。 此外,文章还讨论了MCP在实际中的应用,包括开源协议的应用、开发者社区的支持以及具体的实现示例。这些内容不仅为读者提供了对MCP的深入了解,也为开发者提供了实际的参考和指导。 总的来说,这篇文章为我们提供了一个全面而深入的视角,来理解MCP在现代AI发展中的作用和潜力。随着技术的不断发展,我们期待MCP能够继续推动AI领域的创新和发展,为各行各业带来更多的价值和机会。

2025-04-06 10:38

这篇文章主要介绍了Meta在开源AI领域的最新进展,特别是Llama 4系列模型。这些模型展示了强大的视觉理解和多模态应用能力,特别是在Llama 4 Maverick中,其性能超过了GPT-4o和Gemini 2.0,并且是同类中最佳的多模态模型。文章还提到了Llama 4 Behemoth,这是Meta目前最强大的模型之一,拥有2880亿参数,能够进行大规模的数学、多语言和图像推理任务。

2025-04-06 10:38

Meta 公司宣布推出其最新开源多模态人工智能模型 Llama4,包括两款主要版本:Llama4Scout 和 Llama4Maverick。Llama4 以其强大的性能和先进的技术特性引起了广泛关注,特别是在处理大规模数据和复杂任务方面表现出色。Llama4Scout 拥有1090亿参数和170亿活跃参数,支持高达20小时的视频处理能力,在基准测试中表现超越其他模型。而Llama4Maverick则具有4000亿参数和170亿活跃参数,能够处理100万上下文信息,并在大模型排行榜上排名第二。此外,Meta还计划推出更大型的Llama4Behemoth,预计在未来几个月内发布。这些新模型的推出标志着人工智能领域的一大进步,为开发者提供了更多选择和机会。

2025-04-06 10:37

谷歌近日公布了Gemini2.5Pro API的定价,基础输入价格为每百万tokens1.25美元,约合人民币9.1元;输出价格为每百万tokens10美元,约合人民币72.9元。若文本长度超过20万tokens,则根据输入和输出tokens的价格调整至每百万2.50美元,即约18.2元人民币和109元人民币。与谷歌其他AI模型相比,Gemini2.5Pro的定价较高,但在一定速率限制条件下仍可免费使用。当前顶级AI模型API价格普遍上涨,而Gemini2.5Pro在本月的使用量增长了80%。

2025-04-06 10:37

广西交通领域在清明假期前夕实施了一项创新举措,启用“路网先知”智慧交通大模型全面治理拥堵。该模型采用预测、调度和处置的全链路数字化管理,通过无人机机场和车载无人机实现空天地全方位协同治堵体系。无人机具备路况监测能力并搭载定向扩音系统,能迅速到达现场引导交通,有效缓解拥堵。此次运行积累了大量数据,为后续出行保障提供决策支撑。

2025-04-06 10:37

人工智能视频初创公司Runway成功完成3.08亿美元融资,估值超30亿美元。General Atlantic领投,多家知名机构参与,旨在助力其进一步拓展新媒体生态系统。自2018年成立以来,专注于图像和视频编辑领域的人工智能技术研发,推出文本到图像、图像到图像、替换背景等功能的AI工具,产品广泛应用于好莱坞大片制作。新筹集的资金将主要用于研发投入、团队扩充以及市场拓展,以巩固其在人工智能视频领域的领先地位。

2025-04-06 10:37

微软诞生于1975年,由比尔·盖茨和保罗·艾伦共同创立。他们利用Altair BASIC源代码为他们的初创公司奠定了技术基础,并成功推出了Microsoft Windows操作系统。 在这篇文章中,比尔·盖茨回顾了微软的发展历程,强调了BASIC代码的重要性以及它如何推动了计算机技术的发展。他提到了与MITS创始人Ed Roberts的合作,以及他们在开发Altair BASIC解释器时所面临的挑战。此外,他还分享了自己对编程的热情和数学背景如何帮助他在计算机编程方面取得成功。 文章还提到了微软成立50周年的重要性,以及史蒂夫·鲍尔默和萨蒂亚·纳德拉等杰出领导者在其中所扮演的角色。尽管庆祝这一里程碑令人感到苦乐参半,但比尔·盖茨仍然对微软的成就表示自豪。 最后,文章强调了BASIC代码作为微软半个世纪创新的起点,并鼓励读者阅读《源代码(Source Code)》以了解更多关于BASIC起源的故事。

2025-04-05 18:36

这篇文章是关于一种名为Dream 7B的扩散语言模型的详细介绍,它通过结合自回归(AR)和离散扩散(DM)两种技术,在自然语言处理领域取得了显著的成就。文章首先回顾了自回归模型在文本生成领域的主导地位,并指出了其面临的挑战,如推理能力不足、缺乏灵活性等。随后,文章介绍了Dream 7B模型的设计和实现,包括其架构、训练过程以及与现有技术的比较。 Dream 7B模型的核心优势在于其双向上下文建模和迭代优化过程,这使得它在生成文本时能够获得更丰富的全局连贯性,并且能够灵活地控制生成过程。此外,该模型还具备强大的规划能力和推理灵活性,能够在多个任务上超越现有的自回归模型和最先进的DeepSeek V3模型。 文章还强调了扩散模型在处理大规模文本数据时的潜力,以及其在多任务学习、有监督微调等方面的应用前景。最后,文章展望了未来工作的方向,包括探索为扩散语言模型量身定制更先进的后训练优化方案。 总之,Dream 7B模型的成功展示了混合自回归和扩散技术的优势,为自然语言处理领域带来了新的突破。

2025-04-05 18:36