嘿咯AI新闻

这篇文章主要介绍了Meta在开源AI领域的最新进展,特别是Llama 4系列模型。这些模型展示了强大的视觉理解和多模态应用能力,特别是在Llama 4 Maverick中,其性能超过了GPT-4o和Gemini 2.0,并且是同类中最佳的多模态模型。文章还提到了Llama 4 Behemoth,这是Meta目前最强大的模型之一,拥有2880亿参数,能够进行大规模的数学、多语言和图像推理任务。

2025-04-06 10:38

Meta 公司宣布推出其最新开源多模态人工智能模型 Llama4,包括两款主要版本:Llama4Scout 和 Llama4Maverick。Llama4 以其强大的性能和先进的技术特性引起了广泛关注,特别是在处理大规模数据和复杂任务方面表现出色。Llama4Scout 拥有1090亿参数和170亿活跃参数,支持高达20小时的视频处理能力,在基准测试中表现超越其他模型。而Llama4Maverick则具有4000亿参数和170亿活跃参数,能够处理100万上下文信息,并在大模型排行榜上排名第二。此外,Meta还计划推出更大型的Llama4Behemoth,预计在未来几个月内发布。这些新模型的推出标志着人工智能领域的一大进步,为开发者提供了更多选择和机会。

2025-04-06 10:37

谷歌近日公布了Gemini2.5Pro API的定价,基础输入价格为每百万tokens1.25美元,约合人民币9.1元;输出价格为每百万tokens10美元,约合人民币72.9元。若文本长度超过20万tokens,则根据输入和输出tokens的价格调整至每百万2.50美元,即约18.2元人民币和109元人民币。与谷歌其他AI模型相比,Gemini2.5Pro的定价较高,但在一定速率限制条件下仍可免费使用。当前顶级AI模型API价格普遍上涨,而Gemini2.5Pro在本月的使用量增长了80%。

2025-04-06 10:37

广西交通领域在清明假期前夕实施了一项创新举措,启用“路网先知”智慧交通大模型全面治理拥堵。该模型采用预测、调度和处置的全链路数字化管理,通过无人机机场和车载无人机实现空天地全方位协同治堵体系。无人机具备路况监测能力并搭载定向扩音系统,能迅速到达现场引导交通,有效缓解拥堵。此次运行积累了大量数据,为后续出行保障提供决策支撑。

2025-04-06 10:37

人工智能视频初创公司Runway成功完成3.08亿美元融资,估值超30亿美元。General Atlantic领投,多家知名机构参与,旨在助力其进一步拓展新媒体生态系统。自2018年成立以来,专注于图像和视频编辑领域的人工智能技术研发,推出文本到图像、图像到图像、替换背景等功能的AI工具,产品广泛应用于好莱坞大片制作。新筹集的资金将主要用于研发投入、团队扩充以及市场拓展,以巩固其在人工智能视频领域的领先地位。

2025-04-06 10:37

微软诞生于1975年,由比尔·盖茨和保罗·艾伦共同创立。他们利用Altair BASIC源代码为他们的初创公司奠定了技术基础,并成功推出了Microsoft Windows操作系统。 在这篇文章中,比尔·盖茨回顾了微软的发展历程,强调了BASIC代码的重要性以及它如何推动了计算机技术的发展。他提到了与MITS创始人Ed Roberts的合作,以及他们在开发Altair BASIC解释器时所面临的挑战。此外,他还分享了自己对编程的热情和数学背景如何帮助他在计算机编程方面取得成功。 文章还提到了微软成立50周年的重要性,以及史蒂夫·鲍尔默和萨蒂亚·纳德拉等杰出领导者在其中所扮演的角色。尽管庆祝这一里程碑令人感到苦乐参半,但比尔·盖茨仍然对微软的成就表示自豪。 最后,文章强调了BASIC代码作为微软半个世纪创新的起点,并鼓励读者阅读《源代码(Source Code)》以了解更多关于BASIC起源的故事。

2025-04-05 18:36

这篇文章是关于一种名为Dream 7B的扩散语言模型的详细介绍,它通过结合自回归(AR)和离散扩散(DM)两种技术,在自然语言处理领域取得了显著的成就。文章首先回顾了自回归模型在文本生成领域的主导地位,并指出了其面临的挑战,如推理能力不足、缺乏灵活性等。随后,文章介绍了Dream 7B模型的设计和实现,包括其架构、训练过程以及与现有技术的比较。 Dream 7B模型的核心优势在于其双向上下文建模和迭代优化过程,这使得它在生成文本时能够获得更丰富的全局连贯性,并且能够灵活地控制生成过程。此外,该模型还具备强大的规划能力和推理灵活性,能够在多个任务上超越现有的自回归模型和最先进的DeepSeek V3模型。 文章还强调了扩散模型在处理大规模文本数据时的潜力,以及其在多任务学习、有监督微调等方面的应用前景。最后,文章展望了未来工作的方向,包括探索为扩散语言模型量身定制更先进的后训练优化方案。 总之,Dream 7B模型的成功展示了混合自回归和扩散技术的优势,为自然语言处理领域带来了新的突破。

2025-04-05 18:36

OpenING 基准发布,新版 GPT-4o 与 Gemini-2.0 在图文交互方面取得显著进展。该基准系统地构建了涵盖 23 个现实领域、56 个具体任务的图文交错生成综合评测基准,共计收集 5400 个真实场景下的图文交错实例。同时,自主研发的评估模型 IntJudge 解决了传统评测模型的偏见问题,提升了评测的准确性和稳定性。此外,OpenING 还提供了多种额外评估指标,包括基于 GPT-as-a-judge 的主观评测。通过详细的误差分析,研究团队指出当前模型在图文生成质量方面仍存在不足,为下一步模型优化指明了明确的研究方向。

2025-04-05 18:36

动作捕捉技术迎来革命性突破,通过字节跳动提出的全新框架DreamActor-M1实现高精度、高保真的人体动画生成。该技术基于扩散式Transformer(DiT)和混合引导机制,能够跨尺度生成从肖像到全身的高质量动画,同时保持人物身份特征和细节的高度还原。论文标题为“DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance”,展示了其在面部表情与身体动作生成、尺度适应以及外观引导方面的创新方法。实验结果表明,DreamActor-M1在多个任务上均优于现有技术,有望改变电影特效制作中对动捕的依赖。尽管存在局限性,但这项技术预示着未来电影中危险特技可能被AI替代。

2025-04-05 18:35

微软首席技术官凯文斯科特预测,到2030年,高达95%的编程代码将由人工智能生成。这一预测引发了对软件开发未来工作模式的广泛讨论。尽管人工智能将承担更多的编码任务,但斯科特强调,人类开发者的角色不会消失,而是会从重复性工作中解放出来,专注于更高级的任务,如设计和解决问题。此前,IBM的CEO也表达了类似的观点,认为人工智能可以提高生产力,而非直接取代程序员。

2025-04-05 10:35