Google推出其最先进的AI模型Gemini 2.5 Pro Experimental
这款创新的思维模型在LM Arena排行榜上独占鳌头,并在编码、数学、科学等多个领域实现了SOTA(State-of-the-Art)表现。此外,它还支持通过1M token的上下文窗口进行视觉推理。
OpenAI为GPT-4o和Sora集成了原生图像生成功能
这一创新举措打造了一个集成系统,使ChatGPT能够理解对话上下文并精确地创建/编辑视觉内容。该功能将面向免费版、Plus、Pro和Team用户推出。
Figure发布重大更新:类人机器人实现自然行走
Figure推出了一个端到端的神经网络,用于从模拟到现实的动作转换。通过强化学习和高保真物理模拟器,Figure 02现在能够以更平稳的步态和更高的速度行走,就像人类一样自然。
阿里巴巴Qwen团队发布两款新AI模型
— Qwen2.5-Omni-7B:专为实时处理文本、音频、图像和视频而设计。
— QVQ-Max:用于分析和推理图像和视频中的视觉信息,包括蓝图和几何问题。
Ideogram发布图像生成模型v3.0
该模型在复杂布局、标志和排版方面表现出色,超越了Imagen 3、Flux Pro 1.1和Recraft V3。此外,它还支持样式参考,允许免费用户控制生成过程。
Reve发布Reve Image 1.0(预览版)
Reve从隐匿状态中亮相,发布了Reve Image 1.0(预览版)。该模型在Image Arena排名第一,超越了Imagen 3、Midjourney v6.1和Recraft V3。它展示了令人印象深刻的提示遵循性和长文本渲染能力,并支持自然语言编辑。
Microsoft 365推出两款新的思维型AI代理
— Researcher:利用不同的知识源(包括网络)来撰写研究报告。
— Analyst:像数据分析师一样提取数据中的洞察。
Perplexity推出答案模式
该功能增强了AI在特定领域(如旅游和购物)中的搜索能力,支持图像、视频和卡片等实体。每个模式都支持商业交易,允许用户在当前位置直接采取行动。
腾讯发布Hunyuan T1
这是一款采用行业首个Transformer-Mamba架构的推理AI。这个混合模型的性能与DeepSeek R1和OpenAI的o1及GPT 4.5相当或更强,速度提升了两倍。每百万I/O tokens的价格为0.14美元和0.55美元。
DeepSeek发布更新版V3模型
— V3-0324是一个641GB的模型,但可以在高端PC上运行。
— 它承诺在各个方面提供显著的性能提升。
— 使用MoE技术,仅激活37B参数/token。
— 以MIT开源许可协议发布。
Kepler Robotics展示Forerunner K2类人机器人视频
Forerunner K2配备了下一代机器手,其11自由度的“灵巧大师”手可以处理15公斤的负载。每个手指上都装有由25个元素组成的触觉传感矩阵,可以更好地抓取不同的物体。