拳打OpenAI，脚踢DeepSeek，“最强”推理模型Gemini 2.5来了|模型|推理|上下文

　　来了，Google 正式推出了旗下新一代大语言模型 Gemini 2.5，作为谷歌迄今为止“最智能的模型”，它在对比 OpenAI、Anthropic、xAI、DeepSeek 旗下的模型时，在推理、数学、科学任务中遥遥领先。

　　不过 Google 也表示，Gemini 2.5 Pro 对比 OpenAI 的 o1-pro 还是有些距离。

　　另外，Gemini 2.5 并非“图像处理外挂模型”，而是统一架构共享注意力机制，实现图-文-音-码同源协同处理。

　　Gemini 2.5 Pro 作为一个全新的思考型模型，大幅提升了逻辑推理、编码生成、复杂任务处理能力，目前支持 100 万tokens 上下文识别，未来还将扩展至 200 万tokens，这让他在生成报告时的表现只能用惊艳来形容。

　　Gemini 2.5 现已通过 Google AI Studio 和 Gemini app 向 Gemini Advanced 订阅者开放试用，但首发版本还是有一些局限，比如无法联网，不支持 Deep Research 和 Canvas 工具，不过这也只是 Gemini 2.5 的第一个版本，后续肯定会有更多版本发布。而且 Gemini 2.5 的各项功能将逐步集成到 Google 生态中，比如搜索、Gmail、Docs 等，往后会逐渐公布定价细节。

　　另一边，OpenAI 也为 ChatGPT Plus、Pro 用户推送了图像生成模型，内置在 GPT-4o 中，支持多论对话修改编辑图像，上下文理解能力也更强，你可以让 GPT-4o 保留帽子或者服饰修改其他部分，每个物品的属性、关系都可以被分别控制。

　　比如这张图，就是要求创建两个 20 岁左右的女巫，阅读路标的照片级真实感图像（Create a photorealistic image of two witches in their 20s (one ash balayage, one with long wavy auburn hair) reading a street sign.）。

　　并在上下文中修改了路牌上的时间、注释，女巫卷起魔毯、微倾，街边汽车、路标、女巫的位置等。

　　多模态、推理、上下文理解，不论是 Google 还是 OpenAI，都用强大的性能和开放的体验策略，带给了用户更多想象力，随着更多用户体验，相信还能看到新模型的更多潜力。

特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。