博亚体育 Gemini 3.5 Flash 实测：当模子速率参预 4G 期间，Agent 的游戏规章变了

发布日期：2026-05-26 21:48 来源：未知作者：admin 浏览次数：

六合武功，唯快不破。

作家｜金光浩

裁剪｜靖宇

本周 Google I/O 大会上，谷歌发布了最新模子 Gemini 3.5 Flash。

Google I/O 大会发布 Gemini 3.5 Flash｜图片来源：youtube

情理情理的是，隔一天堂内 Qwen3.7-Max 也发布了，而且两个模子齐堪称我方在 Agent 场景上作念了深度优化。

我看到他们的第一反应是：又是新一轮「模子大战」，国表里厂商再次开启跑分竞赛。

但此次我花了两天时辰实测之后，我发现 Gemini 3.5 Flash 给我最大的感受不是它有多贤达，而是它的速率快到让我不得不再行想一个问题：

当模子的反映速率从「能用」酿成「及时」，所有 Agent 的使用体验会发生什么质变？

Gemini 3.5 Flash 是什么水平

Gemini 3.5 Flash 的定位很专门义：

Google 把它放在了 Flash 系列，但在 MCP Atlas 这个 Agent 基准测试上拿了 83.6% 的 SOTA 水平，甚而卓越了 GPT-5.5 的 75.3% 和 Claude Opus 4.7 的 79.1%。

代码才智在 Terminal-Bench 2.1 上得分 76.2%，卓越了自家上一代旗舰 Gemini 3.1 Pro 的 70.3%。

这意味着一个 Flash 定位的模子，在干活才智上还是面对甚而卓越了许多旗舰居品。

Gemini 3.5 Flash 的各项性能｜图片来源：Google 播客

订价方面，输入 1.5 好意思元 / 百万 token，输出 9 好意思元 / 百万 token。它跟 Claude Opus 4.7 输入 5 好意思元输出 25 好意思元的订价比，低廉了几倍。跟 GPT-5.5 比，也有彰着的价钱上风。

但信得过让它在一众模子中脱颖而出的，是 289 tokens/ 秒的输出速率：首 token 蔓延神圣 65 毫秒，比其他前沿模子快了 4 倍左右。

Gemini 3.5 Flash 在性能 * 速率方面唯一档｜图片来源：Google 播客

它在 benchmark 作念到了许多维度的 SOTA，具体用起来到底怎样样？

实测：

Gemini 3.5 Flash vs Qwen3.7-Max

先提一下：Qwen3.7-Max 和 Gemini 3.5 Flash 在 Text Arena 上的分数相比接近。

Gemini 3.5 Flash 和 qwen3.7-max 的评分很接近｜图片来源：Arena

Qwen3.7-Max 这个模子，在评测集上还是卓越了国内的旗舰模子 Kimi 2.6、GLM-5.1、DeepSeek-V4，是刻下国内的第一水平，罢休也相当接近外洋的顶尖模子。

Qwen 此次也专门为 Agent 可靠性野心，扶植长达 35 小时的端到端自主任务践诺，推理内核经过深度 GPU 优化，速率培植达 10 倍。

Qwen3.7-Max 的罢休｜图片来源：Qwen

两个面向 Agent 场景的顶级选手放在一齐测，的确罢休会怎样呢？

第一个测试：写一首给我方的小情诗

指示词：帮我写首给我方的小情诗

这是个轻量级任务，主要看基础文本生成的速率和质料。

Qwen3.7-Max 输出用了 30 秒，Gemini 3.5 Flash 用了 11 秒。速率差距接近 3 倍。

质料上，Qwen 的中语文笔如实更好一些，遣意造句更有韵味。Gemini 固然中语抒发稍显直白，但琢磨到 11 秒的反映时辰，这个反映体验还是很接近即时对话了。

Qwen 3.7-max 实测｜图片来源：Zenmux

Gemini 3.5 Flash 实测｜图片来源：Zenmux

如果你只是平淡聊天写翰墨，两者齐够用。

但如果场景换成 Agent 居品，用户每说一句话齐在等回复，11 秒和 30 秒的差距即是「畅达对话」和「彰着在等」的区别。

第二个测试：Golden Gate Bridge 3D 体素模拟

指示词：ObjectiveBuild a visually stunning， high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals ( not simple blocks ) ， strong atmosphere depth， and smooth ~60FPS.Visuals & Atmosphere- Lighting: a Time-of-day slider ( 0 – 24h ) that controls sun position， intensity， sky color， and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0 – 100 ( 0 = crystal clear， 100 = dense but not pure whiteout ) .- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog ( exp2 ) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom ( night lights glow but keep performance ) .Scene Details- Bridge: recognizable art-deco towers， main span cables + suspenders， piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh， properly aligned on the deck ( avoid clipping ) . Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds ( lightweight flocking ) .Night ModeAt night， enable city lights， bridge beacons， street lights， vehicle lights， ship nav lights.Tech & Controls ( Important ) - Output MUST be a single self-contained HTML file ( e.g.， golden_gate_bridge.html ) that runs by opening in Chrome.- No build tools ( no Vite/Webpack ) . Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time ( 0 – 24 ) ， Fog Density ( 0 – 100 ) ， Traffic Density ( 0 – 100 ) ，2026世界杯中国压球官网 Camera Zoom.- Optimization: use InstancedMesh for repeated items ( cars/lights/birds ) ， avoid heavy geometry， keep draw calls low.

我给了一个相当复杂的 Three.js 需求，条目生成一个带日夜系统、雾气罢休、交通流、船只和鸟群的金门大桥 3D 场景，输出必须是单文献 HTML，弗成用任何构建器具。

Qwen3.7-Max 输出用了 204 秒，糟践了 14770 个 token。Gemini 3.5 Flash 用了 157 秒，但糟践了 35996 个 token。

这里出现了一个专门义的快意：Gemini 固然总耗时更短，但 token 糟践是 Qwen 的 2.4 倍。

换句话说，Gemini 完成相同任务写的代码糟践的 token 如实更「多」，这也意味着举座 Gemini 在践诺任务的用度更贵。

不外 Gemini 3.5 Flash 因为每秒吐出的 token 数目远高于敌手，是以照旧能保抓总时辰反而更短。

视觉罢休上，Qwen3.7-Max 的举座档次感更丰富，光影和氛围作念得更细密。Gemini 则胜在桥的结构细节，悬索、塔柱的比例更接近的确的金门大桥。

两者各有长处，齐是高水准的输出。

第三个测试：macOS 菜单栏语音输入行使

指示词：https://github.com/yetone/voice-input-src

模子才智强不彊，Agent 场景才是信得过拉开差距的场地。

前两个测试内容上齐是「一次性生成」——给个指示词，模子输出一段内容就末端了。但的确的 Agent 责任流不是这么的，它是一个长程任务，需要模子反复与环境交互、试错、修正。

是以此次，我让两个模子各自齐备一个齐全的 macOS 语音输入行使。这个开源技俩很专门义：仓库里唯唯一份指示词，莫得任何代码。料想一又友说的那句话：在 AI 期间，文档是钞票，代码是欠债。

我把需求丢给两个模子，分散在 Claude Code 上跑。需求包括：Fn 键全局监听、流式语音识别、悬浮窗动画、输入法兼容措置、LLM 纠错集成、菜单栏确立界面，最终条目输出签名好的 .app 包。

罢休差距相当大：

Qwen3.7-Max 跑了 55 分钟，然则圭臬也没能一遍过，中间出现编译不实，需要东谈主工介入。

而 Gemini 3.5 Flash 仅跑了 10 分钟，圭臬径直一遍过。

从 55 分钟到 10 分钟：快要 5 倍的遵守差距，而且 Gemini 的输出是径直能用的，不需要零碎调试。

这个罢休让我有点不测：

之前写诗和作念 3D 的测试里，两者差距并不大。但一朝参预 Agent 编程的场景，Gemini 3.5 Flash 的 Agent 才智和速率上风被急剧放大了。

原因也很好涌现：Agent 践诺长程编码任务，不是一次性输出一大段翰墨，而是要反复调用器具、读取反馈、修改代码、再次践诺。每一轮交互齐省下来的时辰集合起来，差距就变得浩瀚。

模子体验正在参预 4G 期间

我用了一个可能不太精准，博亚boya(中国)但很直不雅的说法：

当年大模子的生成速率更接近 3G 的体验，你知谈它在责任，但你需要等。

而 Gemini 3.5 Flash，让我第一次感受到了接近 4G 的畅达度。

这种速率上的变化带来的不单是是「快小数」的体验培植，它径直决定了某些居品款式能弗成建立。

比如 AI 奉陪这个场景：最近 520 EVE 火了，王考取最近也上线了 AI 奉陪居品 The One。

在奉陪场景里，用户对讲述速率的明锐度极高：

如果对方两三秒就能回你，那种嗅觉是「在聊天」，但如果要等十几秒，那种嗅觉是「在等一个机器给你生成内容」。

而 Gemini 3.5 Flash 65 毫秒的首 token 蔓延，289 tokens/ 秒的输出速率，意味着用户的确感受不到恭候。

微信里的 AI 奉陪 The One ｜图片来源：微信

但速率和智能之间存在一个很现实的矛盾：

GPT-5.4 刚出来的时候，编程罢休卓越了 Anthropic 4.5，但好多东谈主照旧采选不绝用 Anthropic 4.5。

为什么？因为在执行工程任务里，平静性和指示盲从的精度偶而候比极致的贤达更重要：

模子想变得更贤达，频繁意味着参数目更大、推理链更长，这就会导致速率着落。

是以行业里启动出现一种分化：有的公司死磕模子才智上限，有的公司则专注于在保抓够用的智能水平的同期，把速率推到极致。

Gemini 3.5 Flash 采选了后者，而且作念得相配激进：它甚而把默许推理档位从上一代 Flash 的 High 降到了 Medium，主动质问推理深度来换取速率培植。

Google 在这里作念了一个重要的方案：关于 Agent 场景来说，快比贤达更重要。

这个判断对分歧？从 Agent 的发展趋势来看，它很可能是对的。

速率对 Agent 意味着什么

回到著作来源阿谁问题：

当模子的反映速率从「能用」酿成「及时」，Agent 的使用体验会发生什么质变？

我想从两个维度往来答。

第一个是及时交互的体验升级。

AG真人中国官方网站

Claude Code 这类 Agent 居品在践诺任务时，用户能彰着嗅觉到模子在「念念考」「恭候」「措置」的破绽。

这些破绽加起来，一个 20 分钟的任务可能有 5 分钟是你在看它转圈。

当速率快 4 倍，这些破绽被大幅压缩，所有流程变得更像「你吩咐任务，它畅达践诺」，而不是「你吩咐任务，它断断续续地干」。

第二个维度更专门义，亦然我以为 Gemini 3.5 Flash 信得过的价值所在：

它让 Agent 能在调换技艺内完成更多的事。

联想一下这么一个场景。假定你让一个 Agent 跑 24 小时来完成一个大型技俩。如果模子输出速率是原本的 4 倍，在 Agent 调用器具的时辰不变的前提下，一天内的产出可能培植 2 到 3 倍。

这个操办很毛糙，因为 Agent 践诺流程中有无数时辰花在恭候器具复返罢休、读取文献、编译代码上，这些时辰不会因为模子变快而裁汰。但模子念念考和输出代码的那部分时辰如实能被大幅压缩。

而最近的趋势是，Agent 践诺任务的时辰越来越长：

Claude Code 在不停优化它的任务编排才智；OpenAI Codex 最近推出了 /goal 功能，不错让 Agent 运动运行几小时甚而几天直到任务完成；各家齐在英勇拉长模子的抓续责任时辰：从半小时的任务到几小时的技俩，再到 Qwen3.7-Max 声称扶植的 35 小时端到端践诺。

任务时辰线被拉长的同期，模子反映速率的价值也在同步放大：

一个 10 分钟的任务，省几分钟你可能无感。

但当任务拉长到 10 小时、24 小时，省下的时辰可能是小时级的。

即使只算模子输出关节快 4 倍，一天的长程任务也能多挤出好几个小时的灵验产出。

Agent 的长程责任时辰越来越长 | 图片来源：Anthropic

这即是 Gemini 3.5 Flash 对 Agent 生态信得过的价值：

它让 Agent 的分娩遵守培植了一个量级，而且这个收益会跟着任务时长的加多而抓续放大。

长程 Agent 才智之王

写到这里我想作念个追思。

Gemini 3.5 Flash 有彰着的短板：它在 Humanity's Last Exam 上只拿了 40.2%，低于自家上一代 Pro 的 44.4%。在抽象推理、长文档检索等测试中阐扬也不算隆起。

它如实「偏科」，这是专门而为之，Google 主动在某些才智上作念了弃取：

Gemini 3.5 Flash 采选了 Coding 和长程 Agent 才智，比如在 APEX 基准测试上（评估模子在的确责任场景中践诺跨行使、长跨度任务的才智），Gemini 3.5 Flash 名次大师第一。

Gemini 3.5 Flash 在 APEX 唯一档 | 图片来源：artificialanalysis

但如果你把视角从「模子对比」切换到「Agent 器具选型」，你会发现这些短板在好多执行场景里并不致命：

大部分 Agent 任务不需要模子去回答「东谈主类临了一考」那种玄虚学问题，它需要的是快速生成代码、准确调用器具、高效措置多方法责任流。

而在这些场景上，Gemini 3.5 Flash 作念到了又快又好。

前两天听了一期播客，张小珺对姚顺宇的四小时访谈，姚顺宇是从 Anthropic 跳到 Google DeepMind 的商量科学家，参与过 Claude 3.7 和 Gemini 3 的开采。

张小珺和姚顺宇对谈 | 图片来源：小六合

他有句话让我印象很深：当今模子在纸面上看着齐差未几，benchmark 高一个点低一个点，那些差距主如若噪声而不是信号，执行用起来，区别依然彰着。

然后他聊到我方当今的商量要点，两件事：AI 我方作念商量，以及 long horizon。Long horizon 即是让模子在更长的时辰跨度里抓续责任，完成那些一句指示词搞不定的复杂任务。

Gemini 3.5 Flash 无疑是这个不雅点印证，它的发布符号着一个新阶段的启动：

以前咱们选模子看的是「谁最贤达」。但当 Agent 成为主要的调用样式，谜底可能要改成「谁能让 Agent 跑得最快、最远、最稳」。它亦然第一个让我明确感知到这个拐点的居品。

如果你正在用 Claude Code 好像其他 Agent 器具作念开采，我提议试试把底层模子切到 Gemini 3.5 Flash 跑几个技俩。

你会发现：那种 10 分钟委派一个齐全行使的体验，用过之后很难且归。

毕竟，六合武功，唯快不破。

* 头图来源：youtube

本文为极客公园原创著作，转载请臆想极客君微信 geekparkGO

极客一问

你认为大模子的速率和才智，

哪个更重要？

上一篇：上一篇：博亚boya(中国) 大阴线“威慑” A股如何走?

下一篇：下一篇：博亚体育主力资金 | 尾盘主力大手笔抢筹名单出炉