博亚体育 Gemini 3.5 Flash 实测:当模子速率参预 4G 期间,Agent 的游戏规章变了


六合武功,唯快不破。
作家|金光浩
裁剪|靖宇
本周 Google I/O 大会上,谷歌发布了最新模子 Gemini 3.5 Flash。

Google I/O 大会发布 Gemini 3.5 Flash|图片来源:youtube
情理情理的是,隔一天堂内 Qwen3.7-Max 也发布了,而且两个模子齐堪称我方在 Agent 场景上作念了深度优化。
我看到他们的第一反应是:又是新一轮「模子大战」,国表里厂商再次开启跑分竞赛。
但此次我花了两天时辰实测之后,我发现 Gemini 3.5 Flash 给我最大的感受不是它有多贤达,而是它的速率快到让我不得不再行想一个问题:
当模子的反映速率从「能用」酿成「及时」,所有 Agent 的使用体验会发生什么质变?
01
Gemini 3.5 Flash 是什么水平
Gemini 3.5 Flash 的定位很专门义:
Google 把它放在了 Flash 系列,但在 MCP Atlas 这个 Agent 基准测试上拿了 83.6% 的 SOTA 水平,甚而卓越了 GPT-5.5 的 75.3% 和 Claude Opus 4.7 的 79.1%。
代码才智在 Terminal-Bench 2.1 上得分 76.2%,卓越了自家上一代旗舰 Gemini 3.1 Pro 的 70.3%。
这意味着一个 Flash 定位的模子,在干活才智上还是面对甚而卓越了许多旗舰居品。

Gemini 3.5 Flash 的各项性能|图片来源:Google 播客
订价方面,输入 1.5 好意思元 / 百万 token,输出 9 好意思元 / 百万 token。它跟 Claude Opus 4.7 输入 5 好意思元输出 25 好意思元的订价比,低廉了几倍。跟 GPT-5.5 比,也有彰着的价钱上风。
但信得过让它在一众模子中脱颖而出的,是 289 tokens/ 秒的输出速率:首 token 蔓延神圣 65 毫秒,比其他前沿模子快了 4 倍左右。

Gemini 3.5 Flash 在性能 * 速率方面唯一档|图片来源:Google 播客
它在 benchmark 作念到了许多维度的 SOTA,具体用起来到底怎样样?
02
实测:
Gemini 3.5 Flash vs Qwen3.7-Max
先提一下:Qwen3.7-Max 和 Gemini 3.5 Flash 在 Text Arena 上的分数相比接近。

Gemini 3.5 Flash 和 qwen3.7-max 的评分很接近|图片来源:Arena
Qwen3.7-Max 这个模子,在评测集上还是卓越了国内的旗舰模子 Kimi 2.6、GLM-5.1、DeepSeek-V4,是刻下国内的第一水平,罢休也相当接近外洋的顶尖模子。
Qwen 此次也专门为 Agent 可靠性野心,扶植长达 35 小时的端到端自主任务践诺,推理内核经过深度 GPU 优化,速率培植达 10 倍。

Qwen3.7-Max 的罢休|图片来源:Qwen
两个面向 Agent 场景的顶级选手放在一齐测,的确罢休会怎样呢?
第一个测试:写一首给我方的小情诗
指示词:帮我写首给我方的小情诗
这是个轻量级任务,主要看基础文本生成的速率和质料。
Qwen3.7-Max 输出用了 30 秒,Gemini 3.5 Flash 用了 11 秒。速率差距接近 3 倍。
质料上,Qwen 的中语文笔如实更好一些,遣意造句更有韵味。Gemini 固然中语抒发稍显直白,但琢磨到 11 秒的反映时辰,这个反映体验还是很接近即时对话了。

Qwen 3.7-max 实测 |图片来源:Zenmux

Gemini 3.5 Flash 实测 |图片来源:Zenmux
如果你只是平淡聊天写翰墨,两者齐够用。
但如果场景换成 Agent 居品,用户每说一句话齐在等回复,11 秒和 30 秒的差距即是「畅达对话」和「彰着在等」的区别。
第二个测试:Golden Gate Bridge 3D 体素模拟
指示词:ObjectiveBuild a visually stunning, high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals ( not simple blocks ) , strong atmosphere depth, and smooth ~60FPS.Visuals & Atmosphere- Lighting: a Time-of-day slider ( 0 – 24h ) that controls sun position, intensity, sky color, and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0 – 100 ( 0 = crystal clear, 100 = dense but not pure whiteout ) .- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog ( exp2 ) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom ( night lights glow but keep performance ) .Scene Details- Bridge: recognizable art-deco towers, main span cables + suspenders, piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh, properly aligned on the deck ( avoid clipping ) . Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds ( lightweight flocking ) .Night ModeAt night, enable city lights, bridge beacons, street lights, vehicle lights, ship nav lights.Tech & Controls ( Important ) - Output MUST be a single self-contained HTML file ( e.g., golden_gate_bridge.html ) that runs by opening in Chrome.- No build tools ( no Vite/Webpack ) . Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time ( 0 – 24 ) , Fog Density ( 0 – 100 ) , Traffic Density ( 0 – 100 ) ,2026世界杯中国压球官网 Camera Zoom.- Optimization: use InstancedMesh for repeated items ( cars/lights/birds ) , avoid heavy geometry, keep draw calls low.
我给了一个相当复杂的 Three.js 需求,条目生成一个带日夜系统、雾气罢休、交通流、船只和鸟群的金门大桥 3D 场景,输出必须是单文献 HTML,弗成用任何构建器具。
Qwen3.7-Max 输出用了 204 秒,糟践了 14770 个 token。Gemini 3.5 Flash 用了 157 秒,但糟践了 35996 个 token。


这里出现了一个专门义的快意:Gemini 固然总耗时更短,但 token 糟践是 Qwen 的 2.4 倍。
换句话说,Gemini 完成相同任务写的代码糟践的 token 如实更「多」,这也意味着举座 Gemini 在践诺任务的用度更贵。
不外 Gemini 3.5 Flash 因为每秒吐出的 token 数目远高于敌手,是以照旧能保抓总时辰反而更短。
视觉罢休上,Qwen3.7-Max 的举座档次感更丰富,光影和氛围作念得更细密。Gemini 则胜在桥的结构细节,悬索、塔柱的比例更接近的确的金门大桥。
两者各有长处,齐是高水准的输出。
第三个测试:macOS 菜单栏语音输入行使
指示词:https://github.com/yetone/voice-input-src
模子才智强不彊,Agent 场景才是信得过拉开差距的场地。
前两个测试内容上齐是「一次性生成」——给个指示词,模子输出一段内容就末端了。但的确的 Agent 责任流不是这么的,它是一个长程任务,需要模子反复与环境交互、试错、修正。
是以此次,我让两个模子各自齐备一个齐全的 macOS 语音输入行使。这个开源技俩很专门义:仓库里唯唯一份指示词,莫得任何代码。料想一又友说的那句话:在 AI 期间,文档是钞票,代码是欠债。
我把需求丢给两个模子,分散在 Claude Code 上跑。需求包括:Fn 键全局监听、流式语音识别、悬浮窗动画、输入法兼容措置、LLM 纠错集成、菜单栏确立界面,最终条目输出签名好的 .app 包。
罢休差距相当大:
Qwen3.7-Max 跑了 55 分钟,然则圭臬也没能一遍过,中间出现编译不实,需要东谈主工介入。

而 Gemini 3.5 Flash 仅跑了 10 分钟,圭臬径直一遍过。

从 55 分钟到 10 分钟:快要 5 倍的遵守差距,而且 Gemini 的输出是径直能用的,不需要零碎调试。
这个罢休让我有点不测:
之前写诗和作念 3D 的测试里,两者差距并不大。但一朝参预 Agent 编程的场景,Gemini 3.5 Flash 的 Agent 才智和速率上风被急剧放大了。
原因也很好涌现:Agent 践诺长程编码任务,不是一次性输出一大段翰墨,而是要反复调用器具、读取反馈、修改代码、再次践诺。每一轮交互齐省下来的时辰集合起来,差距就变得浩瀚。
03
模子体验正在参预 4G 期间
我用了一个可能不太精准,博亚boya(中国)但很直不雅的说法:
当年大模子的生成速率更接近 3G 的体验,你知谈它在责任,但你需要等。
而 Gemini 3.5 Flash,让我第一次感受到了接近 4G 的畅达度。
这种速率上的变化带来的不单是是「快小数」的体验培植,它径直决定了某些居品款式能弗成建立。
比如 AI 奉陪这个场景:最近 520 EVE 火了,王考取最近也上线了 AI 奉陪居品 The One。
在奉陪场景里,用户对讲述速率的明锐度极高:
如果对方两三秒就能回你,那种嗅觉是「在聊天」,但如果要等十几秒,那种嗅觉是「在等一个机器给你生成内容」。
而 Gemini 3.5 Flash 65 毫秒的首 token 蔓延,289 tokens/ 秒的输出速率,意味着用户的确感受不到恭候。

微信里的 AI 奉陪 The One |图片来源:微信
但速率和智能之间存在一个很现实的矛盾:
GPT-5.4 刚出来的时候,编程罢休卓越了 Anthropic 4.5,但好多东谈主照旧采选不绝用 Anthropic 4.5。
为什么?因为在执行工程任务里,平静性和指示盲从的精度偶而候比极致的贤达更重要:
模子想变得更贤达,频繁意味着参数目更大、推理链更长,这就会导致速率着落。
是以行业里启动出现一种分化:有的公司死磕模子才智上限,有的公司则专注于在保抓够用的智能水平的同期,把速率推到极致。
Gemini 3.5 Flash 采选了后者,而且作念得相配激进:它甚而把默许推理档位从上一代 Flash 的 High 降到了 Medium,主动质问推理深度来换取速率培植。
Google 在这里作念了一个重要的方案:关于 Agent 场景来说,快比贤达更重要。
这个判断对分歧?从 Agent 的发展趋势来看,它很可能是对的。
04
速率对 Agent 意味着什么
回到著作来源阿谁问题:
当模子的反映速率从「能用」酿成「及时」,Agent 的使用体验会发生什么质变?
我想从两个维度往来答。
第一个是及时交互的体验升级。
AG真人中国官方网站Claude Code 这类 Agent 居品在践诺任务时,用户能彰着嗅觉到模子在「念念考」「恭候」「措置」的破绽。
这些破绽加起来,一个 20 分钟的任务可能有 5 分钟是你在看它转圈。
当速率快 4 倍,这些破绽被大幅压缩,所有流程变得更像「你吩咐任务,它畅达践诺」,而不是「你吩咐任务,它断断续续地干」。
第二个维度更专门义,亦然我以为 Gemini 3.5 Flash 信得过的价值所在:
它让 Agent 能在调换技艺内完成更多的事。
联想一下这么一个场景。假定你让一个 Agent 跑 24 小时来完成一个大型技俩。如果模子输出速率是原本的 4 倍,在 Agent 调用器具的时辰不变的前提下,一天内的产出可能培植 2 到 3 倍。
这个操办很毛糙,因为 Agent 践诺流程中有无数时辰花在恭候器具复返罢休、读取文献、编译代码上,这些时辰不会因为模子变快而裁汰。但模子念念考和输出代码的那部分时辰如实能被大幅压缩。
而最近的趋势是,Agent 践诺任务的时辰越来越长:
Claude Code 在不停优化它的任务编排才智;OpenAI Codex 最近推出了 /goal 功能,不错让 Agent 运动运行几小时甚而几天直到任务完成;各家齐在英勇拉长模子的抓续责任时辰:从半小时的任务到几小时的技俩,再到 Qwen3.7-Max 声称扶植的 35 小时端到端践诺。
任务时辰线被拉长的同期,模子反映速率的价值也在同步放大:
一个 10 分钟的任务,省几分钟你可能无感。
但当任务拉长到 10 小时、24 小时,省下的时辰可能是小时级的。
即使只算模子输出关节快 4 倍,一天的长程任务也能多挤出好几个小时的灵验产出。

Agent 的长程责任时辰越来越长 | 图片来源:Anthropic
这即是 Gemini 3.5 Flash 对 Agent 生态信得过的价值:
它让 Agent 的分娩遵守培植了一个量级,而且这个收益会跟着任务时长的加多而抓续放大。
05
长程 Agent 才智之王
写到这里我想作念个追思。
Gemini 3.5 Flash 有彰着的短板:它在 Humanity's Last Exam 上只拿了 40.2%,低于自家上一代 Pro 的 44.4%。在抽象推理、长文档检索等测试中阐扬也不算隆起。
它如实「偏科」,这是专门而为之,Google 主动在某些才智上作念了弃取:
Gemini 3.5 Flash 采选了 Coding 和 长程 Agent 才智,比如在 APEX 基准测试上(评估模子在的确责任场景中践诺跨行使、长跨度任务的才智),Gemini 3.5 Flash 名次大师第一。

Gemini 3.5 Flash 在 APEX 唯一档 | 图片来源:artificialanalysis
但如果你把视角从「模子对比」切换到「Agent 器具选型」,你会发现这些短板在好多执行场景里并不致命:
大部分 Agent 任务不需要模子去回答「东谈主类临了一考」那种玄虚学问题,它需要的是快速生成代码、准确调用器具、高效措置多方法责任流。
而在这些场景上,Gemini 3.5 Flash 作念到了又快又好。
前两天听了一期播客,张小珺对姚顺宇的四小时访谈,姚顺宇是从 Anthropic 跳到 Google DeepMind 的商量科学家,参与过 Claude 3.7 和 Gemini 3 的开采。

张小珺和姚顺宇对谈 | 图片来源:小六合
他有句话让我印象很深:当今模子在纸面上看着齐差未几,benchmark 高一个点低一个点,那些差距主如若噪声而不是信号,执行用起来,区别依然彰着。
然后他聊到我方当今的商量要点,两件事:AI 我方作念商量,以及 long horizon。Long horizon 即是让模子在更长的时辰跨度里抓续责任,完成那些一句指示词搞不定的复杂任务。
Gemini 3.5 Flash 无疑是这个不雅点印证,它的发布符号着一个新阶段的启动:
以前咱们选模子看的是「谁最贤达」。但当 Agent 成为主要的调用样式,谜底可能要改成「谁能让 Agent 跑得最快、最远、最稳」。它亦然第一个让我明确感知到这个拐点的居品。
如果你正在用 Claude Code 好像其他 Agent 器具作念开采,我提议试试把底层模子切到 Gemini 3.5 Flash 跑几个技俩。
你会发现:那种 10 分钟委派一个齐全行使的体验,用过之后很难且归。
毕竟,六合武功,唯快不破。
* 头图来源:youtube
本文为极客公园原创著作,转载请臆想极客君微信 geekparkGO
极客一问
你认为大模子的速率和才智,
哪个更重要?
