千问 3.5，(用第一性原理打破大模型的不可能三角

更新时间：2026-02-17 01:38 来源：牛马见闻

刚刚，春节杀手锏“源神”登场！

英国首相表示将“加快实现”国防开支占GDP3%目标

咱输得起！加拿大选手疑似推人犯规李文龙回应：他不是故意推的

（新春见闻）柬埔寨中国学校的“团圆饭”

太炫酷了！10架“云影”无人机亮相总台春晚“硬核”拜年

�除夕当天阿里千问 Qwen3.平头哥自研芯片与千问模型全栈协同能力�源 400 余个千问模型�

性能？、开源、性！价比，千问 3.5 全都要。 作者｜Cynthia 编辑｜郑玄 大模型行业走到 2026 年，所有人都陷入了集体焦虑。 Scaling Law 的红利彻底见顶，万亿参数模型继续向上的边际收益无限趋近于零，行业陷入了参数越卷越高，落地越来越难的死循环； 闭源巨头牢牢把持着性能天花板，GPT、Claude 的 API 定价一涨再涨，顶级模型的使用成本，成了中小企业和开发者迈不过去的门槛。 开源模型始终跳不出性能追平闭源，就闭源收割；想要极致性价比，就要牺牲性能的怪圈。 久而久之，行业形成了一条无人敢质疑的铁律：顶级性能、完全开源、极致性价比，构成了大模型的不可能三角，三者最多选其二。 于是，一到年底，国内外的万亿参数模型就一个接一个发布，但普通企业是否用得上所谓的 SOTA 模型，却不在考虑范围。半年多时间，GPT、Claude 的定价也一涨再涨，哪怕作为顶级牛马的程序员，也需要公司报销，才用得起顶配 200 美金一月的 cursor 与 claude code。 直到，除夕当天阿里千问 Qwen3.5 的发布。 千问 3.5 总参数量仅 3970 亿，激活参数更是只有 170 亿，不到上一代万亿参数模型 Qwen3-Max 的四分之一，性能大幅提升、还顺带实现了原生多模态能力的代际跃迁。 而横向对比同行，千问 3.5 不仅是当下的开源大模型 SOTA，同时也在认知能力、指令遵循、通用 Agent 评测等方面超越了 GPT5.2、Claude 4.5、Gemini-3-Pro 等同期闭源模型。 但成本上，千问 3.5 也做到了每百万 Token 输入低至 0.8 元，是 GPT5.2 的 1/15、Gemini-3-pro 的 1/18。 那么，千问究竟如何做到的？答案藏在大模型的第一性原理中。 01 回到第一性原理， 千问 3.5 如何打破不可能三角？ 大模型的第一性原理是什么？ 过去三年，答案或许是 Scaling Law。包括上一代 Qwen3-Max，也是阿里是用 36T tokens 的海量预训练数据训练出的暴力美学的成果。 但时至今日，Scaling Law 攀升的代价，已经到了行业难以承受的临界点。紧随其后，架构创新成为新的行业关键词。 剥掉所有参数、算力、跑分的外衣，所有大模型的底层核心，都是 Transformer 架构的attention 注意力 + FFN 前馈网络双塔结构：前者决定了模型的理解能力，后者决定了模型的表达能力。而这两者，也是当前技术红利最集中的突破点。 先看决定理解能力的 attention 层。 一直以来，大模型长上下文落地的最大瓶颈，从来不是窗口能开多大，而是算力成本和性能的平衡。 传统 Transformer 的全局注意力机制，计算复杂度与上下文长度呈O (N²) 关系。翻译过来就是，上下文长度翻 10 倍，算力需求就要翻 100 倍。这就是为什么行业里很多模型号称能支持百万 token 上下文，却根本不敢开放商用：成本高到用户用不起，强行降价就要亏到吐血。 为了解决这个问题，行业做了无数尝试：线性注意力把复杂度降到了 O (N)，却损失了长文本的推理精度；稀疏注意力只计算部分 token 的注意力，却无法解决全局语义依赖的问题，泛化能力大幅缩水。 而千问 3.5 的解法，更像是人类思维模式在大模型上的迁移：既然人对不同事情可以有精力分配的不同，那么对大模型来说，也不是所有 token，都配得上同等的全局注意力。 基于这个最朴素的原理，千问团队打造了全局注意力 + 线性注意力的混合架构： 对非关键的冗余信息，采用线性注意力处理，把计算复杂度从 O (N²) 直接砍到 O (N)，算力消耗呈指数级下降； 对核心语义、关键逻辑信息，保留标准全局注意力，保证模型的长文本依赖建模能力，推理精度几乎零损失。 这一改动，使得大模型在大幅减少算力消耗的同时，提升了输出的效率，并带来上下文窗口的大幅增加——千问 3.5 的上下文长度已经达到 1M token。约等于把刘慈欣的三体三部曲一起塞给模型，或者在每轮对话 500 字上下的基础上，支持 600~800 轮连续对话不遗忘。 如果说混合注意力解决了理解效率的问题，那么极致稀疏 MoE 架构，就解决了表达成本的痛点。 传统稠密大模型，架构出场天生就带着极致的浪费：不管你输入的是一句早上好，还是一篇十万字的行业报告，模型每次推理都要激活全部参数。 这就意味着，90% 以上的算力，都被白白浪费了。 MoE 混合专家架构的出现，就是把模型拆成多个专家子网络，内容进来，只激活最对口的那几个专家模型，不用全量参数跑一遍。 但行业里绝大多数的 MoE 模型，都陷入了两个死穴：要么专家路由效率低下，激活参数占比过高，成本下降有限；要么专家之间的协同能力不足，模型性能出现滑坡。 而千问 3.5 的极致稀疏 MoE 架构，直接把这个路线的潜力榨到了极致：总参数量 3970 亿，单次推理的激活参数仅 170 亿，不到总参数的 5%，即可调动全部知识储备，顺便实现部署成本大降 60%，最大推理吞吐量可提升至 19 倍， 到这里，可能又有很多人会问，同样是混合注意力、MoE 架构，为什么只有千问能做到这个程度？ 答案是，架构创新的潜力，必须靠全栈协同才能彻底释放。阿里独有的阿里云、平头哥自研芯片与千问模型全栈协同能力，是其他厂商根本无法复刻的核心壁垒。 其中，阿里云的 AI 基础设施，为文本 + 视觉混合预训练数据，提供了稳定、高效的算力支撑，让大规模的架构创新实验得以落地。 平头哥真武 810 芯片，针对 MoE 架构、混合注意力机制做了专项优化，能充分发挥集群算力效率，进一步把模型训练和推理的效率拉到极致。 千问团队的模型架构创新，又反过来给云基础设施、芯片的优化指明了方向，形成了正向循环的闭环。 也正是这套闭环，让千问 3.5 的价格能进一步探底，把 API 成本压到 0.8 元/百万 Token，彻底打破了国外模型的价格垄断，让 sota 模型成为人人可用，阿里云上用的成本还能更低的普惠存在，也让不可能三角成为可能。 02 千问 3.5，全民友好型模型如何练成的？ 很多人会问：千问 3.5 把成本打下来，是不是就会牺牲了推理性能？ 恰恰相反，千问 3.5 最亮眼的地方就在于，它实现极致性价比的同时，也把性能和体验，拉到了行业的新高度。 对普通用户来说，最直观的体验升级，就是即使用 sota 模型，也能享受流畅的生成体验。 过去，为了给模型生成提速，大部分团队都是在推理阶段加个投机采样的补丁，先猜后面的内容，猜对了就快一点，猜错了就回滚，结果就是要么快但容易错，要么准但还是慢。 而千问 3.5 的解法，是从训练阶段就原生支持多 Token 联合预测，让模型从一个字一个字地想，进化成一次想好几步再说。这个过程类似于人类说话，先想好完整的语义，然后在表达的过程中组织连贯的语言。 这对长文本生成、代码补全、多轮对话等高频场景带来的是质变的体验升级：问一个复杂的科普问题，10 秒内就能给出连贯的回答；写一篇千字短文，几秒就能生成初稿。 另一个被彻底解决的痛点，是大模型的上下文腐烂问题。 过去，大模型输入上下文越长，就会让模型的注意力越分散，有效信息被无效噪声淹没，输出质量直线下降。一个完整的长内容，模型往往只会注意到开头和结尾的内容，中间的关键信息被忽略，或者多轮对话之后，它会忘记你最初的问题或者要求。 针对这个痛点，Qwen3.5 对模型做了系统级的训练稳定性优化，其中最核心的，就是阿里千问团队斩获NeurIPS 2025 最佳论文奖的注意力门控机制。 这个机制，本质上是在注意力层的输出端，加了一个智能降噪开关：它能根据信息的重要程度，智能调控信息的传递，有效信息被放大，无效信息被过滤。 最终的结果是，哪怕是在 1M token 的超长上下文下，模型依然能精准记住所有的关键信息，开发者不用再把长文档拆成十几段反复投喂，用户不用再把需求翻来覆去重复三遍，百万级上下文的全量信息精准调用，终于成为了现实。 除了这些核心痛点的解决，千问 3.5 的细节升级，覆盖了从个人用户到企业开发者的全维度需求。 比如，它首次把支持的语言扩展到了 201 种，预训练数据里大幅新增了中英文、多语言、STEM 和推理类数据，不管是小语种的精准翻译，还是复杂的数理化博士级难题，都能轻松应对。 测试案例：STEM 表现 在 Agent 能力上，千问 3.5 同样实现了生产级的跨越式提升。目前，千问 3.5 在移动端已经与多个主流 APP 与指令打通，PC 端则能处理跨应用数据整理、自动化流程执行等复杂多步骤操作。 更关键的是，千问团队构建了可扩展的 Agent 异步强化学习框架，端到端速度可加速 3 到 5 倍，并将基于插件的智能体支持扩展至百万级规模，为后续 Agent 的规模化落地打下了基础。 如果说其他模型，还停留在开发者友好型，那么千问 3.5，就是全民友好型。它既照顾了开发者对成本、效率的需求，也兼顾了普通用户对体验的期待，让大模型真正走进了日常生活，而不是停留在实验室里的黑科技。 03 原生多模态， 千问 3.5 开始能读懂复杂世界 如果说性能、成本、体验的全面升级，是千问 3.5 在解决当下大模型落地过程中的困境，那么统一多模态，就是千问 3.5 把大模型推向 AGI 的重要一步探索。 长期以来，业界都有一个共识：统一多模态，是通往通用人工智能（AGI）的必经之路。但直到今天，行业里绝大多数的多模态模型，都还是伪多模态：先训好一个纯语言大模型，再外挂一个视觉编码器，靠适配层把两个模块粘在一起，本质上就是两个语言不通的人靠翻译聊天，信息传递必然出现折损。 千问 3.5 的不同之处在于，从预训练第一天起，就是在文本+视觉混合数据上联合学习，让视觉与语言在统一的参数空间内深度融合。 简单说，它看到一张图，就能自然理解图中的语义，不用先把图像转换成文本再进行理解；读到一段文字，就能在脑中构建出对应的画面，就像人一样，真正具备了跨模态的直觉理解力。 测试案例：输入一张电影截图，千问 3.5 就能生成图文并茂的电影解析 为了实现这种原生的多模态融合，千问 3.5 对整个训练架构都做了革新：它让视觉和语言模态，各走各的最优路径，只在关键节点上高效汇合，既保证了两个模态各自的性能上限，又实现了真正的协同工作，大幅提升了多模态混合训练的效率。 这种原生融合的架构，带来的是视觉能力的飞跃式提升：在多模态推理（MathVison）、通用视觉问答 VQA（RealWorldQA）、文本识别和文件理解（CC_OCR）、空间智能（RefCOCO-avg）、视频理解（MLVU）等众多权威评测中，Qwen3.5 均斩获最佳性能，碾压同类开源模型，甚至比肩顶级闭源模型。 测试案例：通用视觉问答 还有一个容易被忽略，却至关重要的细节优化，是精度策略的设计：千问 3.5 采用了 FP8/FP32 的精度策略，在保证模型性能零损失的前提下，把激活内存减少了约 50%，训练速度提升了 10%。更关键的是，这套方案被统一部署到了强化学习训练和推理的全流程里，全面降低了多模态模型扩展的成本和复杂度。 这些性能提升，最终都转化成了实实在在的生产力： 在学科解题、空间推理上，它比千问此前的专项多模态模型 Qwen3-VL 表现还要更优，空间定位、带图推理的精度大幅提升。 在视频理解上，它支持长达 2 小时的视频直接输入，刚好对应 1M token 的上下文窗口，会议录像、课程视频、直播素材，一次性投喂就能完成核心内容提取、脚本生成、待办梳理。 通过视觉与代码的原生融合，手绘的 APP 界面草图，也能直接转化为可运行的前端代码；机械图纸、建筑结构图、几何题目，全都能精准拆解空间关系、完成推理计算。 测试案例：复杂网页生成 而这，也是让大模型从能聊天的工具，变成看懂现实世界的基座，最终通往 AGI 乃至 ASI 的关键一步。 04 尾声 如果说架构与多模态的创新，让千问 3.5 打破了不可能三角的技术枷锁，那么开源生态，让千问 3.5 彻底颠覆了行业对开源模型的固有偏见。 在此之前，开源模型在行业里的定位，永远是闭源模型的替代品：性能追不上闭源，体验打不过闭源，只能作为开发者的练手工具，无法进入核心生产环境。 现在千问 3.5 的问世，彻底打破了这种偏见——它用开源的身份，实现了超越同级闭源模型的性能，再加上极致的性价比和完善的生态支持，让开源、高性价比、最强的不可能三角成为可能。 一组可验证的数据，足以证明千问开源生态的行业影响力：截至目前，阿里已开源 400 余个千问模型，覆盖全尺寸、全模态、全场景，全球下载量突破 10 亿次；全球开发者基于千问开发的衍生模型超 20 万个。 而站在千问生态的肩膀上，中小企业不用再为顶级模型的 API 支付高昂的费用，用极低的成本就能落地自己的 AI 应用； 个人开发者不用再被闭源模型的商用权限锁死，基于开源的千问 3.5，就能打造创新的 AI 产品； 科研机构不用再重复造轮子，基于开源的底座，就能专注于前沿技术的创新。 从此，AI 不再是巨头的专属游戏，而是变成了全行业、全开发者都能参与的创新浪潮。 *头图来源：视觉中国 本文为极客公园原创文章，转载请联系极客君微信 geekparkGO 极客一问 你如何看待千问 3.5 ？ 黄仁勋：我从来都不带手表，我习惯于等事情自然发生。 点赞关注极客公园视频号，

编辑：托马斯·乔里亚