面试题库

共收录 1 道题目

困难
LLM#Qwen#LLaMA

Qwen架构的特点是什么?和LLaMA的主要区别?

题目描述

请详细介绍 Qwen 系列模型(包括 Qwen3/3.5 和 Qwen-VL)的架构核心特点,并与 LLaMA 系列进行对比。

解题思路

一、Qwen 架构核心特点 1. 基础基座 - 基于 Transformer 解码器(Decoder-only)架构,采用 RoPE 旋转位置编码 - 原生支持超长上下文,最高可达 131,072 tokens - 词表约 152K,使用基于 tiktoken 的 byte-level BPE,对中英文及代码编码效率高 2. 设计优化 - 采用 GQA(分组查询注意力),平衡推理速度与显存占用 - 主归一化机制为 RMSNorm,去除多余偏置(仅 Q/K/V 投影保留 bias),降低参数量与过拟合风险 - 激活函数选用 SwiGLU,提升非线性表达能力,尤其强化数学与代码场景 - 关键创新:无嵌入权重共享(untied,词嵌入与输出投影层解耦),增强表示灵活性 3. 稀疏架构(Qwen3/3.5) - 引入混合专家(MoE)架构,总参数量可达 397B,推理时仅激活约 17B 参数,实现"高总参、低激活",大幅降低部署成本 - 同时提供 Dense 模型:Qwen3-0.6B、1.7B、4B、8B、14B、32B - MoE 模型:Qwen3-30B-A3B(30B 总参数,3B 激活)、Qwen3-235B-A22B(235B 总参数,22B 激活) 4. 混合思维模式(Hybrid Thinking) - Qwen3 独创:同一模型中同时支持"思考模式"(深度推理 CoT)和"非思考模式"(快速响应),可通过 enable_thinking 参数动态切换 - 增强 Agent 和工具调用能力,支持 MCP(Model Context Protocol) - 支持 119 种语言和方言 5. 多模态(Qwen-VL 系列) - Qwen2-VL:采用 NaViT-style 动态分辨率方案,将图像以原始分辨率输入而非固定 resize - 提出 M-RoPE(Multimodal Rotary Position Embedding):将 RoPE 扩展到时间、高度、宽度三个维度,分别编码视频帧序号和图像空间位置 - Qwen2.5-VL:进一步优化动态分辨率和视频理解能力 - 使用 ViT 作为视觉编码器,支持图文理解和视频理解 二、Qwen 与 LLaMA 的主要区别 核心设计:Qwen 支持 MoE 稀疏架构,动态激活专家模块,兼顾性能与效率;LLaMA 以密集架构为主,Llama 3.1 引入部分稀疏优化,但核心为全参数激活。 上下文支持:Qwen 原生支持 131,072 tokens,长文档处理优势明显;LLaMA 上下文长度相对保守(Llama 3 主流 128K),需额外微调扩展。 归一化与偏置:Qwen 采用 RMSNorm,去除多余偏置(仅 QKV 保留 bias),轻量化设计;LLaMA 主流用 RMSNorm,但部分早期/特定版本保留 LayerNorm 与完整偏置。 嵌入层设计:Qwen 无嵌入权重共享(untied),提升表示灵活性;LLaMA 常见嵌入权重共享(tied),参数量更紧凑。 词表与Tokenizer:Qwen ~152K,tiktoken BPE,中英文编码效率高;LLaMA ~128K(LLaMA 3),tiktoken BPE。 混合思维:Qwen 支持思考/非思考双模式切换;LLaMA 不支持。 多模态:Qwen-VL 系列(M-RoPE + 动态分辨率);LLaMA 4(Early Fusion),但生态较弱。 开源生态:Qwen 协议宽松,侧重国内工业场景适配,内置 RL 机制,落地成本低;LLaMA 海外生态成熟,适配通用场景,国内合规与场景适配需额外开发。 三、核心差异一句话总结 Qwen 更强调高效稀疏(MoE)+ 超长上下文 + 混合思维的工业级落地能力,并通过 Qwen-VL 系列(M-RoPE)原生支持多模态,适合国内企业低成本快速部署;LLaMA 则以通用密集基座见长,海外生态完善,适合侧重多语言与通用场景的研发需求。

来源:LLM面试高频题