面试记录:多卡并行的原理是什么 发表于 2025-10-11 更新于 2025-11-07 分类于 interview 前言这道题偏原理,不过为了让讲的东西不这么枯燥,我们在原理中穿插一点具体技术。 阅读全文 »
面试记录:大模型的微调过程中,你调整了哪些参数,遇到了哪些问题,怎么解决的? 发表于 2025-09-23 更新于 2025-11-07 分类于 interview 前言这个问题也是很大,但与其说是八股文,其实更偏向实操。为了讲清楚呢,我这边也把步调稍微放慢一点,讲的清楚一些。 阅读全文 »
面试记录:你如何微调一个大模型? 发表于 2025-09-18 更新于 2025-11-07 分类于 interview 前言这个问题问得相当大。大模型的微调分为好几个阶段,每个阶段都有自己的任务。接下来就有的讲了。 阅读全文 »
面试记录:有做过智能体规划吗? 发表于 2025-09-17 更新于 2025-11-07 分类于 interview 前言智能体规划,也称agent planning,是指智能体在某个状态下,如何进行规划,如何进行选择,如何进行执行,如何进行反馈,如何进行更新。 但是呢,如果直接从LangGraph开始,可能对这个概念并没有特别清楚,我们先一步步来。 阅读全文 »
面试记录:Qwen14B有多少个注意力头? 发表于 2025-09-09 更新于 2025-11-07 分类于 interview 前言这个除了考察Qwen14B的参数细节之外,还有一个很重点的:Qwen-14B并不是传统的MHA中的QKV结构,而是GQA结构。 阅读全文 »
面试记录:KVCache、vLLM拟解决的问题 发表于 2025-09-03 更新于 2025-11-07 分类于 interview 前言这道题目相对来说简单一些,考验的是KVCache和vLLM的实现原理。 阅读全文 »
面试记录:你是怎么微调千问大模型的? 发表于 2025-08-28 更新于 2025-11-07 分类于 interview 前言表面上看,这个是在问实际经验,但是实际上,这里有一个很重要的前提:Qwen在一代、二代,甚至之后的等版本,都是decoder-only的,这也就从本质上改变了输入数据的格式。 阅读全文 »
面试记录:token是怎么知道自己对应哪一个位置的 发表于 2025-08-26 更新于 2025-11-07 分类于 interview 前言在上一篇文章中,因为多头注意力机制,下一个词的生成可以并行计算,为显卡赋能带来了方便。但是,并行的时候,如何才能让token知道它本来应该在哪? 阅读全文 »