保姆级教程:微调沐雪 发表于 2025-11-28 更新于 2025-12-01 分类于 LLM 本文字数: 3.9k 阅读时长 ≈ 14 分钟 前言我们还是觉得千问大模型的回答实在是AI味道太重了,我们希望AI能够拥有自己独特的风格,所以,我们就试试微调一下。 阅读全文 »
面试记录:大模型的微调过程中,你调整了哪些参数,遇到了哪些问题,怎么解决的? 发表于 2025-09-23 更新于 2025-11-02 分类于 interview 本文字数: 1.6k 阅读时长 ≈ 6 分钟 前言这个问题也是很大,但与其说是八股文,其实更偏向实操。为了讲清楚呢,我这边也把步调稍微放慢一点,讲的清楚一些。 阅读全文 »
面试记录:你如何微调一个大模型? 发表于 2025-09-18 更新于 2025-11-02 分类于 interview 本文字数: 793 阅读时长 ≈ 3 分钟 前言这个问题问得相当大。大模型的微调分为好几个阶段,每个阶段都有自己的任务。接下来就有的讲了。 阅读全文 »
面试记录:有做过智能体规划吗? 发表于 2025-09-17 更新于 2025-11-02 分类于 interview 本文字数: 2.1k 阅读时长 ≈ 8 分钟 前言智能体规划,也称agent planning,是指智能体在某个状态下,如何进行规划,如何进行选择,如何进行执行,如何进行反馈,如何进行更新。 但是呢,如果直接从LangGraph开始,可能对这个概念并没有特别清楚,我们先一步步来。 阅读全文 »
面试记录:大模型参数有哪些,什么场景下如何配置? 发表于 2025-09-10 更新于 2025-11-02 分类于 interview 本文字数: 1.5k 阅读时长 ≈ 6 分钟 前言这个是相当考察经验的一道题。 阅读全文 »
面试记录:NPU和GPU在部署过程中的差异 发表于 2025-09-09 更新于 2025-11-02 分类于 interview 本文字数: 508 阅读时长 ≈ 2 分钟 前言这个问题看起来有点广泛,但是我们可以一点点作答。 阅读全文 »
面试记录:Qwen14B有多少个注意力头? 发表于 2025-09-09 更新于 2025-11-02 分类于 interview 本文字数: 568 阅读时长 ≈ 2 分钟 前言这个除了考察Qwen14B的参数细节之外,还有一个很重点的:Qwen-14B并不是传统的MHA中的QKV结构,而是GQA结构。 阅读全文 »
面试记录:KVCache、vLLM拟解决的问题 发表于 2025-09-03 更新于 2025-11-02 分类于 interview 本文字数: 636 阅读时长 ≈ 2 分钟 前言这道题目相对来说简单一些,考验的是KVCache和vLLM的实现原理。 阅读全文 »
面试记录:你是怎么微调千问大模型的? 发表于 2025-08-28 更新于 2025-11-02 分类于 interview 本文字数: 1.3k 阅读时长 ≈ 5 分钟 前言表面上看,这个是在问实际经验,但是实际上,这里有一个很重要的前提:Qwen在一代、二代,甚至之后的等版本,都是decoder-only的,这也就从本质上改变了输入数据的格式。 阅读全文 »
面试记录:token是怎么知道自己对应哪一个位置的 发表于 2025-08-26 更新于 2025-11-02 分类于 interview 本文字数: 1.1k 阅读时长 ≈ 4 分钟 前言在上一篇文章中,因为多头注意力机制,下一个词的生成可以并行计算,为显卡赋能带来了方便。但是,并行的时候,如何才能让token知道它本来应该在哪? 阅读全文 »