面试记录:大模型参数有哪些,什么场景下如何配置? 发表于 2025-09-10 更新于 2025-09-11 分类于 interview 本文字数: 1.5k 阅读时长 ≈ 6 分钟 前言这个是相当考察经验的一道题。 阅读全文 »
面试记录:NPU和GPU在部署过程中的差异 发表于 2025-09-09 更新于 2025-09-11 分类于 interview 本文字数: 508 阅读时长 ≈ 2 分钟 前言这个问题看起来有点广泛,但是我们可以一点点作答。 阅读全文 »
面试记录:Qwen14B有多少个注意力头? 发表于 2025-09-09 更新于 2025-09-11 分类于 interview 本文字数: 568 阅读时长 ≈ 2 分钟 前言这个除了考察Qwen14B的参数细节之外,还有一个很重点的:Qwen-14B并不是传统的MHA中的QKV结构,而是GQA结构。 阅读全文 »
面试记录:KVCache、vLLM拟解决的问题 发表于 2025-09-03 分类于 interview 本文字数: 636 阅读时长 ≈ 2 分钟 前言这道题目相对来说简单一些,考验的是KVCache和vLLM的实现原理。 阅读全文 »
面试记录:你是怎么微调千问大模型的? 发表于 2025-08-28 更新于 2025-09-01 分类于 interview 本文字数: 1.3k 阅读时长 ≈ 5 分钟 前言表面上看,这个是在问实际经验,但是实际上,这里有一个很重要的前提:Qwen在一代、二代,甚至之后的等版本,都是decoder-only的,这也就从本质上改变了输入数据的格式。 阅读全文 »
面试记录:token是怎么知道自己对应哪一个位置的 发表于 2025-08-26 更新于 2025-08-27 分类于 interview 本文字数: 1.1k 阅读时长 ≈ 4 分钟 前言在上一篇文章中,因为多头注意力机制,下一个词的生成可以并行计算,为显卡赋能带来了方便。但是,并行的时候,如何才能让token知道它本来应该在哪? 阅读全文 »
面试记录:怎么理解多头注意力机制 发表于 2025-08-26 更新于 2025-09-01 分类于 interview 本文字数: 1.4k 阅读时长 ≈ 5 分钟 简介当然,大模型有很多注意力,毕竟Attention is All You Need。但是呢,自注意力,多头注意力,这些又是什么?怎么串在一起的? 阅读全文 »
面试记录:请谈谈一下你对大模型的看法 发表于 2025-08-22 更新于 2025-08-26 分类于 interview 本文字数: 1k 阅读时长 ≈ 4 分钟 前言也许你一开始就在期待我开始讲什么self-attention。我承认,这已经算是必背科目,甚至算客观题了。 但是,从这个地方开始总归是有点追逐太阳的感觉,越追越累,还追不上。 所以,我们直接从太阳开始出发。 阅读全文 »
面试记录 发表于 2025-08-22 更新于 2025-08-27 分类于 interview 本文字数: 215 阅读时长 ≈ 1 分钟 前言这个库是Hexo的一个部分,所以保留了上面这些title之类的玩意儿。 剩下的就是markdown了,内容就是LLM相关的一些面试问题,以及一些好心面试官给的发展建议,算是错题本吧。 阅读全文 »
MCP引入一段简单的LangGraph 发表于 2025-08-18 分类于 LLM 本文字数: 837 阅读时长 ≈ 3 分钟 前言在上一篇文章中,我们讨论了怎么在构建MCP。为了能够实现更复杂的功能,我们尝试将LangGraph引入到MCP中。 阅读全文 »