面试记录:KVCache、vLLM拟解决的问题 发表于 2025-09-03 分类于 interview 本文字数: 636 阅读时长 ≈ 2 分钟 前言这道题目相对来说简单一些,考验的是KVCache和vLLM的实现原理。 阅读全文 »
面试记录:你是怎么微调千问大模型的? 发表于 2025-08-28 更新于 2025-09-01 分类于 interview 本文字数: 1.3k 阅读时长 ≈ 5 分钟 前言表面上看,这个是在问实际经验,但是实际上,这里有一个很重要的前提:Qwen在一代、二代,甚至之后的等版本,都是decoder-only的,这也就从本质上改变了输入数据的格式。 阅读全文 »
面试记录:token是怎么知道自己对应哪一个位置的 发表于 2025-08-26 更新于 2025-08-27 分类于 interview 本文字数: 1.1k 阅读时长 ≈ 4 分钟 前言在上一篇文章中,因为多头注意力机制,下一个词的生成可以并行计算,为显卡赋能带来了方便。但是,并行的时候,如何才能让token知道它本来应该在哪? 阅读全文 »
面试记录:怎么理解多头注意力机制 发表于 2025-08-26 更新于 2025-09-01 分类于 interview 本文字数: 1.4k 阅读时长 ≈ 5 分钟 简介当然,大模型有很多注意力,毕竟Attention is All You Need。但是呢,自注意力,多头注意力,这些又是什么?怎么串在一起的? 阅读全文 »
面试记录:请谈谈一下你对大模型的看法 发表于 2025-08-22 更新于 2025-08-26 分类于 interview 本文字数: 1k 阅读时长 ≈ 4 分钟 前言也许你一开始就在期待我开始讲什么self-attention。我承认,这已经算是必背科目,甚至算客观题了。 但是,从这个地方开始总归是有点追逐太阳的感觉,越追越累,还追不上。 所以,我们直接从太阳开始出发。 阅读全文 »
面试记录 发表于 2025-08-22 更新于 2025-08-27 分类于 interview 本文字数: 215 阅读时长 ≈ 1 分钟 前言这个库是Hexo的一个部分,所以保留了上面这些title之类的玩意儿。 剩下的就是markdown了,内容就是LLM相关的一些面试问题,以及一些好心面试官给的发展建议,算是错题本吧。 阅读全文 »
MCP引入一段简单的LangGraph 发表于 2025-08-18 分类于 LLM 本文字数: 837 阅读时长 ≈ 3 分钟 前言在上一篇文章中,我们讨论了怎么在构建MCP。为了能够实现更复杂的功能,我们尝试将LangGraph引入到MCP中。 阅读全文 »
MCP入门级简单尝试 发表于 2025-08-13 分类于 LLM 本文字数: 1.6k 阅读时长 ≈ 6 分钟 前言既然MCP都已经出现了,甚至已经纳入面试题目了,就简单尝试一下这个新玩意儿。 阅读全文 »
用FunctionCall实现文件解析(十):接入LangGraph 发表于 2025-07-23 更新于 2025-07-31 分类于 LLM 本文字数: 1k 阅读时长 ≈ 4 分钟 前言既然我们在前面的$9$篇文章中做了这么多事情,接下来就再加一点新东西:LangGraph。 P.S.:虽然说官方最新版本已经更新到了比较后面,支持Runtime的版本,但是我的项目已经有点积重难返了,所以只能使用早些时候不支持Runtime的版本了。 P.S.:代码库已经开源至GitHub 阅读全文 »
用FunctionCall实现文件解析(九):用通义千问构建rerank方法 发表于 2025-07-23 分类于 LLM 本文字数: 1.3k 阅读时长 ≈ 5 分钟 前言好了,铺垫了这么这么久,总算来到稍微正经一点的问题上了。 P.S.:毕竟咱是演示项目,做起来就很粗暴,搜索时间也从来没有优化,所以搜索时间复杂度也是相当的绝望呢。 阅读全文 »