Chen Kai Blog

Keep writing and Keep loving.

网球场景计算机视觉系统设计方案：从论文调研到工业实现

网球比赛中，球的速度可以达到 200+ km/h，直径只有 6.7 厘米，在摄像头画面中可能只占 10-20 个像素。如何实时检测、跟踪这样的小物体，并从多个摄像头视角重建出三维轨迹？如何识别球员的动作姿态，预测球的落点？本文将系统性地设计一套完整的网球场景计算机视觉系统，从论文调研到工业方案，再到可运行的代码 demo 。
2025-12-15
- 技术方案
- 计算机视觉
- | 目标检测
- | 3D 重建
- | 轨迹预测
- | 姿态估计
阅读全文
学习率：从入门到大模型训练的终极指南

学习率（ Learning Rate, LR）是深度学习里最重要、也最容易“看起来像玄学”的超参数。它既像汽车的油门（决定你每一步走多快），也像方向盘的灵敏度（太敏感会蛇形走位甚至翻车，太迟钝又永远到不了目的地）。

这篇文章会从最简单的二次函数出发，把“学习率为什么会影响稳定性、为什么训练后期要降学习率、为什么 warmup 常见”讲清楚。
2025-11-08
- 深度学习
- 学习率
- | 优化器
- | 大模型训练
- | Warmup
阅读全文
LLM 工作流与应用架构：企业级实战指南

构建生产级 LLM 应用，远不止调用 API 那么简单。从单轮问答到复杂的多步推理，从简单的 Prompt 到完整的 RAG 系统，每个环节都藏着工程细节。本文将深入剖析 LLM 应用架构的各个层次——从工作流基础到 RAG 深度优化，从可视化编排平台到企业级微服务设计，再到安全防护与成本优化。我们会详细对比主流技术选型（向量数据库、检索策略、编排平台），并通过完整的企业知识库系统实战，帮你建立从设计到部署的全栈视角。
2025-09-22
- 人工智能
- LLM
- | RAG
- | 工作流
- | 向量数据库
- | 企业应用
阅读全文
AI Agent 完全指南：从理论到工业实践

两年前， ChatGPT 横空出世让我们见识到大语言模型的强大对话能力。但仅仅"对话"还不够——当你问 ChatGPT"帮我订一张明天去上海的机票"时，它只能给你建议，却无法真正完成任务。这就是普通 LLM 的局限：缺乏与外部世界交互的能力。

AI Agent 的出现改变了这一切。 Agent 不仅能理解你的需求，还能自主规划步骤、调用工具、执行操作、从错误中学习，最终完成复杂任务。从 AutoGPT 到 GPT-4 的 Function Calling，从单个智能体到多 Agent 协作系统， Agent 技术正在快速演进，逐步从研究原型走向工业应用。

本文将系统梳理 AI Agent 的核心概念、关键技术、主流框架和实战案例，帮助你构建属于自己的智能代理系统。
2025-08-15
- 人工智能
- AI Agent
- | LLM
- | 工具调用
- | 多 Agent 系统
- | ReAct
阅读全文
Integrating Large Language Models with Graphical Session-Based Recommendation

会话推荐（ Session-based Recommendation, SBR）是一个"短历史"问题：你只看到用户在一次会话里很短的一段点击序列（通常 3 – 20 次点击），就要预测下一个最可能点击的物品。难点不在于概念，而在于工程现实：会话短、长尾多、冷启动多，很多时候纯靠交互图（ ID + 转移边）根本学不稳——新物品几乎没有边、长尾物品边非常稀疏、用户探索噪声大。

但真实系统里又往往有大量被浪费的文本侧信息（标题、描述、属性、评论）。如果能把这些语义用起来，理论上可以缓解冷启动与长尾问题：新物品即使没有交互，也有标题和描述；长尾物品虽然交互少，但语义信息仍然在。问题是，传统 GNN-SBR 很难把这些文本语义有效注入到会话图建模里——图模型擅长学习结构， LLM 擅长理解语义，两边的表示空间天然不兼容，直接拼起来往往训不稳。

LLMGR 的核心做法是把大语言模型当作"语义引擎"，让它把文本变成可与图节点对齐的表示；再用混合编码层把语义与图结构融合进同一个表示空间；最后用两阶段提示调优策略，先对齐"节点—文本"（让模型学会"这段描述对应哪个物品"），再对齐"会话—行为模式"（让模型学会"根据会话图预测下一跳"）。这篇笔记按实现链路讲清楚它为什么这么设计、两阶段训练各解决什么瓶颈、融合层具体怎么把语义与转移模式揉在一起，以及它在稀疏与冷启动设置下为什么能更稳地拉开差距。同时我也会保留论文里关键的实验细节和数字（例如在 Amazon Music/Beauty/Pantry 数据集上，相比最强基线， HR@20 提升约 8.68%、 NDCG@20 提升 10.71%、 MRR@20 提升 11.75%），方便你评估这个方法是否真的值得尝试。
2025-05-12
- 论文笔记
- 会话推荐
- | GNN
- | LLM
阅读全文
paper2repo： GitHub Repository Recommendation for Academic Papers

读论文最痛的时刻之一，是“方法看懂了，但代码在哪？”：论文与 GitHub 往往没有显式链接，靠关键词搜索又容易漏、容易错。 paper2repo 试图把这件事系统化：把论文与仓库放进同一个联合嵌入空间里，把“文本相似”“引用关系”“仓库社交信号”等多种弱关联一起利用，最后输出一个可排序的仓库推荐列表。本文会按复现视角拆解它的核心设计：上下文图怎么构建、文本编码与受限 GCN 如何协同对齐两侧表示、训练目标与约束项在优化里各起什么作用，以及实验里这些设计到底贡献了多少收益，帮助你把它当作“跨平台匹配/检索”的一个可迁移范式来理解。
2025-04-08
- 论文笔记
- Recommend System
阅读全文
大语言模型在自然语言处理传统任务中的应用与优化研究进展

把大语言模型用到 NER 、关系抽取、分类等“传统 NLP 任务”时，难点往往不在模型够不够大，而在于：任务如何表述、监督信号如何注入、成本如何压下去，以及怎样在可控的推理延迟里稳定提升效果。本文以研究脉络为主线，梳理大模型在传统任务中的典型用法（提示/微调/蒸馏/检索增强等）与关键优化点，并结合代表性工作总结它们各自擅长解决什么问题、代价是什么、还有哪些尚未被很好解决的空白与趋势，方便你快速建立“选方案”的判断框架。
2025-03-20
- Paper
- LLM
阅读全文
提示词工程完全指南：从零基础到高级优化

大语言模型（ LLM）的能力边界，很大程度上取决于你怎么"问"它。同样的模型，换个提问方式，输出质量可能天差地别。提示词工程（ Prompt Engineering）就是研究如何与 LLM 高效沟通的学问——它不仅是技术，更是一门艺术。

本文从零开始，系统梳理提示词工程的完整知识体系：从基础的清晰性原则，到 Chain-of-Thought 、 Self-Consistency 等进阶技巧，再到 DSPy 、 APE 等自动化优化框架，最后落地到实战场景。无论你是刚接触 LLM 的新手，还是想深入了解提示词优化的研究者，都能在这里找到答案。
2025-03-03
- 人工智能
- LLM
- | 提示词工程
- | CoT
- | 上下文学习
阅读全文
Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)

LoRA 把“全量微调”压缩成一个低秩更新，但它也引入了一个直觉上的限制：单个低秩子空间未必足以覆盖任务所需的多样变化；而 MoE 虽然能增加容量，却常带来路由开销、训练不充分与推理不可合并等工程代价。 MoSLoRA 的思路更像是把“多专家”做成“多子空间”：把 LoRA 的更新拆成多个小子空间，再用一个可学习的 Mixer 在这些子空间之间做融合，从而在几乎不增加推理复杂度的前提下提升表达能力，并尽量保留 LoRA 的可合并性。下面我会按“动机—结构—训练/推理行为—实验结论”的顺序拆解这篇工作，重点看它的 Mixer 设计到底带来了哪些收益，以及它与 LoRA/MoE 的边界在哪里。
2025-02-18
- 论文笔记
- PEFT
- | LoRA
- | 参数高效微调
阅读全文
Prefix Tuning —— Optimizing Continuous Prompts for Generation

把大模型用到具体生成任务时，最“贵”的一步往往不是推理，而是为每个任务保存一份完整的微调权重。 Prefix-Tuning 的思路很克制：不改动语言模型本体参数，只学习一小段连续向量作为“前缀”，把它注入到 Transformer 的注意力计算里，让模型在生成时被这段前缀“引导”到任务所需的分布。本文会把这篇工作的关键点讲清楚：前缀到底加在什么位置（输入 token 还是各层的）、为什么要做重参数化来稳定训练、它与 Adapter/Prompt Tuning 的边界在哪里，以及它在不同任务上带来的效果与代价是什么，方便你判断何时值得用它替代全量微调。
2025-02-05
- 论文笔记
- PEFT
- | 参数高效微调
- | Prefix-Tuning
阅读全文