网球比赛中,球的速度可以达到 200+ km/h,直径只有 6.7 厘米,在摄像头画面中可能只占 10-20 个像素。如何实时检测、跟踪这样的小物体,并从多个摄像头视角重建出三维轨迹?如何识别球员的动作姿态,预测球的落点?本文将系统性地设计一套完整的网球场景计算机视觉系统,从论文调研到工业方案,再到可运行的代码 demo 。
-
网球场景计算机视觉系统设计方案:从论文调研到工业实现
-
学习率:从入门到大模型训练的终极指南
学习率( Learning Rate, LR)是深度学习里最重要、也最容易“看起来像玄学”的超参数。它既像汽车的油门(决定你每一步走多快),也像方向盘的灵敏度(太敏感会蛇形走位甚至翻车,太迟钝又永远到不了目的地)。
这篇文章会从最简单的二次函数出发,把“学习率为什么会影响稳定性、为什么训练后期要降学习率、为什么 warmup 常见”讲清楚。
-
LLM 工作流与应用架构:企业级实战指南
构建生产级 LLM 应用,远不止调用 API 那么简单。从单轮问答到复杂的多步推理,从简单的 Prompt 到完整的 RAG 系统,每个环节都藏着工程细节。本文将深入剖析 LLM 应用架构的各个层次——从工作流基础到 RAG 深度优化,从可视化编排平台到企业级微服务设计,再到安全防护与成本优化。我们会详细对比主流技术选型(向量数据库、检索策略、编排平台),并通过完整的企业知识库系统实战,帮你建立从设计到部署的全栈视角。
-
AI Agent 完全指南:从理论到工业实践
两年前, ChatGPT 横空出世让我们见识到大语言模型的强大对话能力。但仅仅"对话"还不够——当你问 ChatGPT"帮我订一张明天去上海的机票"时,它只能给你建议,却无法真正完成任务。这就是普通 LLM 的局限:缺乏与外部世界交互的能力。
AI Agent 的出现改变了这一切。 Agent 不仅能理解你的需求,还能自主规划步骤、调用工具、执行操作、从错误中学习,最终完成复杂任务。从 AutoGPT 到 GPT-4 的 Function Calling,从单个智能体到多 Agent 协作系统, Agent 技术正在快速演进,逐步从研究原型走向工业应用。
本文将系统梳理 AI Agent 的核心概念、关键技术、主流框架和实战案例,帮助你构建属于自己的智能代理系统。
-
Integrating Large Language Models with Graphical Session-Based Recommendation
会话推荐( Session-based Recommendation, SBR)是一个"短历史"问题:你只看到用户在一次会话里很短的一段点击序列(通常 3 – 20 次点击),就要预测下一个最可能点击的物品。难点不在于概念,而在于工程现实:会话短、长尾多、冷启动多,很多时候纯靠交互图( ID + 转移边)根本学不稳——新物品几乎没有边、长尾物品边非常稀疏、用户探索噪声大。
但真实系统里又往往有大量被浪费的文本侧信息(标题、描述、属性、评论)。如果能把这些语义用起来,理论上可以缓解冷启动与长尾问题:新物品即使没有交互,也有标题和描述;长尾物品虽然交互少,但语义信息仍然在。问题是,传统 GNN-SBR 很难把这些文本语义有效注入到会话图建模里——图模型擅长学习结构, LLM 擅长理解语义,两边的表示空间天然不兼容,直接拼起来往往训不稳。
LLMGR 的核心做法是把大语言模型当作"语义引擎",让它把文本变成可与图节点对齐的表示;再用混合编码层把语义与图结构融合进同一个表示空间;最后用两阶段提示调优策略,先对齐"节点—文本"(让模型学会"这段描述对应哪个物品"),再对齐"会话—行为模式"(让模型学会"根据会话图预测下一跳")。这篇笔记按实现链路讲清楚它为什么这么设计、两阶段训练各解决什么瓶颈、融合层具体怎么把语义与转移模式揉在一起,以及它在稀疏与冷启动设置下为什么能更稳地拉开差距。同时我也会保留论文里关键的实验细节和数字(例如在 Amazon Music/Beauty/Pantry 数据集上,相比最强基线, HR@20 提升约 8.68%、 NDCG@20 提升 10.71%、 MRR@20 提升 11.75%),方便你评估这个方法是否真的值得尝试。
-
paper2repo: GitHub Repository Recommendation for Academic Papers
读论文最痛的时刻之一,是“方法看懂了,但代码在哪?”:论文与 GitHub 往往没有显式链接,靠关键词搜索又容易漏、容易错。 paper2repo 试图把这件事系统化:把论文与仓库放进同一个联合嵌入空间里,把“文本相似”“引用关系”“仓库社交信号”等多种弱关联一起利用,最后输出一个可排序的仓库推荐列表。本文会按复现视角拆解它的核心设计:上下文图怎么构建、文本编码与受限 GCN 如何协同对齐两侧表示、训练目标与约束项在优化里各起什么作用,以及实验里这些设计到底贡献了多少收益,帮助你把它当作“跨平台匹配/检索”的一个可迁移范式来理解。
-
大语言模型在自然语言处理传统任务中的应用与优化研究进展
把大语言模型用到 NER 、关系抽取、分类等“传统 NLP 任务”时,难点往往不在模型够不够大,而在于:任务如何表述、监督信号如何注入、成本如何压下去,以及怎样在可控的推理延迟里稳定提升效果。本文以研究脉络为主线,梳理大模型在传统任务中的典型用法(提示/微调/蒸馏/检索增强等)与关键优化点,并结合代表性工作总结它们各自擅长解决什么问题、代价是什么、还有哪些尚未被很好解决的空白与趋势,方便你快速建立“选方案”的判断框架。
-
提示词工程完全指南:从零基础到高级优化
大语言模型( LLM)的能力边界,很大程度上取决于你怎么"问"它。同样的模型,换个提问方式,输出质量可能天差地别。提示词工程( Prompt Engineering)就是研究如何与 LLM 高效沟通的学问——它不仅是技术,更是一门艺术。
本文从零开始,系统梳理提示词工程的完整知识体系:从基础的清晰性原则,到 Chain-of-Thought 、 Self-Consistency 等进阶技巧,再到 DSPy 、 APE 等自动化优化框架,最后落地到实战场景。无论你是刚接触 LLM 的新手,还是想深入了解提示词优化的研究者,都能在这里找到答案。
-
Mixture-of-Subspaces in Low-Rank Adaptation (MoSLoRA)
LoRA 把“全量微调”压缩成一个低秩更新,但它也引入了一个直觉上的限制:单个低秩子空间未必足以覆盖任务所需的多样变化;而 MoE 虽然能增加容量,却常带来路由开销、训练不充分与推理不可合并等工程代价。 MoSLoRA 的思路更像是把“多专家”做成“多子空间”:把 LoRA 的更新拆成多个小子空间,再用一个可学习的 Mixer 在这些子空间之间做融合,从而在几乎不增加推理复杂度的前提下提升表达能力,并尽量保留 LoRA 的可合并性。下面我会按“动机—结构—训练/推理行为—实验结论”的顺序拆解这篇工作,重点看它的 Mixer 设计到底带来了哪些收益,以及它与 LoRA/MoE 的边界在哪里。
-
Prefix Tuning —— Optimizing Continuous Prompts for Generation
把大模型用到具体生成任务时,最“贵”的一步往往不是推理,而是为每个任务保存一份完整的微调权重。 Prefix-Tuning 的思路很克制:不改动语言模型本体参数,只学习一小段连续向量作为“前缀”,把它注入到 Transformer 的注意力计算里,让模型在生成时被这段前缀“引导”到任务所需的分布。本文会把这篇工作的关键点讲清楚:前缀到底加在什么位置(输入 token 还是各层的
)、为什么要做重参数化来稳定训练、它与 Adapter/Prompt Tuning 的边界在哪里,以及它在不同任务上带来的效果与代价是什么,方便你判断何时值得用它替代全量微调。