摘要:Karpathy 的 LLM 知识库模式
Andrej Karpathy 分享了他使用 LLM 构建个人知识库的方法论:将原始资料存入 raw/,由 LLM 编译成 interlinked 的 wiki,再通过 Q&A 和 lint 持续增强知识库。
核心流程
- 数据摄入: 将源文档(文章、论文、代码库、图像)索引到 raw/ 目录,用 Obsidian Web Clipper 将网页转为 markdown
- LLM 编译 Wiki: LLM 逐步将 raw/ 中的数据编译为 wiki,包括摘要、反向链接、概念分类和交叉链接
- Q&A: wiki 足够大后(Karpathy 的规模约 100 篇文章、40 万词),可直接向 LLM 提问复杂问题
- 输出回填: Q&A 结果归档回 wiki,探索和查询持续“累积”
- Lint: LLM 健康检查,找不一致、补缺失、发现新关联
关键洞察
- 无需 RAG: 小规模下(数百篇),LLM 通过自动维护索引文件和摘要就能定位信息
- LLM 是 wiki 的主要维护者: 人类很少直接编辑 wiki,主要职责是提供原始材料和引导分析
- 工具扩展: 为 wiki 开发自定义搜索引擎,既直接使用也通过 CLI 交给 LLM
- 未来方向: 合成数据生成 + 微调,让 LLM 在权重中“知道”数据