学习下大神的知识库

发表于 2026-04-12 分类于 markdown 阅读次数：阅读次数： Disqus：

上次把pdf文档转成了markdown，这次就来试下把文档进行具体的整理学习
创建我的wiki目录，然后在目录下创建raw目录，用于存放原始的文档，最好是转成了markdown的，
方便模型读取，当然模型是多模态的，并且土豪可以无视
然后使用claude在目录下让模型帮我开始整理我的知识库
它就开启了plan模式，使用了多个agent来处理文件

⏺ Entered plan mode
  Claude is now exploring and designing an implementation approach.

⏺ 3 Explore agents finished (ctrl+o to expand)
   ├─ Survey wiki structure · 9 tool uses · 0 tokens
   │  ⎿  Done
   ├─ Inspect raw materials · 10 tool uses · 0 tokens
   │  ⎿  Done
   └─ Find related study notes · 9 tool uses · 0 tokens

在完成之后就又给出了我需要做的针对性选项

⏺ Plan(Design KB plan)
  ⎿  Done (0 tool uses · 11.4k tokens · 20s)
  (ctrl+o to expand)

  Searched for 2 patterns, read 1 file (ctrl+o to expand)

⏺ User answered Claude's questions:
  ⎿  · 你希望这个知识库更偏哪种使用场景？ → 教材精读

⏺ Searching for 3 patterns, reading 1 file… (ctrl+o to expand)
  ⎿  raw/教材.md

接下去再做生成和校验

Verification

1. 运行脚本后，确认 1–21 章都已生成目录，尤其检查带分页符前缀的章标题是否正确识别。
2. 抽检至少 3 章：
  - 第 1 章（开头正常）
  - 第 9 章（架构核心章节）
  - 第 10 章（前有分页符）
3. 抽检至少 15 个节/小节文件，确认：
  - 文件名编号正确
  - 内容没有串章
  - 小节没有落错父目录
4. 检查总入口和章节索引里的链接是否全部可跳转。
5. 随机检查若干 图/表格残片，确认都被标成“待人工核对”，而不是被错误改写。

其实针对这种还是最好通过比较好的OCR模型或者多模态模型进行构建

⏺ 已帮你把教材整理成一版“教材精读型”知识库骨架。

  完成内容：
  - 新增构建脚本：./wiki/scripts/build_architect_kb.py
  - 生成知识库入口：./wiki/系统架构设计师/README.md
  - 生成章节目录与索引：
    - 系统架构设计师/章节/**
    - 系统架构设计师/索引/按章节索引.md

  本次生成结果：
  - 21 章
  - 118 节
  - 265 个小节

  我已抽检通过的点：
  - 第 9 章目录正常：教材/章节/09-软件架构设计/README.md:1
  - 第 10 章分页符章节也识别正常：系统架构设计师/章节/10-设计模式/README.md:1
  - 第 21 章重复小节问题已修正：系统架构设计师/章节/21-虚拟化、云计算与物联网/README.md:1
  - 图片缺失占位已落地：系统架构设计师/章节/01-计算机组成与体系结构/01-1.1.1-计算机硬件的组成.md:11

  当前知识库特点：
  - 保留教材章节主线
  - 自动清洗了部分 OCR 噪声和分页符
  - 把孤立的“图/表”替换为待人工核对占位
  - 每章都有 README，每节/小节独立成文件，并带来源行号

  已知限制：
  - 原始教材 OCR 质量一般，个别公式/符号仍有乱码，比如 系统架构设计师/章节/03-数据库系统/02-3.2.2-关系代数.md:11
  - 这版重点是“结构化落库”，不是“内容精修”

  如果你愿意，我下一步可以继续做两件事之一：
  1. 继续清洗 OCR 乱码，优先修数据库/公式类章节。
  2. 开始做“精读增强”，给每章补“重点 / 易混点 / 关联章节”。

这样基于这个知识库，我们可以继续进行更多的问答学习总结，防止大模型幻觉或者知识的不准确性