学习下大神的知识库
上次把pdf文档转成了markdown,这次就来试下把文档进行具体的整理学习
创建我的wiki目录,然后在目录下创建raw目录,用于存放原始的文档,最好是转成了markdown的,
方便模型读取,当然模型是多模态的,并且土豪可以无视
然后使用claude在目录下让模型帮我开始整理我的知识库
它就开启了plan模式,使用了多个agent来处理文件1
2
3
4
5
6
7
8
9⏺ Entered plan mode
Claude is now exploring and designing an implementation approach.
⏺ 3 Explore agents finished (ctrl+o to expand)
├─ Survey wiki structure · 9 tool uses · 0 tokens
│ ⎿ Done
├─ Inspect raw materials · 10 tool uses · 0 tokens
│ ⎿ Done
└─ Find related study notes · 9 tool uses · 0 tokens
在完成之后就又给出了我需要做的针对性选项1
2
3
4
5
6
7
8
9
10
11⏺ Plan(Design KB plan)
⎿ Done (0 tool uses · 11.4k tokens · 20s)
(ctrl+o to expand)
Searched for 2 patterns, read 1 file (ctrl+o to expand)
⏺ User answered Claude's questions:
⎿ · 你希望这个知识库更偏哪种使用场景? → 教材精读
⏺ Searching for 3 patterns, reading 1 file… (ctrl+o to expand)
⎿ raw/教材.md
接下去再做生成和校验1
2
3
4
5
6
7
8
9
10
11
12
13Verification
1. 运行脚本后,确认 1–21 章都已生成目录,尤其检查带分页符前缀的章标题是否正确识别。
2. 抽检至少 3 章:
- 第 1 章(开头正常)
- 第 9 章(架构核心章节)
- 第 10 章(前有分页符)
3. 抽检至少 15 个节/小节文件,确认:
- 文件名编号正确
- 内容没有串章
- 小节没有落错父目录
4. 检查总入口和章节索引里的链接是否全部可跳转。
5. 随机检查若干 图/表格残片,确认都被标成“待人工核对”,而不是被错误改写。
其实针对这种还是最好通过比较好的OCR模型或者多模态模型进行构建1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33⏺ 已帮你把教材整理成一版“教材精读型”知识库骨架。
完成内容:
- 新增构建脚本:./wiki/scripts/build_architect_kb.py
- 生成知识库入口:./wiki/系统架构设计师/README.md
- 生成章节目录与索引:
- 系统架构设计师/章节/**
- 系统架构设计师/索引/按章节索引.md
本次生成结果:
- 21 章
- 118 节
- 265 个小节
我已抽检通过的点:
- 第 9 章目录正常:教材/章节/09-软件架构设计/README.md:1
- 第 10 章分页符章节也识别正常:系统架构设计师/章节/10-设计模式/README.md:1
- 第 21 章重复小节问题已修正:系统架构设计师/章节/21-虚拟化、云计算与物联网/README.md:1
- 图片缺失占位已落地:系统架构设计师/章节/01-计算机组成与体系结构/01-1.1.1-计算机硬件的组成.md:11
当前知识库特点:
- 保留教材章节主线
- 自动清洗了部分 OCR 噪声和分页符
- 把孤立的“图/表”替换为待人工核对占位
- 每章都有 README,每节/小节独立成文件,并带来源行号
已知限制:
- 原始教材 OCR 质量一般,个别公式/符号仍有乱码,比如 系统架构设计师/章节/03-数据库系统/02-3.2.2-关系代数.md:11
- 这版重点是“结构化落库”,不是“内容精修”
如果你愿意,我下一步可以继续做两件事之一:
1. 继续清洗 OCR 乱码,优先修数据库/公式类章节。
2. 开始做“精读增强”,给每章补“重点 / 易混点 / 关联章节”。
这样基于这个知识库,我们可以继续进行更多的问答学习总结,防止大模型幻觉或者知识的不准确性