Knowledge-and-Memory-Management(KMM)v0.0.2作为一套面向AI Agent的“知识采集→精炼→召回→同步”管线框架发布,重点在于解决Agent“记了就忘”的问题。多种记忆方案通常侧重存储或检索,而KMM强调将“采集”与“记忆”解耦:它不直接充当新的记忆数据库,而是把原始知识从多种来源自动拉取、结构化处理并同步到云端共享的知识池。根据介绍,KMM提供40+采集工具,按介质分为网页、视频、文章/内容、文档/OCR四类;视频场景会结合转录(如Whisper)和画面文字提取(如OCR),网页与文档同样覆盖不同采集与解析方式。精炼阶段把材料生成结构化笔记并写入知识图谱(gbrain),还支持将PDF等内容转换为技能与笔记。召回方面采用分层检索:先本地FTS5,再用语义向量(Hindsight),必要时查询知识图谱。同步层使用rclone进行双向增量同步并定时执行,项目称可覆盖12+云盘并以OneDrive等为例。
KMM v0.0.2发布:为AI Agent提供知识采集、精炼与跨设备同步管线
Knowledge-and-Memory-Management(KMM)v0.0.2作为一套面向AI Agent的“知识采集→精炼→召回→同步”管线框架发布,重点在于解决Agent“记了就忘”的问题。多种记忆方案通常侧重存储或检索,而KMM强调将“采集”与“记忆”解...
- KMM v0.0.2定位为知识采集与管理管线框架,不提供新的记忆数据库存储方案。
- 系统将采集、精炼、召回和同步分成链路,形成端到端流程。
- 采集端支持40+工具,按网页、视频、文章/内容、文档/OCR等介质编排。
- 召回采用分层策略:先本地FTS5,未命中再走语义向量检索(Hindsight),再到知识图谱(gbrain)。
- 同步层使用rclone做双向增量同步,并可定时自动执行以实现跨设备共享知识。
AI Agent 的记忆系统通常只解决一个问题:「记住」。gbrain 存知识图谱,Hindsight 存向量,Memory tool 存偏好。三个仓库堆满数据,但你问 Agent「我上周看的那篇关于 Agent memory 的文章说了什么?」——它答不上来。不是因为记不住,是因为它的记忆系统没有「采集」这一层。 这就是 Knowledge-and-Memory-Management(KMM)的定位:不是另一个记忆数据库,而是一个 知识采集 → 精炼 → 召回 → 同步 的全链路插件。v0.0.2 把这条链路做完了。 架构思路:把「采集」和「记忆」解耦 KMM 不做记忆存储,它只做三件事: 采集 — 从 40+ 工具把原始知识拉进来 精炼 — 把原始材料变成结构化笔记 + 知识图谱节点 同步 — 写 OneDrive,让所有设备共享同一个知识池 下方是三层采集管线示意: 层 工具数 代表工具 网页 9 Scrapling (CF 绕过)、Chrome DevTools Protocol、GStack Browser 视频 12 抖音批量转录、yt-dlp、Whisper ASR (99 语种) 文档 9 SenseNova PDF/PPT/Word 引擎、MinerU、book_cache (710+ 本) 3 层召回:不让任何一条知识掉队 搜索时先查本地 FTS5(毫秒级),没命中就走 Hindsight 向量(语义近似),再不中就落 gbrain 知识图谱(关联推理)。三层兜底,基本不存在「查不到」的情况。 代码片段:rclone 做云盘双向同步 KMM 的 CloudSyncEngine 不造轮子,直接用 rclone 做统一同步层。核心代码很直白: class CloudSyncEngine: def __init__(self): self._check_rclone() def _check_rclone(self): result = subprocess.run(["rclone", "version"], capture_output=True, text=True) if result.returncode != 0: raise RuntimeError("rclone not installed") def bidirectional_sync(self, local_path, remote_path): """双向增量同步,每 4h 自动执行""" cmd = ["rclone", "bisync", local_path, remote_path, "--resync"] return subprocess.run(cmd) 这没什么黑科技,关键是架构决策:用 rclone 支持 12+ 云盘(OneDrive / 阿里云盘 / 百度云盘 / Dropbox / Mega / 天翼云等),不需要为每个云盘写专属 SDK。一份配置,双向同步,cron 每 4 小时自动执行。 一个完整的采集流 用户丢过来一个抖音视频链接 → collect_video() 自动走三条线并行:yt-dlp 下音频 → Whisper ASR 转文字 → PaddleOCR/EasyOCR 提关键帧文字。输出汇总后 → generate_note() 写结构化笔记 → create_note() 入 gbrain 知识图谱 → sync_to_cloud() 推 OneDrive。全自动,零人工参与。 踩过的坑 不要用 Python 重写云盘同步。KMM v0.0.1 试过直接调各云盘 REST API,token 刷新、分片上传、断点续传全要自己处理,维护成本极高。v0.0.2 切到 rclone bisync 后问题归零。 视频分析不只看语音。抖音很多技术号用字幕 + PPT 画面讲内容,语音只占信息量的 60%。必须 OCR 做画面补充,否则丢失大量知识。 去重不做在采集层。采集层只管拉,去重交给 gbrain 的 content_hash 和 nightly_maintenance 的 orphan compaction,职责分离更干净。 适用场景 如果你的 AI Agent 已经跑了一段时间,积累了几千条笔记 / 几百个知识图谱节点,但你还是觉得「它好像什么都不懂」——问题很可能出在知识摄入链路上。KMM 适合你已经有一套记忆系统,缺的是一个自动化的知识采集和同步层。 仓库:github.com/mage0535/Knowledge-and-Management,MIT 协议,PR welcome。
10 hours ago40+ 采集工具的管理清单:从零搭建 AI Agent 知识管线 做 AI Agent 的都知道,上下文窗口再大,没有知识输入管道也是白搭。你写个 Agent 能聊天能调工具,但每次新会话都从零开始——昨天的调研、上周的 PDF、上个月的竞品分析,全得重来。 帮 Agent 记住东西的方案不少,但大多数搞反了方向:直接堆 RAG 向量库,结果发现往里喂的数据质量一塌糊涂。根本问题不是检索算法,是知识压根没进来。 Knowledge-and-Memory-Management v0.0.2(KMM)解决的是前半截——先把管道路由建好,再谈搜索。 不是代码库,是工具清单 很多人看到 GitHub 仓库就以为是现成 SDK。KMM 的定位不同:它是一份40+ 采集工具的编排清单,按介质分 4 类: 网页:6 种引擎,从 trafilatura 快速提取到 Scrapling 反检测采集(Cloudflare Turnstile 绕过),到 Chrome DevTools 完整自动化 视频:8 种工具/引擎。抖音元数据+字幕+ASR 一条线、yt-dlp 覆盖 1000+ 站点、Whisper 99 种语言转录、EasyOCR/PaddleOCR 画面文字提取 文章/内容:10+ 来源,微信公众号、微博、新闻聚合、RSS/博客 文档/OCR:PDF/PPT/Word 文字型+扫描型全支持,PaddleOCR 70K⭐ 高精度 每类工具都有统一的 TOOL_INVENTORY 结构,标注能力等级、部署状态和适用场景。不是散装的脚本集合,是按"采集→分析→笔记→图谱→云盘"五步编排的管线框架。 本地优先,AnySearch 自动回落 这是最实用的设计。AugmentedSearch 的搜索逻辑: from knowledge_augmentation import AugmentedSearch searcher = AugmentedSearch() # 先搜本地笔记,命中不足时自动回落 AnySearch results = searcher.search("Agent 记忆体设计模式") # 本地命中 ≥ threshold → source: local # 本地不足 → source: hybrid/web,自动标注来源 核心判断:本地搜索得分 ≥ fallback_threshold 时直接返回,不走网络。低于阈值时自动触发 AnySearch 垂直搜索,结果带 source: web 标识,不会把全网搜索伪装成本地知识。这个设计防止了最讨厌的问题——你问 Agent "我之前记过什么",它拿 web 结果糊弄你。 五步管线:采集 → 笔记 → 图谱 → 同步 NoteGenerator 定义的标准链路很清晰: 采集原始材料 — 四种 Collector 任意入口 LLM 结构化提炼 — 核心论点、关键数据、时间线、关联阅读 写入本地笔记 — YAML frontmatter + Markdown,路径 $AGENT_HOME/knowledge/notes/ gbrain 知识图谱入库 — 创建节点、建链接、打标签、记时间线 云盘同步 — rclone 统一推送到 OneDrive 等 12+ 驱动 精炼层还有个 refine_pdf,直接调用 book_to_skill 管线把 PDF 转成 Hermes Skill + KMM 笔记: from knowledge_collector.refinement import refine_pdf result = refine_pdf("machine-learning.pdf", slug="ml-basics") # → Skill 写入 ~/.hermes/skills/book-ml-basics/ # → 笔记写入 ~/knowledge/structured/ml-basics/ 什么时候该用 如果你的 Agent 已经开始出现"我告诉过你的怎么又忘"、或者你每天花大量时间把新信息喂给 AI、又或者发现 RAG 库搜出来的全是噪声——问题大概率不在检索,在采集管道没建起来。 KMM 不提供魔法 SQLite 或者新向量数据库,它给的是工具编排框架。你可能用不到全部 40+ 工具,但它的分层结构(按介质分采集→按 LLM 精炼→按权重回落搜索)是一个值得复用的设计模式。
22 hours ago
SpaceX to acquire AI coding startup Cursor in $60 billion all-stock deal
SpaceX confirms it is buying Cursor, an AI coding platform built by Anysphere, for $60 billion, following an earlier agr...
Mumbai Railways cancel Sunday mega blocks for NEET-UG 2026 re-exam travel
Central and Western Railways in Mumbai announce that they will cancel the usual Sunday “mega blocks” (maintenance-relate...
Wordle hints and answers published by major tech outlets
Multiple outlets publish daily Wordle support pages that include hints and the day’s solution. The articles listed from...