如何用AI构建个人知识库?
创始人
2025-07-22 16:42:18
0

用 AI 构建个人知识库可以通过以下步骤实现。首先,利用智能搜索工具,将日常学习、工作中遇到的各种知识、资料进行分类整理并存储,如文档、图片、音频等。其次,借助 AI 学习助手,它能根据你的需求快速检索和筛选相关知识,提供精准的答案和解释。再者,通过 AI 生成内容功能,将零散的知识进行整合和提炼,创作成有逻辑的文章、报告等。例如,当你研究某个领域时,AI 可以帮你收集大量相关资料,并总结出关键要点,构建起属于自己的专属知识库,方便随时查阅和使用,提升学习和工作效率。


Gemini CLI在我电脑上跑通的时候,世界好安静,我觉得好神奇。


我真的太推荐太推荐了。作为一个nerd,我觉得是太酷了。


我大多数写文章时候脑袋是偏冷静的,可这篇文章我在后期编辑的时候,发现自己用了太多感叹号——却不想把它们去掉。


因为我满腔热情要给大家推荐这个AI agent。ChatGPT agent7月17日也刚发布,个人agent的时代已正式来临。


Gemini CLI的应用可以很多 —— 对于AI入门来说,我们最推荐的是,研究如何结合TA形成个人知识库(Personal Knowledge Base)。


是我这种AI小学生学习怎么用好AI的优质抓手,也是构建个人知识管理系统的最简窗口。


一句话划重点:热爱学习、热爱笔记、经常需要输入输出的同学们,对信息相对敏感的知识工作者(knowledge worker)或者基于有效信息的投资者(informed investor),请一定记得查看Gemini CLI这宝藏一样的存在。


过去大半年,我跟极客Y同学一直畅想围绕AI agent来做个人知识库工具。我因为养娃的缘故,没太多时间去优化,一直停留在半自动化的状态。


周末深夜我俩讨论,这段时间啥都没做竟然挺好的。因为我们能想到的,已经全部都被 AI 模型能力升级颠覆了——关键是,完全不需要编程基础,只需要关注自己真实的信息输入和输出状态。


文科生同学请千万不要走开!如果Cursor和Claude太理工科,现在正是我们来运用Gemini CLI,来提升自己学习效果的绝佳时间点。


按照Y同学的说法:UI(交互界面)已经不重要了,编程语言对于大多数人来说已经不重要了。


Gemini CLI就是让普通人能够用自然语言直接让LLM管理知识的极简入口。


还好有他在社区,我这个媒体老编辑可以第一时间体会到,如何把最新的技术变成技能。周六的深夜,我们结合着Gemini CLI和各种工具一边实验,一边大呼:这尼玛真的重新定义了学习!


本篇内容我会说明为什么我这个笔记发烧爱好者反而放弃了大部分软件,而Gemini CLI这样的AI agent为什么特别值得我们去研究,去搭建适合自己的信息输入和输出流程。


因为我们的目标已经不仅仅是实现个人信息操作系统 —— 而是构建人生第一个知识库AI智能体,与机器智能合作进行个性化学习与成长。


Gemini CLI快速入门的安装方法和热门用例的步骤,我都整理好了,在文末有彩蛋给到大家,感兴趣的同学可以来玩。


一、Gemini CLI从0到1:本地环境中智能体的主动协作


Gemini CLI的CLI,其实是Command-line Interface,也就是命令行的简称。


你看Gemini CLI Github仓库(https://github.com/google-gemini/gemini-cli)的介绍:


“Gemini CLI是一个开源的 AI 智能体,将 Gemini 的强大能力直接带入你的终端。”


也就是说,我们只需要用电脑上的终端(Terminal)来安装,然后用自然语言来对话Gemini即可。


这里面省去了过去大量需要软件工程的时间 —— 曾经只有程序员才能用好命令行。


Gemini CLI刚发布的时候,Y同学直接一个电话会议过来给我在电脑端演示了一下。


我震惊了:这简直是我的本命工具!!


Google在Reddit上专门还开了一个指南文档给大家讲解意义,官方指南很值得细读。我印象最深的有两点:


第一,我们正站在人工智能革命的分水岭上。Gemini CLI可以让创作者与人工智能互动方式上实现了根本性的范式转变。


第二,目前的大多数 AI 工具,包括主流的聊天机器人和编程助手,都是基于网页的。用户需要打开一个网站,输入提示词,等待生成响应。而 Gemini CLI 的设计理念,则是要将 AI 直接集成进每个创作者最核心的工作环境——命令行界面(CLI),也就是终端。


官方解释,作为免费、开源且功能极其强大的 AI 代理,Gemini CLI能够:


  • 编写代码:从零开始生成完整的应用程序;


  • 创作媒体:制作具备专业水准的视频和其他多媒体内容;


  • 执行任务:自动化工作流程,直接在用户的本地计算机上执行命令;


  • 推理与研究:借助谷歌强大的模型能力,完成深入的研究和问题解决。


这标志着 AI 的角色正在从“建议引擎”向“本地环境中的主动协作伙伴”转变——贾维斯的雏形开始向文科生打开了同学们!


Gemini CLI强的地方还在于多模态,特别是对于图片还有视频内容。这里面的应用非常广,因为AI终于可以“看”了,而知识的形态不止是存在于文本。这以后我们慢慢展开讲。


我为什么更倾向于Gemini的2.5Pro多模态大模型而不是ChatGPT的推理模型呢?


首先,还是选择对自己效果最好的大模型。我个人用深度研究比较多,我自己感受是Gemini的效果好过ChatGPT很多很多。


毕竟是基于最强的Google Search,这是积累了很长一段时间的,ChatGPT一时间质量跟不上。


另外,Gemini背后的团队是DeepMind。我对Google DeepMind团队本身自带滤镜,因为前同事在DeepMind工作过,我了解了之后就无法停下学术追星的脚步(见:《与AI互动的信息时代黎明:吃掉自尊心才能拓展认知边界》)。


谷歌大公司病是有,但最近AI业务都重新整合DeepMind了,都是天才科学家Demis统一负责。


我早年关注AlphaGo的动向,最早从Deepmind分享的纪录片里理解了神经网络,和他们最初的理想。我感受到了科学家最纯净的好奇心,感受他们做出来的东西一定不一样。


关键,现在ChatGPT Agent 还需要付费订阅,而 Gemini CLI 则是免费用2.5Pro大模型,可以省20刀左右的月费。


那大家现在都是怎么应用Gemini CLI的呢?


我用Grok Deep Search了一下Gemini CLI发布一个月以来,在X推特上的热门以及有趣的用例:


最热门的用例:


  • 整理和结构化个人笔记:用户使用 Gemini CLI 将杂乱的笔记文件夹转换为结构化、相互链接的知识图谱,例如 Obsidian 格式,方便管理和访问。


  • 自动化文件处理:如批量转换图片格式并根据 EXIF 数据重命名,或整理个人文件(如 MP3),节省手动操作时间。


  • 研究辅助:利用 Gemini CLI 总结信息、查找数据关联或回答基于个人或外部数据的复杂问题,适合个人研究项目。


最有趣的用例(依Grox看):


  • 与个人知识库的对话交互:通过自然语言与整个知识库互动,提问、获取摘要或探索信息间的联系,将静态笔记变为动态资源。


  • 自动化个人数据组织:自动分类、链接个人文件和笔记,简化知识管理系统的维护。


  • 多模态内容生成:通过与 Model Context Protocol (MCP) 服务器集成,基于个人知识生成视频或图片,适合创意项目或演示。


最热门的用例就是知识管理的用例啊同学们。


你看有同学用Gemini CLI和Obsidian一起打造的工作流,给他本地400个笔记绘制了一个知识图谱,方便他去寻找关联。




命令过程全都是自然语言操作,感觉真的非常非常钢铁侠的贾维斯。


知识图谱其实也略显花哨,我们刚入门并不需要。


我们最关心的知识管理需求,本质上是大量的信息输入和输出之中,寻找对自己有用的深度信息。工具里的阅读,查找,搜索,写入,其实都是非常刚需的。


输入 /tools 然后回车,就能看到很多内置工具。



比如阅读文件、查找文件、搜索文字、写入文件、保存操作记忆等,就从这些开始用起,我们就等于把人生第一个真正的知识库智能体用起来了。


二、人类智能和机器智能的合作,是神经网络之间的协同


我装上Gemini CLI之后,先去整理了我百年未清的下载(Downdloads)文件夹。


10分钟,世界就清净了同学们!


我为自己曾经偷懒没有认真整理文件和文件夹而感到高兴。



然后,我还把很多用NotebookLM生成的wav音频文件,都转成了mp3格式,这样体积小适合移动端打开播放。


上面知识图谱的视频,也是我把Xpost直接丢给Gemini CLI下载的,超级快。


我还一边写这篇文章的时候,一边把妈妈好友推荐的育儿书音频转成了Markdown文本保存。


类似的重复性文件劳动还很多,真的真的大多数都不用做啊!


我原来觉得要给大家多准备一些攻略。后来发现真不用,因为都靠想到什么说什么Gemini就办完了——Gemini CLI得到你的不同命令,会帮你去下载相关的工具包,跟你确认后完成任务。


从这个角度,也可以讲讲我为什么放弃了Notion这些热门笔记软件。对于Obsidian也就是使用最基本功能而已。


因为根本整理不过来。


不能要求每个人都去当图书管理员。


大多数文件分类、打标签、归纳成表格的活,都是浪费注意力的。我看到Notion那么多模版我都头疼。


大神Andrej Kaparthy本人的笔记方式你关注过没?就是一个本地电脑Macbook的Note —— 没错,是单个笔记内更新和搜索——这样才节省注意力。


Gemini CLI 整理文件夹这个用例看似简单,其实背后是体现了很深的变化的。


我在牛津读书时候,曾经重度使用笔记软件Roam来辅助研究。


Roam白皮书里有一段话非常精妙,当年的我读了很是激动,到处跟人推荐它:


  • 尽管我们在组织知识方面拥有大量选择,但几乎所有技术都遵循相同的基本“文件柜”模式:一条知识单元被保存到某个特定的文件路径,从而被置于文件夹、章节或类别构成的分类体系中....为了访问这些信息,用户必须记得他们把文件存在哪里、打了什么标签,或者使用搜索功能来查找它。


  • 在某些方面,当前的技术仍远远不如人脑。如果每个神经元仅以这种方式存储一个“单位”的记忆,我们的大脑很快就会被填满而溢出...这不仅导致了大量冗余,还造成了几乎相同想法的堆积,一旦需要系统性更改时,也会带来巨大的工作量。


Roam是把人类知识管理历史上问题,说得最清楚的一家!


为了解决这些问题,他们其实开创了我一度非常热衷的双链系统(Backlink),就是反文件柜模式的一种解决方案。


然鹅Y同学当时并没有被我说服,去用了logseq——我一看,思路简直一模一样!就是相应速度快很多。


各种文件整理方法,核心都是在为知识点构建联系。


找到隐藏的关联,才是人类创造力激发的地方。


我们大多时候不愿意整理笔记和文件夹,就是因为传统文件的管理方式实在反人类。人脑就是神经网络,不应该用死板的结构去约束。


LLM就是模仿人脑工作方式的神经网络啊(请看我之前写的神经网络入门科普:《与AI互动的信息时代黎明:吃掉自尊心才能拓展认知边界》)。


人类再也不用自己去标注标签,整理文件,甚至是Backlink都不用了。


即使是Obsidian,模仿Roam提出的Backlink及知识图谱的用例,我们都觉得过于花里胡哨。


我和Y同学的讨论认为,其实如果我们能直接提出自己想要知道的问题,为AI构建好上下文,这样的隐藏关联应该会随时涌现出来,不需要自己再去看知识图谱。


上面展示视频里的知识图谱,是不是符合人脑的阅读方式?反正我觉得有点累。


不过展示方式只是个人的媒介偏好而已,这不是重点。


重点是Gemini CLI把这位同学的400个知识点快速关联了起来!我从来没有见过这么聪明的知识助理!


其实,我们关注这个话题都有十多年了。


作为笔记系统发烧爱好者,我从印象笔记的时代,就开始琢磨个人知识库的最好方式。


热衷做笔记这件事情,我觉得有帮我多快好省地考上复旦新闻学院。工作十年以后,还很快申请上了牛津,是我决定来英国之后唯一申请的学校。


不是什么大的成就吧,我可能就是更会考试而已,但是笔记和科技真的帮我省了不少力气。


牛津读书的时候,印象笔记之前的Cofounder Phil Libin来给创业中心的学生上过课。


我追星一样,跟他表达了自己对创建第二大脑的热情——因为这个概念最早我是从他那边知道的。


主流笔记工具,Notion,Roam Research,Obsidian, Loqseq, 再到国内imo,flomo,Get等等我都用遍了。一直在迭代自己的笔记工具组合。


但现在的我,决定放弃大部分软件,特别是云端的软件,只用开源的适合本地的笔记软件。


我目前经常干的一件事就是,把自己用过的各个笔记软件的核心内容,下载到本地,转换成LLM友好的Markdown文档,用Obsidian来整理。


因为Obsidian免费,而且每个文档都自动对应我电脑文件夹里的文档,这就和Gemini CLI无缝连接。


因为,现在开始注意文件格式和文件清理的知识管理习惯,具有AI时代的战略意义和长期复利价值:特别LLM友好,很方便投喂给Gemini这样的大模型去处理,减少幻觉的可能性。


还记得我们总强调的二八法则吗?大多数的事情都不重要,我们只需要focus在20%最重要的事情上。


学习AI不就是为了避免重复劳动么!


80%的重复性劳动,比如80%的笔记整理工作,如今可以用agent可以实现,我们只需要想清楚自己的实现目标,在过程中去确认实现步骤,等待创造性地关联结果。


花个1个小时入门,之后不知道要节省多少时间。


这也就是我手比较笨,你有可能只需要10分钟就搞定了。


三、超个性化自适应学习: 上下文让AI更好辅助Adaptive Learning


现在特别值得关注Gemini CLI这样的智能体,还有更远的未来值得去描绘—— 这样才能帮助大家提高接触新物种的耐心。


从我这个笔记发烧友的角度来看,和Gemini CLI互动之后感觉,这完全是知识管理的新物种。


我用过的任何一种单纯的学习方法和笔记软件,相比都弱爆了。


按Karpathy说的,数字信息的消费者和操纵者曾经只有人和计算机。现在,我们需要考虑一个全新的事物——“agent智能体”。


通过命令行直接跟Gemini CLI对话是什么感觉呢 —— 其实就是你第一次和Chat GPT对话的感觉。


区别在于,个性化的潜力非常之大。


Gemini CLI的一个很大的优点,就是“本地优先(local first)”,这样更方便我们构建个人知识和历史的上下文。


划重点:Gemini CLI+个人电脑,有可能实现的是超个性化的个人知识库。


这段时间Kaparthy提出不少如何用好LLM的内容。有一个核心的概念是“上下文工程”(context engineering),和我们这里的倡议高度相关。


  • 相比“提示词工程”(prompt engineering),我们更应关注“上下文工程”(context engineering)。人们通常将“提示词”联想到日常使用大语言模型(LLM)时输入的简短任务描述;而在所有具备工业强度的大模型应用中,“上下文工程”才是真正微妙的艺术与科学 —— 即如何在上下文窗口中精准填入对下一步最关键的信息。


  • 它是一门科学,因为做到这一点往往需要合理组合:任务描述与解释、few-shot 示例、RAG(检索增强生成)、相关数据(有时是多模态的)、调用工具、状态与历史、信息压缩……


  • 填得太少或形式不当,大模型可能就缺乏必要背景,无法发挥最佳效果;填得太多或内容无关,不仅提升成本,还可能降低性能。


  • 而它同时也是一种艺术,因为在构建上下文时,需要某种对“人类心智与大模型心理”之间关系的直觉把握与引导。


Unlock AI 社区的同学@MacroYogi是机器学习工程师。用他的话来理解,AI学习全人类的知识,所以默认输出模式就是平庸的。个人必须要做非常深度的定制化或者说是整理,才能有真正的帮助。


这就是Y同学说的,“Adaptive Learning”,自适应学习,是一种利用技术手段根据学习者的个体差异动态调整教学内容、节奏和路径的教学方法。


这就是为什么,很多时候我们跟AI聊着聊着,就觉得聊不下去了。


这也是为什么,现在我们并不建议,用第三方云端各种杂七杂八的知识库软件的原因。


除了隐私安全,更有未来和LLM互动的迁移成本、便捷性,特别是质量问题 —— 越是本地,越是高质量干净的结构化信息,你的个人agent,越是在未来能给到你更多的个性化处理方案。


很多笔记软件都会加入AI功能,接入LLM,告诉你AI会帮助你洞察你在这个软件上传的所有个人笔记。


然而,这些软件并不能真正理解到我全部的个人上下文。


我在电脑端的所有操作,下载和保存的文档,未来我愿意共享的个人健康信息,个人行程,我娃的照片视频等等,对于真正的AI agent来说,都是个人上下文。这些上下文,我是不可能给到任何一家笔记软件的。


另外,按照Kaparthy说的,传统的为人类设计的Input包含许多LLM难以直接处理的元素,列表、粗体、图片等,这些内容并非LLM直接可读。这对LLM来说就是垃圾,更容易让其产生幻觉。


我并不知道我用的第三方笔记软件喂给LLM的是什么Input,我就很难保证Output的效果。


Y同学这句话我影响很深:越是热门的知识库软件,越是满足大部分人的需求,越具有通用性 —— 也就离个性化越来越远。


真正好的学习方式,是适合学习者的方式。


完全基于你本地的Input,才能有适合你的Output。


AI 再厉害,如果我不提供高质量的input,也没有办法理解我的个人历史,提出的只能是泛泛的学习方案。


还记得吗,“垃圾进,垃圾出”GIGO(Garbage In,Grabage Out)—— AI 有多聪明,关键在于我们怎么用TA,怎么给TA喂优质的信息。


四、构建具有部分自主性的个人知识库AI agent:关键在Input


所以,现在人类需要focus的就是,真正如何做对LLM有好的Input了 —— 以个人上下文为基础的高质量Input,作为构建具有部分自主性AI agent的起点。


为什么是部分自主性,而不是完全powerful的贾维斯?


大家可能接触到不少地方会推荐,各种一键式完成任务的超酷的工作流 —— 可是却低估了维护成本和个人Input的重要性。


Karpathy最近在YC的演讲中,最后有一个build for agents的环节,我觉得启发特别大。


大家都知道LLM很厉害,但是却忽略了在使用的过程中,如果让LLM真正高效工作。


他也拿钢铁侠举例,将人工智能的理想形态比喻为“钢铁侠战衣”。


钢铁侠战衣对Tony而言,既是一种增强工具(augmentation),能让他在战斗中更强大、更高效,同时它也可以作为一个自主的智能体(agent),某些时候能够独立执行任务。


Karpathy认为,当前及可见的未来,AI的最佳应用模式是作为人类能力的强大增强,因为目前AI系统仍不完美且容易出错。


按照Karpathy说的,我们应将重心放在构建个人“钢铁侠战衣”式的增强工具,而非过早地追求完全自主的智能体。


放在个人知识管理的用例上,从输入决定输出角度来理解,其实是需要我们思考如何构建自己的笔记系统,能方便地让AI agent来帮助做增强。


这就是为什么我们从现在开始,需要思考个人知识库:


  • 如何能够实现部分自主性;


  • 如何让本地个人笔记用LLM友好的方式结构化保存; 


  • 如何通过Gemini CLI这样的AI agent来辅助学习研究,不断积累自己的高质量Input。


这里面最重要的永远永远是Input质量,否则就容易和高效率的AI共同“垃圾进,垃圾出”(GIGO - Garbage In, Garbage Out),产出好像很多,但是浪费的都是自己的注意力。


如何提高?


这就是我从刚开始写公众号时一直倡导的媒介素养(Media Literacy):学会识别、获取和利用高质量信息源,是任何科技时代跨越“数字鸿沟”的关键。


现在开始,我们更应该去有意识地辨别质量高的信息源Input,比如Unlock AI社区共创共享的Input大致按照这个原则:


权威机构媒体与专业出版物: 它们的内容质量和口碑经过多年检验,具有专业素养和市场价值背书,极少出现事实性错误或恶意造谣。很多LLM的训练来源都来自权威媒体。


科学、逻辑与证据支撑的书籍和著作:区别于“鸡汤”和“故事”,高质量信息源强调逻辑、科学依据和实证数据。比如屡获诺贝尔经济学奖的行为金融学著作。


行业顶尖人物的洞察与实践:关注特定领域1%的顶尖人士,他们的经验往往包含“最少必要知识”,帮助我们快速掌握风向和关键节点。比如我自己的AI新闻助理每日摘要,灵感就来源于李嘉诚每天阅读秘书准备的报纸杂志“标题单子”这个习惯。


我们现在就在鼓励会员去寻找积累,自己感兴趣的各个领域的高质量信息源Input。我们知识库工作流可以帮助大家逐渐自动化,也会帮助大家去定位我们共享信息源里的相关Input。


我前两天发的个人AI新闻助理的daily update,就是我和Y同学拿社区的全球付费媒体库做的一个高质量信息获取和AI agent结合的案例。这个daily update我们正在实践给会员们实现自己行业领域的版本。


比如,这是我们在和会员伯瑛一起研究自动驾驶全球消费者风向时,我拿Gemini CLI在过去5年全球付费媒体库里找到的相关优质文章,Gemini CLI根据伯瑛提出的问题和关键词,精读并且找出了高相关的内容:



《金融时报》、《经济学人》,全球各类付费研究报告库等,这些信息源同时也比较贵,所以同学们分享笔记、共创和共同寻找,也可以大幅度降低学习成本 —— 1天1块钱,但是拿到的是类似李嘉诚一个助理团队+最强大AI模型做深度研究的深度信息。


这就是我从学生时代拉人一起搞学习小组的AI版延续嘛——现在的Input积累,其实就是我们在给自己的AI agent准备好一张张优质数据Input的卡片。未来需要AI去研究什么,就去插什么卡。


当所有人都能用上通用版AI,未来信息差的gap就是Input质量的gap。


这就是AI时代对为什么穷人家庭更喜欢看电视?的迭代版本。


其实这和是不是过度看电视一样,很多都是从现在开始培养的好习惯而已,你如果实在不想动手,不用Gemini CLI都是可以的。


只不过Gemini CLI是这个时间点上最适合普通人接触知识库智能体的一个方式。


就跟每个科技浪潮刚刚到来,电视和电脑刚腾空出世时一样,有人选择用,有人选择不用。


我们则非常非常建议从个人知识库角度去解锁(unlock)人类智能和机器智能共同学习的无限可能性。


这么走下去,Y同学对未来是一个什么想象呢 ——人类智能和机器智能共同探索世界的学习方式,可以做到完全自适应。


大脑神经网络在面对超级计算机神经网络时,核心只需要提供给AI足够高质量的数据,通过长时间的历史和共同工作培养匹配度,去共同探索世界。


所以日常,理论上人类只需要做最简单的日记(Journal)为Input,比如我今天经历了什么,我想要了解什么。


于是Kaparthy的单Note大白板笔记法就够了。


我们个人本地的AI智能体,能够自动根据上下文,发现问题,发现规律,搜索全网优质信息源,找寻最新鲜的信息,以及隐藏的关联。


在人类空闲的时候,按照你设定好的一个时间,得到一个AI agent的daily update,文字音频或者视频的不同媒体格式,whatever you'd like.。


钢铁侠用顺了贾维斯之后,选择提取信息时的Input完全靠嘴炮,Output可以很快得到基于个人上下文的实时得到。


平时则完全不用被信息洪流打扰。


感兴趣的朋友们可以直接来我们Unlock AI社区,重新定义自己的学习方式 —— 从人类智能和机器智能共创开始,共同探索构建出适合自己的知识库AI agent。未来可期啊同学们!


本文来自微信公众号:糖总总,作者:糖总总

相关内容

热门资讯

长征五号B遥一运载火箭顺利通过... 2020年1月19日,长征五号B遥一运载火箭顺利通过了航天科技集团有限公司在北京组织的出厂评审。目前...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
9所本科高校获教育部批准 6所... 1月19日,教育部官方网站发布了关于批准设置本科高等学校的函件,9所由省级人民政府申报设置的本科高等...
湖北省黄冈市人大常委会原党组成... 据湖北省纪委监委消息:经湖北省纪委监委审查调查,黄冈市人大常委会原党组成员、副主任吴美景丧失理想信念...
《大江大河2》剧组暂停拍摄工作... 搜狐娱乐讯 今天下午,《大江大河2》剧组发布公告,称当前防控疫情是重中之重的任务,为了避免剧组工作人...