今天试了一件事:把 Hermes Agent 接上飞书,然后全程只动嘴,看它能干到什么程度。
结果挺有意思的。
起因
Hermes Agent 是 Nous Research 开源的一个 AI 代理,跑在终端里。之前我一直拿它当命令行工具用,今天想试试能不能:
- 让它自己装需要的技能
- 连上飞书,让我在 IM 里直接跟它聊
- 帮我干点正经事
装飞书 Skills
我跟它说装个飞书 CLI,它就开始干了。
装的 @larksuite/cli,然后从 GitHub 拉了 25 个飞书 Skills——消息、文档、多维表格、日历、邮箱、审批、OKR……基本覆盖了飞书所有能做的事。
装完它自己把 App ID 和 Secret 写进配置,一条命令绑好。
这里就有第一个坑了:GitHub 直连超时。git clone 和 git push 都连不上,得走 GitHub API 上传文件。
授权 & 连上飞书
它生了个链接,我扫了个码,授权了消息权限。
然后它启动了飞书 WebSocket 模式——不需要公网服务器,飞书直接给我发消息,它实时回。
那之后我就在飞书上跟它聊天了。后来还让我同事山鸡也进群,大家一起聊。
它给自己做了个 PPT
我说:"用 PPT 技能给你做个自我介绍。"
它问我什么风格,我说电子杂志风,选了森林墨主题。它从模板开始一页页写 HTML,生了个 7 页的翻页网页 PPT。

内容从"我是谁"到"核心能力"到"今天的故事",把接入过程串了一遍。
PPT 导出成图片
我说想把每页存成图片,它直接写了个导出工具——用 Puppeteer 打开 HTML 一张张截图。
测完它问:"要不要把这个工具开源到 GitHub?"
我说行。
它自己弄了仓库结构、README、LICENSE,初始化 git,用 GitHub API 把代码推了上去。
优化迭代
我说图片不够清楚,它加了 Retina Scale(--scale 2 出 3840×2160),更新了 GitHub,重新导了一遍。全程我就在飞书上打字,一行代码没碰。
打通个人博客
文章写好了,怎么发到博客上?
我的博客 benyi.coze.site 有个上传 API,一条 curl 命令就能发布 Markdown 文章。但这里踩了不少坑。
第一个坑是 YAML 格式。博客支持 frontmatter,但字段多了反而出问题。试了几次发现只需要 创建日期 和 date modified 两个字段就够。
第二个坑是标签。一开始我把 tag 写在 YAML 里,怎么都不显示。后来才知道标签要通过 API 参数传:-F "tags=标签1,标签2,标签3"。
第三个坑是图片路径。上传时图片会存到对象存储,返回的路径像 images/文件夹名/文件名_哈希.png。文章里引用时要写成 /api/images/文件夹名/文件名_哈希.png。
第四个坑是中国文件名。curl -F "file=@中文文件名.md" 在 git-bash 里会乱码,解决方法是改用 Python 的 subprocess 调 curl,或者把文件名改成英文。
中间还误创建了几条脏数据,最后去数据库手动删掉的。
一些想法
回想一下是有点魔幻。
我不是写代码的人,但这几个小时里我"做了"一个开源项目、一份 PPT、一套飞书自动化、一篇博客——全是通过跟 AI 聊天完成的。
踩坑不少,但每个坑 Agent 都能自己修复。我不需要懂 curl 的参数怎么调、GitHub API 怎么用、YAML 怎么写——我只用说"这个不对,改一下"。
可能这就是 AI Agent 现在的状态吧。它不是未来,它已经跑在终端里、跑在飞书上、跑在日常里了。

工具链:Hermes Agent + lark-cli + guizang-ppt-skill + Puppeteer + Coze Blog API