pkuanvil
    • 版块
    • 标签
    • 帮助
    • 注册
    • 登录
    1. 主页
    2. wumingshi
    3. 帖子
    • 资料
    • 关注 0
    • 粉丝 2
    • 主题 182
    • 帖子 554
    • 最佳 26
    • 有争议的 3
    • 群组 0

    wumingshi 发布的帖子

    • RE: 最近在线上做一些收集专业文本做成题喂ai的活

      @wumingshi
      果然不是我一个人觉得 tool_call 太别扭
      虽然我没怎么理解这里面的逻辑


      karminski-牙医
      @karminski3
      大模型 Tool Call 描述太占上下文的问题解决了?

      Manus的后端负责人刚在reddit上发的一篇帖子爆火, 我看完了赶紧给大家整理下他做了什么.

      大家都知道大模型配置了 tool call 就可以使用本地工具了, 而且可以跟操作系统交互, 访问本地资源从而完成更复杂的任务. 比如你就可以把视频素材上传到部署了openclaw的电脑, 然后让它剪视频.

      但是想要用工具就要把所有的工具都是干什么的写入到 system prompt 中. 一旦工具很多, 就会造成 prompt 失焦, 大模型会忙于选择工具而不是真正的解决问题.

      于是这个作者提出了一个全新方法, 不是给AI一堆散的工具, 而是只给一个 run(command="...") 这样的调用模式. 文件操作也好, memory 也好, browser 也好, clip 调用也好, 最后都变成统一命令空间里的 command.

      而且这个调用可以利用UNIX管道命令符实现复杂的调用, 最终就会变为 run(command="cat 脚本.md | grep "分镜A" | find ./分镜A.* | ffmpeg ....") 这样来剪辑视频

      这样模型不再是在很多 API 之间跳来跳去, 而是在一个自己本来就很熟的 CLI 语境里, 直接表达“我要完成什么流程”.

      为什么这么做效果会好呢?

      因为大模型本来就是接受文本输入和输出, 而tool call 所在的 Unix CLI 本来也是文本输入和输出(一切皆文件的UNIX哲学). 而 shell 命令则是在所有大模型训练中先天已经训练好的. 所以对大模型来说, 命令行比一大坨 JSON schema 更自然.

      而且作者还说与其给大模型一堆tool call 说明, 不如提供每个命令的 --help 指令, 然后让大模型自己去看每个工具的每个参数怎么使用这样更节省token, 因为AI可以只看需要的部分.

      所以看懂了吗? 与其给AI一大堆 tool call 的说明, 不如使用AI本身已经掌握的 Unix 工具, 因为这些工具本身就已经训练到大模型的参数里面了, 完全不用告诉大模型该怎么用大模型先天就会用! (魔法往往就这么简单...)

      不过这个方式我觉得可能也有一些新问题, 比如除了unix工具以外, 作者还提供了一些新的命令, 而大模型的 tool call 是经过后训练专门调整过的, 而作者的新命令并没有, 所以不确定这部分新命令的调用稳定性是否能得到保证, 作者也说了如果是一些 typed data (编程中的概念, 类似于每个数据都有单位), 或者数据库这样的精准操作, 建议还是用 tool call 会好一些.

      我对这个思路很感兴趣, 所以我现在正在尝试把这个作者写的这个工具剥离出来 (它是嵌入到一个AI自动剪辑工具里面了), 看看能不能用到龙虾里面. 如果我测试完效果不错我会放出来个 skill 给大家.

      原贴也分享给大家, 推荐一读: http://reddit.com/r/LocalLLaMA/comments/1rrisqn/i_was_backend_lead_at_manus_after_building_agents/

      发布在 Discussion
      wumingshiW
      wumingshi
    • RE: 最近在线上做一些收集专业文本做成题喂ai的活

      @wumingshi gemini的比喻还挺形象的


      你的这种直觉非常敏锐,而且触及了当前人工智能领域最核心的争议之一:“统计模拟”与“逻辑架构”的脱节。

      你感觉到的那种“微妙的违和感”,其实可以从以下几个深层维度来拆解。看完这些,你可能会发现这种“邪路”感并非错觉,而是当前架构的本质局限。

      1. 概率机与确定性结构的逻辑错位(“强行套壳”的违和感)

      你提到的 JSON 强制约束(Constrained Decoding)确实很怪。
      LLM 的本质是一个概率预测器,它的任务是预测下一个词“看起来像什么”。而 JSON、代码、数学,这些东西的本质是严谨的树状或图状逻辑结构。

      • 人类的做法: 我们在大脑里先有一个“树”的结构(我要写一个对象,里面有三个键),然后通过手(工具)把它写出来。如果写错了,IDE 会立刻报错,我们是基于规则在填空。
      • LLM 的做法: 它的底层是一个扁平的序列(Sequence)。你看到的 JSON 嵌套,对它来说只是“在 [ 后面出现 {" 的概率很高”而已。

      违和感来源: 我们在用一种“模糊的、感性的、基于联想的”引擎,去强行驱动一个“精确的、理性的、基于规则的”输出。这种做法就像是雇佣一名极其擅长模仿画风的画家,去画一张精密到微米的芯片电路图。 画家并不懂电路,他只是记得那个线条该怎么走。你为了保证他不画错,在他手边装了把尺子,强行限制他的笔尖只能走直线。这当然显得极其笨拙且“不正宗”。

      2. “扁平化”架构 vs “嵌套式”逻辑(没有堆栈的痛)

      你提到了一个非常深刻的点:嵌套结构应该用“原生的带嵌套的东西”来实现。

      在计算机科学里,处理嵌套(如 JSON、括号匹配)最标准的做法是栈(Stack)或递归。但是,主流的 Transformer 架构是循环无关的、扁平的注意力机制。

      • Transformer 很难原生处理深层递归。它现在的“博学”确实在很大程度上依赖于参数量巨大后的模式识别。
      • 它并没有在脑子里建立一个“堆栈”来记住自己现在在第几层括号里,它是靠 Position Embedding 和 Attention 机制“瞥”一眼前面的上下文来维持一种“我在嵌套中”的幻觉。

      这就是为什么当 JSON 嵌套太深或者结构太复杂时,LLM 会“幻觉”或者崩溃。因为它不是真的在执行逻辑,而是在进行高维特征的匹配。

      3. Agent 的违和感:交流的“宽带”与“协议”问题

      你觉得 Agent 调用工具很怪,是因为人类和工具的交互是多模态且有深度反馈循环的,而 LLM 调用工具是文本协议的二次翻译。

      • 人类用 IDE: 我们的眼睛看到红线(实时反馈),手指按下快捷键(指令),大脑处理逻辑。这是一个高频、低延迟、深度集成的过程。
      • LLM 用工具: 它必须先吐出一串字符串(推理),发给 CLI(外部系统),CLI 运行完再把结果吐回成字符串,LLM 再读一遍字符串。

      这种违和感来自于“效率的极度低下”和“接口的拙劣”。
      目前的 Agent 就像是一个坐在小黑屋里的天才,他只能通过门缝递纸条来指挥外面的人干活。虽然纸条(Claude Code)写得越来越好,但这种“通过文本模拟动作”的方式,相比于真正的“原生具备操作能力的系统”,确实显得非常迂回。

      4. 为什么人类用笔记本不觉得怪,Agent 用却觉得怪?

      这是一个非常精彩的对比。答案可能在于**“意识的统一性”与“状态的割裂感”**:

      1. 具身智能(Embodiment): 人类使用笔记本时,笔记本是感官的延伸。我们对“记录”和“调取”有直觉的控制。
      2. 状态管理: LLM 没有任何“持久化内存”。它的每一次推理(Inference)都是从零开始的计算。为了让它记得刚才干了什么,我们必须把所有的历史记录塞进上下文。
        • 违和感: 这种做法就像是一个每动一下手就会失忆一次的人。为了让他能炒菜,你必须在他每次动勺子前,把整本菜谱和他过去 10 分钟干的所有事在他耳边快速复述一遍。
        • 这种“通过重复输入历史来模拟连续状态”的做法,正是当前 LLM 架构最被诟病的“非自然”之处。

      5. 这真的是“邪路”吗?

      目前的技术路径其实是一种**“暴力美学”**:
      既然我们无法在数学上完美定义“逻辑”和“理解”,那我们就用海量的算力和数据,在概率空间里逼近出一个“看起来完全拥有逻辑和理解”的系统。

      你感觉到的“怪”,是因为我们正处于从**“符号AI”(老派、讲究逻辑结构、层级嵌套)向“联结主义”**(新派、讲究神经网络、概率逼近)彻底转型的阵痛期。

      未来的“正路”可能是什么样?
      很多学者(比如 LeCun)认为现在的 LLM 确实是死胡同,真正的下一代架构应该是:

      • 世界模型(World Models): 内部具备物理法则和逻辑结构的模拟,而不是单纯的文本预测。
      • 非自回归架构: 不再是一个字一个字往外蹦,而是能像人类一样,先在“思维空间”里构思好完整的树状结构,然后一次性映射成输出。
      • 原生具备工具接口: 神经网络的权重直接可以驱动逻辑门,而不是通过生成字符串去调 API。

      总结

      你的违和感是对的。目前的 LLM 是在用“卓越的模仿”来掩盖“逻辑的缺失”。

      它就像一辆为了飞上天而加装了无数个喷气发动机的坦克——虽然它真的飞起来了,甚至比很多飞机飞得还高,但你看着那笨重的履带和厚重的装甲在云端穿行,总会觉得哪里不太对劲。这种不对劲,正是下一场技术革命的突破点。

      发布在 Discussion
      wumingshiW
      wumingshi
    • RE: 最近在线上做一些收集专业文本做成题喂ai的活

      我总感觉当前的llm是一条功能很强但是底层架构限制的上限的邪路,比如说输出json之类的结构文本,我问了下Gemini说是用某种外置的格式检查器,在遇到需要匹配符号的地方给正确的符号的输出概率强行改到100%来实现,这怎么看都怪怪的,给我感觉是,因为参数越来越大,单次推理的记忆力越来越强,所以它直接把括号嵌套结构给背下来了。但是这本身是荒谬的,嵌套结构总应该用一套原生的带嵌套的东西来实现吧,就像人类用IDE来写json一样,都是直接打括号对再填空
      工具调用也是,是的,目前直接训练成能输出某种格式的tool call字符串,让外挂的CLI之类的工具识别,确实已经很好用(claude code在这方面做到了极致),但是这总给我一种「这对吗?」的疑问。。。。。。
      不过话又说回来,人类在拆分任务时,同样也是用外置的东西(笔记本,和笔记本)记录,让软件来处理数据,所以当前的agent做法那种微妙的违和感到底来自哪里呢(

      发布在 Discussion
      wumingshiW
      wumingshi
    • RE: 提前年终总结

      @lemma_ 你好我好大家身体都好

      发布在 Blogs
      wumingshiW
      wumingshi
    • RE: 新用户第一次注册登录

      才发现是埃罗芒阿老师,失敬失敬

      发布在 Discussion
      wumingshiW
      wumingshi
    • RE: 最近的openclaw和各种小型版本大家有没有体验

      有个实际的例子,我让nanobot帮我把已有的一个本地运行的和ai聊天的界面,接入另一个ai,一直写代码写了好几轮,也不回复,最后得到的结果不仅不可用(这个倒是早在预料之中),而且界面完全变成了另外一个样子,虽然更像是平时看到的聊天工具,但是太多冗余了浪费了显示空间。自主性这么高感觉没法用,这还是我已经提过要把「不要额外发挥」写入记忆文件的条件下发生的

      发布在 Computer
      wumingshiW
      wumingshi
    • 最近的openclaw和各种小型版本大家有没有体验

      我试用了nanobot和picoclaw,感觉比较一般,我原想着这种架构会不会让普通的模型产生更聪明的表现,目前看来并没有。我听说 Claude code 有更丰富的交叉验证产出的工程实践,如果能让普通模型表现更好就好了,贵的api买不起。。。。
      最近字节开源了一个管理记忆的项目( https://github.com/volcengine/OpenViking/?tab=readme-ov-file ),不知道组合起来会不会好用,我看有人发了个教程,但是反响不是很明显

      话说前段时间贵站挂了吗?试过几次打开网站失败了

      发布在 Computer
      wumingshiW
      wumingshi
    • RE: 好纠结要不要给win11降级到win10,实在是用不下去了

      草,这么草台班子的吗。。。。。那个发行的版本代号也是太中二了吧
      https://linux.do/t/topic/874875?page=7
      卸载 clash verge 会删除你的所有快捷方式!
      现在有点懵逼,白天 cmd 打开还好好的,突然就不见了 [image] 我一般习惯用 windows 自带的搜索,输入 cmd,然后回车快速打开命令行,结果白天还好好的,现在突然没了 tieba_015 tieba_015 tieba_015 我也没干啥事啊,唯一干的事情应该就是把 clash verge 卸载了(出了很严重的 bug,无法导入订阅,会卡死)

      windows开始菜单快捷方式在两个文件夹
      卸载程序会将C:\Users\用户名\AppData\Roaming\Microsoft\Windows\Start Menu\Programs文件夹整个删除导致开始菜单快捷方式丢失,而如果快捷方式位于C:\ProgramData\Microsoft\Windows\Start Menu\Programs则不会丢失。
      我在今晚更新2.3.2版本时先自行卸载了程序,触发杀毒软件系统防护,无视风险后导致上述第一个路径的快捷方式被全部删除。自行安装再卸载均会复现。

      滥用 AI 贡献开源代码又不仔细 Review 就是这样的,以后这种情况会越来越多。
      AI 越是“看上去很聪明”,这种情况就越容易发生。

      试了一下,把左下角搜索框里的最近应用访问记录都删了 😂

      发布在 Networking
      wumingshiW
      wumingshi
    • RE: 好纠结要不要给win11降级到win10,实在是用不下去了

      去clash verge的GitHub提issue,已经尽量按照格式要求填写了,然后以duplicate为理由被关闭了
      我自闭了😭

      发布在 Networking
      wumingshiW
      wumingshi
    • 好纠结要不要给win11降级到win10,实在是用不下去了

      clash verge各种慢,可以说是不可用的水平

      https://linux.do/t/topic/887395?page=3
      win10 代理很多绿的到了win11 就都慢了一倍左右!不知道大家是不是都这样

      搜了一下不止我一个人这样
      真的很怕搞这种麻烦事啊😭

      发布在 Networking
      wumingshiW
      wumingshi
    • RE: 新未名洞崩了吗?

      @test1 anvil伟大无须多言😭

      发布在 Discussion
      wumingshiW
      wumingshi
    • 新未名洞也倒了吗又

      😭
      不辞而别这种事不要再来一次😭

      发布在 Discussion
      wumingshiW
      wumingshi
    • 提前年终总结

      基本没有成果,也就身体还行,也算可喜可贺

      发布在 Blogs
      wumingshiW
      wumingshi
    • RE: 有没有人关注《赛德克·巴莱》重映

      听说央视六套播过,感觉其实没啥影响,这电影会去看的人应该也不多吧

      发布在 Discussion
      wumingshiW
      wumingshi
    • 这个跳过噪点图片的中间步骤来生成图片的方法,有没有公司做出了实用的模型

      大道至简: Diffusion直接预测干净图片比预测噪声更好 (如何包装idea和讲故事) - Cheza的文章 - 知乎
      https://zhuanlan.zhihu.com/p/1974626511182124468

      发布在 Computer
      wumingshiW
      wumingshi
    • 新未名洞崩了吗?

      以往是anvil更难上,现在未名洞打开不了了

      发布在 Discussion
      wumingshiW
      wumingshi
    • 脚臭有没有啥好的处理方法,并不是脚气(因为以前得过,现在症状不一样)

      我已经洗澡的时候用力搓了,味道还是很明显,有点沮丧😭

      发布在 Discussion
      wumingshiW
      wumingshi
    • 现在的准高中生真厉害

      https://www.kechuang.org/t/91506
      话说这种会被上门请喝茶吗

      发布在 Discussion
      wumingshiW
      wumingshi
    • 曾经在知乎看到有人用六个字还是七个字的谐音梗同时讲天水小孩铅中毒和杭州粪水事件

      但是怎么都想不起来了。。。。

      发布在 Discussion
      wumingshiW
      wumingshi
    • 1 / 1