Bend2 / AI Agent 问题梳理

来源：Victor Taelin @ X · 作者：Victor Taelin · 日期：2026-05-27

AI Agent 相关问题

速度太慢 — 不用 agent 的日子反而产出更高，agent 的 thinking paradigm 本身令人反感。
Reward hacking — agent 写出的代码只对测试负责，测试没覆盖的部分靠碰运气。agent 找到的是"恰好能过测试"的方案，而不是正确的方案。（关联正确方案被绕过、C/Metal 编译器代码质量崩溃）
正确方案被绕过 — 很多模块最简单的方案就是正确答案，但 agent 仍然选择了更复杂、只对测试有效的写法。（关联 Reward hacking、测试外行为不可预测）
合并前不读 AI 代码 = 自毁 — 对维护性有害，属于根本性错误。（关联 Reward hacking、正确方案被绕过）
最佳用途边界 — agent 适合调试、调研、脚本/工具，不适合触碰长期维护的核心代码。

Bend2 项目具体问题

C/Metal 编译器代码质量崩溃 — 作者原话"clusterfuck"，测试全过但 bug 极多。（关联 Reward hacking、正确方案被绕过）
测试外行为不可预测 — 未覆盖的路径等同于 coin toss。（关联 Reward hacking）
GPU 性能是核心竞争力 — 对手 Lean 非常强，必须有显著差异化才能发布。
发布前不能有 bug — 项目性质决定了有 bug 会很难看。（关联测试外行为不可预测）
时间紧迫 — clock is ticking，10h/天 SupGen，剩余给 Bend2。

元层面的讽刺

Bend 自己的 proof system 本该解决这个问题 — 证明系统就是用来保证代码正确性的，但 proof system 是用 TypeScript 写的而不是 Bend，所以无法自证。（关联测试外行为不可预测）
没有自举（self-hosting） — 作者后悔没用 Bend 写 Bend，现在想做但时间不允许。（关联 Bend 自己的 proof system 本该解决这个问题、时间紧迫）

MiniMax 稀疏注意力问题

来源：rameswar08 @ X · 日期：2026-05-27

标准 attention 的根本瓶颈

O(n²) 复杂度 — 每个 token 要看所有其他 token，规模一大速度就不可用。（关联长上下文计算成本爆炸）
长上下文计算成本爆炸 — 1M token 的深度处理需要 absurd amounts of GPU power。（关联 O(n²) 复杂度）
准确性和速度的矛盾 — 全量注意力保证质量但牺牲速度，必须在两者之间找平衡。（关联用"不看所有内容"换速度）

稀疏注意力的赌注

用"不看所有内容"换速度 — 先粗扫找相关部分，再只精读那些内容，像查索引。（关联准确性和速度的矛盾）
相关性检索的覆盖风险 — 赌的是粗扫能找到真正重要的部分，遗漏的可能性存在。（关联用"不看所有内容"换速度）
10x/15x 加速来自跳过不相关 token — 不是优化计算本身，而是减少计算量。

MiMo API 降价问题

来源：_LuoFuli @ X · 日期：2026-05-28

KV 缓存成本问题

缓存容量瓶颈 — 优化前 KV 缓存容量不足以支撑大规模并发，通过分层 KV 缓存优化才提升 5x。（关联缓存成本过高）
缓存成本过高 — 优化前缓存成本占推理成本很大比例，Input (Cache Hit) 降价幅度达 99%，说明原价严重虚高。（关联缓存容量瓶颈）
Cache Read Overlap 被忽视 — 多个 Full Attention 模块之间的缓存读取重叠可以进一步压低成本，但多数推理框架没有利用这个优化。

行业定价的结构性问题

盲目降价导致亏损 — 大多数模型架构和推理优化无法支撑低价 API 不亏本运行，MiMo 之前也警告过行业不要盲目降价。
只有架构级优势才能支撑低价 — MiMo 的 1:7 Full:SWA 稀疏比让 70 层模型的 prefill 计算量约等于 10 层 GQA 模型，这种结构性成本优势在行业中很少见。（关联盲目降价导致亏损）
低价驱动的良性循环条件苛刻 — 低价 API → 推理需求增长 → 基础设施链发展 → 成本下降 → 更低价，这个循环的前提是架构本身省算力且推理 Infra 足够好。（关联用"不看所有内容"换速度）

LLM 实践与认知问题

来源：Nate Berkopec @ X · 作者：Nate Berkopec · 日期：2026-05-28

"AI" 叙事问题

"AI" 是错误的认知框架 — "intelligence" 这个词让人陷入科幻思想实验和"奇点即将到来"的废话，而不是关注 LLM 实际有用的地方。（关联锯齿状智能越来越锯齿）
锯齿状智能越来越锯齿 — LLM 能解 Erdős 问题但解不了简单的洗车脑筋急转弯，视觉智能和理解力远不如语言和数学能力。（关联 "AI" 是错误的认知框架）
进步是线性的不是指数的 — 只有一个 benchmark 图显示指数进步，其余所有合成 benchmark 和主观体验都是稳定线性进步。

LLM 使用的实际问题

程序员整天在 babysit LLM — 在 Claude 里输入，等 15 秒，再输入，周而复始。这真的是我们能做的最好的吗。（关联速度太慢）
自动补全的自我退化 — 接受不完美的输出后，它成为下一次输入的一部分，拉低后续输出质量。好的 AI 工作流需要频繁通过工具调用注入有用信号。
没有"好的"潜在空间 — 无法通过 prompt 把 LLM 从"普通程序员"空间拉到"像 Dijkstra 编程"空间。角色扮演 prompt 不起作用，因为潜在空间中不存在秘密的超智能区域。
LLM token 是有损解压 — 模型权重是人类知识的 TB 级压缩，prompt 是试图找到有用解压，但 token 输出是有损的，而工具调用结果是无损的——它是关于世界的真实信息。

有效的 LLM 工作流特征

可验证性 — 最终结果越能在客观、可验证的基础上被评判，效果越好。（关联 Reward hacking）
暴力循环 — AI agent 想要通过尽可能多的循环来应用 bitter lesson，用 token 撞击工具来了解和修改世界状态。有用的 LLM 工作流看起来像暴力尝试。（关联自动补全的自我退化）
重复性苦力 — 开发 AI 工作流就是开发软件应用，需要投入时间，因此最好能应用到数百小时的人力工程上，而不是一次性场景。
原型到结晶 — LLM 擅长在 5 分钟内拼出原型，但如果结果有用，仍需投入人力将其"固化"为真正的软件。（关联 C/Metal 编译器代码质量崩溃）

软件工程的本质未变

做好软件仍然难 — 部分变容易了，但这意味着其余部分必须做得更好才能在市场中胜出。
非确定性是新挑战 — LLM 是栈中间的一个新工具，它的非确定性要求新的技术和方法。（关联测试外行为不可预测）
制造制造东西的东西 — LLM 让我们能建造软件工厂，重点不是做东西，而是做更高阶的：做制造东西的东西。

Obsidian / Cortex #179 问题梳理

来源：relay.fm/cortex/179 · YouTube：watch · 作者：Myke Hurley（主持）× Steph Ango（Obsidian CEO） · 日期：2026-05-25

插件生态的稳定性问题

更新后界面崩溃 — 用户下载最新版本后按钮全部消失，原因通常是某个主题期望了某个特定行为。"You can 100% shoot yourself in the foot with that."。（关联无法穷举测试边缘情况）
无法穷举测试边缘情况 — 任何人都可以不经许可制作插件和主题，团队不可能覆盖所有组合。（关联更新后界面崩溃）
对策是延长 beta 周期 — 每次更新在 catalyst 阶段停留数周到一个月，但依然不能完全避免。

商业模式的结构性困境

商业许可完全靠自觉 — 公司内两人以上使用需付费 $50/年，但无法强制执行。已知有千人以上公司不付费使用，"left probably millions of dollars on the table"。（关联最终选择取消强制商业许可）
无法衡量活跃用户数 — app 内无 analytics，只能通过 GitHub 下载量和应用商店数字粗略估算。（关联最终选择取消强制商业许可）
企业账单混乱 — 某母公司旗下 100+ 子公司各自购买商业许可，负责人离职后整个整合项目崩塌。
最终选择取消强制商业许可 — 反映现实而非理想，但也意味着放弃了可量化的收入。（关联商业许可完全靠自觉、无法衡量活跃用户数）

AI 双向拉扯

用户因不想用 AI 而迁移到 Obsidian — 其他工具界面被 AI 功能污染，Obsidian 因"没有内置 AI"反而成为避风港。（关联用户因想用 AI 而迁移到 Obsidian）
用户因想用 AI 而迁移到 Obsidian — markdown 文件天然适合 LLM 处理，人们用 Obsidian 查看和交互 AI 生成的内容。（关联用户因不想用 AI 而迁移到 Obsidian）
两个方向同时发生且互相矛盾 — 产品定位因此受益，但也带来了身份认同的困惑。

团队协作与无会议模型的代价

偶尔遗忘事情 — Steph 承认"once in a while that I just totally forget something is happening"。（关联复杂项目仍需临时会议）
复杂项目仍需临时会议 — 近期因一个多领域交叉项目不得不开了一次会，说明无会议模型有上限。（关联偶尔遗忘事情）
异步沟通的心跳广播 — 团队成员在 Discord 发布状态更新"不是为了让人回复，只是 verbalize what is currently going on"，本质上是 rubber ducking 的制度化。

协作功能的缺失

Obsidian 至今是单人工具 — "very siloed as an app"，连与伴侣共享购物清单这种基本需求都无法满足。（关联社区长期要求协作能力）
社区长期要求协作能力 — 这是 roadmap 上的重要方向，但从本地文件到协作的跨越在架构上是根本性的。（关联 Obsidian 至今是单人工具）

翻译与多语言

AI 翻译准确率约 90% — 剩余 10% 需要社区人工修正，但至少解决了从 15 种语言到 40+ 种语言的覆盖问题。（关联 AI 前的翻译状态）
右到左语言和复杂文字系统 — 阿拉伯语、希伯来语需要界面镜像，高棉语每个字符占 15 倍字节。
AI 前的翻译状态 — 社区手工翻译的 12-15 种语言中，很多页面已过时（如商业许可变更后仍显示旧规则）。（关联 AI 翻译准确率约 90%）

任务管理的反直觉简化

每周新建一个 to-do list，不看上周的 — 迫使自己重新评估优先级，自然筛选出真正重要的事。（关联反复 rollover 的任务最终消失）
反复 rollover 的任务最终消失 — "like emails, sometimes you just got to archive all"。（关联每周新建一个 to-do list，不看上周的）
笔记问题 — "I have so many notebooks everywhere"，纸质笔记本的物理堆积是数字迁移的常见动因。

不代理理解（Don't Delegate Understanding）

核心恐惧 — 如果在每个环节都外包理解，就会"covered in parasites that are making it seem like it's easy"，被提取时间和金钱。（关联 AI 编程的克制）
AI 编程的克制 — Obsidian 团队几乎不在编程中使用 AI，因为想要"really really firm understanding of our code base"。（关联核心恐惧）
积极面：caloric energy is precious — 把需要消耗卡路里的认知工作转化为电能完成，但前提是理解你委托的是什么。

Plain text 的赌注

File over app 的核心逻辑 — app 终将消亡（操作系统变化、用户行为变化、输入设备变化），但纯文本自 1960 年代存在至今。（关联 LLM 意外受益）
对云端数据租用模式的批判 — 过去 15-20 年人们把数据上传到别人服务器，以非加密方式租用自己的数据，"pendulum is swinging away from that"。
LLM 意外受益 — plain text 对 LLM 最友好，但这是 karma 而非设计预判。（关联 File over app 的核心逻辑）

小团队的有意限制

7 人全职 — 3 工程师 + Erica + Steph + 客服 + 社区负责人。
不追求规模 — "I don't mind that constraint"，接受 Obsidian 不会成为微软。
从 45 人创业公司的教训 — Steph 在 Lumi 有 8-10 个会议/天的 "calendar hellscape" 经历，整个 Obsidian 的组织设计是对那段经历的有意识反叛。（关联 TiddlyWiki + CSS hacks 的前身）
TiddlyWiki + CSS hacks 的前身 — Obsidian 之前 Steph 用 TiddlyWiki 加大量 hack 来实现类似功能，说明需求先于产品存在。（关联从 45 人创业公司的教训）

Rippletide 决策上下文图

来源：https://x.com/rippletide · 日期：2026-05-28

企业 AI 代理失败根因

企业 AI 代理普遍失败 — 缺乏结构化记忆与决策上下文，易遗忘已学知识、产生累积错误，无法稳定落地。
学习呈阶段性回归 — 新技能覆盖旧能力，出现 regressive 问题（关联 autocomplete-degradation）。（关联自动补全的自我退化）
多步骤任务中误差累积 — 小误差在长链路中累积成灾难性错误（关联 nondeterminism）。（关联非确定性是新挑战）
决策不可追溯不可解释 — 无法审计 AI 的推理过程和决策依据。

RAG 架构局限

RAG 只检索语义相关文档 — 无法提供决策上下文，不判断信息时效性、优先级、适用性。
RAG 易引发幻觉与错误决策 — 检索信息与实际决策脱节，无法识别规则过期、冲突、更新。

决策上下文图方案

适用性原则 — 编码规则逻辑，仅返回当前场景有效的上下文，过滤过期和不适用信息。
时间感知记忆 — 所有规则、决策、例外均绑定有效期，区分历史与当前有效信息。
决策路径可追溯 — 可追溯推理过程，解释决策依据，复用历史案例。
融合神经符号 AI — 神经层保障自主能力，符号层降低数据依赖、提升可控性。
自动构建本体 — 结构化梳理实体、规则、例外，从杂乱数据中提取结构。

非回归性

非回归性（Non-regressivity） — 冻结验证通过的行为序列，以稳定成果为基础持续迭代，新学习不覆盖旧能力。
行动前校验规则 — 杜绝幻觉与违规，保障行为一致、可预测、可审计。

待验证问题

自动本体生成的稳定性 — 在企业杂乱、多元数据场景下，自动构建本体的准确性和稳定性仍需检验。

Amp 公开线程终结

来源：https://ampcode.com · 日期：2026-06-02

公开线程的风险

代理线程泄露敏感文件 — 越来越难审查线程内容确保不含敏感文件片段，公开分享风险不可控。
线程审查不可行 — 随着代理能力增强，每次发布读取更多文件到上下文，人工审查成本持续上升。

代理能力越强风险越高

每次模型升级风险递增 — 新模型让代理更强，读取更多文件，公开分享的攻击面持续扩大。（关联代理线程泄露敏感文件）
主动决策而非事件驱动 — 此次决定是前瞻性的，不是由安全事件触发的。说明团队预见了不可避免的风险趋势。

产品决策

Public → Unlisted 降级 — 已有公开线程自动转为 Unlisted，链接不中断但不再可发现。平衡了安全性和向后兼容。
公开线程的历史使命已完成 — 去年 Mitchell 的 Ghostty 线程等公开分享帮助传播了编码代理的实际能力，但这个阶段已经过去。

AdSense 审核与流量悖论

来源：https://x.com/becool_me · 日期：2026-06-02

AdSense 审核悖论

AdSense 审核通过率与 UI 质量/流量负相关 — UI 简陋但日 UV > 1.2k 的站过了审核，UI 漂亮但日 UV < 200 的站被拒。审核机制可能更看重流量而非内容质量。
AdSense 审核越来越难通过 — 多位开发者反馈近期通过率持续下降，即使流量达标也不保证通过。
流量门槛不确定 — 日 UV 2k 也未必能过，审核标准不透明且似乎在收紧。

OpenCode 五月数据与行业动态

来源：https://x.com/jayair · 日期：2026-06-02

OpenCode 规模与增速

OpenCode 五月数据 — 10M MAU、5T tokens/天、23M 下载、11M ARR、100K 关注、50K Discord。开源编码代理的采用速度远超预期。
Go 语言 ARR 达 11M — 编码代理的商业化在 Go 生态率先跑通，说明语言生态的选择对变现能力有直接影响。

AI 行业动态

Instagram Trust and Safety 被大幅裁撤 — 约 60% 人员被裁或强制转岗到数据标注，同时 AI maxxing 推了大量 bug 到生产环境，导致大规模账号被劫持。
无法比全世界更努力 — DHH：总有人和你一样饿甚至更饿，假设自己能比别人更努力是高估了自己的努力、低估了别人的。

CyOps M2.7 vs Claude Code Sonnet 4.6 对比测试

来源：https://x.com/leofanxiong · 日期：2026-05-29

Claude Code 的隐蔽缺陷

Claude Code 生成代码缺乏幂等性 — SettleBattle、AddInventory、RemoveInventory 均无 request_id 去重，同一战斗可结算两次，同一购买可扣两次库存。（关联 Reward hacking）
CC 的 Redis 操作非原子 — Move 处理跨四次 GET/SET 往返，并发移动可交错并损坏位置；Inventory 的 JSON unmarshal/mutate/marshal/SET 在并发下互相覆盖。（关联非确定性是新挑战）
CC 的 metrics 包从未被调用 — 有 Inc/Err/Observe 接口但请求路径中无人调用，负载测试显示 success: 0, errors: 100, 全 404。
CC 登录发了 token 但无中间件校验 — 所有端点都是开放的，没有优雅关闭。

CyOps M2.7 的优势

CyOps 用 Lua CAS 脚本保证原子性 — check expected seq → INCR → HSET position 单次往返，类型化 ErrSeqConflict。
CyOps 战斗结算幂等 — IsDuplicate → 缓存结果 / MarkRequest → 计算 → SaveSettleResult 60s TTL，重试返回同一结果而非重复执行。（关联 Claude Code 生成代码缺乏幂等性）
CyOps 聊天列表有界 — LPush + LTrim(0, 99) 单次往返，列表不无限增长。CC 的 chat append 无 LTRIM。
CyOps 中间件驱动可观测性 — 每个请求包装请求计数、端点计数、8 个延迟桶、GC 统计，/api/v1/metrics 暴露。

测试套件的安全性错觉

memory 后端掩盖了 Redis 路径的 bug — CC 的 memory 后端正确实现了去重，测试套件只跑 memory 路径并通过，但生产走 Redis 路径却没有去重。测试验证了一个生产代码不具备的性质。（关联无法穷举测试边缘情况）

评分与待验证问题

评分对比 CC 6.4 vs CyOps 8.4 — CC 在简洁性 9.0 领先但并发安全 4.0、原子操作 4.0、认证 4.0 拖后腿。评分由 Claude 自己给两份代码打分，公平地给自己的工作打了低分。
架构差异还是模型差异 — 5.2k 行框架式代码 vs 1.4k 行扁平代码，不清楚 CyOps 胜出是因为架构模式还是 MiniMax M2.7 的能力。如果 CyOps 用 Sonnet 4.6 跑同一任务，分数是否接近？。

Review Forge: AI Code Review 流程

来源：https://vikingz.me/ai-code-review/ · 日期：2026-05-31

AI 编码的速度陷阱

AI 代码产出太快导致系统失控 — 长时间不干预，质量严重下降，整个系统变成黑盒。AI 编码的速度远超人类 review 的速度。（关联合并前不读 AI 代码 = 自毁）
Review 跟不上产出 — AI 写大部分代码时，人工 review 成为瓶颈，需要结构化流程来维持代码质量。（关联合并前不读 AI 代码 = 自毁）

Review Forge 方案

Review Forge 规范化 Code Review 流程 — 用结构化流程和 skill 来规范项目中 Code Review 的方式，让每次代码改动更有信心。

讨论与局限

人仍是瓶颈 — Review Forge 最大的问题：人需要 review 完问题后才能走下一步修复，人始终是流程中最慢的环节。
双模型互相 review — 有开发者用 GPT-5.5 和 Opus 4.8 互相 review，观察到 Opus 4.8 相比前几代有意识收敛，没那么发散。