Fable再强也得要下工地练练

AI2026年6月17日0 次阅读约 7 分钟

Fable 5 发布之后，我看到几种很有意思的反应。

一种是在看发布页。

1M context，128k output，公开版 Fable 5，受限版 Mythos 5，官方案例，benchmark，安全限制，价格表。信息一层层铺出来，很容易让人有一种感觉：模型又往前推了一大截。

这当然重要。

但如果只停在这里，文章很容易变成又一篇发布整理。

另一种反应，是拿到权限以后直接上强度测试。

Simon Willison 在初体验文章里说，Fable 5 有一种 "big model smell"：慢、贵，但确实能处理他丢过去的大部分东西。他用它解决 Datasette Agent 的复杂问题，还让它顺手在底层 LLM 库里发现并修了几个 issue。

中文社区里也有人转述卡兹克的体感。两个多小时，额度就快空了。更让我停了一下的是他那句，大意是：即使自己已经拼尽全力，也有点跟不上了，模型的能力边界开始离他越来越远。

这些测试有价值。

它们是在摸天花板。

但我这两天反而越来越觉得，普通人理解强模型，可能不能只停在这两层。

看发布页，看到的是能力想象。

测极限，看到的是天花板。

真正跟自己有关的东西，往往是在第三层才出现的：把它放进一个具体项目里，看它怎么干活。

我自己拿到 Fable 5 后，没有先设计一个严谨评测题。

我直接把一个正在推进、但还没有完全定型的项目丢给它。

那不是一道干净的测试题，更像一个我自己也还在摸索的东西：有一点方向，有一些想做的功能，也有很多没完全想清楚的地方。比如首页到底该先放什么，我自己也还在纠结；用户从哪里进来，先看到什么，哪些部分先做成原型，哪些只是以后可能会扩展的想法，这些其实都还悬着。

我把这些材料和想法丢进去，让它往前跑一版。

结果不是那种"神直接替我完成了"的感觉。

更准确一点说，它给了我一个可以继续加工的雏形——把原来悬在脑子里的东西，落到了一些结构、页面和可讨论的对象上。

这个雏形有价值。

但它也没有神到可以自动补完所有问题。

项目本身还没想清楚，需求边界还没收住，上下文没整理干净，验收标准也不够明确，这些东西不会因为模型变强就自动消失，主要限制在于本人自己的认知界限。

强模型可以帮你跑得更远。

但它不能替你决定你到底要去哪。

这可能才是 Fable 5 真正提醒我的地方。

不是"模型又强了"。

这句话太容易说了。

它真正提醒我的是：当模型强到一定程度，我们的问题要换掉。

以前问的是，它能不能做。

现在要问的是，这件事该不该交给它做，交到哪一步，最后它应该站在项目里的哪个工位。

我还看到一个朋友的小测试。

他用几句话让 Fable 5 做了一个网页版小游戏。画面是很简单的线稿赛车，车在路上跑，旁边有场景变化，不是什么大型游戏，但你能一眼看出：它不是只给了一段代码，而是真的把"能玩一下"的东西搭出来了。

那种第一眼效果，确实很容易让人惊一下。

但我马上又冒出另一个问题：

这是 Fable 5 独有的吗？

还是 Codex ，甚至别的强模型，也能做到类似效果？

这只是一个很小的个人观察，不是评测。如果没有横向对比，我就不能把"我第一次看到它做出来的惊艳"，直接等同于"模型边界突破"。

我不是想泼冷水。

我只是觉得，这里要慢半拍。

人很容易被第一次体验击中。

尤其是模型刚发布，外面全是截图、跑分和惊呼。

这时候最该小心的，就是把新鲜感当成结论。

真实项目会把这种兴奋慢慢磨开。

它会问你一些更麻烦的问题。

哪些任务值得用最强模型？

哪些任务其实便宜模型已经够了？

哪些任务根本不是模型问题，而是人自己没想清楚、上下文没整理好、验收标准没定？

这三个问题一冒头，那个发光的东西就不再只是神物了。

它开始变成工具。

而工具要进项目，就得有位置。

我看到 yage.ai 有个分析，它的判断是：Fable 5 这种定价结构，可能并不适合端到端跑所有任务，更合理的位置是"顾问"。便宜模型干活，贵模型在关键节点做判断、纠偏、建议。

这个说法我不一定完全照单全收。

但它和我自己的感受是接得上的。

有人管这叫"顾问模式"。

我更愿意把它说成一个工位。

强模型不一定要全程上场。

它更像项目里那个很贵、但确实有经验的人。

你不会让他从头到尾搬砖。

但你会在关键决策、复杂分叉、方案卡住、方向不确定的时候，把他叫过来看看。

成本这件事，也得放在这个语境里看。

我不太赞成一上来就被成本吓住。

如果你从来没摸过它的体验边界，只盯着价格表，很容易错过真正有价值的用法。

早期应该先跑一跑。

拿自己的项目撞一撞。

知道它在哪些地方真的有差异，在哪些地方只是"更贵地完成普通任务"。

然后再回头做低耗优化。

但反过来，也不能完全不看成本。

否则强模型就会变成许愿池。

什么都往里丢，期待它自动吐出结果。最后额度烧掉了，项目没想清楚的问题还在那里。

所以我现在对 Fable 5 的态度，反而比刚看到发布时更稳一点。

它在发布页上像神物。

在极限测试里像神器。

但进了真实项目以后，它还是要面对需求、上下文、规格、成本和验收。

这些东西听起来一点都不酷。

但 AI 真要落地，最后都会撞上它们。

如果你有订阅账号，现在还有一个免费体验窗口（在6月22日之前）。与其一直看别人评测，不如拿一个你真的想做的小项目试一下。

不要拿一道谜题。

不要拿一个炫技 prompt。

就拿一个你工作里、创作里、生活里真的卡住的东西。

把它拉进来。

不要急着问它是不是最强。

先看它适合站在哪个工位。

也看它站不住的地方，到底是模型的问题，还是你自己的项目还没排好班。

普通人理解强 AI 的方式，可能不是远远看它发光。

而是把它放进自己的项目里。

看它到底能站在哪里，又不能替你站在哪里。

完整版：https://mp.weixin.qq.com/s/3E_twGFJ6zan-NbPehZ_xQ

继续阅读

基于全文检索与主题相似度

AI2026年6月8日

Fable再强也得要下工地练练

继续阅读

我用 AI 写了一篇高考作文，才发现它测的不是文采

在别人的赛道上，你永远跑不过定义赛道的人

# AI时代的收集者谬误升级版