Fable再强 也得要下工地练练

Fable 5 发布之后,我看到几种很有意思的反应。
一种是在看发布页。
1M context,128k output,公开版 Fable 5,受限版 Mythos 5,官方案例,benchmark,安全限制,价格表。信息一层层铺出来,很容易让人有一种感觉:模型又往前推了一大截。
这当然重要。
但如果只停在这里,文章很容易变成又一篇发布整理。
另一种反应,是拿到权限以后直接上强度测试。
Simon Willison 在初体验文章里说,Fable 5 有一种 "big model smell":慢、贵,但确实能处理他丢过去的大部分东西。他用它解决 Datasette Agent 的复杂问题,还让它顺手在底层 LLM 库里发现并修了几个 issue。
中文社区里也有人转述卡兹克的体感。两个多小时,额度就快空了。更让我停了一下的是他那句,大意是:即使自己已经拼尽全力,也有点跟不上了,模型的能力边界开始离他越来越远。
这些测试有价值。
它们是在摸天花板。
但我这两天反而越来越觉得,普通人理解强模型,可能不能只停在这两层。
看发布页,看到的是能力想象。
测极限,看到的是天花板。
真正跟自己有关的东西,往往是在第三层才出现的:把它放进一个具体项目里,看它怎么干活。
我自己拿到 Fable 5 后,没有先设计一个严谨评测题。
我直接把一个正在推进、但还没有完全定型的项目丢给它。
那不是一道干净的测试题,更像一个我自己也还在摸索的东西:有一点方向,有一些想做的功能,也有很多没完全想清楚的地方。比如首页到底该先放什么,我自己也还在纠结;用户从哪里进来,先看到什么,哪些部分先做成原型,哪些只是以后可能会扩展的想法,这些其实都还悬着。
我把这些材料和想法丢进去,让它往前跑一版。
结果不是那种"神直接替我完成了"的感觉。
更准确一点说,它给了我一个可以继续加工的雏形——把原来悬在脑子里的东西,落到了一些结构、页面和可讨论的对象上。
这个雏形有价值。
但它也没有神到可以自动补完所有问题。
项目本身还没想清楚,需求边界还没收住,上下文没整理干净,验收标准也不够明确,这些东西不会因为模型变强就自动消失,主要限制在于本人自己的认知界限。
强模型可以帮你跑得更远。
但它不能替你决定你到底要去哪。
这可能才是 Fable 5 真正提醒我的地方。
不是"模型又强了"。
这句话太容易说了。
它真正提醒我的是:当模型强到一定程度,我们的问题要换掉。
以前问的是,它能不能做。
现在要问的是,这件事该不该交给它做,交到哪一步,最后它应该站在项目里的哪个工位。
我还看到一个朋友的小测试。
他用几句话让 Fable 5 做了一个网页版小游戏。画面是很简单的线稿赛车,车在路上跑,旁边有场景变化,不是什么大型游戏,但你能一眼看出:它不是只给了一段代码,而是真的把"能玩一下"的东西搭出来了。
那种第一眼效果,确实很容易让人惊一下。
但我马上又冒出另一个问题:
这是 Fable 5 独有的吗?
还是 Codex ,甚至别的强模型,也能做到类似效果?
这只是一个很小的个人观察,不是评测。如果没有横向对比,我就不能把"我第一次看到它做出来的惊艳",直接等同于"模型边界突破"。
我不是想泼冷水。
我只是觉得,这里要慢半拍。
人很容易被第一次体验击中。
尤其是模型刚发布,外面全是截图、跑分和惊呼。
这时候最该小心的,就是把新鲜感当成结论。
真实项目会把这种兴奋慢慢磨开。
它会问你一些更麻烦的问题。
哪些任务值得用最强模型?
哪些任务其实便宜模型已经够了?
哪些任务根本不是模型问题,而是人自己没想清楚、上下文没整理好、验收标准没定?
这三个问题一冒头,那个发光的东西就不再只是神物了。
它开始变成工具。
而工具要进项目,就得有位置。
我看到 yage.ai 有个分析,它的判断是:Fable 5 这种定价结构,可能并不适合端到端跑所有任务,更合理的位置是"顾问"。便宜模型干活,贵模型在关键节点做判断、纠偏、建议。
这个说法我不一定完全照单全收。
但它和我自己的感受是接得上的。
有人管这叫"顾问模式"。
我更愿意把它说成一个工位。
强模型不一定要全程上场。
它更像项目里那个很贵、但确实有经验的人。
你不会让他从头到尾搬砖。
但你会在关键决策、复杂分叉、方案卡住、方向不确定的时候,把他叫过来看看。
成本这件事,也得放在这个语境里看。
我不太赞成一上来就被成本吓住。
如果你从来没摸过它的体验边界,只盯着价格表,很容易错过真正有价值的用法。
早期应该先跑一跑。
拿自己的项目撞一撞。
知道它在哪些地方真的有差异,在哪些地方只是"更贵地完成普通任务"。
然后再回头做低耗优化。
但反过来,也不能完全不看成本。
否则强模型就会变成许愿池。
什么都往里丢,期待它自动吐出结果。最后额度烧掉了,项目没想清楚的问题还在那里。
所以我现在对 Fable 5 的态度,反而比刚看到发布时更稳一点。
它在发布页上像神物。
在极限测试里像神器。
但进了真实项目以后,它还是要面对需求、上下文、规格、成本和验收。
这些东西听起来一点都不酷。
但 AI 真要落地,最后都会撞上它们。
如果你有 订阅账号,现在还有一个免费体验窗口(在6月22日之前)。与其一直看别人评测,不如拿一个你真的想做的小项目试一下。
不要拿一道谜题。
不要拿一个炫技 prompt。
就拿一个你工作里、创作里、生活里真的卡住的东西。
把它拉进来。
不要急着问它是不是最强。
先看它适合站在哪个工位。
也看它站不住的地方,到底是模型的问题,还是你自己的项目还没排好班。
普通人理解强 AI 的方式,可能不是远远看它发光。
而是把它放进自己的项目里。
看它到底能站在哪里,又不能替你站在哪里。
继续阅读
基于全文检索与主题相似度
我用 AI 写了一篇高考作文,才发现它测的不是文采
今天高考第一天,想到学子在考场上面对这道题,我也拿得到大脑专家版跑了一遍。 今年全国I卷的作文题是这样的—— 词语是表达思想情感的载体,也是展现社会生活变化的窗口。当前,世界之变、时代之变、历史之变正以前所未有的方式展开。青年是常为新的,在你的成长过程中,你对哪一个词语的理解发生了变化?这变化有你成长的印记,对你有特殊
在别人的赛道上,你永远跑不过定义赛道的人
2026年5月25日,华为在上海发布了一条新定律——"韬(τ)定律"。 新闻出来的时候,大部分人可能只看到了几个关键词:中国首次、半导体新定律、等效1.4nm。听起来像是又一条"弯道超车"的故事。 但我看完何庭波那篇论文和各家解读之后,觉得这件事最值得说的,不是技术突破,而是一个更微妙的动作——华为换了一个"什么算进步
# AI时代的收集者谬误升级版
一、我以为我需要一手信息 今年2月底,我认真想搭一个AI News工具。 起因很简单:关注AI行业,但每天看到的信息几乎都是二手的。某个模型更新了,某个产品发布了,我总是从别人的公众号、别人的日报、别人的解读里才知道。等我看到的时候,已经过了好几手。 我想看到一手信息。 但真动手的时候,第一步就卡住了——我连有哪些信息