栏目分类

热点资讯

你的位置：开云「中国」kaiyun体育网址-登录入口 > 资讯 > 开yun体育网加个新功能要改三个地方-开云「中国」kaiyun体育网址-登录入口

开yun体育网加个新功能要改三个地方-开云「中国」kaiyun体育网址-登录入口

时间：2026-04-05 07:28 点击：136 次

开yun体育网

▎别再卷单次任务的通过率了，是时候想想如何让AI学会「为将来写代码」。

凌晨两点的工位，智力员小李盯着屏幕上Claude刚写的第三版代码欲哭无泪：

最入手他的需求很简单：写个用户登录接口，AI十分钟就交了活，跑起来全对。其后要加考据码、要作念三方登录、要接权限系统、要适配多佃户......改到第五轮的时候，AI写的代码一经乱成了意大利面，一个函数塞了五百行，重迭逻辑抄了八遍，加个新功能要改三个地方，改完又崩两个旧功能。

小李痛心疾首重写了统共模块，边敲边骂：什么AI编程替代智力员，写出来的代码越迭代越烂，临了擦屁股的还不是我？

如果你也有过这种资格，恭喜——最近来自威斯康星麦迪逊大学、MIT的运筹帷幄团队径直把这个痛点作念成了行业基准，实锤了现时统统AI编程Agent的致命劣势：单次写代码个个都是神，经久迭代改需求，全是越写越烂的废物生成器。

他们甚而特意作念了个叫「SlopCodeBench」的评测基准，名字直白到扎心：特意测AI写的「垃圾代码（Slop）」到底有多退化。

咱们被AI编程评测骗了这样久？

先问民众一个问题：你平时看到的AI编程能力测评，是不是都是这个画风：

《GPT-5正确率秒杀SWE-Bench！》

《Claude Opus写代码通过率超90%！》

《新模子打败80%智力员！》

......

这些测试有一个算一个，全是「一锤子商业」：给你一个竣工的、不会变的需求，看AI能不行一次性写出能跑通统统测试用例的代码。

但现实中写代码是这样的吗？哪个产物司答理第一天就把需求给你写全？哪个名堂不会半途加功能改逻辑？哪个系统不是从一个简单的Demo，一步步堆成十万行百万行的短小精悍？

说白了，当今的AI编程评测，考的全是「开卷期末考试一次性考满分」，但真确设置是「每天加一门新课，讲义还天天改，你得在旧条记上不竭补内容，临了统共条记还得逻辑畅通能当教材」。

这种评测和真确场景的脱节，径直造出了「AI写代码比东谈主强」的装假蕃昌——真放到需要迭代几个月、改几十版需求的名堂里，AI写出来的代码，烂得比珍惜了十年的屎山还吓东谈主。

SlopCodeBench：特意刺破AI泡沫的「妖魔测试」

此次运筹帷幄者搞出来的SlopCodeBench，即是皆备照着真确设置的「糟糕形态」设想的，号称AI编程Agent的「高考地狱形态」：

测试规则皆备复刻真确设置

统共基准包含20个常见设置场景（比如写个抒发式倡导器、作念个代码搜索器具），每个场景拆成93个渐渐变复杂的查验点——就像产物司理每周给你提的新需求：

第一个查验点：作念个能加减乘除的盘算推算器

第二个：加括号运算优先级

第三个：扶持自界说函数

第四个：加造作日记功能

......

一直到第八个需求堆上去......

最狠的是这三条文定，皆备不给AI开外挂：

1. 不预设任何里面接口：只告诉你外部要作念成啥样，代码架构如何设想、函数如何拆，全靠AI我方定，相等于产物只说「我要个能聊天的APP」，工夫决策全靠你想。

2. 不显现测试用例：AI只可像东谈主类设置者一样，对着需求文档我方想界限情况，写结束才知谈那儿错了，不会给你把统统测试用例列出来让你对着改。

3. 必须在上一轮的代码基础上改：不行每次都重写，就像你接了前任的烂摊子也得接着珍惜，不行上来就说我要重构。

两个主见直击「烂代码」实质

此次运筹帷幄者没搞虚的「通过率」，而是径直捏了两个统统智力员都痛心疾首的烂代码特征：

1. 结构侵蚀（Structural Erosion）

说白了即是代码逻辑全堆在少数几个「超等函数」里。比如你最入手写登录逻辑是个20行的小函数，其后加了七八个需求，AI懒得拆新函数，径直往里面堆代码，临了一个函数塞了上千行，圈复杂度（简单交融即是逻辑分支的数目，越高越难改）飙到几百，改一滑崩十行。

运筹帷幄者的盘算推算表情也很直不雅：先算每个函数的「复杂度权重」= 圈复杂度 x 代码行数的平方根，再看圈复杂度朝上10的高风险函数，占了统共名堂总权重的些许，比例越高代码越烂。

2. 冗余度（Verbosity）

即是代码里重迭的、不错简化的垃圾内容占比。比如通常的参数倡导逻辑，AI在8个地方抄了8遍；明明不错用轮回兑现的逻辑，AI写了十几行重迭的if-else。运筹帷幄者用137条文定扫描常见的冗余形态，再加上克隆代码检测，径直算出你写的代码里有些许是没用的废物。

测试遵守扎心了：统统AI全败，莫得一个能打

运筹帷幄者测了现时市面上最能打的11个模子，包括Claude Opus 4.5/4.6、GPT 5.1-5.4、GLM 4.7，遵守莫得一个能打的，径直把AI编程的底裤都扒了：

连一个竣工名堂都作念不下来

莫得一个AI Agent能从新到尾完成任何一个问题的统统查验点，哪怕是现时最强的Claude Opus 4.6，严格通过率也只好17.2%——相等于作念10个名堂，8个半都是烂尾的。

更吓东谈主的是退化速率：

80%的名堂里，AI代码的结构侵蚀跟着迭代连接高涨

89.8%的名堂里，冗余度一齐走高，根底停不下来

最入手中枢功能测试和全量测试的通过率只差1.4倍，到后期径直差到13.3倍——也即是说，名义上中枢功能好像还能跑，施行上边角的逻辑一经烂透了，一碰就崩

运筹帷幄者给民众举了个真确案例：在 circuit_eval（电路模拟器）这个问题里，Claude Opus 4.6最入手的 main() 函数只好84行，圈复杂度29，还算是个平常的代码。经由8轮需求迭代之后，这个函数径直延迟到了1099行，圈复杂度飙到285，9个大喊分支抄了9遍皆备一样的参数倡导逻辑，你想加个新大喊，得先把这9遍逻辑全改对，少改一个就报错。

这像不像你作念名堂的时候，前两期跑得挺顺，到第三期加需求的时候发现之前的代码写死了，只可加班重写？AI跟你犯的错一模一样，甚而更离谱。

AI写的代码，比东谈主类屎山还烂2倍

运筹帷幄者还特意找了48个不同Star量级的Python开源仓库作念对比，从几千Star的抠门具到scikit-learn、scipy这种明星级名堂，遵守AI的脸被打得啪啪响：

直不雅对比即是：

冗余度：AI Agent代码是东谈主类代码的2.2倍！

结构侵蚀：AI Agent代码是东谈主类代码的2.2倍！

违背率：AI Agent代码是东谈主类代码的2.9倍！

更扎心的是：连以复杂度高著称的scikit-learn（0.411）和scipy（0.457），都比AI写的代码健康得多。

运筹帷幄者跟踪了20个开源仓库好几年的提交记载，发现东谈主类写代码，只如果正经珍惜的名堂，质地基本保持牢固，甚而会越重构越好。但AI写的代码，每迭代一次质地就掉一截，根底莫得停驻来的意旨道理。

说句不动听的：你吐槽了一万遍的公司家传屎山，都比AI迭代几轮写出来的代码质地高。

教唆词也救不了！越改越贵，还越改越烂

看到这里详情有智力员会问：是不是我教唆词写得不够好？我让AI先写设想文档、让AI不要写冗余代码、让AI正式架构，是不是就能处置问题？

运筹帷幄者特意作念了教唆词干与实验，测试了两种智力员最爱用的「魔法教唆」：

1.「反slop教唆」：明确告诉AI不要写重迭代码、不要过度工程化、要拆函数、要幸免冗余形态。

2.「先筹备教唆」：条件AI先写详备的设想决策，阐明没问题再写代码。

遵守如何样？确乎，运转质地有改善：冗余度缩小了33%~34%，前两轮的代码看起来确乎干净多了。

但重心来了：退化速率少许没变——两条退化弧线险些是平行的，无非是一个起原低少许，一个起原高少许，到临了都会烂到没法看。正确率更是莫得一丁点擢升，统计测验径直自大莫得显赫互异（Wilcoxon测验，p > 0.05）。

更调侃的还在后头：干净的代码反而更贵！GPT 5.4用了「反slop」教唆之后，完成名堂的破耗从304好意思元涨到了450好意思元，涨了快一半，但通过率反而从37.2%掉到了27.1%——钱花得更多了，活干得更烂了。

为什么会这样？因为AI为了写更干净的代码，会花更多token去想考架构、去拆函数，但它实质上如故莫得经久架构设想的能力，后头改需求的时候，该乱堆如故乱堆，该重迭如故重迭，前边花的那些设想的钱，全打了水漂。

根底问题：AI根底不懂「设想次序」

为什么AI单次写代码那么利弊，迭代起来就这样拉？中枢原因其实很简单：现时的AI编程Agent，根底莫得迭代式软件设置需要的「设想次序」（设想规则）。

东谈主类设置者写代码的时候，脑子里是有「经久筹备」的：

我当今写这个函数，后头可能要加三个功能，是以得预留好扩展点

这个逻辑后头好几个地方要用，得抽周密国函数

当今为了快写死的地方，得留个TODO凝视，后头有空了重构

加新功能的时候，会想如何改不影响之前的逻辑，真的不行就提前重构打基础

但AI莫得这个相识，它统统的决策都是「短期最优」：现时这一轮需求我要最快跑通，如何简单如何来。

要加新功能？径直往已有函数里堆代码，归正此次能跑就行

逻辑重迭？复制粘贴八遍最快，我才懒得抽全国函数

之前的架构不符合新需求？岂论，硬塞进去就行，只消此次测试能过，后头崩了再说

你看AI写的代码，每一轮单独看好像都没问题，合到统共即是个随时会炸的炸药桶。这不是能力问题，是「想维形态」的问题：东谈主类写代码是给将来的我方和共事写的，会探究经久珍惜老本；AI写代码是给现时这轮prompt写的，根底岂论后头如何改。

当今的统统评测，都在奖励AI的「短期活动」：只消此次能过测试，你代码写得再烂都算对。但真确的软件工程，要的是「经久可珍惜」，这恰正是现时AI最缺的东西。

临了说两句

此次SlopCodeBench的运筹帷幄，实质上是给当今热得发烫的AI编程浇了一盆冷水：咱们离「AI替代智力员」，还差了十万八沉。当今的AI更像个精明的实习生，给你写个抠门具、作念个一次性的剧本、帮你查个API用法都没问题，真要让它肃肃一个经久迭代的名堂，临了擦屁股的如故你我方。

给非工夫读者说句真的话

不要被「AI几分钟写一个系统」的噱头骗了，软件的中枢老本从来不是初版如何写，而是后头几年如何改、如何珍惜。AI写的初版确乎快，但后头每改一次老本翻倍，临了总老本比东谈主类写的高好几倍，这账算下来少许都不合算。

给智力员一又友的淡薄

1.不要怕AI抢你饭碗，至少当今，能把控经久架构、能珍惜迭代名堂的设置者，比任何AI都值钱。

2.用AI写代码的时候，不要径直让它改旧代码，尤其是复杂的中枢逻辑。最佳让它给你写决策参考，你我方来欺压架构，再让它写具体的兑现，写结束你要作念Code Review，别什么代码都往仓库里提。

3. 别在「如何写教唆词让AI写出好架构」上奢华太多时分，这玩意儿目下真的救不了，该你作念的设想你得我方作念，甩锅给AI临了背锅的如故你。

4.反而不错多柔软「AI代码质地检测」干系的器具，以后你粗略率会频繁干「给AI擦屁股，改它写的烂代码」的活，有器具能省不少事。

至于AI编程将来如何走？此次的运筹帷幄其实一经指了个很明确的地点：别再卷单次任务的通过率了，是时候想想如何让AI学会「为将来写代码」，学会像东谈主类一样有设想次序，知谈写代码不是一锤子商业。

毕竟开yun体育网，软件工程的实质，从来都不是写能跑的代码，而是写能改、能珍惜、能活好几年的代码。这个坎，AI如果跨不外去，就永远仅仅个写一次性代码的器具汉典。

上一篇：开云体育(中国)官方网站严格在官方框架内鞭策-开云「中国」kaiyun体育网址-登录入口
下一篇：没有了

开yun体育网加个新功能要改三个地方-开云「中国」kaiyun体育网址-登录入口 26-04-05

开云体育(中国)官方网站严格在官方框架内鞭策-开云「中国」kaiyun体育网址-登录入口 26-04-04

开云(中国)kaiyun网页版登录入口该草案在表决中赢得全票撑执-开云「中国」kaiyun体育网址-登录入口 26-04-03

欧洲杯体育加速6G传输——融会即压缩》为题作进攻敷陈-开云「中国」kaiyun体育网址-登录入口 26-04-02

体育游戏app平台三四级手术量同步增长38%-开云「中国」kaiyun体育网址-登录入口 26-04-01

体育游戏app平台海格通讯(002465)公告-开云「中国」kaiyun体育网址-登录入口 26-03-31

www.chateau-in-france.com

官方网站

a51aafb2@outlook.com

联系邮箱

资讯科技园5456号

联系地址

友情链接：

开云「中国」kaiyun体育网址-登录入口-开yun体育网加个新功能要改三个地方-开云「中国」kaiyun体育网址-登录入口