你的位置:开云「中国」kaiyun体育网址-登录入口 > 资讯 > 开yun体育网加个新功能要改三个地方-开云「中国」kaiyun体育网址-登录入口

开yun体育网加个新功能要改三个地方-开云「中国」kaiyun体育网址-登录入口

时间:2026-04-05 07:28 点击:136 次

开yun体育网加个新功能要改三个地方-开云「中国」kaiyun体育网址-登录入口

开yun体育网

▎别再卷单次任务的通过率了,是时候想想如何让AI学会「为将来写代码」。

凌晨两点的工位,智力员小李盯着屏幕上Claude刚写的第三版代码欲哭无泪:

最入手他的需求很简单:写个用户登录接口,AI十分钟就交了活,跑起来全对。其后要加考据码、要作念三方登录、要接权限系统、要适配多佃户......改到第五轮的时候,AI写的代码一经乱成了意大利面,一个函数塞了五百行,重迭逻辑抄了八遍,加个新功能要改三个地方,改完又崩两个旧功能。

小李痛心疾首重写了统共模块,边敲边骂:什么AI编程替代智力员,写出来的代码越迭代越烂,临了擦屁股的还不是我?

如果你也有过这种资格,恭喜——最近来自威斯康星麦迪逊大学、MIT的运筹帷幄团队径直把这个痛点作念成了行业基准,实锤了现时统统AI编程Agent的致命劣势:单次写代码个个都是神,经久迭代改需求,全是越写越烂的废物生成器。

他们甚而特意作念了个叫「SlopCodeBench」的评测基准,名字直白到扎心:特意测AI写的「垃圾代码(Slop)」到底有多退化。

咱们被AI编程评测骗了这样久?

先问民众一个问题:你平时看到的AI编程能力测评,是不是都是这个画风:

《GPT-5正确率秒杀SWE-Bench!》

《Claude Opus写代码通过率超90%!》

《新模子打败80%智力员!》

......

这些测试有一个算一个,全是「一锤子商业」:给你一个竣工的、不会变的需求,看AI能不行一次性写出能跑通统统测试用例的代码。

但现实中写代码是这样的吗?哪个产物司答理第一天就把需求给你写全?哪个名堂不会半途加功能改逻辑?哪个系统不是从一个简单的Demo,一步步堆成十万行百万行的短小精悍?

说白了,当今的AI编程评测,考的全是「开卷期末考试一次性考满分」,但真确设置是「每天加一门新课,讲义还天天改,你得在旧条记上不竭补内容,临了统共条记还得逻辑畅通能当教材」。

这种评测和真确场景的脱节,径直造出了「AI写代码比东谈主强」的装假蕃昌——真放到需要迭代几个月、改几十版需求的名堂里,AI写出来的代码,烂得比珍惜了十年的屎山还吓东谈主。

SlopCodeBench:特意刺破AI泡沫的「妖魔测试」

此次运筹帷幄者搞出来的SlopCodeBench,即是皆备照着真确设置的「糟糕形态」设想的,号称AI编程Agent的「高考地狱形态」:

测试规则皆备复刻真确设置

统共基准包含20个常见设置场景(比如写个抒发式倡导器、作念个代码搜索器具),每个场景拆成93个渐渐变复杂的查验点——就像产物司理每周给你提的新需求:

第一个查验点:作念个能加减乘除的盘算推算器

第二个:加括号运算优先级

第三个:扶持自界说函数

第四个:加造作日记功能

......

一直到第八个需求堆上去......

最狠的是这三条文定,皆备不给AI开外挂:

1. 不预设任何里面接口:只告诉你外部要作念成啥样,代码架构如何设想、函数如何拆,全靠AI我方定,相等于产物只说「我要个能聊天的APP」,工夫决策全靠你想。

2. 不显现测试用例:AI只可像东谈主类设置者一样,对着需求文档我方想界限情况,写结束才知谈那儿错了,不会给你把统统测试用例列出来让你对着改。

3. 必须在上一轮的代码基础上改:不行每次都重写,就像你接了前任的烂摊子也得接着珍惜,不行上来就说我要重构。

两个主见直击「烂代码」实质

此次运筹帷幄者没搞虚的「通过率」,而是径直捏了两个统统智力员都痛心疾首的烂代码特征:

1. 结构侵蚀(Structural Erosion)

说白了即是代码逻辑全堆在少数几个「超等函数」里。比如你最入手写登录逻辑是个20行的小函数,其后加了七八个需求,AI懒得拆新函数,径直往里面堆代码,临了一个函数塞了上千行,圈复杂度(简单交融即是逻辑分支的数目,越高越难改)飙到几百,改一滑崩十行。

运筹帷幄者的盘算推算表情也很直不雅:先算每个函数的「复杂度权重」= 圈复杂度 x 代码行数的平方根,再看圈复杂度朝上10的高风险函数,占了统共名堂总权重的些许,比例越高代码越烂。

2. 冗余度(Verbosity)

即是代码里重迭的、不错简化的垃圾内容占比。比如通常的参数倡导逻辑,AI在8个地方抄了8遍;明明不错用轮回兑现的逻辑,AI写了十几行重迭的if-else。运筹帷幄者用137条文定扫描常见的冗余形态,再加上克隆代码检测,径直算出你写的代码里有些许是没用的废物。

测试遵守扎心了:统统AI全败,莫得一个能打

运筹帷幄者测了现时市面上最能打的11个模子,包括Claude Opus 4.5/4.6、GPT 5.1-5.4、GLM 4.7,遵守莫得一个能打的,径直把AI编程的底裤都扒了:

连一个竣工名堂都作念不下来

莫得一个AI Agent能从新到尾完成任何一个问题的统统查验点,哪怕是现时最强的Claude Opus 4.6,严格通过率也只好17.2%——相等于作念10个名堂,8个半都是烂尾的。

更吓东谈主的是退化速率:

80%的名堂里,AI代码的结构侵蚀跟着迭代连接高涨

89.8%的名堂里,冗余度一齐走高,根底停不下来

最入手中枢功能测试和全量测试的通过率只差1.4倍,到后期径直差到13.3倍——也即是说,名义上中枢功能好像还能跑,施行上边角的逻辑一经烂透了,一碰就崩

运筹帷幄者给民众举了个真确案例:在 circuit_eval(电路模拟器)这个问题里,Claude Opus 4.6最入手的 main() 函数只好84行,圈复杂度29,还算是个平常的代码。经由8轮需求迭代之后,这个函数径直延迟到了1099行,圈复杂度飙到285,9个大喊分支抄了9遍皆备一样的参数倡导逻辑,你想加个新大喊,得先把这9遍逻辑全改对,少改一个就报错。

这像不像你作念名堂的时候,前两期跑得挺顺,到第三期加需求的时候发现之前的代码写死了,只可加班重写?AI跟你犯的错一模一样,甚而更离谱。

AI写的代码,比东谈主类屎山还烂2倍

运筹帷幄者还特意找了48个不同Star量级的Python开源仓库作念对比,从几千Star的抠门具到scikit-learn、scipy这种明星级名堂,遵守AI的脸被打得啪啪响:

直不雅对比即是:

冗余度:AI Agent代码是东谈主类代码的2.2倍!

结构侵蚀:AI Agent代码是东谈主类代码的2.2倍!

违背率:AI Agent代码是东谈主类代码的2.9倍!

更扎心的是:连以复杂度高著称的scikit-learn(0.411)和scipy(0.457),都比AI写的代码健康得多。

运筹帷幄者跟踪了20个开源仓库好几年的提交记载,发现东谈主类写代码,只如果正经珍惜的名堂,质地基本保持牢固,甚而会越重构越好。但AI写的代码,每迭代一次质地就掉一截,根底莫得停驻来的意旨道理。

说句不动听的:你吐槽了一万遍的公司家传屎山,都比AI迭代几轮写出来的代码质地高。

教唆词也救不了!越改越贵,还越改越烂

看到这里详情有智力员会问:是不是我教唆词写得不够好?我让AI先写设想文档、让AI不要写冗余代码、让AI正式架构,是不是就能处置问题?

运筹帷幄者特意作念了教唆词干与实验,测试了两种智力员最爱用的「魔法教唆」:

1.「反slop教唆」:明确告诉AI不要写重迭代码、不要过度工程化、要拆函数、要幸免冗余形态。

2.「先筹备教唆」:条件AI先写详备的设想决策,阐明没问题再写代码。

遵守如何样?确乎,运转质地有改善:冗余度缩小了33%~34%,前两轮的代码看起来确乎干净多了。

但重心来了:退化速率少许没变——两条退化弧线险些是平行的,无非是一个起原低少许,一个起原高少许,到临了都会烂到没法看。正确率更是莫得一丁点擢升,统计测验径直自大莫得显赫互异(Wilcoxon测验,p > 0.05)。

更调侃的还在后头:干净的代码反而更贵!GPT 5.4用了「反slop」教唆之后,完成名堂的破耗从304好意思元涨到了450好意思元,涨了快一半,但通过率反而从37.2%掉到了27.1%——钱花得更多了,活干得更烂了。

为什么会这样?因为AI为了写更干净的代码,会花更多token去想考架构、去拆函数,但它实质上如故莫得经久架构设想的能力,后头改需求的时候,该乱堆如故乱堆,该重迭如故重迭,前边花的那些设想的钱,全打了水漂。

根底问题:AI根底不懂「设想次序」

为什么AI单次写代码那么利弊,迭代起来就这样拉?中枢原因其实很简单:现时的AI编程Agent,根底莫得迭代式软件设置需要的「设想次序」(设想规则)。

东谈主类设置者写代码的时候,脑子里是有「经久筹备」的:

我当今写这个函数,后头可能要加三个功能,是以得预留好扩展点

这个逻辑后头好几个地方要用,得抽周密国函数

当今为了快写死的地方,得留个TODO凝视,后头有空了重构

加新功能的时候,会想如何改不影响之前的逻辑,真的不行就提前重构打基础

但AI莫得这个相识,它统统的决策都是「短期最优」:现时这一轮需求我要最快跑通,如何简单如何来。

要加新功能?径直往已有函数里堆代码,归正此次能跑就行

逻辑重迭?复制粘贴八遍最快,我才懒得抽全国函数

之前的架构不符合新需求?岂论,硬塞进去就行,只消此次测试能过,后头崩了再说

你看AI写的代码,每一轮单独看好像都没问题,合到统共即是个随时会炸的炸药桶。这不是能力问题,是「想维形态」的问题:东谈主类写代码是给将来的我方和共事写的,会探究经久珍惜老本;AI写代码是给现时这轮prompt写的,根底岂论后头如何改。

当今的统统评测,都在奖励AI的「短期活动」:只消此次能过测试,你代码写得再烂都算对。但真确的软件工程,要的是「经久可珍惜」,这恰正是现时AI最缺的东西。

临了说两句

此次SlopCodeBench的运筹帷幄,实质上是给当今热得发烫的AI编程浇了一盆冷水:咱们离「AI替代智力员」,还差了十万八沉。当今的AI更像个精明的实习生,给你写个抠门具、作念个一次性的剧本、帮你查个API用法都没问题,真要让它肃肃一个经久迭代的名堂,临了擦屁股的如故你我方。

给非工夫读者说句真的话

不要被「AI几分钟写一个系统」的噱头骗了,软件的中枢老本从来不是初版如何写,而是后头几年如何改、如何珍惜。AI写的初版确乎快,但后头每改一次老本翻倍,临了总老本比东谈主类写的高好几倍,这账算下来少许都不合算。

给智力员一又友的淡薄

1.不要怕AI抢你饭碗,至少当今,能把控经久架构、能珍惜迭代名堂的设置者,比任何AI都值钱。

2.用AI写代码的时候,不要径直让它改旧代码,尤其是复杂的中枢逻辑。最佳让它给你写决策参考,你我方来欺压架构,再让它写具体的兑现,写结束你要作念Code Review,别什么代码都往仓库里提。

3. 别在「如何写教唆词让AI写出好架构」上奢华太多时分,这玩意儿目下真的救不了,该你作念的设想你得我方作念,甩锅给AI临了背锅的如故你。

4.反而不错多柔软「AI代码质地检测」干系的器具,以后你粗略率会频繁干「给AI擦屁股,改它写的烂代码」的活,有器具能省不少事。

至于AI编程将来如何走?此次的运筹帷幄其实一经指了个很明确的地点:别再卷单次任务的通过率了,是时候想想如何让AI学会「为将来写代码」,学会像东谈主类一样有设想次序,知谈写代码不是一锤子商业。

毕竟开yun体育网,软件工程的实质,从来都不是写能跑的代码,而是写能改、能珍惜、能活好几年的代码。这个坎,AI如果跨不外去,就永远仅仅个写一次性代码的器具汉典。

www.chateau-in-france.com
官方网站
a51aafb2@outlook.com
联系邮箱
资讯科技园5456号
联系地址

Powered by 开云「中国」kaiyun体育网址-登录入口 RSS地图 HTML地图


开云「中国」kaiyun体育网址-登录入口-开yun体育网加个新功能要改三个地方-开云「中国」kaiyun体育网址-登录入口