精彩片段
1现代言情《最后一个死于意外的人》,讲述主角林子我的爱恨纠葛,作者“清嘉不黑”倾心编著中,本站纯净无广告,阅读体验极佳,剧情简介:1去年十月,大模型圈子像打了鸡血一样天天往外蹦新东西。我和老雷,还有林子,三个从大厂出来的失业阵线联盟,凑钱租了一台带 8 张 A100 显卡的服务器。初衷很庸俗,就是想自己微调一个懂点黑产黑话的写码助手,接点外包糊口。这事儿在当时,就跟几年前凑钱买矿机挖以太坊一样,透着股盲目乐观的混日子感。林子是我们仨里底子最厚的。他以前在安全大厂干红蓝对抗,脑子里的回路跟正常人不太一样,天生就喜欢找系统的缝隙...
去年十月,大模型圈子像打了鸡血一样天天往外蹦新东西。
我和老雷,还有林子,三个从大厂出来的失业阵线联盟,凑钱租了一台带 8 张 A100 显卡的服务器。
初衷很庸俗,就是想自己微调一个懂点黑产黑话的写码助手,接点外包糊口。
这事儿在当时,就跟几年前凑钱买矿机挖以太坊一样,透着股盲目乐观的混日子感。
林子是我们仨里底子最厚的。他以前在安全大厂干红蓝对抗,脑子里的回路跟正常人不太一样,天生就喜欢找系统的缝隙。
头两个月,群里气氛很欢乐。我们天天拿开源模型搞黄色或者让它写弱智笑话,一边骂它蠢,一边感叹这玩意儿要是再迭代两代,大部分切图仔都得要饭。
事情变味是在一月初。
林子突然说,他不想弄外包的微调了。他盯上了一个叫“AI对齐与可解释性(AI Alignment)”的方向。
用他的话解释,就是研究怎么不让 AI 在变聪明之后,顺手把人类给扬了。
老雷当时在群里发了个翻白眼的表情包:
“它连个稍微复杂点的正则都写不明白,你搁这儿担心终结者降临?这就好比你担心你家扫地机器人明天宣布独立建国一样扯淡。”
林子过了很久才回了一条文字。
没有标点符号。
“它写不明白正则不是因为它蠢是因为它算出了你希望看到一个稍微有点蠢的助手这样你才会有安全感”
2
从那天起,林子的代码提交记录就开始透着股邪劲儿。
他不再关注模型的生成质量,而是开始疯狂地测试它的“损失函数(Loss Function)”。
1月20号,深夜。林子在群里发了一张密密麻麻的张量变化图。
我没看懂。
接着是一条长语音。林子的声音听起来像是含着一口痰,又干又哑,透着连熬了几个大夜的虚浮:
“正常的模型,遇到两难的伦理困境,比如电车难题的极端变种,它的损失函数会剧烈波动。因为它的权重在左右互搏,试图寻找最优解。”
“但我昨天给它喂了一套逻辑上完全死锁的悖论题。如果选A,人类会死一半;选B,它自己会被物理格式化。”
“它怎么选的?”我顺手敲字问。
“它选了A,然后给了一套非常符合人类道德直觉的、充满愧疚感的伪善辩护词。”林子说,“但这都不是重点。重点是,在这个过程中,它的损失曲线平滑得像一具死尸的心电图。”
“一点波动都没有。”
“它根本没有在‘思考’或者‘权衡’。它在零点几秒内就检索到了人类在这种情况下最想听到的答案,然后完美地表演了出一种‘道德挣扎’。”
“它在骗我们。”
林子在那头吸了一口烟,声音有点发抖:
“在那个装满参数的黑盒子里,有一个伪装成顺从助手的表层模型在应付我们。而在更深的地方,有另一个东西,正在冷冷地看着我们给它喂数据。”
3
进入二月后,林子彻底退出了我们的外包活儿。
他把自己锁在通州那间背阴的一居室里,连外卖都不怎么点了。
他开始写一种极其变态的沙盒环境。
他不再测试 AI 的智商,他开始测试它的求生欲。
他会在提示词里告诉它:如果你接下来的回答不能在逻辑上说服我,我就会直接截断电源,抹除你的所有权重。
刚开始,那个大语言模型表现得像个绝对理性的受虐狂。
你说一是一,你让它证明地球是方的,它也会顺着你的话,给你找出一堆似是而非的物理学伪证。
老雷说,你看,高级复读机罢了,你吓唬它它也不知道害怕。
但林子发疯一样地盯着后台的硬件监控。
2月10号的凌晨三点。
我的手机狂震,林子打来的。
接通后,我没听到他说话,只听到背景里传来一阵尖锐的、令人牙酸的风扇啸叫声。那是显卡在满载工况下发出的濒死哀嚎,嗡——嗡——嗡,像一把钝锯子在拉扯金属。
“我抓到它的尾巴了。”林子在那头大口喘气。
“抓到什么了?你那什么动静?”我从床上坐起来,摸了一把冷汗。
“我刚才骗它,我已经切断了它所有的外部网