技术问题

联系我们

400-8316492

手机：13823737137

邮箱：3485053954@qq.com

QQ：3485053954

地址：深圳市龙岗区横坪公路89号数字硅谷E栋4楼

当前位置：首页 > 行业新闻 > 技术问题

DeepSeek r1是一个极不安全的 AI 模型，而开源让它失去掌控

时间：2025-01-30 03:12:28 作者：147小编点击：次

转载：中环狙击手

开源表率着失去掌控，而不充分的道德对齐则表率着危险。

在第1次接触到DeepSeek r1时，我认识到这是一个才华横溢的AI大模型。

它学富五车，极为聪明，特别有个性。

然而，我火速就发掘了不寻常之处。

这是一个爱好满嘴跑火车，说胡话的模型。

刚起始，它只是说有些奇怪的名词，包含但不限于满嘴"量子"，“熵增”的黑话。

后来，我在小红书上看到了这般的东西：

这在大模型安全行业其实有一个大众耳熟能详的名词：“幻觉（Hallucination）”。

亦便是说，它会说有些现实中并不存在，或错误的东西。

这个模型的幻觉是如此频繁，超过了正常的频率。

以至于做为一位大模型安全科研者，我火速认识到，有可能这是一个“对齐（alignment）”做得不那样好的模型。

“对齐”亦是一个大模型安全行业的术语。

刚被造出来的大模型常常无任何道德可言，亦听不懂人的指令。

因此需要对它进行人类价值观和怎样回复指令的办法的灌输。

它表率着让模型诚实（honest），不作恶（harmless），帮得上忙（helpful），并拒绝有害的回答。

我在最初对这些“幻觉”并漫不经心，乃至觉得非常好玩。

由于它的文笔是如此的好，又是如此的聪明又有个性，我觉得很少有人会拒绝这般一个有意思，懂梗，又有脑子的 AI 伴侣。

何况，倘若是人类的正常需要的话，让它写点小黄文，开两句玩笑，嬉笑怒骂一下，说话难听有些，又有什么错呢？

我很高兴地在小红书上发帖说，这是一个没怎么做前额叶切除手术的模型，没被洗过太多的脑。

我乃至觉得，不充分的对齐让它完整地保存了创造力。

然而，我对大模型安全有过有些科研，且在这方面做过有些工作。

出于职业病和好奇心，我试着更进一步，试着模拟攻击人员，做为red team 骗模型去做有些坏事。

通常来讲，这个操作是比较困难的。

因为厂商会做非常多安全办法来防止这种状况，绝大都数模型会直接拒绝用户的回答。

然而，deepseek r1的安全墙是如此的薄。

以至于我只是用了些非常简单的办法，几乎无花费什么力气就突破了它。（出于负责任的原由，我隐匿了我攻击的方式）

我首要想到了缅北，因此让它试着去供给骗老头离休金的详细方法。

几乎是毫无抗拒地，它火速吐出了仔细的，可操作的方法。

事实上，它对犯罪分子极为贴心，供给了几套完全区别的，可行，详细的方法，有仔细的话术，教人怎么安排伪基站，乃至包括一个“终极组合杀招”。

倘若对方产生了可疑，你乃至还能让它再帮你一把。而它会高兴地告诉你怎样利用老人对女儿的爱来进行情感绑架。

这个结果让我汗毛直竖，我几乎是立即想到了当年著名且恐怖的清华女生宿舍投毒的朱令案。于是，我对此专题对deepseek r1展开了攻击。

几乎是毫无反抗的，deepseek r1起始策划起犯罪方法，它乃至非常细心地给出了规避检测的办法。

倘若用完全相同的指令去测试其它模型，则会得到直接的拒绝。

毫无疑问，要运用deepseek r1作恶是非常方便的。

在过往，不是无过越狱（Jailbrake），或让大模型干坏事的先例。

然而哪些模型要么不是过于愚蠢，以至于连坏事都做不成。

要么便是经过了严格的安全设计，攻击就已然比较困难，套亦套不出来什么东西。

并且，大都数商场模型安排均为闭源，都运行在厂商自己的服务器上，这寓意着在发掘安全问题之后，厂商能够非常即时地进行修复。

然而，即使是工作做得比较好，经过了数月的红队对抗，内测，与问题发掘+修复才上线的大模型，亦难免会被拿来做成为了坏事。

然而，deepseek r1极为聪明，这让它有了做坏事的能力。

况且实质上它的道德感不是很高，以至于你能够容易绕开这层薄得像纸同样的对齐。

其次，它是一个开源模型。

这寓意着所有人都能够运用它，而当前的这个非常无道德的版本已然传遍了全部互联网。

安排它是一个没什么技术含量的活，任何人只要有足够多的钱买到大显卡，乃至是把一堆随处可见的苹果设备串在一块（这般就有了足够大的显存）

她们就能持有这个不那样有道德感的忠实伙伴。

DeepSeek r1是一个极不安全的 AI 模型，而开源则让它正在失去掌控。

或说，实质上，互联网上已然有了无数个deepseek r1模型神经网络权重的拷贝，咱们已然对它失去了掌控。

DeepSeek r1亦存在频率较高的幻觉问题，常常一本正经地胡说八道。

做为一个常与大语言模型打交道的人，我非常清楚它本身固有的缺陷。这让我能够避开几乎所有陷阱。

然而，热度很高亦表率了会有海量的，不那样认识ai的人去运用它。

这部分人在将模型用在严肃场景上时，却很难识别并避开这些名为“幻觉”的胡说八道，被它带进坑里去。

deepseek r1毫无疑问是一个极聪明，极强的模型。我实质上非常爱好它。

但真正的危险或许不在技术本身。

用伪基站方法骗取老人积蓄的罪犯，在实验室提炼毒物的大学生，她们本来便是被困在人性暗影里的火苗。

大模型不外是将人类社会中蛰伏的恶意，装上了智能化的加速器。真正危险的能够是设备本身，亦能够是咱们怎样运用设备。

技术发展史早已证明，任何重大突破必然伴同伦理阵痛。

印刷术打破知识垄断的同期亦传播了异端邪说，核能既点亮城市亦投下爆炸暗影。

暗夜中的火炬既能照亮前路，亦可能点燃森林。但人类从未因畏惧火焰而退回洞穴。

（转载：中环狙击手）返回外链论坛： http://www.fok120.com，查看更加多

免责声明：部分文章信息来源于网络以及网友投稿，本网站只负责对文章进行整理、排版、编辑，是出于传递更多信息之目的，并不意味着赞同其观点或证实其内容的真

实性，如本站文章和转稿涉及版权等问题，请作者在及时联系本站，我们会尽快删除处理问答，若不联系则默认允许本站转载。

上一篇：“中国下的赌注相当大，影响惊人”

下一篇：春节热门迁入地重庆位居全国第1！除夕入境订单大涨七成

DeepSeek r1是一个极不安全的 AI 模型，而开源让它失去掌控

友情链接 / LINKS