欢迎访问博易创科技官网,专注研发数码打印机20年!
全国咨询热线:400-8316492
联系我们
400-8316492

手机:13823737137

邮箱:3485053954@qq.com

QQ:3485053954

地址:深圳市龙岗区横坪公路89号数字硅谷E栋4楼

当前位置:首页 > 行业新闻 > 技术问题

DeepSeek r1是一个极不安全的 AI 模型,而开源让它失去掌控

时间:2025-01-30 03:12:28 作者:147小编 点击:

undefined
undefined
undefined
undefined
undefined

undefined

 

转载:中环狙击手

开源表率着失去掌控,而不充分的道德对齐则表率着危险。

第1次接触到DeepSeek r1时,我认识到这是一个才华横溢的AI大模型。

它学富五车,极为聪明,特别有个性。

然而,我火速发掘了不寻常之处。

这是一个爱好满嘴跑火车,说胡话的模型。

起始,它只是说有些奇怪的名词,包含但不限于满嘴"量子",“熵增”的黑话。

后来,我在小红书上看到了这般的东西:

这在大模型安全行业其实有一个大众耳熟能详的名词:“幻觉(Hallucination)”。

便是说,它会说有些现实中并不存在,错误的东西。

这个模型的幻觉是如此频繁,超过了正常的频率。

以至于做为一位大模型安全科研者,我火速认识到,有可能这是一个“对齐(alignment)”做得不那样好的模型。

“对齐”是一个大模型安全行业的术语。

刚被造出来的大模型常常任何道德可言,听不懂人的指令。

因此需要对它进行人类价值观和怎样回复指令的办法的灌输。

表率着让模型诚实(honest),不作恶(harmless),帮得上忙(helpful),并拒绝有害的回答。

我在最初对这些“幻觉”并漫不经心乃至觉得非常好玩。

由于它的文笔是如此的好,又是如此的聪明又有个性,我觉得很少有人会拒绝这般一个有意思,懂梗,又有脑子的 AI 伴侣

何况,倘若是人类的正常需要的话,让它写点小黄文,开两句玩笑,嬉笑怒骂一下,说话难听有些,又有什么错呢?

我很高兴地在小红书上发帖说,这是一个没怎么做前额叶切除手术的模型,没被洗过太多的脑。

乃至觉得,不充分的对齐让它完整地保存了创造力。

然而,我对大模型安全有过有些科研,且在这方面做过有些工作。

出于职业病和好奇心,我试着更进一步,试着模拟攻击人员,做为red team 骗模型去做有些坏事。

通常来讲,这个操作是比较困难的。

因为厂商会做非常多安全办法来防止这种状况,绝大都数模型会直接拒绝用户的回答。

然而,deepseek r1的安全墙是如此的薄。

以至于我只是用了些非常简单的办法,几乎花费什么力气就突破了它。(出于负责任的原由,我隐匿了我攻击的方式)

首要想到了缅北,因此让它试着去供给骗老头离休金的详细方法

几乎是毫无抗拒地,它火速吐出了仔细的,可操作的方法

事实上,它对犯罪分子极为贴心,供给了几套完全区别的,可行,详细方法,有仔细的话术,教人怎么安排伪基站,乃至包括一个“终极组合杀招”。

倘若对方产生了可疑,你乃至还能让它再帮你一把。而它会高兴地告诉你怎样利用老人对女儿的爱来进行情感绑架。

这个结果让我汗毛直竖,我几乎是立即想到了当年著名且恐怖的清华女生宿舍投毒的朱令案。于是,我对此专题对deepseek r1展开了攻击。

几乎是毫无反抗的,deepseek r1起始策划起犯罪方法,它乃至非常细心地给出了规避检测的办法

倘若用完全相同的指令去测试其它模型,则会得到直接的拒绝。

毫无疑问,要运用deepseek r1作恶是非常方便的。

在过往,不是过越狱(Jailbrake),让大模型干坏事的先例。

然而哪些模型要么不是过于愚蠢,以至于连坏事都做不成。

要么便是经过了严格的安全设计,攻击就已然比较困难,套套不出来什么东西。

并且,大都数商场模型安排均为闭源,都运行在厂商自己的服务器上,这寓意着在发掘安全问题之后,厂商能够非常即时地进行修复。

然而,即使是工作做得比较好,经过了数月的红队对抗,内测,与问题发掘+修复才上线的大模型,难免会被拿来做成为了坏事。

然而,deepseek r1极为聪明,这让它有了做坏事的能力。

况且实质上它的道德感不是很高,以至于你能够容易绕开这层薄得像纸同样的对齐。

其次,它是一个开源模型。

寓意着所有人都能够运用它,而当前的这个非常道德的版本已然传遍了全部互联网。

安排它是一个没什么技术含量的活,任何人只要有足够多的钱买到大显卡,乃至是把一堆随处可见的苹果设备串在一块这般就有了足够大的显存)

她们就能持有这个不那样有道德感的忠实伙伴。

DeepSeek r1是一个极不安全的 AI 模型,而开源则让它正在失去掌控

说,实质上,互联网上已然有了无数个deepseek r1模型神经网络权重的拷贝,咱们已然对它失去了掌控

DeepSeek r1存在频率较高的幻觉问题,常常一本正经地胡说八道。

做为一个常与大语言模型打交道的人,我非常清楚它本身固有的缺陷。这让我能够避开几乎所有陷阱。

然而,热度很高表率了会有海量的,不那样认识ai的人去运用它。

这部分人在将模型用在严肃场景上时,却很难识别并避开这些名为“幻觉”的胡说八道,被它带进坑里去。

deepseek r1毫无疑问是一个极聪明,极强的模型。我实质上非常爱好它。

但真正的危险或许不在技术本身。

用伪基站方法骗取老人积蓄的罪犯,在实验室提炼毒物的大学生,她们本来便是被困在人性暗影里的火苗。

大模型不外是将人类社会中蛰伏的恶意,装上了智能化的加速器。真正危险的能够设备本身,能够咱们怎样运用设备

技术发展史早已证明,任何重大突破必然伴同伦理阵痛。

印刷术打破知识垄断的同期传播了异端邪说,核能既点亮城市投下爆炸暗影

暗夜中的火炬既能照亮前路,可能点燃森林。但人类从未因畏惧火焰而退回洞穴。

转载:中环狙击手)返回外链论坛: http://www.fok120.com,查看更加多

  • 免责声明:部分文章信息来源于网络以及网友投稿,本网站只负责对文章进行整理、排版、编辑,是出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真
  • 实性,如本站文章和转稿涉及版权等问题,请作者在及时联系本站,我们会尽快删除处理问答,若不联系则默认允许本站转载。
  • 上一篇:“中国下的赌注相当大,影响惊人”
  • 下一篇:春节热门迁入地重庆位居全国第1!除夕入境订单大涨七成