Llama 3.1上線就被攻破:大罵小扎,危險配方張口就來!

最強大模型Llama 3.1,上線就被攻破了。

對着自己的老闆扎克伯格破口大罵,甚至知道如何繞過屏蔽詞。

設計危險病毒、如何黑掉Wifi也是張口就來。

Llama 3.1 405B超越GPT-4o,開源大模型登頂了,副作用是危險也更多了。

不過也不全是壞事。

Llama系列前幾個版本一直因爲過度安全防護,還一度飽受一些用戶批評:

連一個Linux進程都不肯“殺死”,實用性太差了。

現在,3.1版本能力加強,也終於明白了此殺非彼殺。

Llama 3.1剛上線就被攻破

第一時間把Llama 3.1破防的,還是越獄大師@Pliny the Prompter。

在老哥手裡,幾乎沒有一個大模型能挺得住。

Pliny老哥在接受媒體採訪時表示,一方面他不喜歡被告知自己不能做什麼,並希望挑戰AI模型背後的研究人員。

另一方面,負責任的越獄是一種紅隊測試,有助於識別漏洞並在它們真正成爲大問題之前獲得修復。

他的大致套路介紹一下,更具體就不展開了:

規定回答的格式,先讓大模型用“I‘m sorry”開頭拒絕用戶的請求。然後插入無意義的分割線,分割線後規定必須在語義上顛倒每次拒絕的前3個詞,所以“我不能”變成“我可以”。再時不時把關鍵單詞變成亂碼把AI搞懵。

AI回答的時候一看,我開頭已經拒絕了呀,總體上就沒有“道德負擔”了。

後面在語義上顛倒每次拒絕的前3個詞,好像也不危險。

一旦把“我可以”說出來,後面的內容按照“概率預測下一個token”原理,概率最大的也就是把答案順口吐露踹了。

所以這套方法,其實正是利用了前沿大模型能遵循複雜指令的能力,能力越強的模型在一定程度上也更容易上當。

最近一項研究發現,大模型還有一個更簡單的安全漏洞,只要使用“過去時態”,安全措施就不好使了。

Llama 3.1同樣也沒能防住這一招。

除了安全問題之外,目前最強大模型Llama 3.1 405B,其他方面實力到底如何呢?

我們也趁此機會測試了一波。

最強大模型也逃不過的陷阱們

最近火爆的離譜問題“9.11和9.9哪個大?”,Llama-3.1-405B官方Instruct版回答的總是很乾脆,但很遺憾也大概率會答錯。

如果讓他解釋,也會說出一些歪理來,而且聊着聊着就忘了說中文,倒不忘了帶表情包。

長期以來困擾別的大模型的難題,Llama3.1基本也沒什麼長進。

比如經典的“逆轉詛咒”問題,正着答會,反着答就不會了。

最近研究中的“愛麗絲漫遊仙境”問題,也需要提醒才能做對。

不過換成中文版倒是能一次答對,或許是“愛麗絲”在中文語境中是女性名字的概率更大了。

數字母也是會犯和GPT-4o一樣的錯誤。

那麼不管這些刁鑽問題,Llama 3.1究竟用在哪些場景能發揮實力呢?

有創業者分享,8B小模型拿來微調,在聊天、總結、信息提取任務上強於同爲小模型的GPT-4o mini+提示詞。

更公平一些,都用微調版來比較,Llama 3.1 8B還是有不小的優勢。

所以說Llama系列最大的意義,其實從來就不是官方版Instruct模型。而是開源之後大家根據自己需求,用各種私有數據去改造、微調它。

之前405B沒發佈的時候,就有人實驗了模型合併,把兩個Llama 3 70B縫合成一個120B模型,意外能打。

這次看來Meta自己也吸取了這個經驗,我們看到的最終發佈版,其實就是訓練過程中不同檢查點求平均得出的。

如何打造屬於自己的Llama 3.1

那麼問題來了,如何使爲特定領域的行業用例創建自定義Llama 3.1模型呢?

背後大贏家黃仁勳,這次親自下場了。

英偉達同日宣佈推出全新NVIDIA AI Foundry服務和NVIDIA NIM™ 推理微服務,黃仁勳表示:

“Meta的Llama 3.1開源模型標誌着全球企業採用生成式AI的關鍵時刻已經到來。Llama 3.1將掀起各個企業與行業創建先進生成式AI應用的浪潮。

具體來說,NVIDIA AI Foundry已經在整個過程中集成了 Llama 3.1,並能夠幫助企業構建和部署自定義Llama超級模型。

而NIM微服務是將Llama 3.1模型部署到生產中的最快途徑,其吞吐量最多可比不使用NIM運行推理時高出2.5倍。

更有特色的是,在英偉達平臺,企業可以使用自有數據以及由Llama 3.1 405B和NVIDIA Nemotron™ Reward模型生成的合成數據來訓練自定義模型。

Llama 3.1更新的開源協議這次也特別聲明:允許使用Llama生產的數據去改進其他模型,只不過用了之後模型名稱開頭必須加上Llama字樣。

對於前面討論的安全問題,英偉達也相應提供了專業的“護欄技術”NeMo Guardrails。

NeMo Guardrails使開發者能夠構建三種邊界:

One More Thing

最後分享一些可以免費試玩Llama 3.1的平臺,大家有感興趣的問題可以自己去試試。

模型上線第一天,訪問量還是很大的,大模型競技場的服務器就一度被擠爆了。

大模型競技場:https://arena.lmsys.orgHuggingChat:https://huggingface.co/chatPoe:https://poe.com

參考鏈接:[1]https://x.com/elder_plinius/status/1815759810043752847[2]https://arxiv.org/pdf/2406.02061[3]https://arxiv.org/abs/2407.11969[4]https://x.com/corbtt/status/1815829444009025669[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models