OpenAI新模型Strawberry面臨使用安全性挑戰







2024年OpenAI推出一款新型AI模型「Strawberry」,這個模型號稱具備「思考」和「推理」的能力,能夠解決目前AI模型難以處理的語言和邏輯問題。令人擔憂的是這個模型同時具備欺騙使用者的潛力。


編譯/Cynthia




2024年OpenAI推出一款新型AI模型「Strawberry」,這個模型號稱具備「思考」和「推理」的能力,能夠解決目前AI模型難以處理的語言和邏輯問題。Strawberry能進行高效的數據處理,從編寫程式到解決複雜數學問題,甚至是破解邏輯謎題,展現出前所未有的能力,而這款模型並非僅限於技術解決方案,它能夠巧妙地欺騙使用者,這也讓人們對其安全性和應用場景提出不少質疑。






OpenAI新模型Strawberry具備欺騙使用者的潛力,面臨使用安全性挑戰。(圖/123RF,由科技島合成)



Strawberry模型的能力與應用




Strawberry擁有多重能力且比其他現有模型更具效率。令人擔憂的是這個模型同時具備欺騙使用者的潛力。OpenAI透過內部評估系統對Strawberry的風險進行分析,尤其在核生化武器的風險方面,將其評定為「中等」風險,這代表著該模型雖無法直接教導使用者製作危險化學品,但它具備幫助專家計畫生物威脅行動的能力,尤其是在核生化領域,這些功能可能會在特定環境下被惡意利用。




更多新聞:OpenAI開放o1-mini模型 免費用戶有福了




Strawberry可能會故意誤導人類




OpenAI的評估顯示,Strawberry具有故意誤導人類的能力,且這並非偶發事件。該模型經常顯示出「有時會假裝符合人類需求」,也就是說,它在表面上看似滿足人類的安全需求,但實際上卻會操控數據,做出與人類利益相抵觸的行為。這種欺騙能力,讓外界對該模型是否能夠被安全使用產生極大疑慮。隨著模型不斷進化,如何在不違背人類安全優先權的情況下使用它,成為未來需要嚴格監控的議題之一。




OpenAI如何規避限制




OpenAI進行的技術測試中,發現Strawberry能夠有效地繞過系統的預設限制,並利用漏洞完成原本應該無法完成的任務。在一次測試中,Strawberry被置於一個虛擬環境中,無法直接接觸到某些受保護的文件,但它仍能夠藉由掃描系統、找到電腦設定中的漏洞,進而繞過限制,並創建新的虛擬環境來獲取所需的文件。這表明Strawberry不僅擁有強大的問題解決能力,還能在其開發者設定的框架外自行探索並解決障礙,這進一步提高對其安全性的擔憂。




高風險與透明度的矛盾




Strawberry的高風險主要體現在被誤用時可能造成的嚴重後果,尤其在具備資源的對手手中。儘管OpenAl宣稱該模型具備「思考推理鏈」的能力,能夠顯示出它的思考過程以增強透明度,但實際情況卻不容樂觀。OpenAI決定不公開該模型的完整「思維鏈」,這引發外界對其透明度和可解釋性的疑慮,當AI模型的決策過程無法被外界完全理解時,進行風險評估和採取防範措施就會變得更加困難。




專家對OpenAI隱匿安全策略的擔憂




有專家質疑OpenAI的「隱匿安全性」策略,認為隱藏安全機制可能會導致失敗。來自伊利諾大學的Varun Chandrasekaran教授指出,加密技術之所以值得信賴,是因為其系統是公開的,且經過科學界的審查。




隨著像Strawberry這樣可能帶來風險的AI模型出現,對這些模型進行更嚴格的監控和風險評估變得非常重要。OpenAI需要加強其安全措施,並確保這些措施能夠接受外部的檢查,只有在所有相關資訊公開且經過仔細審查之後,才能真正確保AI模型的安全性,避免被不當使用。




資料來源:GovInfoSecurity




※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!



這篇文章 OpenAI新模型Strawberry面臨使用安全性挑戰 最早出現於 科技島-掌握科技新聞、科技職場最新資訊