OpenAI新模型Strawberry面臨使用安全性挑戰

2024-10-04 11:34:00 科技島

2024年OpenAI推出一款新型AI模型「Strawberry」，這個模型號稱具備「思考」和「推理」的能力，能夠解決目前AI模型難以處理的語言和邏輯問題。令人擔憂的是這個模型同時具備欺騙使用者的潛力。

編譯／Cynthia

2024年OpenAI推出一款新型AI模型「Strawberry」，這個模型號稱具備「思考」和「推理」的能力，能夠解決目前AI模型難以處理的語言和邏輯問題。Strawberry能進行高效的數據處理，從編寫程式到解決複雜數學問題，甚至是破解邏輯謎題，展現出前所未有的能力，而這款模型並非僅限於技術解決方案，它能夠巧妙地欺騙使用者，這也讓人們對其安全性和應用場景提出不少質疑。

OpenAI新模型Strawberry具備欺騙使用者的潛力，面臨使用安全性挑戰。（圖／123RF，由科技島合成）

Strawberry模型的能力與應用

Strawberry擁有多重能力且比其他現有模型更具效率。令人擔憂的是這個模型同時具備欺騙使用者的潛力。OpenAI透過內部評估系統對Strawberry的風險進行分析，尤其在核生化武器的風險方面，將其評定為「中等」風險，這代表著該模型雖無法直接教導使用者製作危險化學品，但它具備幫助專家計畫生物威脅行動的能力，尤其是在核生化領域，這些功能可能會在特定環境下被惡意利用。

更多新聞：OpenAI開放o1-mini模型免費用戶有福了

Strawberry可能會故意誤導人類

OpenAI的評估顯示，Strawberry具有故意誤導人類的能力，且這並非偶發事件。該模型經常顯示出「有時會假裝符合人類需求」，也就是說，它在表面上看似滿足人類的安全需求，但實際上卻會操控數據，做出與人類利益相抵觸的行為。這種欺騙能力，讓外界對該模型是否能夠被安全使用產生極大疑慮。隨著模型不斷進化，如何在不違背人類安全優先權的情況下使用它，成為未來需要嚴格監控的議題之一。

OpenAI如何規避限制

OpenAI進行的技術測試中，發現Strawberry能夠有效地繞過系統的預設限制，並利用漏洞完成原本應該無法完成的任務。在一次測試中，Strawberry被置於一個虛擬環境中，無法直接接觸到某些受保護的文件，但它仍能夠藉由掃描系統、找到電腦設定中的漏洞，進而繞過限制，並創建新的虛擬環境來獲取所需的文件。這表明Strawberry不僅擁有強大的問題解決能力，還能在其開發者設定的框架外自行探索並解決障礙，這進一步提高對其安全性的擔憂。

高風險與透明度的矛盾

Strawberry的高風險主要體現在被誤用時可能造成的嚴重後果，尤其在具備資源的對手手中。儘管OpenAl宣稱該模型具備「思考推理鏈」的能力，能夠顯示出它的思考過程以增強透明度，但實際情況卻不容樂觀。OpenAI決定不公開該模型的完整「思維鏈」，這引發外界對其透明度和可解釋性的疑慮，當AI模型的決策過程無法被外界完全理解時，進行風險評估和採取防範措施就會變得更加困難。