AI極限測試「人類最後考驗」 測驗結果揭露AI重大弱點李佩璇 (2025-02-04 13:44:17)




人工智慧(AI)發展速度驚人,OpenAI的ChatGPT-4o和Google Gemini 1.5等模型已展現接近人類的推理能力。然而,現在有一場全新的測試「人類最後考驗」(Humanity's Last Exam),正將AI推向極限。編譯/夏洛特


人工智慧(AI)發展速度驚人,OpenAIChatGPT-4o和Google Gemini 1.5等模型已展現接近人類的推理能力。然而,現在有一場全新的測試「人類最後考驗」(Humanity's Last Exam),正將AI推向極限。這項新指標專門設計來挑戰AI的極限,其結果令人震驚,顛覆了人們對AI能力的認知。


[caption id="attachment_162631" align="alignnone" width="1200"]

人類仍然擁有無可取代的智慧,而AI還只是輔助工具,而非真正的思考者。(示意圖/123RF)[/caption]


「人類最後考驗」由誰開發?


這項測試由ScaleAI和AI安全中心(CAIS)聯手研發,目的是檢驗AI在最高水準下的推理能力。過去許多AI測試難度有限,導致大型語言模型(LLM)如GPT-4o和Gemini 1.5 Pro屢屢以90%以上的高分通過,使AI真正的進步變得難以衡量。為了解決這個問題,CAIS共同創辦人Dan Hendrycks指出,「目前的AI測試標準已經無法反映AI持續進步的難度,因此我們設計了『人類最後考驗』,來檢驗AI是否能達到人類專家級的推理水準。」


更多新聞:對抗Deepseek!OpenAI推「深度研究」新AI助理 準確度超高


「人類最後考驗」考些什麼?


測試包含3,000道極高難度的問題,涵蓋超過100個領域,由來自50個國家、500多個機構的專家負責命題。目標是確定AI是否真正具備人類專家級的推理能力,而不僅僅是識別模式或記憶數據。


這些問題並非簡單的選擇題,而是包含:



  • 文字與多模態(multi-modal)題型,有些涉及圖片和圖表;

  • 複雜的多步邏輯推理題,要求AI逐步解決問題;

  • 數學、科學、人文等領域的專業知識測驗,要求AI深入理解概念,而非僅靠關鍵字比對。


AI參與測試結果令人震驚


在最終測試中,OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet,以及Google的Gemini 1.5 Pro均接受挑戰。然而,結果卻出乎意料。即使是最先進的AI,正確率竟然不到10%。這一成績顯示,即便是目前最強的AI模型,仍然難以達到人類專家的推理能力。然而,OpenAI的新「深度研究」AI助理,卻在這項測試上創下26.6%的新高準確率,令人驚艷。


為何AI在考試中表現不佳?


儘管AI擅長識別模式,但在真正的推理與邏輯分析上仍然存在弱點。專家指出,AI經常產生「幻覺」(hallucination),即AI會自信地輸出錯誤資訊。此外,AI也缺乏「自我校準」能力,往往無法分辨自己何時出錯。


Scale AI研究總監Summer Yue表示,「我們設計了可能是AI史上最艱難的測試,要求AI進行精確的多步推理,並產生毫無歧義的答案。」這項測試揭露AI並非真正「理解」知識,而只是依賴模式識別來猜測答案。


未來AI測試如何發展?


為確保未來的AI測試仍然具有挑戰性,CAIS和Scale AI計畫公開部分測試數據,讓研究人員持續評估AI的推理能力。然而,為防止AI透過記憶答案來作弊,部分題目將保持機密,確保未來測試的公平性。


「人類最後考驗」為AI發展敲響了一記警鐘,證明AI距離真正的專家級推理能力仍有很長的路要走。然而,這或許是一件好事,因為這代表人類仍然擁有無可取代的智慧,而AI還只是輔助工具,而非真正的思考者。



參考資料:news9live


※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台!


這篇文章 AI極限測試「人類最後考驗」 測驗結果揭露AI重大弱點 最早出現於 科技島-掌握科技新聞、科技職場最新資訊

加密貨幣
比特幣BTC 84769.31 693.59 0.82%
以太幣ETH 2043.92 116.91 6.07%
瑞波幣XRP 2.54 0.20 8.52%
比特幣現金BCH 339.03 1.26 0.37%
萊特幣LTC 91.82 -0.54 -0.59%
卡達幣ADA 0.735230 0.02 2.39%
波場幣TRX 0.230034 0.01 4.28%
恆星幣XLM 0.291591 0.02 6.75%
投資訊息
相關網站
股市服務區
行動版 電腦版
系統合作: 精誠資訊股份有限公司
資訊提供: 精誠資訊股份有限公司
資料來源: 台灣證券交易所, 櫃買中心, 台灣期貨交易所
依證券主管機關規定,使用本網站股票、期貨等金融報價資訊之會員,務請詳細閱讀「資訊用戶權益暨使用同意聲明書」並建議會員使用本網站資訊, 在金融和投資等方面,能具有足夠知識及經驗以判斷投資的價值與風險,同時會員也同意本網站所提供之金融資訊, 係供參考,不能做為投資交易之依據;若引以進行交易時,仍應透過一般合法交易管道,並自行判斷市場價格與風險。
請遵守台灣證券交易所『交易資訊使用管理辦法』等交易資訊管理相關規定本資料僅供參考,所有資料以台灣證券交易所、櫃買中心公告為準。 因網路傳輸問題造成之資料更新延誤,精誠資訊不負交易損失責任。