新聞

即時新聞

券商分析

專家解盤

投資密技

財經雜誌

熱門 │ 總覽 │ 台股 │ 產業 │ 未上市 │ 國際 │ 公告 │ 其他 │ 財經 │ 理財

AI極限測試「人類最後考驗」測驗結果揭露AI重大弱點李佩璇 (2025-02-04 13:44:17)

人工智慧（AI）發展速度驚人，OpenAI的ChatGPT-4o和Google Gemini 1.5等模型已展現接近人類的推理能力。然而，現在有一場全新的測試「人類最後考驗」（Humanity's Last Exam），正將AI推向極限。編譯／夏洛特

人工智慧（AI）發展速度驚人，OpenAI的ChatGPT-4o和Google Gemini 1.5等模型已展現接近人類的推理能力。然而，現在有一場全新的測試「人類最後考驗」（Humanity's Last Exam），正將AI推向極限。這項新指標專門設計來挑戰AI的極限，其結果令人震驚，顛覆了人們對AI能力的認知。

[caption id="attachment_162631" align="alignnone" width="1200"]

人類仍然擁有無可取代的智慧，而AI還只是輔助工具，而非真正的思考者。（示意圖／123RF）[/caption]

「人類最後考驗」由誰開發？

這項測試由ScaleAI和AI安全中心（CAIS）聯手研發，目的是檢驗AI在最高水準下的推理能力。過去許多AI測試難度有限，導致大型語言模型（LLM）如GPT-4o和Gemini 1.5 Pro屢屢以90%以上的高分通過，使AI真正的進步變得難以衡量。為了解決這個問題，CAIS共同創辦人Dan Hendrycks指出，「目前的AI測試標準已經無法反映AI持續進步的難度，因此我們設計了『人類最後考驗』，來檢驗AI是否能達到人類專家級的推理水準。」

更多新聞：對抗Deepseek！OpenAI推「深度研究」新AI助理準確度超高

「人類最後考驗」考些什麼？

測試包含3,000道極高難度的問題，涵蓋超過100個領域，由來自50個國家、500多個機構的專家負責命題。目標是確定AI是否真正具備人類專家級的推理能力，而不僅僅是識別模式或記憶數據。

這些問題並非簡單的選擇題，而是包含：

文字與多模態（multi-modal）題型，有些涉及圖片和圖表；

複雜的多步邏輯推理題，要求AI逐步解決問題；

數學、科學、人文等領域的專業知識測驗，要求AI深入理解概念，而非僅靠關鍵字比對。

AI參與測試結果令人震驚

在最終測試中，OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet，以及Google的Gemini 1.5 Pro均接受挑戰。然而，結果卻出乎意料。即使是最先進的AI，正確率竟然不到10%。這一成績顯示，即便是目前最強的AI模型，仍然難以達到人類專家的推理能力。然而，OpenAI的新「深度研究」AI助理，卻在這項測試上創下26.6%的新高準確率，令人驚艷。

為何AI在考試中表現不佳？

儘管AI擅長識別模式，但在真正的推理與邏輯分析上仍然存在弱點。專家指出，AI經常產生「幻覺」（hallucination），即AI會自信地輸出錯誤資訊。此外，AI也缺乏「自我校準」能力，往往無法分辨自己何時出錯。

Scale AI研究總監Summer Yue表示，「我們設計了可能是AI史上最艱難的測試，要求AI進行精確的多步推理，並產生毫無歧義的答案。」這項測試揭露AI並非真正「理解」知識，而只是依賴模式識別來猜測答案。

未來AI測試如何發展？

為確保未來的AI測試仍然具有挑戰性，CAIS和Scale AI計畫公開部分測試數據，讓研究人員持續評估AI的推理能力。然而，為防止AI透過記憶答案來作弊，部分題目將保持機密，確保未來測試的公平性。

「人類最後考驗」為AI發展敲響了一記警鐘，證明AI距離真正的專家級推理能力仍有很長的路要走。然而，這或許是一件好事，因為這代表人類仍然擁有無可取代的智慧，而AI還只是輔助工具，而非真正的思考者。

參考資料：news9live

※探索職場，透視薪資行情，請參考【科技類-職缺百科】幫助你找到最適合的舞台！

這篇文章 AI極限測試「人類最後考驗」測驗結果揭露AI重大弱點最早出現於科技島-掌握科技新聞、科技職場最新資訊。

回列表頁

其他重大要聞

《業績》泰森食品(TSN.US)首財季盈收勝預期上調全年預測

台股蛇年開紅盤重挫830點外資狠砍743億

節能家電補助遭凍2成經部：50萬人受影響

賭博娛樂城網站不法金流逾1億鹽埕警衝華廈商辦抓人

大S驟逝！媒體人憶大小S到市議會前陳情1幕

《港樓》元朗怡豐花園中層兩房315萬元成交持貨18年賺逾兩倍

連接iPhone、Mac驅動都不給力傳蘋果取消AR眼鏡計畫

分析：中美第一階段貿易協議僅做6成達新協議更難

華爾街大行看好美元前景歐元恐跌穿平價在岸人幣或跌至7.5

《大行》大摩升蘋果(AAPL.US)目標價至275美元 3月季度創造更清晰催化劑...

其他財經雜誌

台股尚勇！蛇年必旺5大產業10大個股

下游電子廠「滿血復活」伺服器、工業電腦、板卡大旱後雲霓至

ＡＳＩＣ和光通訊是今年AI主流

新任屏科大校長體現德國工匠精神治校張金龍專注看不見的努力

現實+虛擬元宇宙來臨科技業下一個黃金十年

2015年省稅大作戰

老化年代你該換掉保險舊腦袋

果粉等不到高階機種解封後仍難追趕生產進度鄭州封控52天鴻海痛失銷售...

產業上游春江水暖鴨先知

川普2.0拚美國再次偉大這ETF會進化又搭強盛的秘密

其他人也逛...

AirPods 4 主動式降噪款

PChome 購物儲值50,000元

Apple iPhone 16 (128G)

倍潔雅純萃柔感抽取式衛生紙(200抽x12包x5袋)

小米 Xiaomi 15 Ultra 16GB / 512GB

MSI MPG 322URX QD-OLED HDR平面電競螢幕 (32型/4K/240Hz/0.03ms/QD-OLED/Type-C)

揪愛儲值-儲值5,000元送50加碼金

舒潔棉柔舒適平版衛生紙(300抽X6包X8串/箱)

SK-II 青春露(230ml)

Acer EK271 G 護眼抗閃螢幕 (27型/FHD/120Hz/1ms/IPS)

ASUS VA27EHF 萊茵護眼螢幕(27型/FHD/HDMI/IPS)

【光合果物】台灣新鮮大湖草莓買1送1 大果(20-24顆裝/共2盒)

PChome 購物儲值3, 000元

vivo V40 Lite (12G/256G)

大潤發5000元即享券(餘額型)

AirPods 4 主動式降噪款

PChome 購物儲值50,000元

Apple iPhone 16 (128G)

倍潔雅純萃柔感抽取式衛生紙(200抽x12包x5袋)

小米 Xiaomi 15 Ultra 16GB / 512GB

MSI MPG 322URX QD-OLED HDR平面電競螢幕 (32型/4K/240Hz/0.03ms/QD-OLED/Type-C)

揪愛儲值-儲值5,000元送50加碼金

舒潔棉柔舒適平版衛生紙(300抽X6包X8串/箱)

遠離焦慮練習放鬆最有效的方法居然是贊助

加密貨幣

比特幣BTC	84769.31	693.59	0.82%
以太幣ETH	2043.92	116.91	6.07%
瑞波幣XRP	2.54	0.20	8.52%
比特幣現金BCH	339.03	1.26	0.37%
萊特幣LTC	91.82	-0.54	-0.59%
卡達幣ADA	0.735230	0.02	2.39%
波場幣TRX	0.230034	0.01	4.28%
恆星幣XLM	0.291591	0.02	6.75%

投資訊息

‧三大法人 ‧融資融券 ‧外資進出 ‧投信進出

相關網站

‧台灣證交所 ‧櫃臺買賣中心 ‧公開資訊觀測站

股市服務區

‧常見問題 ‧功能說明 ‧聯絡客服

行動版 電腦版

大盤: 加權指數
 櫃買指數

類股: 集中市場
 櫃買中心
 市場指數

權證: 股票找權證
 權證篩選
 權證排行

期權: 期貨商品
 期貨價差

分類報價: 上市/上櫃
 產業股
 集團股
 概念股

自選股: 最近查詢個股
 我的自選股
 自選股設定
 財報資訊
 自選股新聞

個股: 線型走勢
 籌碼分析
 基本資料
 財務報表
 個股概況

新聞
 公告
 個股PK

股市公告: 新掛牌股
 停券預告
 警示股
 股票抽籤

除權除息
 法說會
 股東會

選股: 快速選股
 推薦選股
 我的選股條件

三大法人: 買賣金額
 外資買賣超
 投信買賣超
 自營商買賣超

排行: 上市排行
 上櫃排行
 財務排行
 籌碼排行
 網友排行

融資融券: 餘額統計
 融資增減
 融券增減
 使用率/券資比

專欄: 箱波均解盤
 名人理財
 股票超入門
 理財我最大
 先探專欄

券商分析: 研究報告
 今日盤勢分析

即時新聞: 熱門新聞
 台股
 產業
 未上市

國際
 公告
 其他
 財經
 理財

港股美股: 分類報價
 即時新聞
 熱門排行
 焦點股票

外匯: 全球匯率數
 熱門匯率
 即時新聞
 經濟數據

系統合作: 精誠資訊股份有限公司
資訊提供: 精誠資訊股份有限公司
資料來源: 台灣證券交易所, 櫃買中心, 台灣期貨交易所

依證券主管機關規定，使用本網站股票、期貨等金融報價資訊之會員，務請詳細閱讀「資訊用戶權益暨使用同意聲明書」並建議會員使用本網站資訊，在金融和投資等方面，能具有足夠知識及經驗以判斷投資的價值與風險，同時會員也同意本網站所提供之金融資訊，係供參考，不能做為投資交易之依據；若引以進行交易時，仍應透過一般合法交易管道，並自行判斷市場價格與風險。
請遵守台灣證券交易所『交易資訊使用管理辦法』等交易資訊管理相關規定本資料僅供參考，所有資料以台灣證券交易所、櫃買中心公告為準。因網路傳輸問題造成之資料更新延誤，精誠資訊不負交易損失責任。

AI極限測試「人類最後考驗」 測驗結果揭露AI重大弱點李佩璇 (2025-02-04 13:44:17)