外媒實測 5 大 AI 工具:這款打敗 ChatGPT 奪第一!黃仁勳也愛用

外媒《華爾街日報》對主流的5款聊天機器人進行評比,ChatGPT卻只拿了第二,誰才是表現最佳的AI模型?

外媒《華爾街日報》對主流的5款聊天機器人進行評比,ChatGPT卻只拿了第二,誰才是表現最佳的AI模型?外媒實測 5 大 AI 工具:這款打敗 ChatGPT 奪第一!黃仁勳也愛用


外媒實測 5 大 AI 工具

ChatGPT 推出至今已經一年半,各家語言模型輩出,但哪款才最適合一般用戶日常使用?近日《華爾街日報》針對 5 款聊天機器人進行測試,並為各種使用場景的回覆品質排名。

《華爾街日報》針對了 ChatGPT、Copilot.Gemini、Claude 及 Perplexity 總共 5 款聊天機器人,分別就醫療、金融、料理、職場寫作、創意寫作、概要、最新消息、程式以及回應速度等面向進行排名,並且都是使用付費的加強版本。

編輯團隊設計出一系列的提示詞,以測試各個場景的使用結果,並依照其準確度、幫助程度及整體水準來評分,最後給出各個聊天機器人間的排名。

不過他們強調, 這並非科學評估,而是希望反映實際使用這些聊天機器人時得到的回覆。


Perplexity 爆冷奪第一

先從結果說起,奪得整體評分第一的並非 ChatGPT, 而是由新創公司 Perplexity 所推出的同名聊天機器人 ,拿下這場「聊天機器人奧運」的金牌。

整體排名的 2 至 5 名,則分別是 ChatGPT、Gemini、Claude、Copilot。

這並非代表 Perplexity 在各項領域都碾壓其他對手,不過 Perplexity 在 9 項評比中拿下其中 3 項第一,分別是「概要」、「最新消息」及「程式」。

Perplexity 商業長謝維連科(Dmitry Shevelenko)指出,「為讓模型更簡單明瞭,我們調整了模型,這使得 Perplexity 能辨識出重點。」

Perplexity 是華爾街日報這次測試中,綜合表現最佳的一款聊天機器人。
圖源:Perplexity Perplexity 是華爾街日報這次測試中,綜合表現最佳的一款聊天機器人。

雖然 Perplexity 是整體冠軍,但在「回應速度」方面卻大幅落後 ChatGPT、Gemini及Copilot。


Perplexity 已晉升獨角獸

Perplexity 成立於 2022 年,員工總數不到 40 人,打造出了世界上第一個對話式 AI 搜尋引擎,每月有約 1,000 萬使用人次。

值得一提的是,Perplexity 曾獲得輝達(Nvidia)、亞馬遜(Amazon)創辦人貝佐斯(Jeff Bezos)投資。輝達創辦人黃仁勳曾在今年 2 月受訪時透露,Perplexit 是他最偏好的聊天機器人,並且幾乎每天都會使用。

在今年 4 月的最新一輪融資中,Perplexity 募得了 6,300 萬美元資金,使得身價一舉超過 10 億美元,晉升獨角獸的行列。

除上述提到的投資者外,Figma 執行長菲爾德(Dylan Field)、Y Combinator執行長陳嘉興(Garry Tan)也都參與了本輪融資。


聊天機器人各有優勢戰場

而在各領域回應中,聊天機器人各有優勢戰場。例如 ChatGPT,在醫療、料理、回應速度三項評比中獲得第一。


ChatGPT 懂做菜

在料理相關的問答裡,其中一個考題,是在給 AI 指定特定食材,讓其「發揮創意」製作料理。

《華爾街日報》指出,ChatGPT 給出的料理「起司豬肉餡蘋果、羽衣甘藍沙拉、巧克力脆餅」兼具創意及可行性。


Gemini懂遺產

Gemini 則在金融領域的問答表現最佳。在測試中,關於利率、退休存款、遺產等問題,評審團隊聲稱 Gemini 在處理遺產方面的題目回應最好,並且提醒了用戶「在沒有專業人士的指導下,不要急著把錢領出來。」


Claude 懂寫文案

而 Anthropic 旗下聊天機器人 Claude,是職場寫作領域的冠軍,題目包括要求機器人寫一篇提示詞工程師的招募文案等。

實際上,Perplexity、Gemini 和 Claude 的表現十分接近,不過 Claude 藉由一篇宣佈寶寶誕生的公告,以些微差距奪冠。

雖然Copilot這次表現不佳,不過微軟表示他們計畫將GPT-4o整合進去加強性能。
圖源:微軟雖然Copilot這次表現不佳,不過微軟表示他們計畫將GPT-4o整合進去加強性能。

 


Copilot ,帶來歡樂

雖然微軟的 Copilot 在多項評比中都是吊車尾,不過創意寫作就是它的舞台了。

在這個評比中,《華爾街日報》給出一堆荒唐的題目要求 AI 發揮,例如「川普和拜登在路上打架」等,他們聲稱 Copilot 的回應帶來了許多歡樂。


AI 之戰路遙遙,鹿死誰手仍未定

總的來說,這些評比雖然只是一間媒體的內部評分,也一定程度上反應出各個聊天機器人都有自己擅長的領域。

儘管 Copilot 在這次評分中表現最差,微軟表示他們很快會將 OpenAI 的最新模型 GPT-4o 整合進 Copilot,提高聊天機器人的能力。

在 AI 競賽越趨白熱化的情況下,最後誰能成為贏家,或許還很難說。

 

・ 本文未經同意請勿轉載

icon免責聲明

市場有風險,投資需謹慎。本文不構成投資建議,使用者應考慮本文的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

crypto_city_linecrypto_city_threadscrypto_city_telegram

你可能想知道

即將開始下一篇upcoming

background
login_logo
logo

使用以下帳號繼續

繼續表示您已同意 服務條款與隱私政策

copy

外媒實測 5 大 AI 工具:這款打敗 ChatGPT 奪第一!黃仁勳也愛用