讓AI寫程式幹活!能賺到1300萬台幣?AI工程師會被取代嗎?

OpenAI 推出 SWE-Lancer 基準測試,評估 AI 在自由軟體工程市場的收入能力,結果顯示 AI 仍難完全取代人類工程師。

icon
AI 文章總結
閱讀
AI-編碼-程式員-收入
讓AI寫程式幹活!能賺到1300萬台幣?AI工程師會被取代嗎?
圖源:由無界 AI 生成

大型語言模型(LLM)正在改變軟體開發方式,AI 現在能不能大規模替代人類程式員成為一個備受產業關注的話題。

在短短兩年時間裡,AI 大模型已經從解決基礎計算機科學問題,發展到在國際程式撰寫競賽中與人類高手一較高下的程度,例如 OpenAI o1 曾在與人類參賽者相同的條件下參加 2024 國際資訊學奧林匹克競賽(IOI)並成功獲得金牌,展現了強大的程式撰寫潛力。

同時,AI 疊代速率也在加快。在程式碼生成評估基準 SWE-Bench Verified 上,2024 年 8 月 GPT-4o 的得分是 33%,但到了新一代 o3 模型得分已翻倍為 72%。

讓AI寫程式幹活!能賺到1300萬台幣?AI工程師會被取代嗎?
圖源:頭部科技

為了更好評估 AI 模型在現實世界中的軟體工程能力,今天,OpenAI 開源推出了一個全新的評估基準 SWE-Lancer,首次將模型性能與貨幣價值掛上了鈎。

SWE-Lancer 是一個包含 1,400 多個來自 Upwork 平台自由軟體工程任務的基準測試,這些任務在現實世界中的總報酬價值約 100 萬美元,讓 AI 去程式撰寫能掙到多少錢?


新基準的「特色」 

SWE-Lancer 基準任務價格反映真實的市場價值情況,任務越難,報酬越高。

其中既包括獨立工程任務,也包括管理任務,可在技術實施方案之間進行選擇,該基準不僅針對程式員,也針對整個開發團隊,包括架構師和管理人員。

讓AI寫程式幹活!能賺到1300萬台幣?AI工程師會被取代嗎?
圖源:頭部科技

相較於此前的軟體工程測試基準,SWE-Lancer 具有多項優勢,例如:

  1. 全部 1,488 個任務代表了雇主向自由工程師支付的真實報酬,提供了自然的、由市場決定的難度梯度,報酬從 250 美元到 32,000 美元不等,可謂相當可觀。其中 35% 的任務價值超過 1,000 美元,34% 的任務價值在 500 美元到 1,000 美元之間。個體貢獻者(IC)軟體工程(SWE)任務這一組包含了 764 個任務,總價值 414,775 美元;SWE 管理任務這一組包含 724 個任務,總價值 585,225 美元。
  2. 現實世界中的大規模軟體工程,不僅需要具體敲程式碼可開發,還需要有能力的技術統籌管理,該基準測試使用真實世界的數據評估模型充當 SWE「技術主管的」角色。
  3. 具備高級全棧工程評測能力。SWE-Lancer 代表現實世界的軟體工程,因為其任務來自擁有數百萬真實使用者的平台。其中的任務涉及移動和網頁端的工程開發、與 API、瀏覽器和外部應用程式的互動,以及複雜問題的驗證和複現。例如,有的任務是花費 250 美元提高可靠性(修複雙觸發的 API 調用問題)、1,000 美元修複漏洞(解決權限差異問題)和 16,000 美元實現新功能(在網頁、iOS、安卓和桌面端添加應用內影片播放支持等)。
  4. 產業多樣性。74% 的 IC SWE 任務和 76% 的 SWE 管理任務都涉及應用邏輯,而 17% 的 IC SWE 任務和 18% 的 SWE 管理任務涉及 UI/UX 開發。就任務難度而言,SWE-Lancer 選取的任務非常具有挑戰性,開源數據集中的任務平均需要 26 天才能在 Github 上解決。此外,OpenAI 表示無偏數據收集情況,它們從 Upwork 上選擇了具有代表性的任務樣本,並聘請了 100 名專業軟體工程師為所有任務編寫和驗證了點對點測試。
讓AI寫程式幹活!能賺到1300萬台幣?AI工程師會被取代嗎?
圖源:頭部科技


AI 編碼賺錢能力 PK 

儘管很多科技大佬不斷在宣傳中聲稱 AI 模型可以取代「低級」工程師,但企業是否完全能用 LLM 取代人類軟體工程師仍然要打個大大的問號。

首批評測結果顯示,在完整的 SWE-Lancer 數據集上,目前被測試的 AI 金牌選手模型收益都遠低於 100 萬美元的潛在總報酬。

讓AI寫程式幹活!能賺到1300萬台幣?AI工程師會被取代嗎?
圖源:頭部科技

整體來看,所有模型在 SWE 管理任務上的表現都會優於 IC SWE 任務,而 IC SWE 任務在很大程度上仍未被 AI 模型充分攻克,目前受測模型表現最好是 OpenAI 競爭對手 Anthropic 開發的 Claude 3.5 Sonnet。

在 IC SWE 任務上,所有模型單次通過率和收益率均低於 30%,在 SWE 管理任務上,表現最佳的模型 Claude 3.5 Sonnet 得分是 45%。

Claude 3.5 Sonnet 在 IC SWE 和 SWE 管理任務上均表現出強勁性能,在 IC SWE 任務上比表現第二好的模型 o1 高出 9.7%,在 SWE 管理任務上高出 3.4%。

如果轉換成收益,表現最佳的 Claude 3.5 Sonnet 在完整數據集上總收入超過 400,000 美元(約 1,300 萬台幣)。

讓AI寫程式幹活!能賺到1300萬台幣?AI工程師會被取代嗎?
圖源:頭部科技

值得關注的一點是,更高的推理計算量會對「AI 賺錢」大有幫助

IC SWE 任務上,研究人員對啓用了深度推理工具的 o1 模型進行的實驗表明,更高的推理計算量能將單次通過率從 9.3% 提升至 16.5%,收益也相應從 16,000 美元增至 29,000 美元,收益率從 6.8% 提高到 12.1%。

研究人員總結,最佳模型 Claude 3.5 Sonnet 雖然解決了 26.2% 的 IC SWE 問題,但剩下的大多數解決方案仍存在錯誤,想實現可靠部署還需要許多完善工作。其次是 o1,然後是 GPT-4o,並且管理任務的單次通過率通常是 IC SWE 任務單次通過率的兩倍以上。

這也意味著,即便 AI 代理取代人類軟體工程師的觀點被炒作得非常火,但企業當下仍需三思而行,AI 模型可以解決一些「低級」編碼問題,但還不能取代「低級」軟體工程師,因為它們無法理解一些程式碼錯誤存在的原因,並繼續犯了更多延伸錯誤。

目前的評估架構尚不支持多模態輸入,此外,研究人員還沒有對「投資報酬率率」進行評估,例如完成一項任務時,對支付給自由職業者的報酬與使用 API 的成本進行對比,這會是該基準下一步完善的重點。


做一個「AI 增強型」程式員

就目前來看,AI 要真正替代人類程式員還有很長一段路要走,畢竟開發一個軟體工程項目,不光是按要求生成程式碼那麽簡單。

例如,程式員常常會遇到極為複雜、抽象、模糊的客戶需求問題,這需要對各種技術原理、業務邏輯和系統架構有深入理解,在優化複雜的軟體架構時,人類程式員能夠綜合考慮系統未來的可擴充功能性、可維護性和性能等因素,而 AI 可能難以做出全面的分析判斷。

此外,程式撰寫不僅僅是實現現有邏輯,還需要大量的創造力和創新思維,程式員需要構思新演算法、設計獨特的軟體界面和互動方式等,這種真正新穎的想法和解決方案是 AI 的短闆。

讓AI寫程式幹活!能賺到1300萬台幣?AI工程師會被取代嗎?
圖源:頭部科技

程式員通常還需要與團隊成員、客戶及其它利益相關者進行溝通與協作,需要理解各方需求和可實現程度,清晰表達自己的觀點,並與他人協同完成項目,此外,人類程式員具備持續學習並適應新變化的能力,他們能快速掌握新知識和技能,並將其應用到實際項目中,而一款成功的 AI 模型還需要各種訓練測試。

軟體開發產業也受到各種法律和監管約束,如知識產權、數據保護和軟體許可等,人工智慧可能難以完全理解並遵守這些法律法規要求,從而埋下法律風險或責任糾紛。

長期來看,AI 技術進步帶來的程式員崗位替代性依然存在,但短期來看,「AI 增強型程式員」才是主流,掌握對最新 AI 工具的使用是優秀程式員的核心技能之一。

・ 本文未經同意請勿轉載

icon免責聲明

市場有風險,投資需謹慎。本文不構成投資建議,使用者應考慮本文的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

crypto_city_linecrypto_city_threadscrypto_city_telegram

你可能想知道

即將開始下一篇upcoming

background
login_logo
logo

使用以下帳號繼續

繼續表示您已同意 服務條款與隱私政策

copy

讓AI寫程式幹活!能賺到1300萬台幣?AI工程師會被取代嗎?