AI 革命支柱!從矽到分散式計算,加密貨幣+AI 有哪些機會?
人工智慧技術棧包括硬體設備、底層軟體、編譯器和分散式計算,對AI開發和實施至關重要,並影響加密貨幣與AI交叉產業的機會。


人工智慧的迅猛發展基於複雜的基礎設施。AI 技術棧是一個由硬體設備和軟體構成的分層架構,它是目前 AI 革命的支柱。在這裡,我們將深入分析技術棧的主要層次,並闡述每個層次對 AI 開發和實施的貢獻。最後,我們將反思掌握這些基礎知識的重要性,特別是在評估加密貨幣與 AI 交叉產業的機會時,比如 DePIN(去中心化物理基礎設施)項目,例如 GPU 網路。
1、硬體設備層:矽基礎
在最底層是硬體設備,它為人工智慧提供物理計算能力。
- CPU(中央處理器):是計算的基礎處理器。它們擅長處理順序任務,對於通用計算非常重要,包括數據預處理、小規模人工智慧任務以及協調其它組件。
- GPU(圖形處理器):最初設計用於圖形渲染,但因其能夠同時執行大量簡單計算而成為人工智慧的重要組成部分。這種並行處理能力使 GPU 非常適合訓練深度學習模型,沒有 GPU 的發展,現代的 GPT 模型就無法實現。
- AI 加速器:專門為人工智慧工作負載設計的晶片,它們針對常見的人工智慧操作進行了優化,為訓練和推理任務提供了高性能和高能效。
- FPGA( 可程式撰寫陣列邏輯 ):以其可重程式撰寫的特性提供靈活性。它們可以針對特定的人工智慧任務進行優化,特別是在需要低延遲的推理場景中。

2、底層軟體:仲介軟體
AI 技術棧中的這一層至關重要,因為它構建了高級 AI 架構與底層硬體設備之間的橋梁。CUDA、ROCm、OneAPI 和 SNPE 等技術加強了高級架構與特定硬體設備架構之間的聯係,實現了性能的優化。
作為 NVIDIA 的專有軟體層,CUDA 是該公司在 AI 硬體設備市場崛起的基石。NVIDIA 的領導地位不僅源於其硬體設備優勢,更體現了其軟體和生態系整合的強大網路效應。
CUDA 之所以具有如此大的影響力,是因為它深度融入了 AI 技術棧,並提供了一整套已成為該產業事實上標準的優化庫。這個軟體生態構建了一個強大的網路效應:精通 CUDA 的 AI 研究人員和開發者在訓練過程中將其使用傳播到學術界和產業界。
由此產生的良性循環強化了 NVIDIA 的市場領導地位,因為基於 CUDA 的工具和庫生態系對 AI 從業者來說變得越來越不可或缺。
這種軟硬體設備的共生不僅鞏固了 NVIDIA 在 AI 計算前沿的地位,還賦予了公司顯著的定價能力,這在通常商品化的硬體設備市場中是罕見的。
CUDA 的主導地位和其競爭對手的相對默默無聞可以歸因於一系列因素,這些因素創造了顯著的進入壁壘。NVIDIA 在 GPU 加速計算產業的先發優勢使 CUDA 能夠在競爭對手站穩腳跟之前建立起強大的生態系。儘管 AMD 和 Intel 等競爭對手擁有出色的硬體設備,但他們的軟體層缺乏必要的庫和工具,並且無法與現有技術棧無縫整合,這就是 NVIDIA/CUDA 與其它競爭對手之間存在巨大差距的原因。
3、編譯器:翻譯者
TVM(張量虛擬機)、MLIR(多層中間表示)和 PlaidML 為跨多種硬體設備架構優化 AI 工作負載的挑戰提供了不同的解決方案。
TVM 源於華盛頓大學的研究,因其能夠為各種設備(從高性能 GPU 到資源受限的邊緣設備)優化深度學習模型而迅速獲得關注。其優勢在於點對點的優化流程,在推理場景中尤為有效。它完全抽象化了底層供應商和硬體設備的差異,使得推理工作負載能夠在不同硬體設備上無縫運行,無論是 NVIDIA 設備還是到 AMD、Intel 等。
然而,在推理之外,情況變得更加複雜。AI 訓練的硬體設備可替代計算這一終極目標仍未解決。不過,在這方面有幾個值得一提的倡議。
MLIR,Google 的項目,採用了更基礎的方法。通過為多個抽象級別提供統一的中間表示,它旨在簡化整個編譯器基礎設施,以針對推理和訓練應用。
PlaidML,現在由 Intel 領導,將自己定位為這場競賽中的黑馬。它專注於跨多種硬體設備架構 ( 包括傳統 AI 加速器之外的架構 ) 的可移植性,展望了 AI 工作負載在各類計算平台上無縫運行的未來。
如果這些編譯器中的任何一個能夠很好地整合到技術棧中,不影響模型性能,也不需要開發人員進行任何額外修改,這極可能威脅到 CUDA 的護城河。然而,目前 MLIR 和 PlaidML 還不夠成熟,也沒有很好地整合到人工智慧技術棧中,因此它們目前並不會對 CUDA 的領導地位有明顯威脅。

4、分散式計算:協調者
Ray 和 Horovod 代表了 AI 產業分散式計算的兩種不同方法,每種方法都解決了大規模 AI 應用中可擴充功能處理的關鍵需求。
由 UC Berkeley 的 RISELab 開發的 Ray 是一個通用分散式計算架構。它在靈活性方面表現出色,允許分配機器學習之外的各種類型的工作負載。Ray 中基於 actor 的模型極大簡化了 Python 程式碼的並行化過程,使其特別適用於強化學習和其它其它需要複雜及多樣化工作流程的人工智慧任務。
Horovod,最初由 Uber 設計,專注於深度學習的分散式實現。它為在多個 GPU 和伺服器節點上擴充功能深度學習訓練過程提供了一種簡潔而高效的解決方案。Horovod 的亮點在於它的使用者友善性和對神經網路數據並行訓練的優化,這使得它能夠與 TensorFlow、PyTorch 等主流深度學習架構完美融合,讓開發人員能夠輕鬆地擴充功能他們的現有訓練程式碼,而無需進行大量的程式碼修改。
5、結束語:從加密貨幣角度
與現有 AI 棧的整合對於旨在構建分散式計算系統的 DePin 項目至關重要。這種整合確保了與目前 AI 工作流程和工具的兼容性,降低了採用的門檻。
在加密貨幣產業,目前的 GPU 網路,本質上是一個去中心化的 GPU 租賃平台,這象徵著向更複雜的分散式 AI 基礎設施邁出的初步步伐。這些平台更像是 Airbnb 式的市場,而不是作為分散式雲端來運作。儘管它們對某些應用有用,但這些平台還不足以支持真正的分散式訓練,而這是推進大規模 AI 開發的關鍵需求。
像 Ray 和 Horovod 這樣的目前分散式計算標準,並非為全球分散式網路設計,對於真正工作的去中心化網路,我們需要在這一層上開發另一個架構。一些懷疑論者甚至認為,由於 Transformer 模型在學習過程中需要密集的通訊和全局函數的優化,它們與分散式訓練方法不兼容。另一方面,樂觀主義者正在嘗試提出新的分散式計算架構,這些架構可以很好地與全球分布的硬體設備配合。Yotta 就是試圖解決這個問題的新創公司之一。
NeuroMesh 更進一步。它以一種特別創新的方式重新設計了機器學習過程。通過使用預測編碼網路 (PCN) 去尋找局部誤差最小化的收斂,而不是直接去尋找全局損失函數的最優解,NeuroMesh 解決了分散式 AI 訓練的一個根本瓶頸。
這種方法不僅實現了前所未有的並行化,還使在消費級 GPU 硬體設備(如 RTX 4090)上進行模型訓練成為可能,從而使 AI 訓練民主化。具體來說,4090 GPU 的計算能力與 H100 相似,但由於帶寬不足,在模型訓練過程中它們未被充分利用。由於 PCN 降低了帶寬的重要性,使得利用這些低端 GPU 成為可能,這可能會帶來顯著的成本節省和效率提升。
GenSyn,另一家雄心勃勃的加密 AI 新創公司,以構建一套編譯器為目標。Gensyn 的編譯器允許任何類型的計算硬體設備無縫用於 AI 工作負載。打個比方,就像 TVM 對推理的作用一樣,GenSyn 正試圖為模型訓練構建類似的工具。
如果成功,它可以顯著擴充功能去中心化 AI 計算網路的能力,通過高效利用各種硬體設備來處理更複雜和多樣的 AI 任務。這個雄心勃勃的願景,雖然由於跨多樣化硬體設備架構優化的複雜性和高技術風險而具有挑戰性,但如果他們能夠執行這一願景,克服諸如保持異構系統性能等障礙,這項技術可能會削弱 CUDA 和 NVIDIA 的護城河。
關於推理:Hyperbolic 的方法,將可驗證推理與異構計算資源的去中心化網路相結合,體現了相對務實的策略。通過利用 TVM 等編譯器標準,Hyperbolic 可以利用廣泛的硬體設備配置,同時保持性能和可靠性。它可以聚合來自多個供應商的晶片(從 NVIDIA 到 AMD、Intel 等),包括消費級硬體設備和高性能硬體設備。
這些在加密 AI 交叉產業的發展預示著一個未來,AI 計算可能變得更加分散式、高效和可訪問。這些項目的成功不僅取決於它們的技術優勢,還取決於它們與現有 AI 工作流程無縫整合的能力,以及解決 AI 從業者和企業實際關切的能力。
【免責聲明】市場有風險,投資需謹慎。本文不構成投資建議,使用者應考慮本文的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
- 本文經授權轉載自:《深潮 TechFlow》
- 原文作者:IOSG Ventures
你可能想知道