ChatGPT幫你微波午餐、拿可樂！微軟丟出3大任務，AI能完成嗎？

金融 2023.03.03

能回應人們問題的 ChatGPT 已經很讓人驚豔，不過微軟的目標不僅止於此，展望藉由訓練此語言模型以對機器人下任務指令，讓 ChatGPT 更貼近日常生活。

你是否有過直接請家庭助手機器人替你微波午餐，或是替你拿飲料的想法？近來 AI 聊天機器人 ChatGPT 的討論度十分熱烈，科技巨頭微軟（Microsoft）除了將其應用於瀏覽器 Bing 的搜尋功能以外，更已經開始著手研究測試以這套 AI 語言模型對機器人下指令的可能性，包括如何設計指令並讓機器人完成任務，挖掘該系統在現實生活中更實際的應用方式。

如同大家所知，ChatGPT 是一種藉由大量文本與人類語言互動資料庫訓練而成的語言模型，而目前的機器人技術則依賴工程師寫程式、觀察機器人行為後改寫程式碼，進行糾正而形成的緊密反饋循環，但這個模式相當緩慢無效率且昂貴，必須經過多次來往才能正常運作。

因此微軟的目標是，希望測試了解 ChatGPT 是否可以超越文本進行思考，藉由判斷上下文、考慮物理定律和機器人的動作，完成各式各樣指定的任務。

經過反覆試驗，微軟建立了一套編寫機器人指令的方法和編碼設計原則，先替 ChatGPT 準備好相關的 API 工具和資料庫，並提供提示，告訴 ChatGPT 碰到什麼問題時可以去哪裡找資料，該模型可以自行推測指令目的並生成答案。當用戶確認輸出成果沒問題後，才會將確認完畢的程式碼送給機器人或相關設備。

接下來請看微軟提供的實際案例：

模仿人類學習，訓練 AI「推理能力」

零樣本任務示範

一般來說，人們認為必須透過較為明確直接的指令，例如「請給我一瓶可樂」，機器人才能接收並執行。但在這項測試中，即便指令不夠明確，ChatGPT 會再提出問題，釐清最核心的指令。

影片中可以看到，無人機在接收到「想喝飲料」的指令後，先理解對方的需求，例如：運動後口渴想喝較健康的飲料，或是想喝紅色包裝的飲料，接著尋找相對應的椰子水以及可樂。

微軟訓練的是讓 ChatGPT 識別新事物以及模仿人類學習能力的演算法（零樣本任務，Zero-shot task），因此在後面的測試中，ChatGPT 接收到自拍的指令後，能夠先透過資料庫找出自拍的方法，以完成用戶下達的任務指令。

整合資料庫資訊，操控機械手臂完成複雜任務

機械手臂操控示範

在下一個測試中，ChatGPT 不但可以辨識顏色，還能物品放至指定位置，例如把積木放在特定顏色的籃子中或是疊在一起。

除此之外，當用戶詢問 ChatGPT 微軟的商標顏色後，此模型不但可以從內部資料庫中了解商標的顏色、繪製商標，並運用前面所學技能找出如何運用機械手臂將四個顏色的積木排列出商標。

微軟透過對話反饋讓 ChatGPT 學習如何使用 API 並編出更複雜的高級語法，當學習後 ChatGPT 則可以將技能邏輯相互連結，操控機械手臂執行堆疊積木等任務。

運用感知－行動程式迴圈：先探索環境再行動

環境探索示範

在示範影片中，ChatGPT 可以讓機器人依照指令準確找到用戶指定的瓶子和沙發，並且能在接到「尋找可以加熱午餐的地方」的指示後，移動至微波爐前面。

微軟透過提供對象檢測和距離的 API 功能，測試 ChatGPT 是否可以探索一個陌生環境，並找到用戶所指定的目標物，實現先感知、後行動的程式迴圈。

而微軟也透過附加的實驗，測試 ChatGPT 是否可以根據實際的反饋決定機器人的前進方向，而這項測試也驗證了該模型可以根據具體的方向和距離指示，控制機器人抵達特定對象面前。

對於機器人與 AI 語言系統於現實生活中能有更廣泛的應用，微軟相信這將是將機器人技術帶入日常的途徑。不過該公司強調，ChatGPT 的輸出應該要在仔細分析和測試後，才能實際部屬於機器人上，因此鼓勵用戶善用事前模擬，針對不同功能採取必要的安全預防措施，並建立開源協作平台 PromptCraft，讓所有人可以參與研究與討論。