在2022年6月份一期英國”經濟學人”(The Economist)的封面故事中宣稱,一種稱為「基礎模型(Foundation model)」的人工智慧模型已進入其工業時代。此篇報導引起產業界的廣泛注意。這個比喻暗示如印刷機、蒸汽機和電動馬達一般,「基礎模型」將成為下一世代的通用科技。所謂的通用科技是指該技術不只適用於一個目的,它可以像蒸氣或電力一般,可適用於多種產業,且可達成不同的用途。
本文將探討什麼是「基礎模型」?為什麼在現在這個時間點即將成為通用科技?「基礎模型」有什麼特性?它可以有哪些應用?會給我們帶來哪些便利性?另一方面,它可能帶來哪些挑戰和風險?這些都跟我們未來的工作和生活息息相關。
什麼是「基礎模型」?
史丹福大學將基礎模型定義為「在大量資料(通常使用大規模自我監督學習)上訓練的模型,可以適應廣泛的下游任務。這些模型基於遷移學習(transfer learning)的標準想法、深度學習的最新進展和電腦系統的大規模應用,展現了令人驚艷的新興能力,並顯著提升了大量下游任務的性能。」為了研究推廣基礎模型,史丹福大學最近特地在其史丹福人本人工智慧機構(Stanford Institute for Human-Centered AI)之下成立了史丹福基礎模型研究中心(Stanford Center for Research on Foundation Models),以促進社群的對話,並發展嚴謹的基礎模型的訓練和評估準則。
為什麼是現在?
基礎模型的興起歸功於機器學習中經常被重複提起的“大即是美(bigger is better)”的箴言。這種第六感式的直覺得到許多研究的支持,這些研究顯示模型的效能隨著運算量的增加而提升,使其成為推進最先進技術的一致性方法。OpenAI 宣稱,用於訓練最大人工智慧的計算量每 3.4 個月成長一倍,超越了摩爾定律。 AlphaGo Zero(2018年)花費的計算量是 Alexnet(2012年)的 30 萬倍,這是模型不斷大型化競賽的有力證明。
“大即是美”的箴言與模型架構和硬體的快速創新、資料的爆炸式成長以及唾手可得的計算能力在催化神經網絡成長方面密不可分。隨著更強大的硬體將平行運算能力的極限不斷向前推展,人工智慧模型的訓練變得更快、效率更高。另一方面,數據量的大幅成長,也滿足了人工智慧模型對數據越來越旺盛的需求。
同時,資金雄厚的政府和企業慷慨資助人工智慧研究,這些研究產生了複雜的機器學習演算法。特別是,自我監督學習的普及顯著減少了標記資料的數量,而這些資料通常是昂貴且不可擴增的。在自然語言處理(NLP)領域,自我監督學習產生了自回歸語言模型。不久之後,業界採用了包含句子雙向編碼器的 Transformer 架構(一種神經網路架構),繼而開創了 BERT、GPT-2、RoBERTa 和 T5 等基礎模型的時代。
基礎模型有什麼特性?
從技術角度來看,基礎模型是使用自我監督學習訓練的深度神經網路。儘管這些技術已經存在多年,但真正開創突破性進展的是它們創建模型的規模。
最近的基礎模型包含數千億到數萬億個參數,並在數百 GB 的資料上進行訓練。現有的基礎模型大多使用最先進的遷移學習。
遷移學習雖然不是基礎模型不可或缺的一部分,但它具備下列特性,使其成為基礎模型的理想核心:
- 它們可以很容易平行化
遷移學習在訓練和推理階段都可以很容易地平行化。這個屬性對於自然語言處理(NLP) 尤其重要,其中以前最先進的模型——包括循環神經網路(RNN) 和長短期記憶神經網路(LSTM)—都是按照順序處理資料,因此並不能平行化。
- 他們的隱性偏見較少
相較於與其他當代模型(例如卷積神經網絡(CNN) 和循環神經網路),遷移學習具有最小的隱性偏見。在機器學習領域中,隱性偏見(implicit bias) 是指藉由考慮輸入資料的某些特徵做出的設計選擇—例如,CNN 中的特徵局部性和 RNN 中特徵的順序依賴性。由於內含更少的隱性偏見,遷移學習是一種比其他模型更通用的架構,這使得它更適合建構基礎模型。然而,由於眾所周知的隱性偏見和數據之間存在取捨性,這也意味著遷移學習需要更多的訓練資料,進而使基礎模型對數據量的胃口變得更大。
基礎模型有哪些常見的應用?
基礎模型時常應用於訓練依賴於自然語言處理(NLP) 和自然語言生成(NLG) 的人工智慧應用程式。新模型在諸如建議電子郵件中的下一個單詞,或為圖像中的事物命名等任務,以及創作詩歌等更深奧的任務上,遠遠優於舊的機器學習模型。初期的知名應用例子包括:
- BERT:BERT 代表Bidirectional Encoder Representations from Transformers。它通過同時處理從左到右和從右到左兩種方向的文本以確定單詞的上下文,幫助人工智慧程式理解文本中語義模糊的單詞的上下文。
- GPT-3:GPT-3的全稱是 Generative Pre-trained Transformer 3,使用深度學習算法來生成看似由人類編寫的文本。 GPT-3 常用於網站生成產品描述和新聞摘要。
- DALL-E 2:使用一種稱為“擴散(diffusion)”的過程從自然語言的描述中創建逼真的圖像和藝術。DALL-E 2 是 WALL-E 和 Salvador Dalí 的合成詞。
基礎模型所帶來的便利性和風險
到目前為止,人工智慧研究人員和開發人員必須為每個應用案例重新訓練模型,這使得他們得收集大量專屬於特定任務的資料集。相反地,基礎模型提供基於通用目的的模型,可以使用現有的資料將其應用於特定的案例。如此一來,基礎模型將使組織能夠更輕鬆地將人工智慧建置或整合到他們的營運中。
因此,基礎模型可以使大型企業更容易以更低的成本執行人工智慧專案。公司無需花費數百萬美元投資高性能雲端 GPU 來訓練機器學習模型,而是可以使用經過預先訓練過的資料,並將注意力和預算聚焦在為特定專案調整模型上。
然而,基礎模型的批評者擔心,這種可客製化的“罐裝大型神經網絡”使用如此多的資料而且包含如此多的深度學習層,以至於人類無法理解修正後的模型如何計算出特定的輸出。舉例來說,4年前一個名為 BERT 的1億1千萬 參數使其成為一個大模型。但當今最先進的人工智慧程式的規模是BERT的 1萬倍,參數超過一萬億。例如:北京智源人工智能研究院所開發出來的超大規模預訓練模型,號稱中國首個全球最大萬億模型“悟道”(WuDaoCorpora),參數量達1.75萬億。這種類型的黑盒子漏洞使基礎模型面臨資料病毒攻擊的風險,這種病毒攻擊的目的在傳播假消息或故意引入機器偏誤。
結論
基礎模型代表了人工智慧系統在世界上建構和部署方式的典範轉移的啟始點。它們已經在自然語言處理領域奠定基礎,並正在電腦視覺、語音識別和強化學習等其他領域進行探索。
有鑑於它們的潛力,我們可以期待基礎模型超越研究領域,進而徹底改變人工智慧在商業上的應用。企業內的自動化流程將不再需要資料科學家團隊為他們想要加以自動化的每項任務從頭開始訓練模型;相反地,他們可以根據基準參數訓練模型並為每個個別案例進行微調,不僅可以達到客製化的目的,且可更迅速地以更低成本達成任務。
或許,誠如”經濟學人”所說的:我們的世界正進入基礎模型的工業化時代。它將在文字、圖像和藝術生成,甚至是醫療應用領域中遍地開花。
【參考資源】
- “Huge “foundation models” are turbo-charging AI progress”, The Economist, Jun 11th 2022
- Rishi Bommasani and Percy Liang, “Reflections on Foundation Models” October 18, 2021
- “Foundation Models – A New Paradigm of AI”, Datagen, July 14, 2022
- Margaret Rouse, “Foundation Model AI” August 25, 2022
- Tehseen Zia, “Foundation Models: AI's Next Frontier”, August 12, 2022