認識LLM 就知道雲端AI不能沒有它

2024-09-23 13:40:14 科技島

包括Claude、Cohere、Llama在內的不同人工智慧，現已可藉大型語言模型(LLM)與使用者進行對話，也因此在全球範圍內獨領風騷，在雲端運算與人工智慧的時代中掀起一股新浪潮。

編譯／戴偉丞

大型語言模型(LLM)的內涵將隨著知識質與量的累積、改善，變得更為強大，並提供更為完善的服務與產品。（圖／123RF）

大型語言模型運作基礎

該技術藉由大量資料訓練，來理解並產生人類語言的神經網路，該神經網路係以函數進行運作，並形成網路中的不同相互串連並得以傳輸資料的節點，而在不同節點間，也存在具可調整性的參數。在一般的大型語言模型中，通常係由數十億到數兆個參數組成，以反映出人類複雜的語言模式，其中也涉及單字、句子的使用方法，並得出接續語句、回答問題、歸納總結等不同成果。

大型語言模型分類

目前存在於市場中的自然語言模型主要可以以下列三種類型作為歸納。分別是：

自動回歸模型：預測語句中第一個獲最後一個單字，並依據前文生產出符合語境的上下文。

自動編碼模型：係針對被輸入的語句中進行調整與補上缺漏，就文字理解方面有相對不錯的表現；並常被用於篇章總結用途。

Seq2Seq模型：該模型結合前述兩種模型的特色，在文本摘要、語言翻譯的表現上的特別出色。

AWS如何善用語言模型

各個雲端廠商得藉由其充沛的資源以建構強大的大型語言模型。以AWS為例，可以透過其不同產品的功能與服務來約略地觀察，該技術與雲端大廠間的相互合作。

先看Amazon Bedrock。該服務除可以簡化人工智慧應用程式的建構與擴充程序外，並能夠藉由單一API進行多項模型的存取，實現客戶得自定人工智慧模型的策略、確保資料的安全與隱私、建構資料聚合的中央儲存空間，更提供用戶無伺服器的使用體驗。

Amazon SageMaker JumpStart也是個相當經典的案例，該機器學習中心為各種問題場景提供預先訓練模型和解決方案範本，除了允許增量訓練，並得於用戶的基礎設施中進行部署、微調和新增模型，藉此節省大量開發時間。最後則是被譽為多功能工具的Amazon Q，促進應用程式和工作負載的創建、操作和理解。