萬字總結:AI大模型50個核心關鍵詞解讀 精華
1. Large Language Models (LLMs ,大語言模型)
所有AI應用中的中心樞紐,也就是AI應用的“大心臟”,具備智能化問答、診斷、推理分析能力,
目前LLM 指參數規模從數億到數千億甚至更多、通常來說,模型參數規模越大說明模型的記憶/擬合能力越強,以自監督目標在大規模文本/多模態數據上預訓練,從而具有廣泛語言理解與生成能力的神經網絡模型。
而對于大模型除了具備智能化追外,也有一些問題存在,例如:
- 幻覺問題:模型編造事實
- 帶有偏見:訓練數據存在偏見
- 對抗性提示:模型容易受 prompt 攻擊或誤導。
2. Transformer Architecture ( Transformer架構)
Transformer這個詞往往會隨著大模型出現,而且這個有很強的技術性,可以這么來理解,大模型技術目前之所以能夠快速發展起來,大部分原因是基于Transformer架構的方式來的。
而它所解決的問題就是過去大模型對于文本處理和信息容量問題,也就是:長文本和記憶問題;
在2017年論文《Attention Is All You Need》中Transformer的設計被提出,通過基于 注意力機制(Attention)(下面會講到),來徹底解決了長依賴和并行計算問題。
現在主流的大模型都是基于Transformer架構來實現的,例如GPT系列、Claude、文心大模型、Qwen系列等等。
在Transformer架構中最核心的機制就是:Attention,簡單來描述就是當模型讀到一個詞,比如 “蘋果”,它會去關注上下文里的相關詞,比如 “水果”、“香蕉”、“超市”,并賦予不同權重。
一個典型的Tranformer架構的流程:
3. Attention Mechanisms ( 注意力機制)
簡單來說,Attention 就是讓模型在處理輸入時,學會關注最關鍵且相關的部分。
- 類似于人類讀文章時,并不是對所有字都一樣關注,而是會特別注意一些關鍵詞。
- 在神經網絡里,Attention 會給輸入序列中的每個詞分配一個權重,決定它對當前預測有多大貢獻。
而對于Attention(注意力)它本身其實無法處理太多復雜信息,那怎么辦?這時候通過引入多頭注意力(Multi-Head Attention ),讓多個人同時去處理,每個人(Head)關注輸入的不同方面,比如:
- A可能關注句法關系
- B可能關注語義關聯
- 最后再把多個人的信息拼接起來。
其實結合上面的大模型和Transformer來說,注意力機制可以有效進行并行化操作,以及對于超長文本內容的處理;
4. Token Embeddings ( Token向量化)
Token這個詞都比較熟悉,我們目前使用的所有大模型它的計費描述都是基于Token來收費的,簡單來理解就是我們在跟大模型交流的時候,一般是通過文字(語音也是轉的文字)交流,那每個文字(中文)大約是1.5~2 token,按照字符大小來計算。
Token = 文本的最小處理單位,可以是字符、單詞或子詞
而Embeddings表示是向量化,因為機器只能處理數字(0或者1),所以需要把不同的文字內容它的相似度轉化為向量模式存儲,而向量就可以把離散的Token(輸入/輸出內容)轉換成連續的內容,供模型使用。
例如
- Embeddings 可以把語義相近的詞映射到相近的向量空間中:
- "king" - "man" + "woman" ≈ "queen"
- "apple" 和 "orange" 的向量距離比 "apple" 和 "car" 更近
5. Fine-tuning (模型微調)
模型微調和RAG,這倆是模型在應用場景中的一個典型,模型微調(Fine-tuning)是基于預訓練的大語言模型(如 GPT、BERT)在我們特定任務或領域數據上繼續訓練,使模型更適應特定需求;
在微調中,可以微調模型的所有參數(full fine-tuning),也可以只微調部分參數(如 LoRA、Adapter、Prefix Tuning)
大概過程是:
- 選擇預訓練模型
- 準備任務數據(分類、問答、生成等)
- 在任務數據上繼續訓練模型參數
- 模型學會特定任務或領域知識
6. Prompt Tuning(提示詞調優)
Prompt Tuning 是一種 輕量級的模型適配方法,通過在 大模型輸入端(Prompt) 學習一組可訓練參數,而不修改原始模型權重,從而讓模型在特定任務上表現更好。
簡單理解:不改模型身體,只調模型的“說話方式”,讓它更懂你的任務。
- 傳統 Prompt
手動設計文本提示(如 "請總結下面文章:"),依賴人工經驗。
優點:無需訓練,缺點:靈活性和性能受限。
- Prompt Tuning
學習一個 連續向量表示(soft prompt),這些向量在訓練過程中可更新。
輸入到大模型的 embedding 層,與原始輸入拼接后喂入模型。
優點:訓練參數極少(通常千級~百萬級),適合 參數量大的 LLM 微調。
Prompt Tuning 重點在于不改模型本體,只訓練輸入端的可學習提示詞內容,使大模型快速適應新任務的一種高效微調方法。
7. Prompt Engineering (PEFT, 參數高效微調)
Prompt Engineering 是提示詞工程,在最開始大模型火熱的時候,關于提示詞這個概念非常火熱。
為什么Prompt很重要?
原因在于:大模型是 基于條件生成模型,其實類似于和專家溝通聊天,至少要表達清楚自己的訴求是什么,背景是什么?才能讓對方更容易理解吧,而這些讓在大模型里面也是同樣道理,人的一些結構化表達/輸出能力在大模型里面也同樣適用。
好的 prompt 可以:
- 提高回答的準確性和完整性
- 控制生成內容的風格、格式或邏輯
- 減少無關或錯誤輸出
壞的 prompt 會導致:
- 模型跑題
- 回答不完整或錯誤
- 生成不符合預期風格
一個典型的提示詞流程如下:
對于普通人來說,學會使用提示詞(prompt)是應用大模型的第一步,而懂得如何寫一個好的提示詞真的可以作為一個專業人士,真是這個已經是一個比較熱門的崗位。
8. RAG(檢索知識庫)
而RAG(Retrieval-Augmented Generation,檢索增強生成),是模型結合外部系統的能力來提供信息查看,一般先從內部知識庫中檢索相關文檔,然后將這些文檔作為上下文輸入到生成模型中,再生成答案。
RAG的大概流程:
- 用戶提問
- 將問題轉為向量,向知識庫檢索相似文檔
- 將檢索到的文檔拼接到問題上下文
- 生成模型生成答案
特性 | Fine-tuning | RAG |
知識存儲 | 模型內部參數 | 外部知識庫 |
數據需求 | 高(需要標注數據) | 中(知識庫可自建) |
知識更新 | 需要重新微調 | 直接更新知識庫即可 |
推理速度 | 快(直接生成) | 較慢(檢索 + 生成) |
靈活性 | 針對特定任務 | 可處理多任務、多領域 |
風險 | 過擬合,遺忘舊知識 | 檢索依賴,答案不穩定 |
9. Parameter Efficient Fine-Tuning(PEFT,參數高效微調)
Parameter-Efficient Fine-Tuning(PEFT) 是指在 大模型微調 時,不對模型的全部參數進行更新,而只訓練 少量附加參數或關鍵模塊,以適應特定任務。
核心目標:在 保持原模型知識的同時,用 極少量參數 實現任務適配,降低訓練成本與存儲開銷。
傳統微調(Full Fine-Tuning):更新模型所有權重,參數量龐大,成本高。
PEFT 通過以下方式實現高效微調:
LoRA(Low-Rank Adaptation)
- 對關鍵權重矩陣加上 低秩增量矩陣:
- 只訓練 A、B 矩陣,原模型權重 W 凍結。
- 優點:訓練參數量極少(通常 <1% 原模型參數)。
Prompt Tuning / Prefix Tuning
- 在輸入 embedding 或 Transformer 層前添加 可訓練前綴(soft prompt)。
- 不修改模型權重,只訓練提示向量。
Adapter Modules
- 在模型每層插入小型 Adapter 網絡,只訓練 Adapter,原模型權重凍結。
- 典型:BERT Adapter、T5 Adapter。
BitFit
- 只微調模型的偏置參數(Bias),極端高效。
方法 | 微調范圍 | 參數量 | 優勢 | 劣勢 |
Full Fine-Tuning | 全部模型參數 | 全部 | 性能最優 | 顯存大、成本高 |
PEFT | 附加模塊 / Prompt / Adapter / LoRA | 極少 | 高效、易遷移 | 極端復雜任務可能略低于全量微調 |
LoRA | 權重低秩增量 | <1% | 高效、易部署 | 需支持矩陣分解 |
10. LoRA (Low-Rank Adaptation 參數高效微調)
LoRA(Low-Rank Adaptation) 是一種 參數高效微調(PEFT)方法,通過在大模型關鍵權重矩陣上加上 低秩增量矩陣 來實現任務微調,而不更新原模型權重。
LoRA的核心在于:凍結大模型原有權重,只訓練少量附加參數,實現高效、低成本的微調。
11. Knowledge Distillation(知識蒸餾)
Knowledge Distillation(知識蒸餾) 是一種 模型壓縮與遷移技術,通過讓一個 小模型(Student)學習大模型(Teacher)的行為,使小模型在保留性能的同時更輕量化、更高效。
通過把大模型的“知識”傳遞給小模型,讓小模型達到接近大模型的效果,但計算量更小。
知識蒸餾的好處在于:
- 模型壓縮:大模型知識遷移到小模型,減少計算資源消耗。
- 部署友好:小模型推理速度快,適合移動端或邊緣設備。
- 提升泛化:通過軟標簽提供更多信息,Student 在小數據下效果更好。
簡單總結來說就是: 讓小模型模仿大模型的行為或特征,從而獲得類似性能,同時顯著降低推理成本
12. MoE (Mixture of Experts)
MoE(Mixture of Experts) 是一種 大模型架構設計,通過在模型中引入 多個專家子模型,并由 路由器(Gating Network) 決定每次輸入由哪些專家處理,實現 稀疏激活、參數高效利用。
核心在于:不讓每個樣本都經過全量模型,只激活部分專家,從而降低計算成本并提高模型容量。
簡單的可以理解為:
專家混合模型 等于公司中的多個專家團隊:
- 每個員工是一個專家網絡
- 路由器像經理,根據任務把問題分配給最適合的團隊
- 任務處理只調用部分團隊,而不是全公司全員出動
13. Distributed Training(分布式訓練)
分布式訓練是指將深度學習模型的訓練任務分布到多個計算資源(如多張 GPU、多臺機器、多機多卡集群)上,以縮短訓練時間、支持更大模型和更大數據集的訓練。
對于大模型(如 GPT、LLaMA、DeepSeek 等),單臺機器往往 顯存不足 或 訓練時間過長,在大模型(如 GPT、LLaMA)時代,單機單卡無法承載數百億甚至上萬億參數的訓練并且機器往往 顯存不足 或 訓練時間過長,因此分布式訓練成為核心技術。
14. Transfer Learning(遷移學習)
遷移學習是一種對于模型訓練中提升訓練效率的方式, 具體指的是:將一個模型在過去 源任務(Source Task) 或 大規模數據集 上學到的知識,遷移到 目標任務(Target Task) 當前任務上,以減少目標任務所需的數據和訓練成本。
通俗來說,就是那過去歷史東西來訓練新的任務,這樣可以降低對于新數據的依賴,現在很多大模型中都使用小模型來做蒸餾,讓小模型數據提供給大模型來訓練。
在 大語言模型(LLM) 里,遷移學習就是:
- 模型先在海量通用語料上進行 預訓練(Pre-training)。
- 然后再在特定領域或任務上進行 微調(Fine-tuning / Instruction Tuning / RLHF)。
與 In-Context Learning 的區別
- 遷移學習(Transfer Learning)
- 改變模型參數(Fine-tuning、Adapter、LoRA 等)。
- 本質是“持久學習”。
- 例子:用 ChatGPT 微調一個客服機器人模型。
上下文學習(In-Context Learning, ICL)
- 不改變參數,只靠 Prompt 里的上下文“臨時學習”。
- 本質是“一次性學習”。
- 例子:在 Prompt 里給幾個對話示例,模型即時模仿客服回答。
15. Few-Shot Learning(小樣本學習)
在傳統機器學習里,要讓模型學會一個新任務,通常需要大量標注數據(Supervised Learning)。
但是在大語言模型(LLMs,例如 GPT 系列、LLaMA、Claude 等)中,Few-Shot Learning指的是: 通過在提示(Prompt)詞中給模型提供少量示例(通常 1~10 個),模型就能夠理解并泛化到新的任務,而無需再進行專門的模型參數更新或再訓練。
與之相反的就是 Zero-Shot Learning,它的話就是不給任何示例,直接依賴模型的通用知識。
而另一個就是Fine-tuning (微調),需要更新模型權重,通常用于大規模新任務適配。
和Few-Shot Learing的最好體現就是 In-Context Learning (上下文記憶)這個后面會講到這個關鍵詞
16. Model Distillation(模型蒸餾)
模型蒸餾是一種 模型壓縮與知識遷移 技術。其核心思想是:
- 先訓練一個大型的、高性能的教師模型(Teacher Model)
- 再用教師模型的輸出(概率分布、隱藏特征等)來指導一個較小的學生模型(Student Model)的訓練。
這樣,學生模型能夠在保持盡量接近教師模型性能的前提下,大幅減少計算資源消耗(參數規模、推理延遲、存儲占用)。
17. Model Quantization(模型量化)
模型量化(Quantization) 是一種模型壓縮與加速技術,在大模型中經常會看到量化版本,其實就是模型做了壓縮,
通過將模型中 權重參數(Weights) 從高精度浮點數(通常是 FP32)壓縮為低比特表示(FP16、INT8、INT4 甚至二值),以減少 存儲占用 和 計算開銷,同時盡可能保持模型精度。
在大模型力量化是部署和推理階段的關鍵優化手段,尤其適合在 GPU 顯存受限 或 設備推理 場景中使用。
核心問題在于:
- 顯存/內存占用太大
一個 175B 參數的 LLM(FP32)需要 700GB+ 顯存,難以在普通 GPU 上運行。
INT8 量化可以縮小 4 倍,INT4 可縮小 8 倍。
- 推理速度慢
低比特運算(如 INT8)在現代硬件(GPU Tensor Cores、TPU、ARM CPU)上更高效。
- 能耗與成本降低
數據存取和計算能耗顯著下降,更適合邊緣部署。
18. Model Pruning(模型剪枝)
模型剪枝(Model Pruning) 是一種 模型壓縮技術,通過 移除模型中冗余、不重要的參數或神經元,在盡量保持精度的前提下,減少模型的大小和推理開銷。
直觀理解:就像修剪一棵樹,把多余的枝葉去掉,讓它更輕巧高效。
隨著大語言模型(LLM)和多模態模型規模不斷擴大(數百億甚至上千億參數):
- 計算開銷大:推理延遲高,成本昂貴。
- 部署受限:無法在邊緣設備或低資源場景運行。
- 能耗問題:訓練和推理的碳排放過高。
剪枝的常見策略
- 基于權重大小:去掉數值接近 0 的權重。
- 基于梯度:衡量參數對損失函數的敏感度,去掉影響小的參數。
- 基于重要性評分:例如用 Fisher 信息矩陣衡量參數的重要性。
- 迭代剪枝:逐步剪枝并微調,避免一次性大幅度削減造成性能崩潰。
模型剪枝就是通過去掉不重要的參數或結構,讓大模型更小更快,同時盡量保持性能,它是 LLM 優化與部署的重要手段,通常與 量化、蒸餾、MoE 等技術一起配合使用。
19. Model Overfitting (模型過擬合)
過擬合(Overfitting) 是指 模型在訓練數據上表現很好,但在未見過的新數據(測試集/真實場景)上表現較差 的現象。
過擬合的原因:
- 模型復雜度過高
參數量太大,學習能力過強,能“記住”訓練集
在大模型中尤為常見
- 訓練數據不足或分布單一
數據量小,模型只能死記硬背
樣本分布不代表真實場景
- 訓練過程不當
訓練輪次過多,模型過度擬合訓練集特征
學習率、正則化等超參選擇不合理
而與之相反的是模型泛化。
20. Model Generalization(模型泛化)
模型泛化 指的是一個機器學習模型在 未見過的新數據(測試集或真實場景數據) 上依然能夠保持良好表現的能力。
- 如果模型只在訓練數據上表現好,但在新數據上表現差,這就說明 泛化能力不足。
- 泛化能力的強弱,決定了模型在現實應用中的價值。
訓練過程本質上是讓模型從訓練數據中學習到規律,而不是死記硬背:
- 訓練誤差低:說明模型學會了擬合訓練數據。
- 泛化誤差低:說明模型學到的規律具有普適性,能遷移到新數據。
- 如果訓練誤差低但泛化誤差高,就意味著模型發生了 過擬合。
21. Knowledge Graphs ( 知識圖譜)
知識圖譜(Knowledge Graph, KG) 是一種通過 圖結構 表示實體(Entity)及其關系(Relation)的知識表示方式。
在 AI 模型和 Agent 中,知識圖譜的作用主要有:
- 結構化知識存儲:彌補大模型“參數記憶”的局限,提供顯式可控的知識庫。
- 語義推理:基于圖結構可以做邏輯推理、路徑搜索。
- 可解釋性:圖譜提供了“因果鏈條”,讓模型回答更透明。
- 知識對齊:大模型可能幻覺(Hallucination),圖譜可以作為事實檢查。
知識圖譜相關技術設計:
圖數據庫:Neo4j、TigerGraph、JanusGraph
- RDF/OWL:語義網標準,適合語義推理
- Embedding + KG:將知識圖譜實體/關系向量化(Knowledge Graph Embedding, KGE),便于與大模型融合
知識圖譜在大模型和AI Agent中的應用場景:
- 增強檢索(RAG + KG)
在 Retrieval-Augmented Generation (RAG) 中,知識圖譜作為知識源,提供高質量、結構化的事實。
- 推理與決策
多跳推理(Multi-hop Reasoning):例如通過圖譜找出“某公司 CEO 的國籍”。
- 個性化推薦
通過用戶行為和物品關系圖,實現解釋性推薦。
- AI Agent 的記憶模塊
- 長期記憶不僅能存儲文本片段,還可以存儲成圖譜,方便 Agent 做知識管理和推理。
22. A2A (Agent-to-Agent)
A2A(Agent-to-Agent) 是指 智能體之間的直接交互與協作,在多智能體系統(MAS, Multi-Agent System)中,智能體不僅與環境交互,還能與其他智能體進行信息交流、任務協調或策略學習。
讓智能體之間能夠協作、競爭或協調完成任務,而不僅僅依賴環境反饋。
23. MCP (Model Control Plane)
MCP(Model Control Plane) 是指 管理、調度和監控大模型生命周期及服務的控制層,負責協調模型的部署、版本管理、資源分配、策略執行和運行時監控。
核心在于:將模型的運行管理從推理計算中分離出來,形成一個獨立控制層,使模型管理更高效、可觀測和可擴展。
24. Function Calling(函數調用)
Function Calling (函數調用) 是一種允許大型語言模型(LLM)根據用戶輸入識別它需要的工具并決定何時調用該工具的機制。
基本工作原理如下:LLM 接收用戶的提示詞,LLM 決定它需要的工具,執行方法調用,后端服務執行實際的請求給出處理結果,大語言模型根據處理結果生成最終給用戶的回答。
25. Chain-of-Thought(CoT思維鏈)
Chain-of-Thought簡稱 CoT,解釋為思維鏈,在解釋之前我們可以想一下我們自己對于問題的解決和思考是怎么樣的?是不是要先理解問題,然后在針對理解問題再次拆解問題,然后在解答問題?而思維鏈就是這種邏輯。
現在的很多模型都具備深度思考能力,比如DeepSeek最先發布的時候,我們在問它問題的時候,它會先思考一下這個問題,然后組織一下這個問題語言描述,做問題拆解,然后在調用大模型來進行回答。
所以,我們大概可以明白思維鏈是一種提示策略,旨在通過讓模型在回答問題時逐步解釋其推理過程,從而提高其在邏輯推理、數學問題和常識推理等復雜任務的準確性,思維鏈這個概念最早是2022年Google研究人員提出的,在現在的很多大模型研究中都有廣泛的應用。
下面是關于思維鏈的流程和原理:
- 逐步推理:通過要求模型逐步思考,減少了因直覺或不完整推理導致的錯誤。
- 可解釋性:輸出中間過程使得用戶能夠檢查模型的思路,便于糾錯和后處理。
- 增強學習:模型在訓練中接觸過大量帶解釋的文本,能夠更好地對齊到這種分布,從而提高表現。
26. In-Context Learning (上下文記憶)
In-Context Learning:大語言模型在推理過程中,不改變模型參數,而是通過 輸入的提示(Prompt)和上下文信息,來快速學習并完成新任務的能力。
比如,我們在跟AI模型溝通過程中,肯定是交互性的,并不是簡單的問一句答一句,我們在問一句的時候,當前會話的前面信息也會發送給模型,不然,模型就不知道之前問的問題是什么,就會導致回答沒有關聯性;
這里核心的基礎點在于:
- 模型在預訓練階段,已經見過各種語言模式(翻譯、推理、分類、對話等)。
- 因此它具備“泛化的潛在能力”,只需要通過上下文引導,就能調用對應的模式。
自回歸 Transformer 結構
- 每個 token 的預測都是條件在“前文上下文”之上的:
- 所以模型天生就是“上下文驅動”的。
27. MLOps Pipelines
MLOps Pipelines 是一個流水線,通過自動化流水線方式,來管理從數據、模型訓練、評估、部署、監控的全生命周期流程。
28. Model Versioning
Model Versioning(模型版本管理)意思指:對不同階段、不同配置、不同數據訓練出來的模型進行 系統化的版本控制,以確保 可追溯性、可復現性、可比較性,并支持在生產環境中靈活地 回滾與升級。
模型中為什么需要進行版本管理,由于模型也需要不斷的迭代和優化,常見的變更類型如下:
- 不同數據集訓練出來的模型
- 不同超參數下的模型
- 不同架構/微調方式(LoRA、全量 Fine-tuning)
- 不同優化方式(量化、蒸餾、剪枝)
- 不同應用場景(通用 vs 醫療 vs 金融)
如果如果沒有版本管理,就無法回答:
- 這個模型是在哪份數據上訓練的?
- 為什么線上 A/B 測試效果下降?
- 如何回滾到上周的穩定版本?
29. Batch vs Real-time Inference(批量與實時推理)
- 批量推理:一次處理大量數據,通常用于離線分析。
- 實時推理:對單條或小批量數據進行即時預測,用于在線應用。
30. Vector Databases(向量數據庫)
Vector Database 是專門為存儲、索引和檢索高維向量(embeddings 向量表示)而設計的數據庫。
這些向量通常來源于大模型(如 Transformer 模型)的輸出,用于表示文本、圖像、音頻、視頻等數據的語義特征。
它的核心目標是:
- 高效地進行 相似性搜索(Similarity Search),例如最近鄰搜索(k-Nearest Neighbor, kNN)
- 支持大規模 Embedding 管理
- 作為 RAG(Retrieval-Augmented Generation)、推薦系統、多模態搜索等的底層基礎設施
31. Embedding Pipelines(嵌入向量流水線)
Embedding Pipelines 指的是將原始輸入數據(文本、圖像、音頻、多模態等)通過大模型轉換為稠密向量表示(Embeddings),并進行后續處理的端到端流程。
這些向量捕捉了輸入的語義特征,可用于相似性檢索、分類、推薦、聚類、下游任務輸入等。
32. Synthetic Data Generation數據合成
利用模型生成與真實數據相似的虛擬數據,用于訓練或測試。
數據合成是指通過 人工生成、程序生成、或模型生成的方式,構造出模擬真實世界的訓練數據,用于 增強模型訓練 或 解決數據不足的問題。
它常用于以下場景:
- 真實數據獲取成本高(例如醫學影像、金融數據)
- 數據存在隱私或合規限制(如 GDPR、HIPAA)
- 需要生成多樣化的長尾樣本(如異常檢測、稀有類別)
33. Feature Stores(特征存儲)
集中存儲和管理機器學習模型使用的特征(Feature),支持特征的復用、版本控制以及實時或批量獲取。
作用:提高特征管理效率,保證訓練與推理一致性。、
Feature Store 是一個 集中化管理、存儲和服務機器學習特征的系統,核心目的是實現 訓練與推理特征的一致性、特征復用以及 特征工程的自動化與標準化。
可以把它理解為:
- 數據科學家的 “特征倉庫”
- 機器學習模型的 “統一數據接口”
為什么需要 Feature Stores
- 訓練與推理一致性
避免“訓練數據中有的特征,線上推理時不可用”這種問題。
保證模型上線后的特征分布與訓練時一致。
- 特征復用
不同模型、不同項目可以共享特征,避免重復計算。
- 特征管理與治理
集中管理特征的版本、計算邏輯、依賴關系。
提供可追溯性,支持實驗復現。
- 提升開發效率
數據科學家無需重復寫特征計算邏輯,專注于模型優化和業務價值。
34. Model Monitoring(模型監控)
Model Monitoring(模型監控) 是指在 模型部署上線后,對其 性能、數據輸入輸出、系統運行狀態 進行持續跟蹤與分析的過程,確保模型在真實環境中 穩定、可靠、合規 地運行。
模型監控是在模型上線后,持續跟蹤性能、數據和行為,檢測漂移與異常,保障模型穩定、可控與合規運行的過程。
它是 MLOps 流水線的核心環節,直接決定模型是否能長期在生產中保持價值。
35. AI Agent (AI智能體)
AI Agent 是一個能夠感知環境、做出決策并執行動作的智能系統。
它不僅僅是一個大模型,而是一個 閉環系統,包含感知、推理、規劃和行動的能力,通過一系列的工作流、編排能力來構建一個系統級的可用。
可以簡單理解:AI Agent = 有目標、有決策能力的自動化智能體
AI Agent 與大模型的關系
- LLM Agent
大模型作為核心決策和推理引擎
輸入環境信息 → LLM 生成動作指令 → 執行器執行
- RAG + Agent
Agent 可以訪問知識庫或外部 API
結合檢索增強生成(Retrieval-Augmented Generation)能力,使決策更加精準
- 行動閉環
LLM 生成行動 → 調用工具/API → 獲取反饋 → 更新上下文 → 再決策
- AI Agent = LLM/智能體 + 感知 + 決策 + 執行 + 記憶 + 目標
核心價值:能夠自主完成復雜任務,而不僅僅生成文本或分類結果
大模型提供了 通用推理能力,但 Agent 框架讓它 能做事、閉環決策、與環境交互
36. Multi-Agent System (MAS)(多智能體系統)
多智能體系統(MAS)是由多個相互協作、競爭或獨立運行的 AI智能體(Agent) 組成的系統。
簡單可以為多個AI Agent組成了一個多AI Agent系統,互相之間通過交互來完成單個智能體難以完成的復雜任務。
在大模型和 AI 場景中,MAS 已經成為 構建復雜任務協作框架 的重要方式,例如 AutoGPT、MetaGPT、ChatDev 等框架,都是典型的多智能體系統應用。
37. Workflow(工作流)
在大模型與 AI 應用中,Workflow(工作流) 是一種 任務執行的有序編排方式,它定義了多個步驟(Tasks/Stages)的依賴關系、執行邏輯和數據流轉,確保復雜的 AI 或數據處理過程可以自動化、可控、可復用。
38. Model Serving APIs(模型服務API)
Model Serving APIs 指的是通過 標準化接口(通常是 RESTful API 或 gRPC) 將機器學習/深度學習模型對外提供服務,使應用程序、系統或 Agent 可以調用模型進行推理(Inference)。
它是 大模型 到業務應用之間的橋梁。
39. Model Caching(模型緩存)
將模型預測結果或中間計算結果緩存,提高推理效率,減少重復計算。
Model Caching 指在 模型推理(inference) 過程中,對 模型權重、計算結果或中間結果 進行緩存,以減少重復計算、降低延遲和資源消耗。
它在 大模型服務化(LLM Serving)、語義搜索、推薦系統 中是核心優化手段之一,和 模型并行、量化、蒸餾 一樣,是 生產級 AI 系統的關鍵性能優化技術。
它常用于大規模推理服務(如 LLM、推薦系統、搜索引擎)中,因為這些場景下:
- 同一個輸入或相似輸入會被頻繁查詢。
- 模型加載和推理計算開銷巨大(尤其是數百億參數的大模型)。
模型權重緩存(Model Weights Caching)
- 將模型參數(權重文件)常駐內存或 GPU 顯存,避免重復加載。
- 例如:Transformer 模型部署在多個 GPU 節點時,使用權重共享或 Zero Redundancy 方式減少內存占用。
Embedding 緩存(Embedding Caching)
- 對常見輸入(如熱門查詢、相同用戶上下文)的向量表示進行緩存。
- 典型于向量數據庫、語義搜索、推薦系統中。
中間結果緩存(Intermediate Result Caching)
- LLM 在生成文本時可緩存 Attention Key-Value(KV Cache),從而避免對已生成 Token 重新計算注意力。
- 推理時大幅加速長文本生成。
最終結果緩存(Response Caching)
- 對模型的最終輸出(如回答、推薦結果)做緩存。
- 應用于高并發場景,避免重復請求占用計算資源。
40. Edge AI Deployment(邊緣AI部署)
什么叫邊緣設備?邊緣設備其實就是靠近實際業務應用的設備,例如手機、電腦就是邊緣設備;
Edge AI Deployment 指的是將 AI 模型(尤其是深度學習模型)部署在邊緣設備(Edge Devices)上,而不是依賴于集中式云服務器。這些邊緣設備可以是 智能手機、IoT 設備、攝像頭、無人機、自動駕駛汽車中的嵌入式計算單元、工業傳感器等。
將AI模型部署到邊緣設備(如手機、攝像頭、IoT設備),實現本地推理。
41. Data Engineering for AI(AI數據工程)
在大模型中,核心的組成由數據+算法+算力,數據是作為大模型的核心驅動力,只有好的數據才能訓練出好的大模型出來;
而Data Engineering for AI 指的是專門為 AI 模型訓練、推理和持續優化 提供高質量數據支撐的數據工程方法與體系。與傳統數據工程(ETL/數據倉庫/報表)不同,它面向 AI 的 特征提取、向量化、時序性與語義性處理,強調數據在 規模化、實時化、多模態和高質量標注 下的處理能力。
簡單來說:Data Engineering for AI 就是為大模型“喂養”高質量數據的全鏈路體系。
42. (Context Engineing) 上下文工程
上下文指對話或文本中提供的相關背景信息。大模型處理輸入時會參考之前的內容來理解新問題。
這類似人與人之間的對話。假設有人說"我正在開發一個新功能,你有什么問題嗎?",你能理解這是在討論產品需求或技術問題。
但如果一個不了解情況的人突然被問"你有什么問題嗎?",他就無法給出恰當的回答,因為缺少必要的背景信息。
大模型的問答機制也是如此。當你先問"這個文檔包含哪些部分?",然后問"第二部分的核心觀點是什么?"時,模型會結合前一個問題和答案,給出連貫且合理的回應。但若缺少這些前置信息,模型就無法確定具體是哪份"文檔",也就無法描述其"核心觀點"。
上下文讓大模型能在多輪對話中持續理解用戶意圖。但要注意避免引入過多無關信息,以免影響模型對核心問題的把握。
43. AI智能體長短記憶
記憶是在AI Agent中非常重要的功能,沒有記憶的話,那每次交互都要從零開始,就無法做到真正的智能體。
AI Agent 不同于單輪對話的大模型調用,它更像是一個持續存在的 智能體,需要:
- 短期記憶(Short-term Memory):在對話或任務上下文中,能記住最近幾輪的內容(類似聊天記錄)。
- 長期記憶(Long-term Memory):跨會話、跨任務持久存儲用戶信息、偏好、歷史行為,用于個性化與持續優化。
44. 多模態
多模態是指人工智能系統同時處理和融合來自不同模態的數據,如 文本(Text)、圖像(Image)、語音(Audio)、視頻(Video)、傳感器數據(Sensor Data) 等。
目標是突破單一模態的限制,使模型具備跨模態理解、推理與生成的能力。
多模態大模型(Multimodal LLMs):在 Transformer 架構上擴展,使其支持多種輸入模態。
- 典型模型:GPT-4o, Gemini, Claude 3.5 Sonnet, LLaVA, Kosmos-1
- 方法:將非文本數據(圖像、音頻)編碼成向量,再與文本 Token 一起輸入 Transformer。
跨模態表示學習(Cross-modal Representation Learning)
- 通過 共享向量空間,讓不同模態的信息對齊。例如 CLIP 模型能把“文本”和“圖片”投影到同一 embedding 空間。
多模態推理
- 結合多模態輸入進行復雜決策(如醫生用影像+病歷文本輔助診斷)。
45. Supervised Learing
監督學習是一種 機器學習范式,訓練數據由 輸入特征 (X) 和 目標標簽 (Y) 組成。模型的任務是學習輸入和輸出之間的映射關系,從而在遇到新數據時能夠預測對應的結果。
簡單說:給定題目(輸入)+答案(標簽),讓模型學會做題。
監督學習是 現代AI的核心基石,尤其在 大模型微調、下游任務適配 中扮演關鍵角色。它的關鍵特征是 輸入-輸出成對存在,模型通過這些配對數據學習預測規律。
46. 分片推理(Model Sharding)
- 定義:分片推理是一種 模型并行化技術,通過將大模型的參數(權重矩陣)切分到多個計算設備(GPU/TPU/CPU 節點)上運行,以突破單機顯存/內存限制,加速推理。
- 目的:解決大語言模型(LLMs,如 GPT-4、LLaMA-70B)在推理階段
單卡顯存無法加載完整模型的問題。
之所以使用分片推理,主要原因是大模型參數量動輒 數百億 ~ 上萬億:
- 單塊 A100 80GB 顯存仍不足以容納整個模型參數。
- 推理時需要 加載權重 + 激活值存儲 + KV 緩存,顯存需求更大。
?? 因此必須采用 分片機制,把模型拆開放到多設備上。
47. Inference Acceleration(推理加速技術)
Inference Acceleration(推理加速) 指利用 算法優化、系統優化和硬件優化 來減少 AI 模型在 推理階段 的計算開銷、降低延遲、提升吞吐量,從而讓大模型能夠更高效地服務于實際應用。
大模型推理加速是當前人工智能應用落地的關鍵挑戰之一。由于大模型在推理過程中需要大量計算資源,優化推理效率成為了研究的重點。以下從算法、緩存優化和注意力機制三個方面總結大模型推理加速的主要技術。
推理加速目的在于:讓模型能夠更快、更省、更穩地跑起來。
48. Data Augmentation(數據增強)
模型增強 指在 不新增真實數據采集成本 的情況下,通過 數據轉換、生成或合成 來擴充訓練數據集,從而提升模型的 泛化能力、魯棒性和性能。
通過數據轉換或合成來擴充訓練樣本,提高模型的泛化能力與魯棒性,是 ML 和大模型訓練的必備技術手段
49. Production ML Systems(生產型機器學習系統)
Production ML System其實并不是一個概念,而是一種模型的業務場景方式,在于將模型部署到具體業務的生產環境中,然后和業務屬性進行強關聯的,部署到生產環境之后就不再是單個模型那么簡單,而是要考慮全生命周期的管理和運維操作,例如:
- 數據 → 訓練 → 部署 → 推理 → 監控 → 持續迭代 的全生命周期管理過程。
具體來說,它是一個系統性工程,而不是單個模型部署搭建起來那么簡單,所以,很多企業在構建模型時,其實70%以上的工作都在做復雜的系統部署操作。
數據合成是指通過 人工生成、程序生成、或模型生成的方式,構造出模擬真實世界的訓練數據,用于 增強模型訓練或 解決數據不足的問題。
常用于以下場景:
- 真實數據獲取成本高(例如醫學影像、金融數據)
- 數據存在隱私或合規限制(如 GDPR、HIPAA)
- 需要生成多樣化的長尾樣本(如異常檢測、稀有類別)
50. Data Labeling (數據標注)
數據標注(Data Labeling) 是指在原始數據(如文本、圖像、音頻、視頻)上添加結構化的標簽,使其能夠作為 監督學習(Supervised Learning) 或 微調(Fine-tuning) 模型的訓練樣本。
- 舉例:在圖像中框出“貓”的區域并標注為 cat;在對話數據中標注用戶意圖為 book_flight。
在大模型和 AI 系統中:
- 監督信號來源 :模型要學會分類、識別、生成,必須依賴高質量的標注數據作為訓練信號。
- 下游任務適配:雖然 LLM 是大規模無監督/自監督預訓練的,但在具體領域(醫療、金融、制造)往往需要帶標注的小規模高質量數據做微調。
- RLHF 的支撐:人類反饋強化學習(RLHF)也本質上是一種標注過程(標注哪一個回答更符合人類預期)。
數據標注的方式
- 人工標注(Human-in-the-Loop)
- 人工進行精確標注,保證質量,但成本高、速度慢。
- 眾包標注(Crowdsourcing)
- 通過平臺(如 Amazon Mechanical Turk、Scale AI)分配任務。
- 半自動標注(AI-assisted Labeling)
- 模型先自動打標簽,人類再進行校正。
- 弱監督/自監督標注
- 通過規則、啟發式方法、或利用大模型自動生成標簽。
在大模型與 AI Agent 中的作用
- 微調數據準備:用于 Instruction Tuning、對齊任務(Alignment)。
- 知識增強:對小樣本任務提供可靠的訓練信號。
- 持續學習:AI Agent 可以在與用戶交互過程中收集數據,并通過“人類反饋”進行再標注,提升性能
本文轉載自??DataForAI??,作者:??DataForAI??
