首页 > 资讯

AI大模型技术解析-大模型背后的冷知识

想快速掌握大模型关键技术？本文从AI产品经理视角，深入浅出剖析Agent、MCP等术语，涵盖定义、原理、应用场景及相关概念关系，为你构建清晰知识体系，助你在大模型浪潮中把握技术核心，提升产品竞争力。

在大模型快速演进的今天，我们每天都能听到各种新词横飞—Agent、SFT、MCP、RAG、LoRA……仿佛不懂这些术语，就跟不上AI时代的脚步。然而，这些词语背后不仅仅是技术，更代表了AI应用的逻辑结构、训练范式和演进方向。

作者从一名AI产品经理视角来带你们了解并知道这些内容是做什么的。

Agent

定义：国内也叫做（智能体）是一个可以自主感知、思考、决策并行动的软件“角色”或系统，它能根据外界输入自主完成任务。

先说结论：Agent是一个具备目标导向、自主决策与实际执行能力的AI智能体，正是AI从“懂你说什么”到“能替你完成”的关键一跃。

通俗解释：你可以把Agent想象成你手机里的“聪明小助理”——比如Siri、ChatGPT、或自动回复机器人，但更智能、更有主见。

1.Agent原理

下面用一个通俗易懂、生活化的方式，详细解释Agent是什么、它怎么工作的、背后是怎么分析用户需求的。

环境/用户→[观察]→状态/记忆→[推理/规划]→[行动/调用工具]→[获得反馈]→循环

一句话：Agent是一个能“感知—思考—行动—再感知”的闭环系统。它在环境中接收信息（观察），根据目标与记忆做决策（推理/规划），调用工具执行动作（API/代码/机器人手臂等），再根据结果调整后续行为，直到完成任务或达到终止条件。

举个例子：

假设你跟它说：“我想订一张下周去北京的火车票。”

普通程序只能告诉你一些车次信息。

Agent会自动：

明白你要“订票”这个意图；

知道你的位置是“上海”，目的地是“北京”；

查询你喜欢的出发时间和座位类型（软卧/高铁/二等座）；

登录订票系统；

自动帮你选好车次、填好乘客信息；

提醒你付款，甚至自动完成。

这就好像它“帮你办事”，不需要你一步步教它。

2.Agent的基本组成

Agent不只是一个程序，而是由多个“脑子+手脚”组成的智能体：

3.Agent是怎么“理解”你需求的？

背后靠的是大语言模型+多模态感知+推理引擎等AI技术，流程如下。

总结一句话：

Agent=能理解人类语言+自主思考+自动办事的“数字小助手”。

它不只是聊天，而是“有大脑、能干活”的AI小工人，可以应用于自动客服、个人助理、数据分析、企业流程等各种场景。

与相关概念的关系：

与Chatbot的区别：Chatbot多为“问答/对话”，Agent以完成目标为中心，能主动拆解任务、调用工具与记忆、与环境交互并闭环。

与RAG的关系：RAG是一种取数/补充上下文的技能。在Agent中，RAG常被当作一个工具：当缺知识或需查事实时调用检索再决策。

与MCP/工具协议：像MCP这类“模型与工具/资源之间的协议与标准”，本质是让Agent以统一方式发现并调用外部能力（文件、数据库、工作流、API），降低集成成本、提升可移植性。

与SFT（监督微调）：SFT可把“遵循指令、使用工具、写结构化调用”的能力固化进模型，使Agent更稳更听话；也可对特定域（客服、法务、运维）做专精。

4.Agent特征

自主性(Autonomy):智能体能够在没有人类直接、实时干预的情况下独立运行和做决策。它的行为是基于自身的经验和感知，而不仅仅是执行预设的指令。

反应性(Reactivity):能够感知环境的变化并及时做出响应。例如，一个机器人在前进时，如果传感器检测到障碍物，它会立即停下或绕行。

主动性(Proactiveness):不仅仅是被动地对环境做出反应，还能主动地、有目标地发起行动，以达成既定目标。例如，一个投资交易智能体可能会主动分析市场趋势，并在它认为合适的时机执行买卖操作，而不是等待指令。

学习能力(Learning/Adaptability):这是智能体“智能”的核心体现。它能够从过去的经验中学习，不断调整和优化自己的行为策略，以在未来获得更好的性能。例如，一个下棋AI(如AlphaGo)通过数百万次的自我对弈来学习，不断提升棋艺。

目标导向(Goal-driven):智能体的所有行为都是为了实现一个或多个预设的目标。例如，恒温器的目标是保持室内温度在一个特定范围。

社交性(SocialAbility):在多智能体系统（Multi-AgentSystem）中，智能体能够通过某种通信语言与其他智能体进行交互、协作、协调或谈判，共同完成更复杂的任务

MCP

1.MCP是什么？——像安排外卖小哥送餐的详细步骤

MCP的特征：

MCP就像你是一个外卖平台的调度员，你要让AI（小哥）完成一项任务，比如送餐，你会怎么安排？

你不会只说一句“去送餐”，你得一步步告诉他：

先查订单：哪位顾客、什么地址、点了什么？

去商家取餐：到哪个店、什么时间去拿？

规划路线：怎么送最快？

联系客户：临时找不到门牌号怎么办？

送达并确认：顾客收货后拍照留底

这就是MCP：把大任务分成多个小步骤，AI按步骤完成，更准也更聪明。

2.API是什么？——像你点了一单外卖

API是ApplicationProgrammingInterface的缩写，意为“应用程序编程接口”。

本质上是：

一个系统或服务暴露出来的接口或通信协议，用于让其他程序调用其功能或数据。

常见类型包括：

RESTfulAPI（Web服务，如GET/user/info）

LLMAPI（调用大模型，如OpenAIAPI）

内部系统API（企业系统之间通信）

举例：

用API向OpenAI发请求调用GPT模型

使用第三方支付API实现微信/Stripe支付功能

使用天气API获取实时气象数据

你作为用户，只要点一点按钮：“我要点外卖”→这个请求就发给外卖平台。

平台收到后，会自动调用后台：

派单给骑手

通知商家做菜

更新配送进度

你发的这个请求，就是API：你调用了别人的服务，让对方帮你干活。

总结对比：像你管理外卖平台vs你自己点外卖

一句话总结：MCP是AI干活时的“分步骤计划书”，API是你去找别人帮忙的一张“请求单”。

MCP是Multi-ComponentPrompting的缩写，中文叫“多组件提示工程”或“多模组件提示”。它是一种用于构建复杂任务链的提示工程框架，广泛用于Agent系统、RAG系统或链式大模型执行环境中。

3.MCP和API的区别

通俗理解：

MCP是你如何组织思路和任务让大模型聪明地一步步完成。

API是你如何把这个模型的能力打包成服务供别人调用。

Transformer

Transformer是一种在自然语言处理和生成任务中广泛使用的神经网络架构，由Google于2017年提出。它彻底改变了机器学习对语言的建模方式，是GPT、BERT等主流模型的基础。

一句话总结：Transformer是一种完全基于注意力机制的模型架构，可以并行处理序列数据，用于文本理解和生成任务。

1.Transformer是什么？（通俗版）

Transformer是一种人工智能的大脑结构，专门用来处理语言。比如：

让ChatGPT能看懂你的问题

让翻译软件知道“你好吗”该翻成“Howareyou”

让AI写小说、生成文章、做总结……

类比：Transformer就像一个特别聪明的「翻译专家团队」

你可以把Transformer想象成一个团队，这个团队里每个成员负责理解一个词，但他们都会：

互相沟通（注意力机制）

商量每个词之间的关系（谁更重要）

一起得出结论（比如：整个句子的意思）

举个例子——假设你说：

“小明今天去学校”

这个句子进入Transformer后，它会像这样处理：

“小明”是谁？和“去”有关系。

“今天”是时间词，要和“去”搭配。

“学校”是目的地，和“去”关系最紧。

于是它会得出结论：这是一个人今天去了学校。

2.Transformer有什么厉害的地方？

通俗记忆法：Transformer=“每个词都能开会的团队”

不像传统方法一个人拍板，Transformer更像：

每个词都开会每个词都能说：“我觉得我和某个词关系很大！”最终得出最合理的理解结果

它是很多AI的核心引擎！

ChatGPT（聊天）

Google翻译

Midjourney（图像AI）

Suno（AI音乐）

BERT（搜索引擎理解你的问题）

背后其实都在用Transformer！

2.工作原理详解（逐层分析）

1）输入编码（InputEmbedding+PositionEncoding）

将词转换为向量（WordEmbedding）

加上位置编码（因为Transformer不具备RNN的时序性，需显式添加位置信息）

2）Encoder编码器部分

包含N个重复的子结构，每个子结构有：

a.多头自注意力机制（Multi-HeadSelf-Attention）

每个单词都可以关注其他单词的表示。

多头机制能从多个角度建模关系。

b.前馈神经网络（FeedForward）

对每个位置单独应用一个小型的两层全连接网络。

增强非线性建模能力。

c.残差连接+LayerNorm

保持梯度稳定，增强训练效果。

3）Decoder解码器部分

也包含N个子结构，与Encoder类似但多了一步：

a.掩码自注意力（MaskedMulti-HeadAttention）

防止看到未来词，用于生成任务。

b.Encoder-DecoderAttention

解码器可以访问Encoder输出，建立翻译/问答的对齐关系。

DiffusionModel

1.什么是DiffusionModel（扩散模型）？

DiffusionModel（扩散模型）是一种AI图像生成技术，现在很多爆火的AI图片（比如Midjourney、StableDiffusion、DALL·E）背后用的都是它。

通俗讲，它像是“在画布上不断擦除噪声，逐渐显现图像细节的过程”。

你可以把它想象成这样的过程：

一个比喻：照片修复术

想象你有一张清晰的照片；你故意往照片上涂很多杂乱的噪声，照片被弄糊了；然后，你训练一个AI模型，去一步一步地把噪声“清除”掉，直到恢复出原始图像；

最神奇的是：只要告诉它一句话（比如“一个在火星上弹吉他的猫”），它可以从纯噪声开始，一步步还原出这张从未存在的照片。这就是扩散模型的魔力。

工作原理详解（通俗版）：

整个过程分为两个阶段：正向扩散（加噪声）和逆向扩散（去噪声）1.正向扩散（ForwardProcess）

从一张真实图片开始，不断加入随机噪声，最后变成一张“白噪声图”（像电视雪花那样）。

过程是有步骤的，比如1000步，每一步都让图像更模糊。

这个阶段其实不需要模型预测，是“已知”的过程。

2.逆向扩散（ReverseProcess）

模型的目标是：学习怎么从噪声中一步步还原出图像。

它是通过训练数据学到的，比如看了很多猫的图，就知道“从噪声中恢复出一只猫”的方法。

每一步，模型会预测“这张图中，哪里是噪声，哪里是内容”，然后一点点清除噪声，直到生成完整图片。

2.为什么它这么强？

多模态

多模态模型（MultimodalModel），通俗来讲就是一种“能看、能听、能说、能理解”的AI模型。下面我用非常简单的方式为你解释它的本质和工作方式。

1.什么是“模态”？

在人工智能里，模态（modality）就是信息的类型或感官通道，比如：

图像、视频→视觉模态

声音、语音→听觉模态

文本、语言→语言模态

传感器数据（GPS、雷达、热感等）→其他模态

所以，“多模态”就是同时处理多种信息源，而不是只理解文字。

2.多模态模型是干嘛的？

它能同时理解和融合多种信息形式，就像一个人可以一边看图，一边听声音，还能用语言表达和思考。

举个最简单的例子：

你发给它一张图片，问它：“图中人在干嘛？”

多模态模型能看懂图片，还能读懂你的问题，并用语言回答。

如果是传统语言模型（如早期的GPT-3），它只会处理文字，看不懂图片。

3.它是怎么工作的？（通俗流程）

1）感知阶段：

把图片转成“视觉特征”；

把声音转成“语音特征”；

把文字变成“语言特征”。

2）理解阶段：

把不同模态的特征统一转化成一样的向量格式；这样模型就可以在同一个“脑子”里理解各种输入。

3）生成阶段：

根据指令或上下文，选择输出方式：

回答文字；

生成图片；

合成语音等。

4.多模态模型能做什么？

代表性多模态模型有哪些？：

GPT-4o：OpenAI多模态模型，会看图、听音频、对话

Gemini（Google）：文字、图片、音频、代码全能型

Claude3（Anthropic）：支持长文本和图片理解

文心一言、通义千问：国内大厂也在搞

总结一句话：多模态模型就像是拥有“眼睛、耳朵和嘴巴”的AI，比只能“读文字”的模型更像人类，能理解复杂场景，也更适合真实世界的任务。

SFT

SFT是“SupervisedFine-Tuning”的缩写，中文一般翻译为有监督微调。它是训练大语言模型（比如GPT、LLaMA等）中的一个重要步骤。下面我用通俗的方式详细解释一下。

一句话解释：SFT就是“用人工标注的好样本来教AI怎么更聪明地回答问题”。

1.为什么需要SFT？

在训练语言模型的过程中，最开始它只是通过大量文本进行“无监督预训练”（比如看百科、论坛、新闻等），学会了“语言”的基本规则。

但这种模型可能会：

胡说八道

回答不符合人类期望

不太懂怎么礼貌表达

不知道哪些回答是“对的”

这时就需要SFT来“纠正它的行为”！

2.SFT是怎么做的？

SFT过程就像老师带学生写作文一样，步骤如下：

准备一批高质量的“标准答案”

比如用户问题：“如何炒西红柿鸡蛋？”

答案：“先把鸡蛋打散炒熟盛出，再炒番茄，最后一起翻炒，加盐出锅。”

这些数据是人工标注、精选的好内容。

用这些问答对微调模型

把模型原来“模模糊糊”的知识，通过这些具体例子“拉正”。

这就像老师给你一堆范文，指导你如何答题。

模型学到更符合人类习惯的表达方式和结构

比如更礼貌、更有逻辑、不跑题、内容更实用。

预训练

1.什么是模型预训练（Pretraining）？

一句话解释：就像我们上学要先打好基础知识一样，大模型在被真正用来解决具体任务前，也要先“上学”学点通用知识，这个阶段就叫“预训练”。

详细通俗解释：

把AI大模型想象成一个新员工，你想让他来写文章、写代码、回答问题、画图……但在他正式开始工作前，你总不能啥都不教就让他上岗吧？

所以，你会先给他安排一个“通识培训”：

给他看很多书籍、网页、百科全书，让他熟悉语言、常识、世界知识；

让他学会分辨什么是语法正确的句子，什么是胡言乱语；

教他如何“理解”一段话里说了啥。

这个通用培训阶段，就是“预训练”。

它的目标是让模型掌握语言规律、积累常识、形成通用的表达能力，为后续“专门任务”打下基础。

举个真实案例

模型名字：GPT

GPT就是通过预训练起家的。它的预训练方式是：

给它看互联网上的大量文本，比如维基百科、Reddit、书籍、新闻等；

给它一个句子的一部分，例如“世界上最高的山是___”，

让它猜出下一个词是“珠穆朗玛峰”。

它不断在这种“猜下一个词”的游戏中训练，逐步学会语言表达和世界常识。

最终结果：它不仅能写句子，还能写文章、写代码、做翻译，甚至回答各种问题。

类比案例：教小孩学语言

你教小孩说话，不是一下子就让他去答题，而是：

多听别人说话（输入）；

尝试模仿说话（输出）；

不断纠正他错的表达（学习反馈）；

这就是“预训练”过程。

后面你才会让他去考语文（翻译）、数学（逻辑）、写作文（内容创作）这些“下游任务”。

总结一句话：模型预训练，就是AI在“上岗”前的大规模通识教育，教它语言规律和世界常识，为后续专门任务打基础。

质检和互检

质检=对模型输出结果进行“质量检查”，通常是由专人或者质检团队来做的。

举例说明：

假设你在做一个问答大模型，你让模型回答问题，比如：用户问：“月亮上有水吗？”

模型回答：“月亮上没有任何水或冰。”

这时候，质检员会检查这个回答是不是准确的、有没有语病、是否逻辑混乱或事实错误。

他们可能会从以下维度来打分或评判：

准确性（答得对不对）

流畅性（语句是否通顺自然）

逻辑性（有没有前后矛盾）

敏感性（有没有涉及违规内容）

是否“答非所问”

通常还会记录问题，反馈给模型训练团队或者数据标注团队。

1.大模型中的“互检”是啥意思？

互检=数据标注员或评估员之间互相检查对方的标注或判断是否合理。

举个例子：

你和你的同事小李都在给模型“标注数据”或“评估模型回答”。

比如你俩都在看下面这个模型回答：

用户问：“狗能不能吃巧克力？”模型回答：“可以适量吃一点。”

你觉得这个回答有误，打了“不合格”；但小李觉得“还行”，打了“合格”。

这时候你俩会互相检查对方的打分或评语是否合理，甚至提交给“第三人仲裁”，以保证数据标注一致、评估标准统一。

2.总结对比（适用于大模型数据工作）

上下文长度

用大白话说：“上下文长度”就是模型一次能带在脑子里看的“聊天记录/材料”的容量。超出这个容量，最前面的内容会被“挤掉”，它就记不清了。

1）快速类比

像一块白板：你不断写字，写满后再写，最早的内容就被擦掉了。

像购物车容量：能装这么多，再多就掉出来。

2）举例

你和模型聊项目，先说了目标、预算、时间，然后又连发一大段无关闲聊。如果总字数超过它的上下文长度，最早的“目标/预算/时间”可能被挤出，它后面答复就会忽略这些关键信息。

你丢一本很长的文档（比如几十页）让它总结：如果文档整体超过上下文长度，它只能看“放得下”的那一段，没看到的部分当然也就总结不到。

3）和“记忆/知识”不是一回事

上下文长度：一次对话里能带着看的临时输入上限。

模型知识：训练时学到的长期知识（不会因为当前对话长短改变）。

4）怎么避免“被挤掉”

分段提问：长材料切块问，每块都让它先“摘要+要点”。

重复关键约束：在新问题开头，再把核心要点复述一遍。

滚动摘要：让它把前文压缩成要点清单，再继续讨论。

用外部记忆（RAG/知识库）：把大材料放在外部，按需检索片段再喂给它。

一句话总结：上下文长度=模型一次能“随身携带”的内容上限；装不下的早期内容会被顶掉，所以长对话里要学会提炼与分段。

GPT-3.5的上下文长度是4，096tokens

GPT-4是8，192到32，768tokens

GPT-4o是128，000tokens

量化

首先需要理解什么是「量化」？

把模糊的、连续的、难度量的东西，变成可用数字表示的东西。一句话：从“感觉”到“数字”。

1.在AI里的“量化”（模型量化）

把模型里原本用高精度小数（比如32位浮点数）的参数，压缩成更少的比特（如8位或4位整数）。目的：更省内存、更快推理，代价可能是精度略降。

比特数与可表示级数

8位（int8）→2⁸=256个等级

4位（int4）→2⁴=16个等级

直观例子

假设一个70亿参数的模型：

16位（2字节）存：约14GB

4位（0.5字节）存：约3.5GB体积直接缩小到四分之一左右，载入更快、显存压力小，但可能精度稍有损失。

小贴士：常见做法有训练后量化（PTQ）和量化感知训练（QAT）；后者在训练中考虑量化影响，精度通常更稳。

模型参数

什么是“模型参数”？

把AI模型想成一台有很多很多小旋钮的机器。每个小旋钮就是一个“参数”，都记着一个数字。训练=不停拧这些旋钮，让机器更会“做题”。训练好之后，这些旋钮固定住，用来回答问题/生成内容。

1.单位是啥？

我们常用缩写来表示有多少个：

K=千（差不多一千个）

M=百万（一百万个）

B=十亿（一十亿个）

所以：

7B=70亿个小旋钮

128B=1,280亿个小旋钮

为啥大家老说“参数越多越强”？

旋钮越多，机器能记住/表达的细节越多，通常更聪明；但同时也会更占内存、更慢、更费电。就像功能越多的家电更笨重一样。

2.容易混淆的“B”

说模型规模时：B=十亿个参数（比如“7B模型”）

说文件大小时：B=字节（Byte）（比如“128B文件”=128字节）看上下文判断就行。

一句话总结：

模型参数=模型里的小旋钮数量

单位=个（用K/M/B表示数量级）

128B模型=1,280亿个参数

参数越多通常越强，但更占内存、跑得更慢

LoRA

1.LoRA是什么？

LoRA=Low-RankAdaptation（低秩适配）。在StableDiffusion/SDXL这类模型里，LoRA就像给“会画画的机器人”装可插拔的小外挂：不改机器人的核心（底模），只加几块很小的“插件参数”，就能学会一个新风格/角色/产品外观。

它怎么做到的？

底模里有很多大矩阵（权重）。LoRA把“要学的新东西”压缩成两个小矩阵A、B（秩r很小），只训练它们；用的时候把它们按一定强度“加回去”。结果：显存小、训练快、文件小（通常几MB～几十MB），还不破坏原模型。

2.它改哪里？

在图像模型里（以SD/SDXL为例），LoRA最常插在：

U-Net的Attention层：学到新风格、新纹理、新特征最有效

TextEncoder（如CLIP）：让提示词更贴近某风格或专有名词（VAE很少插）

什么时候用LoRA？

学风格（赛博朋克、油画、水彩…）

学专属角色/艺人/IP（同一脸型服饰）

学产品外观（你的品牌手表/汽车/包）

一句话总结：LoRA=给底模加“可拔插的小插件”。只训练很少参数，就能把通用模型快速变成“懂你那一味儿”的专属画师。