AI大模型技术解析-大模型背后的冷知识

想快速掌握大模型关键技术?本文从AI产品经理视角,深入浅出剖析Agent、MCP等术语,涵盖定义、原理、应用场景及相关概念关系,为你构建清晰知识体系,助你在大模型浪潮中把握技术核心,提升产品竞争力。

在大模型快速演进的今天,我们每天都能听到各种新词横飞—Agent、SFT、MCP、RAG、LoRA……仿佛不懂这些术语,就跟不上AI时代的脚步。然而,这些词语背后不仅仅是技术,更代表了AI应用的逻辑结构、训练范式和演进方向。

作者从一名AI产品经理视角来带你们了解并知道这些内容是做什么的。

Agent

定义:国内也叫做(智能体)是一个可以自主感知、思考、决策并行动的软件“角色”或系统,它能根据外界输入自主完成任务。

先说结论:Agent是一个具备目标导向、自主决策与实际执行能力的AI智能体,正是AI从“懂你说什么”到“能替你完成”的关键一跃。

通俗解释:你可以把Agent想象成你手机里的“聪明小助理”——比如Siri、ChatGPT、或自动回复机器人,但更智能、更有主见。

1.Agent原理

下面用一个通俗易懂、生活化的方式,详细解释Agent是什么、它怎么工作的、背后是怎么分析用户需求的。

环境/用户→[观察]→状态/记忆→[推理/规划]→[行动/调用工具]→[获得反馈]→循环

一句话:Agent是一个能“感知—思考—行动—再感知”的闭环系统。它在环境中接收信息(观察),根据目标与记忆做决策(推理/规划),调用工具执行动作(API/代码/机器人手臂等),再根据结果调整后续行为,直到完成任务或达到终止条件。

举个例子:

假设你跟它说:“我想订一张下周去北京的火车票。”

普通程序只能告诉你一些车次信息。

Agent会自动:

明白你要“订票”这个意图;

知道你的位置是“上海”,目的地是“北京”;

查询你喜欢的出发时间和座位类型(软卧/高铁/二等座);

登录订票系统;

自动帮你选好车次、填好乘客信息;

提醒你付款,甚至自动完成。

这就好像它“帮你办事”,不需要你一步步教它。

2.Agent的基本组成

Agent不只是一个程序,而是由多个“脑子+手脚”组成的智能体:

3.Agent是怎么“理解”你需求的?

背后靠的是大语言模型+多模态感知+推理引擎等AI技术,流程如下。

总结一句话:

Agent=能理解人类语言+自主思考+自动办事的“数字小助手”。

它不只是聊天,而是“有大脑、能干活”的AI小工人,可以应用于自动客服、个人助理、数据分析、企业流程等各种场景。

与相关概念的关系:

与Chatbot的区别:Chatbot多为“问答/对话”,Agent以完成目标为中心,能主动拆解任务、调用工具与记忆、与环境交互并闭环。

与RAG的关系:RAG是一种取数/补充上下文的技能。在Agent中,RAG常被当作一个工具:当缺知识或需查事实时调用检索再决策。

与MCP/工具协议:像MCP这类“模型与工具/资源之间的协议与标准”,本质是让Agent以统一方式发现并调用外部能力(文件、数据库、工作流、API),降低集成成本、提升可移植性。

与SFT(监督微调):SFT可把“遵循指令、使用工具、写结构化调用”的能力固化进模型,使Agent更稳更听话;也可对特定域(客服、法务、运维)做专精。

4.Agent特征

自主性(Autonomy):智能体能够在没有人类直接、实时干预的情况下独立运行和做决策。它的行为是基于自身的经验和感知,而不仅仅是执行预设的指令。

反应性(Reactivity):能够感知环境的变化并及时做出响应。例如,一个机器人在前进时,如果传感器检测到障碍物,它会立即停下或绕行。

主动性(Proactiveness):不仅仅是被动地对环境做出反应,还能主动地、有目标地发起行动,以达成既定目标。例如,一个投资交易智能体可能会主动分析市场趋势,并在它认为合适的时机执行买卖操作,而不是等待指令。

学习能力(Learning/Adaptability):这是智能体“智能”的核心体现。它能够从过去的经验中学习,不断调整和优化自己的行为策略,以在未来获得更好的性能。例如,一个下棋AI(如AlphaGo)通过数百万次的自我对弈来学习,不断提升棋艺。

目标导向(Goal-driven):智能体的所有行为都是为了实现一个或多个预设的目标。例如,恒温器的目标是保持室内温度在一个特定范围。

社交性(SocialAbility):在多智能体系统(Multi-AgentSystem)中,智能体能够通过某种通信语言与其他智能体进行交互、协作、协调或谈判,共同完成更复杂的任务

MCP

1.MCP是什么?——像安排外卖小哥送餐的详细步骤

MCP的特征:

MCP就像你是一个外卖平台的调度员,你要让AI(小哥)完成一项任务,比如送餐,你会怎么安排?

你不会只说一句“去送餐”,你得一步步告诉他:

先查订单:哪位顾客、什么地址、点了什么?

去商家取餐:到哪个店、什么时间去拿?

规划路线:怎么送最快?

联系客户:临时找不到门牌号怎么办?

送达并确认:顾客收货后拍照留底

这就是MCP:把大任务分成多个小步骤,AI按步骤完成,更准也更聪明。

2.API是什么?——像你点了一单外卖

API是ApplicationProgrammingInterface的缩写,意为“应用程序编程接口”。

本质上是:

一个系统或服务暴露出来的接口或通信协议,用于让其他程序调用其功能或数据。

常见类型包括:

RESTfulAPI(Web服务,如GET/user/info)

LLMAPI(调用大模型,如OpenAIAPI)

内部系统API(企业系统之间通信)

举例:

用API向OpenAI发请求调用GPT模型

使用第三方支付API实现微信/Stripe支付功能

使用天气API获取实时气象数据

你作为用户,只要点一点按钮:“我要点外卖”→这个请求就发给外卖平台。

平台收到后,会自动调用后台:

派单给骑手

通知商家做菜

更新配送进度

你发的这个请求,就是API:你调用了别人的服务,让对方帮你干活。

总结对比:像你管理外卖平台vs你自己点外卖

一句话总结:MCP是AI干活时的“分步骤计划书”,API是你去找别人帮忙的一张“请求单”。

MCP是Multi-ComponentPrompting的缩写,中文叫“多组件提示工程”或“多模组件提示”。它是一种用于构建复杂任务链的提示工程框架,广泛用于Agent系统、RAG系统或链式大模型执行环境中。

3.MCP和API的区别

通俗理解:

MCP是你如何组织思路和任务让大模型聪明地一步步完成。

API是你如何把这个模型的能力打包成服务供别人调用。

Transformer

Transformer是一种在自然语言处理和生成任务中广泛使用的神经网络架构,由Google于2017年提出。它彻底改变了机器学习对语言的建模方式,是GPT、BERT等主流模型的基础。

一句话总结:Transformer是一种完全基于注意力机制的模型架构,可以并行处理序列数据,用于文本理解和生成任务。

1.Transformer是什么?(通俗版)

Transformer是一种人工智能的大脑结构,专门用来处理语言。比如:

让ChatGPT能看懂你的问题

让翻译软件知道“你好吗”该翻成“Howareyou”

让AI写小说、生成文章、做总结……

类比:Transformer就像一个特别聪明的「翻译专家团队」

你可以把Transformer想象成一个团队,这个团队里每个成员负责理解一个词,但他们都会:

互相沟通(注意力机制)

商量每个词之间的关系(谁更重要)

一起得出结论(比如:整个句子的意思)

举个例子——假设你说:

“小明今天去学校”

这个句子进入Transformer后,它会像这样处理:

“小明”是谁?和“去”有关系。

“今天”是时间词,要和“去”搭配。

“学校”是目的地,和“去”关系最紧。

于是它会得出结论:这是一个人今天去了学校。

2.Transformer有什么厉害的地方?

通俗记忆法:Transformer=“每个词都能开会的团队”

不像传统方法一个人拍板,Transformer更像:

每个词都开会每个词都能说:“我觉得我和某个词关系很大!”最终得出最合理的理解结果

它是很多AI的核心引擎!

ChatGPT(聊天)

Google翻译

Midjourney(图像AI)

Suno(AI音乐)

BERT(搜索引擎理解你的问题)

背后其实都在用Transformer!

2.工作原理详解(逐层分析)

1)输入编码(InputEmbedding+PositionEncoding)

将词转换为向量(WordEmbedding)

加上位置编码(因为Transformer不具备RNN的时序性,需显式添加位置信息)

2)Encoder编码器部分

包含N个重复的子结构,每个子结构有:

a.多头自注意力机制(Multi-HeadSelf-Attention)

每个单词都可以关注其他单词的表示。

多头机制能从多个角度建模关系。

b.前馈神经网络(FeedForward)

对每个位置单独应用一个小型的两层全连接网络。

增强非线性建模能力。

c.残差连接+LayerNorm

保持梯度稳定,增强训练效果。

3)Decoder解码器部分

也包含N个子结构,与Encoder类似但多了一步:

a.掩码自注意力(MaskedMulti-HeadAttention)

防止看到未来词,用于生成任务。

b.Encoder-DecoderAttention

解码器可以访问Encoder输出,建立翻译/问答的对齐关系。

DiffusionModel

1.什么是DiffusionModel(扩散模型)?

DiffusionModel(扩散模型)是一种AI图像生成技术,现在很多爆火的AI图片(比如Midjourney、StableDiffusion、DALL·E)背后用的都是它。

通俗讲,它像是“在画布上不断擦除噪声,逐渐显现图像细节的过程”。

你可以把它想象成这样的过程:

一个比喻:照片修复术

想象你有一张清晰的照片;你故意往照片上涂很多杂乱的噪声,照片被弄糊了;然后,你训练一个AI模型,去一步一步地把噪声“清除”掉,直到恢复出原始图像;

最神奇的是:只要告诉它一句话(比如“一个在火星上弹吉他的猫”),它可以从纯噪声开始,一步步还原出这张从未存在的照片。这就是扩散模型的魔力。

工作原理详解(通俗版):

整个过程分为两个阶段:正向扩散(加噪声)和逆向扩散(去噪声)1.正向扩散(ForwardProcess)

从一张真实图片开始,不断加入随机噪声,最后变成一张“白噪声图”(像电视雪花那样)。

过程是有步骤的,比如1000步,每一步都让图像更模糊。

这个阶段其实不需要模型预测,是“已知”的过程。

2.逆向扩散(ReverseProcess)

模型的目标是:学习怎么从噪声中一步步还原出图像。

它是通过训练数据学到的,比如看了很多猫的图,就知道“从噪声中恢复出一只猫”的方法。

每一步,模型会预测“这张图中,哪里是噪声,哪里是内容”,然后一点点清除噪声,直到生成完整图片。

2.为什么它这么强?

多模态

多模态模型(MultimodalModel),通俗来讲就是一种“能看、能听、能说、能理解”的AI模型。下面我用非常简单的方式为你解释它的本质和工作方式。

1.什么是“模态”?

在人工智能里,模态(modality)就是信息的类型或感官通道,比如:

图像、视频→视觉模态

声音、语音→听觉模态

文本、语言→语言模态

传感器数据(GPS、雷达、热感等)→其他模态

所以,“多模态”就是同时处理多种信息源,而不是只理解文字。

2.多模态模型是干嘛的?

它能同时理解和融合多种信息形式,就像一个人可以一边看图,一边听声音,还能用语言表达和思考。

举个最简单的例子:

你发给它一张图片,问它:“图中人在干嘛?”

多模态模型能看懂图片,还能读懂你的问题,并用语言回答。

如果是传统语言模型(如早期的GPT-3),它只会处理文字,看不懂图片。

3.它是怎么工作的?(通俗流程)

1)感知阶段:

把图片转成“视觉特征”;

把声音转成“语音特征”;

把文字变成“语言特征”。

2)理解阶段:

把不同模态的特征统一转化成一样的向量格式;这样模型就可以在同一个“脑子”里理解各种输入。

3)生成阶段:

根据指令或上下文,选择输出方式:

回答文字;

生成图片;

合成语音等。

4.多模态模型能做什么?

代表性多模态模型有哪些?:

GPT-4o:OpenAI多模态模型,会看图、听音频、对话

Gemini(Google):文字、图片、音频、代码全能型

Claude3(Anthropic):支持长文本和图片理解

文心一言、通义千问:国内大厂也在搞

总结一句话:多模态模型就像是拥有“眼睛、耳朵和嘴巴”的AI,比只能“读文字”的模型更像人类,能理解复杂场景,也更适合真实世界的任务。

SFT

SFT是“SupervisedFine-Tuning”的缩写,中文一般翻译为有监督微调。它是训练大语言模型(比如GPT、LLaMA等)中的一个重要步骤。下面我用通俗的方式详细解释一下。

一句话解释:SFT就是“用人工标注的好样本来教AI怎么更聪明地回答问题”。

1.为什么需要SFT?

在训练语言模型的过程中,最开始它只是通过大量文本进行“无监督预训练”(比如看百科、论坛、新闻等),学会了“语言”的基本规则。

但这种模型可能会:

胡说八道

回答不符合人类期望

不太懂怎么礼貌表达

不知道哪些回答是“对的”

这时就需要SFT来“纠正它的行为”!

2.SFT是怎么做的?

SFT过程就像老师带学生写作文一样,步骤如下:

准备一批高质量的“标准答案”

比如用户问题:“如何炒西红柿鸡蛋?”

答案:“先把鸡蛋打散炒熟盛出,再炒番茄,最后一起翻炒,加盐出锅。”

这些数据是人工标注、精选的好内容。

用这些问答对微调模型

把模型原来“模模糊糊”的知识,通过这些具体例子“拉正”。

这就像老师给你一堆范文,指导你如何答题。

模型学到更符合人类习惯的表达方式和结构

比如更礼貌、更有逻辑、不跑题、内容更实用。

预训练

1.什么是模型预训练(Pretraining)?

一句话解释:就像我们上学要先打好基础知识一样,大模型在被真正用来解决具体任务前,也要先“上学”学点通用知识,这个阶段就叫“预训练”。

详细通俗解释:

把AI大模型想象成一个新员工,你想让他来写文章、写代码、回答问题、画图……但在他正式开始工作前,你总不能啥都不教就让他上岗吧?

所以,你会先给他安排一个“通识培训”:

给他看很多书籍、网页、百科全书,让他熟悉语言、常识、世界知识;

让他学会分辨什么是语法正确的句子,什么是胡言乱语;

教他如何“理解”一段话里说了啥。

这个通用培训阶段,就是“预训练”。

它的目标是让模型掌握语言规律、积累常识、形成通用的表达能力,为后续“专门任务”打下基础。

举个真实案例

模型名字:GPT

GPT就是通过预训练起家的。它的预训练方式是:

给它看互联网上的大量文本,比如维基百科、Reddit、书籍、新闻等;

给它一个句子的一部分,例如“世界上最高的山是___”,

让它猜出下一个词是“珠穆朗玛峰”。

它不断在这种“猜下一个词”的游戏中训练,逐步学会语言表达和世界常识。

最终结果:它不仅能写句子,还能写文章、写代码、做翻译,甚至回答各种问题。

类比案例:教小孩学语言

你教小孩说话,不是一下子就让他去答题,而是:

多听别人说话(输入);

尝试模仿说话(输出);

不断纠正他错的表达(学习反馈);

这就是“预训练”过程。

后面你才会让他去考语文(翻译)、数学(逻辑)、写作文(内容创作)这些“下游任务”。

总结一句话:模型预训练,就是AI在“上岗”前的大规模通识教育,教它语言规律和世界常识,为后续专门任务打基础。

质检和互检

质检=对模型输出结果进行“质量检查”,通常是由专人或者质检团队来做的。

举例说明:

假设你在做一个问答大模型,你让模型回答问题,比如:用户问:“月亮上有水吗?”

模型回答:“月亮上没有任何水或冰。”

这时候,质检员会检查这个回答是不是准确的、有没有语病、是否逻辑混乱或事实错误。

他们可能会从以下维度来打分或评判:

准确性(答得对不对)

流畅性(语句是否通顺自然)

逻辑性(有没有前后矛盾)

敏感性(有没有涉及违规内容)

是否“答非所问”

通常还会记录问题,反馈给模型训练团队或者数据标注团队。

1.大模型中的“互检”是啥意思?

互检=数据标注员或评估员之间互相检查对方的标注或判断是否合理。

举个例子:

你和你的同事小李都在给模型“标注数据”或“评估模型回答”。

比如你俩都在看下面这个模型回答:

用户问:“狗能不能吃巧克力?”模型回答:“可以适量吃一点。”

你觉得这个回答有误,打了“不合格”;但小李觉得“还行”,打了“合格”。

这时候你俩会互相检查对方的打分或评语是否合理,甚至提交给“第三人仲裁”,以保证数据标注一致、评估标准统一。

2.总结对比(适用于大模型数据工作)

上下文长度

用大白话说:“上下文长度”就是模型一次能带在脑子里看的“聊天记录/材料”的容量。超出这个容量,最前面的内容会被“挤掉”,它就记不清了。

1)快速类比

像一块白板:你不断写字,写满后再写,最早的内容就被擦掉了。

像购物车容量:能装这么多,再多就掉出来。

2)举例

你和模型聊项目,先说了目标、预算、时间,然后又连发一大段无关闲聊。如果总字数超过它的上下文长度,最早的“目标/预算/时间”可能被挤出,它后面答复就会忽略这些关键信息。

你丢一本很长的文档(比如几十页)让它总结:如果文档整体超过上下文长度,它只能看“放得下”的那一段,没看到的部分当然也就总结不到。

3)和“记忆/知识”不是一回事

上下文长度:一次对话里能带着看的临时输入上限。

模型知识:训练时学到的长期知识(不会因为当前对话长短改变)。

4)怎么避免“被挤掉”

分段提问:长材料切块问,每块都让它先“摘要+要点”。

重复关键约束:在新问题开头,再把核心要点复述一遍。

滚动摘要:让它把前文压缩成要点清单,再继续讨论。

用外部记忆(RAG/知识库):把大材料放在外部,按需检索片段再喂给它。

一句话总结:上下文长度=模型一次能“随身携带”的内容上限;装不下的早期内容会被顶掉,所以长对话里要学会提炼与分段。

GPT-3.5的上下文长度是4,096tokens

GPT-4是8,192到32,768tokens

GPT-4o是128,000tokens

量化

首先需要理解什么是「量化」?

把模糊的、连续的、难度量的东西,变成可用数字表示的东西。一句话:从“感觉”到“数字”。

1.在AI里的“量化”(模型量化)

把模型里原本用高精度小数(比如32位浮点数)的参数,压缩成更少的比特(如8位或4位整数)。目的:更省内存、更快推理,代价可能是精度略降。

比特数与可表示级数

8位(int8)→2⁸=256个等级

4位(int4)→2⁴=16个等级

直观例子

假设一个70亿参数的模型:

16位(2字节)存:约14GB

4位(0.5字节)存:约3.5GB体积直接缩小到四分之一左右,载入更快、显存压力小,但可能精度稍有损失。

小贴士:常见做法有训练后量化(PTQ)和量化感知训练(QAT);后者在训练中考虑量化影响,精度通常更稳。

模型参数

什么是“模型参数”?

把AI模型想成一台有很多很多小旋钮的机器。每个小旋钮就是一个“参数”,都记着一个数字。训练=不停拧这些旋钮,让机器更会“做题”。训练好之后,这些旋钮固定住,用来回答问题/生成内容。

1.单位是啥?

我们常用缩写来表示有多少个:

K=千(差不多一千个)

M=百万(一百万个)

B=十亿(一十亿个)

所以:

7B=70亿个小旋钮

128B=1,280亿个小旋钮

为啥大家老说“参数越多越强”?

旋钮越多,机器能记住/表达的细节越多,通常更聪明;但同时也会更占内存、更慢、更费电。就像功能越多的家电更笨重一样。

2.容易混淆的“B”

说模型规模时:B=十亿个参数(比如“7B模型”)

说文件大小时:B=字节(Byte)(比如“128B文件”=128字节)看上下文判断就行。

一句话总结:

模型参数=模型里的小旋钮数量

单位=个(用K/M/B表示数量级)

128B模型=1,280亿个参数

参数越多通常越强,但更占内存、跑得更慢

LoRA

1.LoRA是什么?

LoRA=Low-RankAdaptation(低秩适配)。在StableDiffusion/SDXL这类模型里,LoRA就像给“会画画的机器人”装可插拔的小外挂:不改机器人的核心(底模),只加几块很小的“插件参数”,就能学会一个新风格/角色/产品外观。

它怎么做到的?

底模里有很多大矩阵(权重)。LoRA把“要学的新东西”压缩成两个小矩阵A、B(秩r很小),只训练它们;用的时候把它们按一定强度“加回去”。结果:显存小、训练快、文件小(通常几MB~几十MB),还不破坏原模型。

2.它改哪里?

在图像模型里(以SD/SDXL为例),LoRA最常插在:

U-Net的Attention层:学到新风格、新纹理、新特征最有效

TextEncoder(如CLIP):让提示词更贴近某风格或专有名词(VAE很少插)

什么时候用LoRA?

学风格(赛博朋克、油画、水彩…)

学专属角色/艺人/IP(同一脸型服饰)

学产品外观(你的品牌手表/汽车/包)

一句话总结:LoRA=给底模加“可拔插的小插件”。只训练很少参数,就能把通用模型快速变成“懂你那一味儿”的专属画师。