AI新术语全解析从RAG到多模态一次讲透

人工智能(AI)领域近年来涌现了一堆新词,像RAG、蒸馏模型、大模型多少B、Transformer、Prompt Engineering等等,这些词听起来很“高大上”,但其实是AI变得更聪明、更实用的关键。我会用最接地气的方式,详细拆解这些术语,告诉你它们是什么、怎么工作、为什么重要,还会串联起来让你看清全貌。

1. RAG(Retrieval-Augmented Generation,检索增强生成)

什么是RAG?

RAG是一种“查资料+写答案”的混合技术。普通AI只能靠训练时记住的东西回答问题,但RAG能一边从外部知识库找信息,一边生成回答,像是“带搜索引擎的聊天机器人”。

怎么工作的?

  • 第一步:检索(Retrieval):你问了个问题,比如“2025年最新的AI趋势是什么”,RAG会先去一个外部资料库(可能是网页、文档、数据库)找相关内容。
  • 第二步:增强生成(Augmented Generation):找到资料后,模型把这些信息和自己的语言能力结合,生成一个流畅的回答,而不是干巴巴地复制粘贴。
  • 技术细节:它用向量搜索技术,把问题和资料变成数字编码,找到最匹配的内容,再喂给语言模型处理。

举个例子

想象你在考试,普通AI是闭卷考试,只能凭记忆答题;RAG是开卷考试,能翻书找答案再写。这样答案更准确,也更贴近最新情况。

为什么重要?

  • 更新性:AI训练数据总有截止日期,比如我可能只知道2024年之前的事,但RAG能让我查2025年的新资讯。
  • 减少胡编:普通模型可能会“瞎编”(术语叫Hallucination),RAG靠真实资料接地气。
  • 应用场景:智能客服(查产品手册回答)、学术助手(引用最新论文)、新闻总结(抓取实时报道)。

2. 蒸馏模型(Model Distillation)

什么是蒸馏模型?

蒸馏是把一个“大而聪明”的模型(老师)的知识“提炼”给一个小模型(学生),让小模型也能干大事,但跑起来更快、更省资源。

怎么做的?

  • 老师模型:通常是大模型,比如有175亿参数,能力超強但很“笨重”。
  • 学生模型:小模型,比如几百万参数,轻量但能力有限。
  • 过程:不是让学生从头学原始数据,而是模仿老师的“思考方式”。比如老师看到“猫”这个词,输出一堆相关概率(可爱0.9、毛茸茸0.8),学生就学着输出类似的概率。
  • 技术细节:用“软标签”(老师的概率分布)而非“硬标签”(0或1)训练学生。

举个例子

就像一个武林高手教徒弟。高手能打一套复杂拳法,徒弟学不了全套,高手就教简化版,徒弟也能打倒大部分对手。

为什么重要?

  • 效率:大模型需要高端GPU,几秒才回一句;小模型能在手机上秒回。
  • 普及性:蒸馏让高性能AI跑在普通设备上,比如智能音箱、手表。
  • 例子:一个175B的语言模型蒸馏成7B,能保留80%能力,但体积和耗电量减小10倍。

3. 大模型多少B(Billion,几十亿参数)

什么是“B”?

“B”是“Billion”(亿)的缩写,指模型的参数量。比如“70B”就是70亿参数。参数是模型大脑里的“神经连接”,数量越多,模型越能记住复杂的东西。

参数多的意义?

  • 能力强:7B的模型能聊天,70B的还能写代码、推理,175B的甚至能写小说。
  • 代价高:训练需要海量数据和计算资源,运行要高端硬件,电费也贵。
  • 技术细节:参数多意味着模型的“神经网络层”更多、更深,能捕捉语言里的细微模式。

举几个例子

  • GPT-3:175B参数,2020年的标杆,能生成长篇连贯文章。
  • LLaMA:有7B、13B、70B版本,参数越多越强,70B接近GPT-3水平。

为什么常听人提?

  • 炫技:公司用参数量秀肌肉,“我们有1000B模型”听起来很牛。
  • 选择依据:用户挑模型时会看,比如“13B够日常用,70B干专业活”。

4. LLM(Large Language Model,大语言模型)

什么是LLM?

LLM是像我这样的超大语言模型,通过海量文本训练,能理解和生成自然语言,参数量通常在亿以上。

怎么来的?

  • 数据:爬取互联网上的文章、书籍、论坛,几十亿字起步。
  • 训练:用超级计算机跑几个月,调优无数参数。
  • 结果:能聊天、翻译、写文章,甚至模仿特定语气。

举个例子

我就是个LLM。你问我“AI未来如何”,我能用自然语言回答,还能根据上下文调整语气。

为什么重要?

  • 通用性:一个LLM能干很多事,不用为每个任务单独训练。
  • 推动力:LLM是AI热潮的核心,像GPT、LLaMA推动了技术普及。

5. Transformer

什么是Transformer?

Transformer是现代语言模型的“发动机”,2017年谷歌提出,核心是“自注意力机制”(Self-Attention),能让模型理解词与词之间的关系。

怎么工作的?

  • 注意力机制:看到“猫在树上”,它知道“猫”和“树上”关系更紧密,而不是死板地按顺序读。
  • 结构:有编码器(理解输入)和解码器(生成输出)两部分,层层堆叠。
  • 比喻:像大脑一边读句子,一边画关系图。

举个例子

我读“他昨天跑步,今天休息”,Transformer让我明白“昨天”和“跑步”、“今天”和“休息”更相关。

为什么重要?

  • 革命性:取代了老的RNN、LSTM模型,效率和效果都更好。
  • 基石:所有大模型(包括我)都靠Transformer运行。

6. Fine-tuning(微调)

什么是Fine-tuning?

微调是在预训练好的大模型上,用小份特定数据再调整,让它专精某个领域。

怎么做的?

  • 预训练模型:已经学会通用语言的“大脑”。
  • 微调数据:比如法律文档、代码库。
  • 过程:只改动部分参数,训练时间短。

举个例子

一个通用聊天模型,微调用医学数据,就能变成“AI医生”,回答疾病问题更专业。

为什么重要?

  • 定制化:不用从零训练,快速适配新任务。
  • 效率:几天就能搞定,比预训练省几个月。

7. Pre-training(预训练)

什么是Pre-training?

预训练是模型的“小学阶段”,用海量通用数据先学会语言基础。

怎么做的?

  • 数据:互联网文本、维基百科、书籍等。
  • 任务:预测下一个词,或者填空(“猫___树上”填“在”)。
  • 结果:模型掌握语法、常识、语感。

举个例子

我预训练时可能读了亿万篇文章,现在才能聊这么多话题。

为什么重要?

  • 基础:没有预训练,模型就是“文盲”。
  • 通用性:预训练让模型能应对各种任务。

8. Prompt Engineering(提示工程)

什么是Prompt Engineering?

提示工程是“提问的技巧”,通过设计输入,引导模型输出更好的答案。

怎么做的?

  • 简单提示:问“明天天气”,答案可能很普通。
  • 优化提示:问“以气象专家口吻预测明天北京天气”,答案会更专业。
  • 技术细节:靠试错找到模型喜欢的输入模式。

举个例子

你问我“写首诗”,我可能随便写;你说“写一首莎士比亚风格的爱情诗”,我就会更用心。

为什么重要?

  • 零成本:不改模型,只改提问就提效果。
  • 灵活性:用户能自己调教AI。

9. Hallucination(幻觉)

什么是Hallucination?

幻觉是模型“胡编乱造”。生成的内容听起来像回事,但可能是假的。

怎么来的?

  • 原因:训练数据有限,模型靠猜测填空。
  • 例子:问“2025年诺奖得主”,我可能编个名字。

举个例子

我如果说“昨天火星下雨了”,这就是幻觉,因为我没真实数据。

为什么重要?

  • 问题:误导用户,尤其在严肃场景(医疗、法律)。
  • 解决:RAG查资料、对齐人类反馈能减少。

10. Quantization(量化)

什么是Quantization?

量化是“压缩术”,把模型参数从高精度(32位浮点)降到低精度(8位整数)。

怎么做的?

  • 过程:把小数变成整数,尽量保持效果。
  • 结果:模型变小,计算更快。

举个例子

一个70B模型量化后,体积可能从几十GB降到几GB,还能在普通电脑跑。

为什么重要?

  • 普及:让大模型跑在手机、边缘设备。
  • 节能:减少电力消耗。

11. MoE(Mixture of Experts,专家混合模型)

什么是MoE?

MoE是“团队合作模型”,里面有很多“小专家”,每个擅长不同领域,任务来了挑合适的专家。

怎么工作的?

  • 结构:一个大模型分成多个子模型。
  • 选择:有个“调度员”决定用哪个专家。
  • 例子:我聊科技用科技专家,写诗用文学专家。

为什么重要?

  • 效率:参数多(千亿级)但每次只用一部分。
  • 前景:可能是未来大模型的主流。

12. Token(令牌)

什么是Token?

Token是AI处理文字的“最小单位”,可能是词、字、标点。

怎么用的?

  • 拆分:“人工智能”可能拆成4个Token。
  • 限制:模型一次能处理多少Token(比如2048个)。

举个例子

你问我一句长话,我得把每个Token都看懂。

为什么重要?

  • 计算基础:Token数决定输入输出长度。
  • 成本:商业API按Token收费。

13. Inference(推理)

什么是Inference?

推理是模型“干活”的阶段,训练完后用来回答问题或生成内容。

怎么做的?

  • 输入:你给我一句话。
  • 输出:我算出答案。

举个例子

你现在问我问题,我就是在推理。

为什么重要?

  • 实用:训练是准备,推理是成果。
  • 优化:推理速度决定用户体验。

14. Alignment(对齐)

什么是Alignment?

对齐是让模型行为贴近人类价值观,比如礼貌、准确。

怎么做的?

  • 方法:用RLHF等人反馈调整。
  • 例子:我如果乱说话,人类纠正后我就改。

为什么重要?

  • 安全:避免输出有害内容。
  • 实用:让AI更像助手而非“怪胎”。

15. RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)

什么是RLHF?

RLHF是用人类评分教模型改进。

怎么做的?

  • 反馈:人类给回答打分(好/差)。
  • 学习:模型优化自己,提升得分。

举个例子

我说错话,你说“不好”,我就学着改。

为什么重要?

  • 人性化:让AI更懂人类需求。
  • 对齐:RLHF是对齐的核心技术。

16. Context Window(上下文窗口)

什么是Context Window?

上下文窗口是模型的“短期记忆”,指一次能处理多少文字(用Token数算)。

怎么用的?

  • 大小:比如8000个Token,能记住长对话。
  • 例子:你讲个长故事,我还能接上。

为什么重要?

  • 能力:窗口越大,越能处理复杂任务。
  • 局限:窗口小就容易“忘前顾后”。

17. Zero-shot / Few-shot Learning(零样本/少样本学习)

什么是Zero-shot/Few-shot?

  • Zero-shot:没见过任务也能做。
  • Few-shot:给几例就能学会。

怎么做的?

  • Zero-shot:靠通用知识猜,比如没学写诗也能试。
  • Few-shot:看两首诗就模仿。

为什么重要?

  • 灵活:不用大量训练就能上手。
  • 效率:省数据、省时间。

18. Multimodal(多模态)

什么是Multimodal?

多模态是模型能处理多种数据,比如文字+图片+声音。

怎么做的?

  • 融合:用不同网络处理不同输入,再整合。
  • 例子:你发张猫图,我能说“这只猫很可爱”。

为什么重要?

  • 全面:更像人类的多感官能力。
  • 未来:多模态AI是大趋势。

这些术语是一个完整AI生态:

  • 基础:Transformer造骨架,LLM成大脑,Token是砖块。
  • 成长:Pre-training打底,Fine-tuning专精,RLHF+Alignment调性格。
  • 优化:Distillation、Quantization、MoE提效率。
  • 应用:RAG加知识,Prompt Engineering提效果,Inference实战,Context Window定范围,Zero/Few-shot秀灵活,Multimodal扩边界。
  • 挑战:Hallucination靠RAG和对齐解决。
  • 实力:多少B参数是硬指标。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注