大模型发展如火如荼,Vibe Coding、Harness Engineering等新兴范式不断落地。而所有AI的高阶能力,本质都是基于大模型的基础能力构建。只有理解大模型的核心概念,才能在应用层面更加得心应手。

目录

1、什么是Token?

2、什么是向量和Embedding?

3、什么是Attention注意力机制?

4、什么是模型训练?

5、什么是模型推理?

6、什么是上下文窗口?

1、什么是Token?

自OpenClaw出现之后,对于Token的应用持续增长。未来每个AI Agent都在持续消耗Token,就像每个电器都在消耗电力,Token成为了AI Agent的「燃料」。那么什么是Token?

Token,译为“词元”。简单来讲,Token = 大模型能看懂的最小的「文字碎片」。人类写字,模型读 token。

以一段代码为例:

input_ids = tokenizer.encode("Thank you very", return_tensors="pt")# 输出:[10449,345,845]

输出的[10449, 345, 845]这三个数字,就是Token。

2、什么是向量和Embedding?

Embedding译为"嵌入",名字本身就很形象:把一个孤立的符号,塞进(嵌入)一个充满逻辑关系的空间里。

Embedding = 把冷冰冰的符号编号,转化成有逻辑、有距离的数字坐标。

这样做的作用是什么?

将真实世界的离散数据,投影到高维数据空间,通过数据在空间中的距离体现真实世界的相似度。语义相近的词,向量之间的距离近。

向量数据是由多个数值组成的序列,可以表示一个数据量的大小和方向。AI框架的基本组成是向量 + 算子,训练和推理时可以看做向量搜索/索引和向量计算的过程。

模型为了更准确地预测,自动发现了词与词之间的语义关系,并把它们编码为向量空间中的几何结构。向量是AI理解世界的通过数据形式,向量是AI的灵魂。

3、什么是Attention注意力机制?

注意力机制是深度学习中的一种核心技术,模仿了人类在处理信息时的选择性关注能力。它通过动态分配权重,聚焦输入数据中最相关的部分,从而提高模型的效率和准确性。

人的视觉系统就是一种Attention机制,在处理图片/文字时,人们会将有限的注意力集中在重点信息上。

**Attention对应三个角色,我们以去图书馆找书举例:

  • Query(Q):一般意义上的模型输入(想要查询的知识),假设是一本书的书名
  • Key(K):用于计算与Query向量的相关性,比如图书的分类,图书的标签
  • Value(V):用于描述推理结果,图书

整个过程可以用一个公式概括:

Attention(Q, K, V) = softmax(QK^T / √d_k) V

可以看成是若干相关V值的带权求和,权重为对应的键K与查询向量的相关性。

4、什么是模型训练?

AI模型由参数+算法构成,输入特征得出预测

*** 特征:通过模型输入,提取物理对象的关键特点,数字化后成为特征

  • 参数:模型计算使用的参数,通过训练得到
  • 算法:又称模型结构,如何通过特征和参数进行计算
  • 预测:模型的输出

训练:反复根据模型预测和预期的差距,更新模型参数,使得差距最小

  • 损失(Loss)训练优化的对象,一般是模型预测和预期的差距。通常采用“梯度下降法”来降低损失。

  • 参数更新:根据损失更新参数,从而减少损失

训练 = 喂数据 → 预测 → 算误差 → 调参数 → 重复几万亿次

经典的大模型训练流程包括:预训练(Pre-training)、有监督微调(SFT)、基于人类反馈的强化学习(RLHF)。

预训练:模型会学习来自海量、无标注文本数据集的知识。预训练通常需要数十到百亿Token的文本语料库,但训练的目标只是简单的「下一个单词预测」任务。

监督微调:细化模型,以便后期在推理的过程中更好地遵守特定指令。区别在于数据集是经过人工标注的指令数据集,模型的输入是一个指令或特殊的数据结构,输出为期望大模型的回复内容。

强化学习:是LLM可以更有用且安全地相应用户的Prompt。目标是将大模型与人类的偏好、价值观对齐。具体可参考之前的文章什么是强化学习(Reinforcement Learning)?

5、什么是模型推理?

推理是使用经过训练的模型,根据用户的输入请求,快速预测得到一个精确的结果。推理是模型使用的过程,训练是模型构建的过程。

当我们发送请求的瞬间,会经历如下的推理过程:

1)整个过程分为Prefill(全量)和Decode(增量)

2)将输入Token化

3)将Token输入LLM进行全量推理,推出每个Token的下一个Token,和全量的KV Cache

4)将推出的最新Token再次输入模型,叠加之前的KV Cache,推出下一个Token,并刷新KV Cache

5)不断重复步骤4进行自回归,每次得到一个Token,直到终止

推理 = Prefill(一口气处理全部输入)+ Decode(一个一个蹦出输出),KV Cache 让 Decode 阶段不用重复计算。

模型越大越聪明,但也越慢越贵。KV Cache、量化、批处理——所有优化都在"聪明"和"快速"之间找平衡。

6、什么是上下文窗口?

想象一位顶尖顾问、学识渊博、思维敏捷,却患有极端的顺行性遗忘。每次对话结束,他就忘记你是谁、你们聊过什么、以及他承诺过什么。

大语言模型也存在这个问题,尽管拥有万亿参数的知识储备,却困于有限的上下文窗口,无法跨越会话边界积累认知,如同一条只有七秒记忆的金鱼。

上下文窗口 = 输入 token 数 + 输出 token 数 ≤ 窗口上限****

大语言模型本质上是无状态的,即便具备超大上下文窗口,若智能体需要在多次交互、任务执行和不同的环境中维持并检索知识,仍离不开记忆系统。

结语:本文描述了跟大模型相关的6个概念,但是模型做的事情只有一件,就是预测下一个Token。分词、嵌入、注意力机制、训练、推理,上下文窗口,都是为了让这个「预测」更准、更快、更大规模。

Gartner预测,到2026年底,企业40%的应用程序将转变成集成特定任务的Agent工作流编排平台。

Agent做的事就是把大模型的「预测」转化为真实世界的「行动」。核心思想是通过Prompt驱动LLM自主完成任务的拆分、工具选择、执行、反思、直到任务完成。**

普通人如何抓住AI大模型的风口?

领取方式在文末

2026年入行AI大模型的黄金窗口!!!

AI产业正迎来前所未有的爆发式增长。 从DeepSeek以百万年薪重金招募顶尖研究员,到百度、阿里、腾讯等头部企业加速推进AI Agent商业化布局,再到国家层面持续出台政策,大力扶持数字经济与AI人才培育体系,多重信号清晰指向一个共识:AI的“黄金十年”已全面开启

在产业浪潮的强劲推动下,AI人才争夺战日趋白热化。技术迭代与场景落地双轮驱动,催生海量高价值岗位。放眼未来,AI领域的职业发展前景广阔无垠,正涌现出大量高潜机遇,堪称一片值得深耕的**“人才蓝海”**。

脉脉数据显示📊:
2026年1-2月,AI岗位数量同比增长约12倍,增速远超新经济行业整体增幅;AI岗位在全部新经济岗位中的占比也从2025年同期的2.29%跃升至26.23%,几乎占据新经济招聘市场的四分之一。

与此同时,AI新发岗位平均月薪高达60738元,较新经济行业整体平均月薪48189元高出约26%。

这一切都说明一件事:2026年,正是入行AI大模型的黄金窗口❗️❗️

在这里插入图片描述

最佳学习路线

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

在这里插入图片描述

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】
在这里插入图片描述

Logo

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容,并连接云服务、办公空间等稀缺资源,助你专注创造,无忧运营。

更多推荐