拿到未对齐的原始大模型,到底能干什么?
拿到未对齐的原始大模型,到底能干什么?
先搞清楚:一个大模型是怎么"炼"出来的
你用的 ChatGPT、Claude、文心一言,并不是一步到位造出来的。它们都经历了一条完整的流水线,每一步都在改变模型的能力和行为。
搞懂这条流水线,你就能理解:为什么有人拿到"半成品"反而如获至宝。
第一步:预训练(Pre-training)——吞噬互联网
这是最烧钱、最耗时的一步。
把互联网上能找到的文本——维基百科、书籍、论文、代码、新闻、论坛帖子、网页——清洗、去重之后,喂给一个随机初始化的神经网络。训练目标极其简单:
给定前面的文字,预测下一个词(token)。
就这一个目标。没有人告诉它"什么是对的",没有人告诉它"该怎么回答问题",甚至没有人告诉它"你是一个AI助手"。
它做的事就像一个读了人类所有书籍的学生做完形填空——"今天天气真__",它学会了填"好"而不是"桌子"。
几千张 GPU 跑几个月,花费几千万到上亿美元。训练完成后,你得到的就是——
原始大模型(Base Model)。
这个模型已经拥有了惊人的能力:它懂语法、懂逻辑、懂世界知识、懂代码、甚至懂一些推理。但它不知道自己是一个助手,它只会做一件事——接着往下写。
你输入"中国的首都是",它会输出"北京"。 你输入"请问中国的首都是哪里?",它可能会输出"这道题考查的是地理基础知识"——因为在它的训练数据中,这种句式后面往往跟着的是试卷答案解析。
它不是不聪明,它是不知道你在跟它"聊天"。
第二步:有监督微调(SFT)——教它"说人话"
拿到原始模型后,下一步是有监督微调(Supervised Fine-Tuning,SFT)。
怎么做?人工构造大量的"问答对":
用户:帮我写一首关于秋天的诗
助手:金风送爽叶初黄,碧水长天共一方。雁阵南归云淡处,菊花篱下自芬芳。
用户:用Python写一个快速排序
助手:def quicksort(arr): ...
用户:解释一下什么是量子纠缠
助手:量子纠缠是量子力学中的一种现象……
用这些数据继续训练模型。模型学会了:哦,原来人类说一句话之后,我应该用"助手"的身份来回应。
经过 SFT 的模型已经能正常对话了。但它还有个问题——它不知道什么该说、什么不该说,什么是好回答、什么是烂回答。你问它一个有争议的问题,它可能两边都说,或者给出一个危险的答案。
第三步:人类反馈强化学习(RLHF / DPO)——教它"守规矩"
这一步就是对齐(Alignment)。
具体做法(以 RLHF 为例):
- 收集偏好数据:让模型对同一个问题生成多个回答,然后让人类标注员排序——哪个回答更好、更安全、更有帮助
- 训练奖励模型(Reward Model):用这些排序数据训练一个"裁判"模型,让它学会给回答打分
- 强化学习优化:用 PPO 等算法,让大模型调整自己的输出策略,朝着"高分回答"的方向进化
经过这一步,模型学会了:
- 拒绝危险请求("我不能帮你制造...")
- 承认不确定性("我不确定,但...")
- 输出结构化的、有帮助的回答
- 保持礼貌和专业的语气
DPO(Direct Preference Optimization) 是 RLHF 的简化版——跳过奖励模型,直接用偏好数据优化大模型,效果相近但流程更简单。
完整流水线一图看懂
随机初始化模型
│
▼
┌─────────────────────┐
│ 第一步:预训练 │ 几万亿 token,几千张 GPU,几个月
│ 目标:预测下一个词 │ 成本:千万~亿级美元
│ 产出:Base Model │ ← ★ 这就是"原始大模型"
└─────────┬───────────┘
│
▼
┌─────────────────────┐
│ 第二步:SFT 微调 │ 几万~几十万条问答对
│ 目标:学会对话格式 │ 成本:几万~几十万美元
│ 产出:SFT Model │ ← 能聊天了,但没规矩
└─────────┬───────────┘
│
▼
┌─────────────────────┐
│ 第三步:RLHF / DPO │ 人类偏好数据 + 强化学习
│ 目标:安全、有帮助 │ 成本:几十万~几百万美元
│ 产出:Aligned Model │ ← 这就是你用的 ChatGPT/Claude
└─────────────────────┘
所以,"原始大模型"到底是什么?
现在你应该清楚了:
- 原始大模型 = 只完成了第一步的模型。它有知识、有能力,但不会对话、不守规矩。
- 对齐大模型 = 完成了全部三步的模型。它知道怎么跟你聊天,知道什么该说什么不该说。
打个比方:
原始模型像一个读了全世界所有书的天才,但从没跟人说过话。 SFT 之后,它学会了"跟人聊天"这件事。 RLHF 之后,它还学会了"什么话该说、什么话不该说"。
Meta 的 LLaMA、Mistral 的开源权重、Yi 的 Base 版本——这些都是能拿到的原始模型。而你在网页上用的 ChatGPT、Claude,是走完全部流程的成品。
那问题来了:既然成品更好用,为什么有人偏偏要那个"半成品"?因为半成品能做很多成品做不到的事。
一、无损的文本续写能力——真正的"文字接龙之神"
对齐模型有个隐性代价:它会拒绝、会绕弯、会加disclaimer。你让它写一段黑色幽默,它可能先跟你讲一段"我理解你的需求,但我需要提醒你……"。
原始模型不会。
你给它一段开头,它就往下写。纯粹的、不打折扣的文本续写。这意味着:
- 小说创作:给一个开头,它能以极高的连贯性续写几千字,不会自我审查,不会突然"出戏"变成助手口吻。风格模仿能力极强——你给它一段鲁迅风格的开头,它续写出来的味道比对齐模型正得多。
- 风格迁移:把一段现代文喂进去,接一句"以下是文言文版本:",它的文言文转写往往比对齐模型更流畅,因为没有"安全层"在中间拦截和改写。
- 角色扮演的沉浸感:对齐模型总会在某个时刻"破功",提醒你"我只是一个AI"。原始模型没有这个毛病,它不知道自己是AI,它只知道——下一个 token 应该是什么。
二、当"万能格式转换器"用——Few-shot 的天花板
原始模型的 few-shot 能力其实非常强悍,某些场景下甚至比对齐模型更稳定。
原因很简单:对齐训练在教模型"怎么回答"的同时,也教会了模型一些"坏习惯"——比如总想解释、总想加上下文、总想输出完整句子。
而原始模型?你给它什么模式,它就跟什么模式:
输入:The cat sat on the mat.
输出:猫坐在垫子上。
输入:I love programming.
输出:我爱编程。
输入:The weather is nice today.
输出:
它会老老实实输出"今天天气真好。"——不多不少,不会加"Here's the translation:",不会加解释。
这在批量数据处理场景下极其好用:
- 批量翻译
- 批量摘要
- 批量格式转换(JSON ↔ XML ↔ CSV)
- 批量实体抽取
格式一致性远超对齐模型,解析成本大大降低。
三、做知识蒸馏和模型研究的"素材库"
如果你是 AI 从业者,原始模型的价值就更大了:
1. 知识探针(Knowledge Probing)
想知道模型到底"学到了什么"?原始模型是最佳研究对象。对齐模型的输出被安全层过滤过,你看到的不是模型的真实知识,而是"允许你看到的知识"。
原始模型就是一面镜子——你问什么,它反映什么。用它做知识图谱抽取、事实验证研究,数据更干净。
2. 蒸馏教师模型
用大的原始模型去教小模型(知识蒸馏),效果往往比用对齐模型做教师更好。因为原始模型的输出分布更接近"真实的语言分布",没有被对齐过程扭曲过。
3. 自定义对齐
这是最让人兴奋的——你可以按自己的需求做对齐。
商用对齐模型的"安全标准"是厂商定的,不一定适合你的场景。拿到原始模型,你可以:
- 针对医疗场景做专业对齐,让它敢说"这个症状可能是XX"而不是永远"请咨询医生"
- 针对法律场景做精准对齐,让它给出具体的法条引用而不是模糊的免责声明
- 针对创意写作做宽松对齐,释放它的全部创造力
你拥有了定义"什么该说、什么不该说"的权力。
四、Embedding 和特征提取——被低估的宝藏
原始模型的中间层激活值(hidden states)是极好的文本特征。
对齐过程会改变模型内部的表征空间,有研究表明,原始模型的 embedding 在某些语义相似度任务上表现更好。
实际应用:
- 语义搜索:用原始模型的隐藏层做文档 embedding,构建搜索引擎
- 文本聚类:对大量文档做无监督分类
- 异常检测:检测某段文本是否偏离正常模式(可用于内容审核、反欺诈)
五、概率输出——对齐模型给不了你的东西
原始模型输出的是真实的下一个 token 概率分布。这个分布没有被对齐过程扭曲,信息量极大:
- 不确定性估计:概率分布越平坦,说明模型越"不确定"。这在医疗、金融等高风险场景下是关键信号。
- 校准性更好:原始模型说"80%的概率是A",那大致就是80%。对齐模型的概率被 RLHF 扭曲过,校准性较差。
- 多候选生成:从概率分布中采样多个候选答案,用于集成学习或多样性生成。
六、低成本部署——去掉"安全税"
对齐模型的推理速度其实比原始模型稍慢,因为对齐训练往往会增加模型输出的平均长度(那些"当然,我很乐意帮助你"的开场白,都是额外的计算成本)。
原始模型:
- 输出更短更直接
- 不会生成冗余的礼貌用语
- 在固定长度的生成任务中,有效信息密度更高
对于大规模部署场景(每天几百万次调用),这个差异能省下实打实的算力成本。
别误解:原始模型不是"更强",是"更原始"
需要澄清一个常见误区:原始模型并不比对齐模型"更聪明"。
它的劣势同样明显:
- 不会对话:它不知道什么是"问答",你问它问题,它可能把你的问题续写成一篇文章
- 不可控:它不听指令,你说"用中文回答",它未必理你
- 输出不稳定:可能突然跑偏、重复、胡说八道
- 需要工程能力:你得会写 prompt template、做后处理、搞采样策略
它更像一块毛坯钻石——价值巨大,但需要切割和打磨才能发光。
谁应该关注原始大模型?
| 人群 | 核心价值 |
|---|---|
| AI 创业者 | 自定义对齐,打造差异化产品 |
| 研究者 | 探针实验,理解模型内部机制 |
| 创意工作者 | 无审查的文本续写和风格模仿 |
| 数据工程师 | 批量格式转换,few-shot 数据处理 |
| 基础设施团队 | 低成本部署,高效推理 |
写在最后
对齐是一把双刃剑。它让模型变得安全、可用、"像个人",但也不可避免地削掉了一部分原始能力。
能接触到原始大模型的人,手里拿着的是AI 能力的无损版本。关键不在于它"没有限制",而在于——限制由你来定义。
这才是真正让人兴奋的地方。
If you read this far — thank you.
Come tell me what you thought on X.