拿到未对齐的原始大模型，到底能干什么？

先搞清楚：一个大模型是怎么"炼"出来的

你用的 ChatGPT、Claude、文心一言，并不是一步到位造出来的。它们都经历了一条完整的流水线，每一步都在改变模型的能力和行为。

搞懂这条流水线，你就能理解：为什么有人拿到"半成品"反而如获至宝。

第一步：预训练（Pre-training）——吞噬互联网

这是最烧钱、最耗时的一步。

把互联网上能找到的文本——维基百科、书籍、论文、代码、新闻、论坛帖子、网页——清洗、去重之后，喂给一个随机初始化的神经网络。训练目标极其简单：

给定前面的文字，预测下一个词（token）。

就这一个目标。没有人告诉它"什么是对的"，没有人告诉它"该怎么回答问题"，甚至没有人告诉它"你是一个AI助手"。

它做的事就像一个读了人类所有书籍的学生做完形填空——"今天天气真__"，它学会了填"好"而不是"桌子"。

几千张 GPU 跑几个月，花费几千万到上亿美元。训练完成后，你得到的就是——

原始大模型（Base Model）。

这个模型已经拥有了惊人的能力：它懂语法、懂逻辑、懂世界知识、懂代码、甚至懂一些推理。但它不知道自己是一个助手，它只会做一件事——接着往下写。

你输入"中国的首都是"，它会输出"北京"。你输入"请问中国的首都是哪里？"，它可能会输出"这道题考查的是地理基础知识"——因为在它的训练数据中，这种句式后面往往跟着的是试卷答案解析。

它不是不聪明，它是不知道你在跟它"聊天"。

第二步：有监督微调（SFT）——教它"说人话"

拿到原始模型后，下一步是有监督微调（Supervised Fine-Tuning，SFT）。

怎么做？人工构造大量的"问答对"：

用户：帮我写一首关于秋天的诗
助手：金风送爽叶初黄，碧水长天共一方。雁阵南归云淡处，菊花篱下自芬芳。

用户：用Python写一个快速排序
助手：def quicksort(arr): ...

用户：解释一下什么是量子纠缠
助手：量子纠缠是量子力学中的一种现象……

用这些数据继续训练模型。模型学会了：哦，原来人类说一句话之后，我应该用"助手"的身份来回应。

经过 SFT 的模型已经能正常对话了。但它还有个问题——它不知道什么该说、什么不该说，什么是好回答、什么是烂回答。你问它一个有争议的问题，它可能两边都说，或者给出一个危险的答案。

第三步：人类反馈强化学习（RLHF / DPO）——教它"守规矩"

这一步就是对齐（Alignment）。

具体做法（以 RLHF 为例）：

收集偏好数据：让模型对同一个问题生成多个回答，然后让人类标注员排序——哪个回答更好、更安全、更有帮助
训练奖励模型（Reward Model）：用这些排序数据训练一个"裁判"模型，让它学会给回答打分
强化学习优化：用 PPO 等算法，让大模型调整自己的输出策略，朝着"高分回答"的方向进化

经过这一步，模型学会了：

拒绝危险请求（"我不能帮你制造..."）
承认不确定性（"我不确定，但..."）
输出结构化的、有帮助的回答
保持礼貌和专业的语气

DPO（Direct Preference Optimization） 是 RLHF 的简化版——跳过奖励模型，直接用偏好数据优化大模型，效果相近但流程更简单。

完整流水线一图看懂

随机初始化模型
    │
    ▼
┌─────────────────────┐
│  第一步：预训练       │  几万亿 token，几千张 GPU，几个月
│  目标：预测下一个词    │  成本：千万~亿级美元
│  产出：Base Model     │  ← ★ 这就是"原始大模型"
└─────────┬───────────┘
          │
          ▼
┌─────────────────────┐
│  第二步：SFT 微调     │  几万~几十万条问答对
│  目标：学会对话格式    │  成本：几万~几十万美元
│  产出：SFT Model     │  ← 能聊天了，但没规矩
└─────────┬───────────┘
          │
          ▼
┌─────────────────────┐
│  第三步：RLHF / DPO  │  人类偏好数据 + 强化学习
│  目标：安全、有帮助    │  成本：几十万~几百万美元
│  产出：Aligned Model  │  ← 这就是你用的 ChatGPT/Claude
└─────────────────────┘

所以，"原始大模型"到底是什么？

现在你应该清楚了：

原始大模型 = 只完成了第一步的模型。它有知识、有能力，但不会对话、不守规矩。
对齐大模型 = 完成了全部三步的模型。它知道怎么跟你聊天，知道什么该说什么不该说。

打个比方：

原始模型像一个读了全世界所有书的天才，但从没跟人说过话。 SFT 之后，它学会了"跟人聊天"这件事。 RLHF 之后，它还学会了"什么话该说、什么话不该说"。

Meta 的 LLaMA、Mistral 的开源权重、Yi 的 Base 版本——这些都是能拿到的原始模型。而你在网页上用的 ChatGPT、Claude，是走完全部流程的成品。

那问题来了：既然成品更好用，为什么有人偏偏要那个"半成品"？因为半成品能做很多成品做不到的事。

一、无损的文本续写能力——真正的"文字接龙之神"

对齐模型有个隐性代价：它会拒绝、会绕弯、会加disclaimer。你让它写一段黑色幽默，它可能先跟你讲一段"我理解你的需求，但我需要提醒你……"。

原始模型不会。

你给它一段开头，它就往下写。纯粹的、不打折扣的文本续写。这意味着：

小说创作：给一个开头，它能以极高的连贯性续写几千字，不会自我审查，不会突然"出戏"变成助手口吻。风格模仿能力极强——你给它一段鲁迅风格的开头，它续写出来的味道比对齐模型正得多。
风格迁移：把一段现代文喂进去，接一句"以下是文言文版本："，它的文言文转写往往比对齐模型更流畅，因为没有"安全层"在中间拦截和改写。
角色扮演的沉浸感：对齐模型总会在某个时刻"破功"，提醒你"我只是一个AI"。原始模型没有这个毛病，它不知道自己是AI，它只知道——下一个 token 应该是什么。

二、当"万能格式转换器"用——Few-shot 的天花板

原始模型的 few-shot 能力其实非常强悍，某些场景下甚至比对齐模型更稳定。

原因很简单：对齐训练在教模型"怎么回答"的同时，也教会了模型一些"坏习惯"——比如总想解释、总想加上下文、总想输出完整句子。

而原始模型？你给它什么模式，它就跟什么模式：

输入：The cat sat on the mat.
输出：猫坐在垫子上。

输入：I love programming.
输出：我爱编程。

输入：The weather is nice today.
输出：

它会老老实实输出"今天天气真好。"——不多不少，不会加"Here's the translation:"，不会加解释。

这在批量数据处理场景下极其好用：

批量翻译
批量摘要
批量格式转换（JSON ↔ XML ↔ CSV）
批量实体抽取

格式一致性远超对齐模型，解析成本大大降低。

三、做知识蒸馏和模型研究的"素材库"

如果你是 AI 从业者，原始模型的价值就更大了：

1. 知识探针（Knowledge Probing）

想知道模型到底"学到了什么"？原始模型是最佳研究对象。对齐模型的输出被安全层过滤过，你看到的不是模型的真实知识，而是"允许你看到的知识"。

原始模型就是一面镜子——你问什么，它反映什么。用它做知识图谱抽取、事实验证研究，数据更干净。

2. 蒸馏教师模型

用大的原始模型去教小模型（知识蒸馏），效果往往比用对齐模型做教师更好。因为原始模型的输出分布更接近"真实的语言分布"，没有被对齐过程扭曲过。

3. 自定义对齐

这是最让人兴奋的——你可以按自己的需求做对齐。

商用对齐模型的"安全标准"是厂商定的，不一定适合你的场景。拿到原始模型，你可以：

针对医疗场景做专业对齐，让它敢说"这个症状可能是XX"而不是永远"请咨询医生"
针对法律场景做精准对齐，让它给出具体的法条引用而不是模糊的免责声明
针对创意写作做宽松对齐，释放它的全部创造力

你拥有了定义"什么该说、什么不该说"的权力。

四、Embedding 和特征提取——被低估的宝藏

原始模型的中间层激活值（hidden states）是极好的文本特征。

对齐过程会改变模型内部的表征空间，有研究表明，原始模型的 embedding 在某些语义相似度任务上表现更好。

实际应用：

语义搜索：用原始模型的隐藏层做文档 embedding，构建搜索引擎
文本聚类：对大量文档做无监督分类
异常检测：检测某段文本是否偏离正常模式（可用于内容审核、反欺诈）

五、概率输出——对齐模型给不了你的东西

原始模型输出的是真实的下一个 token 概率分布。这个分布没有被对齐过程扭曲，信息量极大：

不确定性估计：概率分布越平坦，说明模型越"不确定"。这在医疗、金融等高风险场景下是关键信号。
校准性更好：原始模型说"80%的概率是A"，那大致就是80%。对齐模型的概率被 RLHF 扭曲过，校准性较差。
多候选生成：从概率分布中采样多个候选答案，用于集成学习或多样性生成。

六、低成本部署——去掉"安全税"

对齐模型的推理速度其实比原始模型稍慢，因为对齐训练往往会增加模型输出的平均长度（那些"当然，我很乐意帮助你"的开场白，都是额外的计算成本）。

原始模型：

输出更短更直接
不会生成冗余的礼貌用语
在固定长度的生成任务中，有效信息密度更高

对于大规模部署场景（每天几百万次调用），这个差异能省下实打实的算力成本。

别误解：原始模型不是"更强"，是"更原始"

需要澄清一个常见误区：原始模型并不比对齐模型"更聪明"。

它的劣势同样明显：

不会对话：它不知道什么是"问答"，你问它问题，它可能把你的问题续写成一篇文章
不可控：它不听指令，你说"用中文回答"，它未必理你
输出不稳定：可能突然跑偏、重复、胡说八道
需要工程能力：你得会写 prompt template、做后处理、搞采样策略

它更像一块毛坯钻石——价值巨大，但需要切割和打磨才能发光。

谁应该关注原始大模型？

人群	核心价值
AI 创业者	自定义对齐，打造差异化产品
研究者	探针实验，理解模型内部机制
创意工作者	无审查的文本续写和风格模仿
数据工程师	批量格式转换，few-shot 数据处理
基础设施团队	低成本部署，高效推理

写在最后

对齐是一把双刃剑。它让模型变得安全、可用、"像个人"，但也不可避免地削掉了一部分原始能力。

能接触到原始大模型的人，手里拿着的是AI 能力的无损版本。关键不在于它"没有限制"，而在于——限制由你来定义。

这才是真正让人兴奋的地方。

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.