all posts
AI技术 · ZH

拿到未对齐的原始大模型,到底能干什么?

May 8, 2026·15 min read·by PandaTalk

拿到未对齐的原始大模型,到底能干什么?

先搞清楚:一个大模型是怎么"炼"出来的

你用的 ChatGPT、Claude、文心一言,并不是一步到位造出来的。它们都经历了一条完整的流水线,每一步都在改变模型的能力和行为。

搞懂这条流水线,你就能理解:为什么有人拿到"半成品"反而如获至宝。

第一步:预训练(Pre-training)——吞噬互联网

这是最烧钱、最耗时的一步。

把互联网上能找到的文本——维基百科、书籍、论文、代码、新闻、论坛帖子、网页——清洗、去重之后,喂给一个随机初始化的神经网络。训练目标极其简单:

给定前面的文字,预测下一个词(token)。

就这一个目标。没有人告诉它"什么是对的",没有人告诉它"该怎么回答问题",甚至没有人告诉它"你是一个AI助手"。

它做的事就像一个读了人类所有书籍的学生做完形填空——"今天天气真__",它学会了填"好"而不是"桌子"。

几千张 GPU 跑几个月,花费几千万到上亿美元。训练完成后,你得到的就是——

原始大模型(Base Model)。

这个模型已经拥有了惊人的能力:它懂语法、懂逻辑、懂世界知识、懂代码、甚至懂一些推理。但它不知道自己是一个助手,它只会做一件事——接着往下写

你输入"中国的首都是",它会输出"北京"。 你输入"请问中国的首都是哪里?",它可能会输出"这道题考查的是地理基础知识"——因为在它的训练数据中,这种句式后面往往跟着的是试卷答案解析。

它不是不聪明,它是不知道你在跟它"聊天"。

第二步:有监督微调(SFT)——教它"说人话"

拿到原始模型后,下一步是有监督微调(Supervised Fine-Tuning,SFT)

怎么做?人工构造大量的"问答对":

用户:帮我写一首关于秋天的诗
助手:金风送爽叶初黄,碧水长天共一方。雁阵南归云淡处,菊花篱下自芬芳。

用户:用Python写一个快速排序
助手:def quicksort(arr): ...

用户:解释一下什么是量子纠缠
助手:量子纠缠是量子力学中的一种现象……

用这些数据继续训练模型。模型学会了:哦,原来人类说一句话之后,我应该用"助手"的身份来回应。

经过 SFT 的模型已经能正常对话了。但它还有个问题——它不知道什么该说、什么不该说,什么是好回答、什么是烂回答。你问它一个有争议的问题,它可能两边都说,或者给出一个危险的答案。

第三步:人类反馈强化学习(RLHF / DPO)——教它"守规矩"

这一步就是对齐(Alignment)

具体做法(以 RLHF 为例):

  1. 收集偏好数据:让模型对同一个问题生成多个回答,然后让人类标注员排序——哪个回答更好、更安全、更有帮助
  2. 训练奖励模型(Reward Model):用这些排序数据训练一个"裁判"模型,让它学会给回答打分
  3. 强化学习优化:用 PPO 等算法,让大模型调整自己的输出策略,朝着"高分回答"的方向进化

经过这一步,模型学会了:

  • 拒绝危险请求("我不能帮你制造...")
  • 承认不确定性("我不确定,但...")
  • 输出结构化的、有帮助的回答
  • 保持礼貌和专业的语气

DPO(Direct Preference Optimization) 是 RLHF 的简化版——跳过奖励模型,直接用偏好数据优化大模型,效果相近但流程更简单。

完整流水线一图看懂

随机初始化模型
    │
    ▼
┌─────────────────────┐
│  第一步:预训练       │  几万亿 token,几千张 GPU,几个月
│  目标:预测下一个词    │  成本:千万~亿级美元
│  产出:Base Model     │  ← ★ 这就是"原始大模型"
└─────────┬───────────┘
          │
          ▼
┌─────────────────────┐
│  第二步:SFT 微调     │  几万~几十万条问答对
│  目标:学会对话格式    │  成本:几万~几十万美元
│  产出:SFT Model     │  ← 能聊天了,但没规矩
└─────────┬───────────┘
          │
          ▼
┌─────────────────────┐
│  第三步:RLHF / DPO  │  人类偏好数据 + 强化学习
│  目标:安全、有帮助    │  成本:几十万~几百万美元
│  产出:Aligned Model  │  ← 这就是你用的 ChatGPT/Claude
└─────────────────────┘

所以,"原始大模型"到底是什么?

现在你应该清楚了:

  • 原始大模型 = 只完成了第一步的模型。它有知识、有能力,但不会对话、不守规矩。
  • 对齐大模型 = 完成了全部三步的模型。它知道怎么跟你聊天,知道什么该说什么不该说。

打个比方:

原始模型像一个读了全世界所有书的天才,但从没跟人说过话。 SFT 之后,它学会了"跟人聊天"这件事。 RLHF 之后,它还学会了"什么话该说、什么话不该说"。

Meta 的 LLaMA、Mistral 的开源权重、Yi 的 Base 版本——这些都是能拿到的原始模型。而你在网页上用的 ChatGPT、Claude,是走完全部流程的成品。

那问题来了:既然成品更好用,为什么有人偏偏要那个"半成品"?因为半成品能做很多成品做不到的事。


一、无损的文本续写能力——真正的"文字接龙之神"

对齐模型有个隐性代价:它会拒绝、会绕弯、会加disclaimer。你让它写一段黑色幽默,它可能先跟你讲一段"我理解你的需求,但我需要提醒你……"。

原始模型不会。

你给它一段开头,它就往下写。纯粹的、不打折扣的文本续写。这意味着:

  • 小说创作:给一个开头,它能以极高的连贯性续写几千字,不会自我审查,不会突然"出戏"变成助手口吻。风格模仿能力极强——你给它一段鲁迅风格的开头,它续写出来的味道比对齐模型正得多。
  • 风格迁移:把一段现代文喂进去,接一句"以下是文言文版本:",它的文言文转写往往比对齐模型更流畅,因为没有"安全层"在中间拦截和改写。
  • 角色扮演的沉浸感:对齐模型总会在某个时刻"破功",提醒你"我只是一个AI"。原始模型没有这个毛病,它不知道自己是AI,它只知道——下一个 token 应该是什么。

二、当"万能格式转换器"用——Few-shot 的天花板

原始模型的 few-shot 能力其实非常强悍,某些场景下甚至比对齐模型更稳定。

原因很简单:对齐训练在教模型"怎么回答"的同时,也教会了模型一些"坏习惯"——比如总想解释、总想加上下文、总想输出完整句子。

而原始模型?你给它什么模式,它就跟什么模式:

输入:The cat sat on the mat.
输出:猫坐在垫子上。

输入:I love programming.
输出:我爱编程。

输入:The weather is nice today.
输出:

它会老老实实输出"今天天气真好。"——不多不少,不会加"Here's the translation:",不会加解释。

这在批量数据处理场景下极其好用:

  • 批量翻译
  • 批量摘要
  • 批量格式转换(JSON ↔ XML ↔ CSV)
  • 批量实体抽取

格式一致性远超对齐模型,解析成本大大降低。

三、做知识蒸馏和模型研究的"素材库"

如果你是 AI 从业者,原始模型的价值就更大了:

1. 知识探针(Knowledge Probing)

想知道模型到底"学到了什么"?原始模型是最佳研究对象。对齐模型的输出被安全层过滤过,你看到的不是模型的真实知识,而是"允许你看到的知识"。

原始模型就是一面镜子——你问什么,它反映什么。用它做知识图谱抽取、事实验证研究,数据更干净。

2. 蒸馏教师模型

用大的原始模型去教小模型(知识蒸馏),效果往往比用对齐模型做教师更好。因为原始模型的输出分布更接近"真实的语言分布",没有被对齐过程扭曲过。

3. 自定义对齐

这是最让人兴奋的——你可以按自己的需求做对齐

商用对齐模型的"安全标准"是厂商定的,不一定适合你的场景。拿到原始模型,你可以:

  • 针对医疗场景做专业对齐,让它敢说"这个症状可能是XX"而不是永远"请咨询医生"
  • 针对法律场景做精准对齐,让它给出具体的法条引用而不是模糊的免责声明
  • 针对创意写作做宽松对齐,释放它的全部创造力

你拥有了定义"什么该说、什么不该说"的权力。

四、Embedding 和特征提取——被低估的宝藏

原始模型的中间层激活值(hidden states)是极好的文本特征。

对齐过程会改变模型内部的表征空间,有研究表明,原始模型的 embedding 在某些语义相似度任务上表现更好。

实际应用:

  • 语义搜索:用原始模型的隐藏层做文档 embedding,构建搜索引擎
  • 文本聚类:对大量文档做无监督分类
  • 异常检测:检测某段文本是否偏离正常模式(可用于内容审核、反欺诈)

五、概率输出——对齐模型给不了你的东西

原始模型输出的是真实的下一个 token 概率分布。这个分布没有被对齐过程扭曲,信息量极大:

  • 不确定性估计:概率分布越平坦,说明模型越"不确定"。这在医疗、金融等高风险场景下是关键信号。
  • 校准性更好:原始模型说"80%的概率是A",那大致就是80%。对齐模型的概率被 RLHF 扭曲过,校准性较差。
  • 多候选生成:从概率分布中采样多个候选答案,用于集成学习或多样性生成。

六、低成本部署——去掉"安全税"

对齐模型的推理速度其实比原始模型稍慢,因为对齐训练往往会增加模型输出的平均长度(那些"当然,我很乐意帮助你"的开场白,都是额外的计算成本)。

原始模型:

  • 输出更短更直接
  • 不会生成冗余的礼貌用语
  • 在固定长度的生成任务中,有效信息密度更高

对于大规模部署场景(每天几百万次调用),这个差异能省下实打实的算力成本。


别误解:原始模型不是"更强",是"更原始"

需要澄清一个常见误区:原始模型并不比对齐模型"更聪明"

它的劣势同样明显:

  • 不会对话:它不知道什么是"问答",你问它问题,它可能把你的问题续写成一篇文章
  • 不可控:它不听指令,你说"用中文回答",它未必理你
  • 输出不稳定:可能突然跑偏、重复、胡说八道
  • 需要工程能力:你得会写 prompt template、做后处理、搞采样策略

它更像一块毛坯钻石——价值巨大,但需要切割和打磨才能发光。


谁应该关注原始大模型?

人群 核心价值
AI 创业者 自定义对齐,打造差异化产品
研究者 探针实验,理解模型内部机制
创意工作者 无审查的文本续写和风格模仿
数据工程师 批量格式转换,few-shot 数据处理
基础设施团队 低成本部署,高效推理

写在最后

对齐是一把双刃剑。它让模型变得安全、可用、"像个人",但也不可避免地削掉了一部分原始能力。

能接触到原始大模型的人,手里拿着的是AI 能力的无损版本。关键不在于它"没有限制",而在于——限制由你来定义

这才是真正让人兴奋的地方。

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.