过去三个月，LLaMA系模型发展如何？指令微调的核心问题又是什么？

人工智能1年前发布 719401146

符尧（yao.fu@ed.ac.uk），爱丁堡大学 (University of Edinburgh) 博士生，本科毕业于北京大学。

ChatGPT 大火之后，在 2023 年 2 月 24 日，LLaMA 的出现让 instruction tuning 这个方向变得火热；3 月 18 日，Alpaca 让大家看到从成熟的模型 distill 小模型成为还不错的 ChatBot 的可能性，从而引发羊驼系模型寒武纪大爆发。但仅仅过去三个月，大家开始发现意识到用 ChatGPT 的数据训练 LLaMA 的各种问题。本文回顾在过去三个月内的 LLaMA 系模型的发展，讨论 Instruction Tuning 的下一步挑战。

Disclaimer: 这篇文章算是一个 quick research memo，是从我近期的一个分享大纲里 edit 出来的，做了一些删减和补充；现阶段开源社区对于 LLM 训练清楚 / 不清楚的地方同时存在，我尽量做到引用 / 讨论的内容都是有切实证据，而不是基于流言。很多的内容是我跟对应论文的原作者直接讨论过的。但即便这样，我的 take 也可能有误，很多也讨论不出来，所以请大家直接在评论区 comment，积极参与讨论，真理越辩越明。

1 – 起源

最开始三篇

InstructGPT: Training language models to follow instructions with human feedback
FLANv1: Finetuned Language Models Are Zero-Shot Learners
T0: Multitask Prompted Training Enables Zero-Shot Task Generalization

对比

InstructGPT 的目标是对齐，zero-shot /cross lingual 是副产物
这篇文章用的 7B 的 Reward model 来对应 175B 的 Policy model，然后被 DeepSpeed Chat 以及之后一系列 RL 的开源工作 follow，这种做法应该是错的。
正确的做法应该是用 Reward model scale up 换取 policy model 减小，见 [Scaling Laws for Reward Model Overoptimization](https://arxiv.org/abs/2210.10760) — 也就是说把两个模型大小换过来，用 175B 的 reward 去 PPO 7B 的 policy
模型上线现阶段 10-50B 是一个比较跑得起的量级，再大太贵了
FLANv1 和 T0 的目标是 zero-shot，所以不对齐

然后是 Self-instruct

Self-Instruct: Aligning Language Models with Self-Generated Instructions

注意 self-instruct 的重点

Base model 可以是任意，不需要是经过了 alignment 之后的模型 (ChatGPT)
复现了从初代 davinci 到 text-davinci-001 的过程 — 非常 insightful!!

过去三个月，LLaMA系模型发展如何？指令微调的核心问题又是什么？图片

然后是 FLANv2 — 很重要，我可能读了十遍以上，建议背诵全文

Scaling Instruction-Finetuned Language Models
效果除了不加 human preference 之外其他都加，等下专门讨论
Human preference 确实是喜欢能说的，但是能说的模型不一定能干活。Flan 能干活，但是不能说，跟程序员一样

2 – LLaMA 出现之后

Alpaca：起始文章，但是模型本身强度并不多高
Vicuna
在开源中只做对话强度不错，格式符合人类喜好，生成内容多，unique token 多
Automatic eval 中，可能 in-context learning /reasoning/knowledge suboptimal (体现在 MMLU，BBH 分数)，不是说它不行，而是说它可以更好
GPT-4 eval 到底行不行还不好说，LMSys 团队自己说行，前提是 prompt engineering 做得足够到位：Judging LLM-as-a-judge with MT-Bench and Chatbot Arena
另外 LMSys 的团队在 efficiency 方面非常强，模型的 serve 看 [vllm](https://github.com/vllm-project/vllm) 这个 project，或许是开源最快的
然后一系列以 GPT-4 做 judge 然后号称自己达到了 GPT3.5 x% 水准的模型，全部不推荐，因为 Eval 不可靠
但是存在几篇工作在 alignment 的时候没有依赖 ChatGPT，这些工作推荐，它们包括
LIMA: Less Is More for Alignment — 关注他们选数据的方法，推荐花一个小时的时间把他们的 [数据](https://huggingface.co/datasets/GAIR/lima) 有感情地朗读一遍，这样就知道什么样的 SFT 的数据是好数据了
Dromedary: Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision — 关注他们 prompt engineering 的方法，这个基本上是一个 LLaMA 版的 Constitutional AI – SFT
然后是一些 paper （终于）开始分析 instruction tuning 的 data mixture
Tulu: How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources
结果非常 mix，没办法下结论哪种 mixture 好
但是知道哪种不好：NLP benchmark

3 – Eval 怎么做

首先，不要在一堆 benchmark 上算分数看平均，特别是不要在 GPT-3 的测试任务上看平均，因为平均下来大家都一样；推荐只看核心的有区分度的 benchmark

没有区分度的例子：

LM-Eval-Harness（https://github.com/EleutherAI/lm-evaluation-harness），benchmark 太多，平均下来掩盖优质 benchmark
这里面其实涵盖了 MMLU 和 MATH，但是被其他数据集平均了
Summarization + Rouge / Translation + BLEU:
Rouge 和 BLEU 模型强弱只有四五分的差别，数字太小 v.s. accuracy 下模型强弱是 90 分和 10 分的差别，数字足够大
Rouge 和 BLEU 和人类偏好不 align — 注意 BLEU 也不完全 align

那么 Pretrain 建议看哪些呢？

区分度，模型强弱需要能一眼看出
分方向，现阶段可以暂时分成
英文知识 — MMLU
中文知识 — C-Eval
推理 — GSM8k / BBH
代码 — HumanEval / MBPP
解决上面四项平衡之后，可以接着做
MATH：高难度 reasoning
Dialog：这个可能只有 human eval 才行，automatic eval 搞不定

接下来讲 Automatic Eval

Automatic Eval – 适合 pretrained checkpoint – 基本上可以看 https://github.com/FranxYao/chain-of-thought-hub 的做法

Knowledge: MMLU
这个数据集很稳定，基本上没有 sensitivity issue
Reasoning:
GSM8k: 也比较稳定，但要注意答案提取函数的提出率，低于九十的话得多加 regular expression
BBH – Algorithmic:
不是很稳定，需要注意答案提出率
BBH – Language:
不是很稳定，需要注意答案提出率 — Chain-of-thought Hub 马上会出一个答案提出率对于结果的 sensitivity 的分析，结论是 BBH 比较 sensitive
现在除了增大模型之外，还不清楚哪些操作可以增加 BBH 数据集上的分数
Coding:
Human Eval / MBPP: 似乎比较稳定但需要注意做 unbiased estimation
先看上面的几个数据集，分数能够 match llama 之后，就看 MATH
MATH：
超级难，GPT-4 的分数
naive prompting: 42
→ complexity based prompting: 50 https://openreview.net/forum?id=yf1icZHC-l9
→ progressive hint prompting: 53 https://arxiv.org/abs/2304.09797
→ majority voting over 18k: 69.6
→ best of n with outcome based reward modeling: 72.4
→ best of n with [process-based reward modeling](https://arxiv.org/abs/2305.20050): 78.2
→ PPO + process-based reward modeling = ? 推测会上 90
泛化？— 应该是比较强的，泛化一般而言跟基础模型大小正相关，跟 SFT 数据总量负相关，跟 SFT 数据丰富度正相关
如果不是 GPT-4
Minerva / PaLM-2: 34.3
Galactica: 33.6 — 这篇文章操作很好，因为 Hallucination 被喷下架导致重要性被严重低估
88B paper + 7B code + 7B encyclopedias, textbooks and educational material + 2B KB + 1B CC + 0.4B prompt /instruction * 4 epochs
LLaMA 65B: 10.6
其他：低于 10 分

对于一个已经 finetune 成了 chatbot 的模型

首先把上述 benchmark 用 few-shot 的方式过一遍，确保不要掉点
如果只是 dialog finetuning 的话可能会伤已有的能力 (MMLU / BBH)
如果掉点，则考虑 LM mixing / FLANv2 mixing
注意 Chatbot 的 few-shot prompting 要用 dialog 的版本因为 single round 里塞很多 in-context example 模型可能不 instruction-following 不够强，见 CoT Hub 的 standard prompt library（https://github.com/FranxYao/chain-of-thought-hub/blob/main/spl/gsm8k/chat/few_shot_cot.chatml）
然后就是去 eval 用户偏好了，这个时候只能人做
如果有很大的，已经训练好了的 reward model，可以用它 eval 上线的小型 / 中等模型，这个其实跟人做 eval 区别不大
对于一个很大的 Policy Model
Online iterative RLHF 前期怎样都需要需要 expert eval
后期需要 expert eval [with AI assistance](https://arxiv.org/abs/2206.05802)

那么能不能用稍微弱一点的模型做 eval 呢？— 可以用，但是注意 query 的难度和分布，注意 prompt engineering

如果不经过 prompt engineering ，肯定不行，因为各种 bias
如果 query 难度不够，diversity 不够，也不一定行
如果 query 难度足够 + 经过了疯狂 prompt engineering，则对于 information seeking 类型的 eval ，或许可以，see https://arxiv.org/abs/2306.05685
但是对于 reasoning 相关，non-information seeking 相关（比如 TLDR），又不一定行
对于 information seeking 相关的 query 会 biased 到长的回复