知识蒸馏是用一个模型的输出用做另一个模型的预训练输入。这样训练速度快,但数据里的噪音没有了,模型适应能力下降。但可以通过精调, fine tunning,对冲