https://juejin.cn/post/7297160453426806838

1. 什么是 LLM 复读机问题?

LLMs 复读机问题指的是模型倾向于不适当地复制用户输入的文本或者在回复中重复使用相同的句式和短语。这种倾向可能源自模型在处理输入时的一种简便路径,即模仿而不是创造性地响应。生成的内容往往缺乏变化和新颖性,这使得交互体验变得预测性强且单调。

https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/dfbb3380e69d48ed8628a7ec6f29e28f~tplv-k3u1fbpfcp-jj-mark:3024:0:0:0:q75.awebp

2. 为什么 LLM 会出现复读机问题?

  1. LLM 趋向于提高重复先前句子的概率:当先前的 token 共享同一个句子级的上下文时,模型会学到一条捷径,直接复制该token。另一种解释就是Inudction Head机制,即模型会倾向于从前面已经预测word里面挑选最匹配的词。
  2. 自我强化效应(self-reinforcement effect):重复的概率随着历史重复次数的增加而单调增加,最终重复概率稳定在某个上限值附近。

3. 如何缓解 LLMs 复读机问题?

目前针对LLM重复生成的问题,主要有两种策略,一种是基于训练思想,一种是基于解码策略。

**训练思想**:整体思想就是通过构造伪数据,即短语重复、句子重复等伪数据,如短语或句子重复 N 遍,然后设计重复惩罚项来抑制大模型生成重复句子。重复惩罚项通过设计损失函数来达成,其中是惩罚因子λ,对于开放式生成,推荐取值为 0.5,对于总结摘要类任务,取值为 0.9 性能更好。

[<https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/7320bfcd0f4a4b8cadfd8e4d649b8969~tplv-k3u1fbpfcp-jj-mark:3024:0:0:0:q75.awebp>](<https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/7320bfcd0f4a4b8cadfd8e4d649b8969~tplv-k3u1fbpfcp-jj-mark:3024:0:0:0:q75.awebp>)
**解码策略**:基于解码策略包含诸多方法,如 beam search, random search(topK, topP), 温度等。

- **集束搜索**(beam search):针对贪心策略的改进,思想就是稍微放宽一些考察范围。即在每一个时间步,不再只保留当前分数最高的 1 个输出(贪心策略),而是保留 num_beams 个,当 num_beams=1 时,集束搜索就退化成了贪心搜索。
    
    [<https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/b7a4b0ac4e334cfd9510d7d09b94072d~tplv-k3u1fbpfcp-jj-mark:3024:0:0:0:q75.awebp>](<https://p6-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/b7a4b0ac4e334cfd9510d7d09b94072d~tplv-k3u1fbpfcp-jj-mark:3024:0:0:0:q75.awebp>)
    
- **random search**(topK, topP):topK 即从概率最高的 K 个 token 中进行筛选,即允许其他高分 tokens 有机会被选中,topP 将可能性之和不超过特定值的 top tokens 列入候选名单,topP 通常设置较高的值,目的是限制可能被采样的低概率 token 的长尾。
- **Temperature**:较低的温度意味着较少的随机性,温度为 0 将始终产生相同的输出,较高的温度意味着更多的随机性,可以帮助模型给出更有创意的输出。

4. 什么情况用 BERT 模型,什么情况用 LLaMA、ChatGLM 这类大模型?

  1. BERT:BERT 主要用于文本分类、实体识别和语义相似度评估等,通常在自然语言理解(NLU)方面表现优异。
  2. LLaMA:该模型属于 Base 模型,擅长文本生成。LLaMa 专长于常识推理、数学推导、代码生成以及语言理解等任务。
  3. ChatGLM:该模型属于 Chat 模型,适合用于开发聊天机器人吗,与用户进行交流、问答。

5. 各个专业领域是否需要各自的大模型来服务?

  1. 垂直领域知识:为了有效处理某一专业领域的文本,模型需要接受包含该领域特定知识和术语的训练。例如,医疗领域的大型模型通过接受医疗知识的专业训练,能够更精准地解读和生成相关医疗文本。
  2. 行业特定语言表达和习惯用语:不同的专业领域往往发展出了独有的语言表达风格和习惯用语。通过对这些特征的深入训练,大型模型能够更好地理解并产生符合特定领域风格的文本,并且在生成内容上会更专业。
  3. 行业文本需求差异:各个领域对文本处理的具体需求有差异。例如,金融行业可能更专注于处理数字和统计信息,而法律行业可能更注重法规内容和案例分析的深度解读。因此不同领域的大型模型需经过额外的训练。