Sidebar Wallpaper
Author Avatar
Libido Knowledge Bank

Cool & Powerful

  • Total written 2 articles
  • Total created 2 tags
  • Total received 3 comments

Table of ContentsCONTENT

Table of Contents

Lookback Lens论文解读

Administrator
2025-04-30 / 0 Comments / 0 Likes / 11 Views / 0 Words

下面按 Why → What → How 的脉络,用尽量少的行话把 Lookback Lens 这篇论文讲清楚;你只要有大模型(LLM)的基本概念即可跟上。


一、Why:为什么要做 Lookback Lens?

  1. 幻觉仍是 LLM 落地的最大阻力。即使给定了正确的参考文档,模型也常把不存在的细节写进摘要或回答里,这类 “contextual hallucination” 在检索增强 (RAG)、长文摘要等场景尤其棘手。
  2. 已有检测方法两头都重
    • 纯文本一致性或蕴含模型要依赖昂贵的额外模型。
    • 读取整层隐藏状态做分类,特征量大、可迁移性弱。
  3. 作者的洞察:如果一句话写假话,模型在生成时会把注意力更多放在“自己刚编出的 token”上,而不是回看原上下文;这种“回看程度”可直接从注意力图(Attention Map)里读取。

二、What:Lookback Lens 做了什么?

一句话:只利用注意力图里“看上下文 vs. 看自己” 的比例特征(lookback ratio),训练一个极轻量的线性分类器,就能检测并缓解上下文幻觉,而且特征可跨任务、跨模型迁移。

核心贡献

  1. Lookback Ratio 特征:每个注意力头在一步解码时,对“已给上下文 token”与“已生成 token”分配的权重比。
  2. Lookback Lens 检测器:把所有层、所有头的 ratio 拼成向量,训练逻辑回归即可区分“这段输出真实 / 幻觉”。
  3. 零训练迁移:只在 Llama‑2‑7B 上标注 3 k 样本就学得的探测器,不调参即可直接用到 Llama‑2‑13B 等更大模型。
  4. Guided Decoding:生成时一次采样多个候选 chunk,用检测器分数选“低幻觉”那条路径,实测 XSum 摘要幻觉率再降 9.6 pp。

三、How:方法和实验细节

1. 特征设计与检测

  • 计算:对输入长度 N、已生成 t‑1 个 token,第 l 层第 h 头的 lookback ratio
    [
    LR_{t}^{l,h}=\frac{\textstyle\frac1N\sum_{i=1}^N\alpha_{i}}{\textstyle\frac1N\sum_{i=1}^N\alpha_{i}+\frac1{t-1}\sum_{j=N+1}^{N+t-1}\alpha_{j}}
    ]
    其中 (\alpha) 为 softmax 后注意力权重。
  • 特征向量:把所有层、所有头、一个窗口内的平均 (LR) 拼起来。
  • 分类器:逻辑回归(线性)。作者验证只用 top‑100 重要头即可接近全头性能。

2. 任务与数据

  • 标注:用 GPT‑4o 给 Llama‑2‑7B 生成的 CNN/DM 摘要与 Natural‑Questions 回答做真伪标注,共 3 655 段落,GPT 标注与人工 97 % 一致。
  • 检测结果:AUROC 与复杂 entailment 模型相当,且跨任务迁移到 XSum / NQ 仍保持 >0.85。特别在 sliding‑window 场景显著优于隐藏状态特征。

3. 缓解幻觉:Lookback Lens‑Guided Decoding

  1. 流程
    • 在当前解码步一次采样 k 个长度 T 的 chunk。
    • 计算每个 chunk 的 lookback ratio 特征均值 → 检测器得分。
    • 选最高分的 chunk 贴到输出,继续解码。
  2. 效果
    • XSum 幻觉率从 49 % ↓到 40 %,比隐状态 / NLI‑guided 解码更稳。
    • 对多轮对话 MT‑Bench 的“幻觉专评”得分提升而整体质量不降。

4. 迁移与效率

  • 跨模型:把 13B 模型的 1600 头 ratio 线性回归到 7B 的 1024 头空间,不改检
    测器即可用,AUROC 仍 >0.8。
  • 计算成本:只需读取注意力矩阵并做向量拼接 + 线性层,检测时间级别为毫秒。

四、作者自述的局限

  • 依赖多候选采样:Guided Decoding 要一次采 k 个候选,推理耗时随 k 增加。
  • 上界受采样质量限制:若 k 个候选都幻觉,检测器也束手无策。
  • 特征解释空间:正负头的语义分工、跨层作用机理仍待深入可解释性研究。

五、快速回顾

Lookback Lens 把“注意力回看比率”变成一个极简特征,Why:解决检索场景下的上下文幻觉检测难题;What:提出可迁移、可推断的轻量线性探测器+解码策略;How:用 attention map 直接算 lookback ratio、逻辑回归分类,并在多任务/多模型/解码阶段验证其有效性。这样就用极低的代价把 LLM 输出的真实性监控和在线纠偏结合到了一起。

0

Comment Area