TIME WAIT.
#AI_Interpretability 2024年10月24日 12 MIN READ

潜在空间中的幽灵:理解 Transformer 可解释性

用稀疏自编码器观察大模型内部概念,定位看不见的决策路径。

潜在空间中的幽灵:理解 Transformer 可解释性

每一次提示词都像在高维图书馆里打手电,我们看到的答案只是投影。

意义几何学

当词向量空间被放大到数十亿维后,概念之间不再只是语义接近,而是形成可测量的拓扑结构。

如何做探针实验

我们沿着语义轴逐步采样高熵区域,记录异常输出的聚类分布,并反向分析训练数据偏置。

// latent_probe.rs
fn traverse_latent_void(origin: Vector, direction: Vector) {
  let step_size = 0.05;
  for i in 0..200 {
    let probe = origin + (direction * (i as f32 * step_size));
    let output = model.decode(probe);
    if output.entropy() > 10.0 {
      println!("ghost detected: {:?}", probe);
      log_artifact(output);
    }
  }
}

/related_artifacts

机械同理心:为芯片现实设计软件
#Systems 2024年8月02日

机械同理心:为芯片现实设计软件

重新审视现代抽象层带来的性能损耗,并给出可操作的优化路径。

阅读全文 arrow_right_alt
2024 年的单体:有原则的简单性
#Architecture 2024年7月15日

2024 年的单体:有原则的简单性

解释为什么在许多团队里,单体架构比过早微服务更可持续。

阅读全文 arrow_right_alt