第167章 重启SLRM研究 三
⚡ 自动翻页
开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽
看到章尾自动进入下一章,追书不用一直点。
  qwen-7b(原版):推理速度 45 tokens/s。
  qwen-7b + slrm:推理速度 0.8 tokens/s。
  【记住全网最快小説站 101 看书网体验棒,????????????.??????超讚 】
  “0.8 tokens/s……”
  徐辰扶额。
  这速度,跟便秘有什么区別?
  如果用这个速度去跟用户聊天,用户发一句“你好”,等它回一句“你好”,估计都能去泡杯茶回来了。
  ……
  slrm运行这么慢,原因在於计算密度的爆炸。
  传统的transformer,其核心计算是矩阵乘法(matmul)。这玩意儿虽然计算量大,但在现代gpu上已经优化到了极致,那是为了並行计算而生的。
  但slrm不一样。
  它的核心是“几何嵌入”。
  每一个概念,都要被映射为一个高维空间中的“盒子”或者“流形”。
  每一次逻辑推理,都要计算这些几何体之间的“交集”、“並集”和“包含关係”。
  这涉及到大量的非线性运算,比如min、max、softplus,以及复杂的gumbel分布採样。