第167章重启SLRM研究三

⚡ 自动翻页 开启后阅读到底自动进入下一章

⚡ 开启自动翻页更爽 看到章尾自动进入下一章，追书不用一直点。

&emsp;&emsp;qwen-7b（原版）：推理速度 45 tokens/s。

&emsp;&emsp;qwen-7b + slrm：推理速度 0.8 tokens/s。

&emsp;&emsp;【记住全网最快小説站 101 看书网体验棒，????????????.??????超讚】

&emsp;&emsp;“0.8 tokens/s……”

&emsp;&emsp;徐辰扶额。

&emsp;&emsp;这速度，跟便秘有什么区別？

&emsp;&emsp;如果用这个速度去跟用户聊天，用户发一句“你好”，等它回一句“你好”，估计都能去泡杯茶回来了。

&emsp;&emsp;……

&emsp;&emsp;slrm运行这么慢，原因在於计算密度的爆炸。

&emsp;&emsp;传统的transformer，其核心计算是矩阵乘法（matmul）。这玩意儿虽然计算量大，但在现代gpu上已经优化到了极致，那是为了並行计算而生的。

&emsp;&emsp;但slrm不一样。

&emsp;&emsp;它的核心是“几何嵌入”。

&emsp;&emsp;每一个概念，都要被映射为一个高维空间中的“盒子”或者“流形”。

&emsp;&emsp;每一次逻辑推理，都要计算这些几何体之间的“交集”、“並集”和“包含关係”。

&emsp;&emsp;这涉及到大量的非线性运算，比如min、max、softplus，以及复杂的gumbel分布採样。

第167章 重启SLRM研究 三