第102章速成

⚡ 自动翻页 开启后阅读到底自动进入下一章

⚡ 开启自动翻页更爽 看到章尾自动进入下一章，追书不用一直点。

&emsp;&emsp;接下来的两周，左城把自己关在办公室里，几乎没有出过门。

&emsp;&emsp;韩露来敲门问过两次，左城只说了一句“在忙，別打扰“。陈浩也来敲过一次，被左城以同样的话打发走了。整个公司都知道，左城在搞一个重要的东西，但没人知道是什么。

&emsp;&emsp;於颖推荐的学习资料他全部认真过了一遍。sutton的强化学习导论是理论基础，mnih的dqn论文是方法论，再加上几篇关於深度强化学习在资源调度领域的最新研究，他花了五天时间就建立了一个完整的知识框架。

&emsp;&emsp;这个速度放在学术界是不可想像的。一个没有任何ai背景的人，五天读完强化学习的核心论文？但左城有科技树。智能星网调度系统这枚融合叶片给了他直觉般的理解力，很多概念別人需要反覆推敲才能想通，他看一遍就能抓住本质。

&emsp;&emsp;技术增幅的效果也在持续发挥作用。所有和ai相关的学习效率提升百分之二十，这意味著他的学习速度比普通人快了不止一个量级。

&emsp;&emsp;第七天，左城开始在纸上设计算法框架。

&emsp;&emsp;深度强化学习的核心思路很简单：让一个智能体在环境中不断试错，通过奖惩机制学习最优策略。应用到星间链路调度上，就是让ai模型在仿真环境中不断尝试不同的频谱分配方案，找到频谱利用率最高的那一个。

&emsp;&emsp;但设计容易，实现难。状態空间怎么定义？动作空间怎么设计？奖励函数怎么构造？每一个选择都会影响最终的效果。

&emsp;&emsp;左城拿出智能星网调度系统的叶片描述，仔细研读。

&emsp;&emsp;叶片提供的关键参数帮了大忙。状態空间应该包含链路质量、卫星位置、频谱占用率三个维度；动作空间应该设计为连续型，而不是离散型，因为频谱分配的粒度越细，优化空间越大；奖励函数应该以频谱利用率为主，加上链路稳定性的惩罚项。

&emsp;&emsp;左城把这些参数整理成一份技术文档，交给了唐旭。

&emsp;&emsp;“按照这个框架搭仿真环境。“左城说，“状態空间三维，动作空间连续，奖励函数用这个公式。“

&emsp;&emsp;唐旭接过文档，看了一会儿，表情从困惑变成了震惊。

&emsp;&emsp;“左总，这个框架很专业。你在哪学的？“

&emsp;&emsp;“这几天自学的。“左城说，“別问怎么学的，按框架做就行。“

第102章 速成