第102章 速成
  接下来的两周,左城把自己关在办公室里,几乎没有出过门。
  韩露来敲门问过两次,左城只说了一句“在忙,別打扰“。陈浩也来敲过一次,被左城以同样的话打发走了。整个公司都知道,左城在搞一个重要的东西,但没人知道是什么。
  於颖推荐的学习资料他全部认真过了一遍。sutton的强化学习导论是理论基础,mnih的dqn论文是方法论,再加上几篇关於深度强化学习在资源调度领域的最新研究,他花了五天时间就建立了一个完整的知识框架。
  这个速度放在学术界是不可想像的。一个没有任何ai背景的人,五天读完强化学习的核心论文?但左城有科技树。智能星网调度系统这枚融合叶片给了他直觉般的理解力,很多概念別人需要反覆推敲才能想通,他看一遍就能抓住本质。
  技术增幅的效果也在持续发挥作用。所有和ai相关的学习效率提升百分之二十,这意味著他的学习速度比普通人快了不止一个量级。
  第七天,左城开始在纸上设计算法框架。
  深度强化学习的核心思路很简单:让一个智能体在环境中不断试错,通过奖惩机制学习最优策略。应用到星间链路调度上,就是让ai模型在仿真环境中不断尝试不同的频谱分配方案,找到频谱利用率最高的那一个。
  但设计容易,实现难。状態空间怎么定义?动作空间怎么设计?奖励函数怎么构造?每一个选择都会影响最终的效果。
  左城拿出智能星网调度系统的叶片描述,仔细研读。
  叶片提供的关键参数帮了大忙。状態空间应该包含链路质量、卫星位置、频谱占用率三个维度;动作空间应该设计为连续型,而不是离散型,因为频谱分配的粒度越细,优化空间越大;奖励函数应该以频谱利用率为主,加上链路稳定性的惩罚项。
  左城把这些参数整理成一份技术文档,交给了唐旭。
  “按照这个框架搭仿真环境。“左城说,“状態空间三维,动作空间连续,奖励函数用这个公式。“
  唐旭接过文档,看了一会儿,表情从困惑变成了震惊。
  “左总,这个框架很专业。你在哪学的?“
  “这几天自学的。“左城说,“別问怎么学的,按框架做就行。“