第102章 速成

⚡ 自动翻页 开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽 看到章尾自动进入下一章,追书不用一直点。

  唐旭没有再追问。他知道左城的学习能力远超常人,从通信到物联网到现在的ai,每次都能在最短时间內掌握核心知识。这种能力他解释不了,只能归结为天赋。

  三天后,仿真环境搭好了。唐旭报告说环境跑通了,状態空间和动作空间的定义完全按照左城的框架,奖励函数也实现了。

  “好,下一步是训练模型。“左城说,“gpu伺服器到位了吗?“

  “到了,韩露加急採购了四块rtx2080ti,昨天刚装好。“

  “四块够用吗?“

  “480颗卫星的仿真环境,四块gpu跑一个dqn模型大概需要三天。“唐旭说,“如果要跑多个模型对比,可能需要一周。“

  “一周太久了。“左城说,“我给你一个训练参数配置,学习率设为0.0003,批次大小256,经验回放池大小100万,目標网络更新频率每1000步。用这个配置跑,应该能把训练时间压缩到两天。“

  唐旭记下了参数,有些疑惑:“这些参数你是怎么確定的?“

  “试出来的。“左城说。他当然不能说这些参数是叶片描述里直接给出的。

  唐旭走后,左城打开系统面板看了一眼。万物互联枝干上的叶片数量又有了变化,从十五枚增长到了十六枚,新长出的一枚叫“神经网络架构搜索“。这枚叶片的能力是自动搜索最优的神经网络结构,减少人工调参的环节。

  来得正好。左城把nas的思路融入了算法设计中,在训练脚本里加了一个自动架构搜索模块。这样一来,模型不仅能学会最优调度策略,还能自动找到最適合自己的网络结构。

  技术增幅x1.2的效果在这件事上体现得淋漓尽致。同样的训练任务,如果没有增幅,可能需要五天才能收敛;加上增幅,两天就够了。这就是科技树的威力,看似只是百分之二十的提升,但放在关键节点上,省下来的时间就是命。

  左城合上笔记本电脑,走到窗边。夜色已深,科技园区的灯火稀疏,只有几栋办公楼还亮著灯。他知道其中一盏灯下面,唐旭正在跑训练。

  他给於颖发了条消息:“空空,谢谢你的论文推荐。强化学习的框架我已经搭好了,正在训练模型。“

  於颖回覆:“你真学了?才两周?“