天才一秒记住【顶点中文网】地址:ddzww.com
2013年的暑假,距离比赛开始时间还有大约一个月的时间。
“模型的训练过程需要将所有的权重,数据和许多中间过程都放入gpu中进行处理。因而gpu的显存大小格外重要。”
孟繁岐叹了口气,“即便是我们购买的旗舰690,也太小了,只有4g大小。”
比起后来被美国禁止卖给华国的a100-80g,690不说其他性能,单显存就少了20倍。孟繁岐如今只能可怜巴巴地每次使用16张图片对模型进行迭代。
“一次十六张,一次循环要接近一百万次才能更新完整个数据集。而想把模型收敛好,上百次循环又是少不了的。”
孟繁岐估算了一下,这个版本出一次结果要接近20天,最后的训练过程确实大概消耗了三周左右以收敛到现在的这个性能。
好在image在后来基本成为了每个算法工程师必调参的练手数据集,孟繁岐自己就曾无数次刷榜,自然是轻车熟路,清楚各类参数的大概设置。
这为他至少节省了一两個月的珍贵时间。
即便一次训练需要三周之久,孟繁岐却仍旧赶在比赛开始之前就已经准备好了一版模型。
看着训练出来的模型最终性能达到了预期,孟繁岐心中的一块大石总算落地了。
这几个月来,他唯一担心的一件事情就是多年前的老框架会出一些他意料之外的问题,导致最终的结果不能和理论预期吻合。
一旦这种事情发生,找到问题所在并测试解决的代价就太大了。倘若不能够及时解决,会很大影响到他初期的规划。
眼下的结果大约在4.9%的top-5错误率,这个版本比后世论文中的性能要稍差了一丁点,但好在仍旧强于赛事方给出的人类标准了。
更多内容加载中...请稍候...
本站只支持手机浏览器访问,若您看到此段落,代表章节内容加载失败,请关闭浏览器的阅读模式、畅读模式、小说模式,以及关闭广告屏蔽功能,或复制网址到其他浏览器阅读!
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!