近日,公司举办“智能·软件·未来”论坛第30期,邀请南方科技大学助理教授孔芳作题为《探索或利用:离线-在线学习的带悲观基线的保守乐观方法》的学术报告。
在线学习中通常使用上置信界限(UCB)的方法对有高回报的动作通过交互进行探索。该方法适用于降低长期的遗憾界,当在线交互的轮数有限时需要的费用比较高。离线学习从历史数据中进行学习,通常使用下置信界限的原理,来避免未被支持的动作,以得到有性能保证的决策。离线-在线学习将LCB和UCB两种方法结合,在基于历史数据的同时,又能通过在线交互来改进性能。这带来一个基本的问题需要解决:什么时候进行乐观探索,什么时候利用悲观基线,从而在整个的时长上得到有竞争力的性能。孔芳提出了带悲观基线的保守乐观方法(COPB),从而在UCB 和LCB之间达到了一个较好的平衡。孔芳证明了COPB与UCB和LCB之间只差一个常数项,实验结果也表明了COPB方法的有效性。
孔芳,南方科技大学助理教授、博士生导师。研究兴趣包括多臂老虎机问题、强化学习及其在大语言模型中的应用,在SODA、COLT、ICML和NeurIPS等顶级学术会议上发表论文20余篇,获得CCF优秀博士论文奖。
(文/图:张鹏 责任编辑:戴鸿君)