伟德国际(victor1946)官方网站-Officials Website

伟德官方网站“智能·软件·未来”论坛第30期举办

【发布日期：2026-06-22 】来源：伟德官方网站

近日，公司举办“智能·软件·未来”论坛第30期，邀请南方科技大学助理教授孔芳作题为《探索或利用：离线-在线学习的带悲观基线的保守乐观方法》的学术报告。

在线学习中通常使用上置信界限（UCB）的方法对有高回报的动作通过交互进行探索。该方法适用于降低长期的遗憾界，当在线交互的轮数有限时需要的费用比较高。离线学习从历史数据中进行学习，通常使用下置信界限的原理，来避免未被支持的动作，以得到有性能保证的决策。离线-在线学习将LCB和UCB两种方法结合，在基于历史数据的同时，又能通过在线交互来改进性能。这带来一个基本的问题需要解决：什么时候进行乐观探索，什么时候利用悲观基线，从而在整个的时长上得到有竞争力的性能。孔芳提出了带悲观基线的保守乐观方法（COPB），从而在UCB 和LCB之间达到了一个较好的平衡。孔芳证明了COPB与UCB和LCB之间只差一个常数项，实验结果也表明了COPB方法的有效性。

孔芳，南方科技大学助理教授、博士生导师。研究兴趣包括多臂老虎机问题、强化学习及其在大语言模型中的应用，在SODA、COLT、ICML和NeurIPS等顶级学术会议上发表论文20余篇，获得CCF优秀博士论文奖。

（文/图：张鹏责任编辑：戴鸿君）