7月25日上午9点,南开大学韩霞博士应邀在ok138cn太阳集团古天乐随机分析与数理金融研究中心系列讲座第87讲作题为“Choquet regularization for reinforcement learning and its applications”的线上学术报告。报告会由副院长徐林教授主持,学院王华明教授、概率统计和运筹控制方向的部分研究生以及来自北京大学、厦门大学、上海财经大学等高校的师生代表参加了报告会。
报告会中,韩霞介绍了通过Choquet信息熵正则化子来度量和控制探索水平的强化学习框架,该框架重新定义了基于Shannon信息熵正则化子的连续时间强化学习模型。在线性二次调节控制问题中,韩霞给出了几个特定Choquet正则化子的显式最优分布以及由此生成的多类探索性采样器的Choquet正规化子,如贪婪、指数、均匀和高斯等类型,显示了该框架的广泛应用前景。最后,韩霞还就著名的均值-方差投资组合选择问题的展示了该框架的强化学习过程,并通过仿真演示相应算法优良效果。
报告结束后,韩霞和与会师生进行了热烈的讨论和交流。本场报告会学术氛围浓厚,有效促进了我院随机控制领域的对外学术交流和合作。