題目: 強化學習中的多臂老虎機算法的Minimax率和亞高斯估計
報告專家:張慧銘,,北航人工智能研究院副教授
報告時間:2023年12月8日(周五)10:00 - 11:30
報告地點:學院9-122會議室
報告摘要:
在機器學習中,為了分析學習算法在最不利情況下的表現(xiàn),,我們使用了一個稱為Minimax速率的理論概念,。我們介紹了強化學習中的多臂老虎機問題及其Minimax遺憾上界速率。討論了兩種算法的后悔率:上置信區(qū)間(UCB)算法和隨機情況下的Minimax最優(yōu)策略(MOSS)算法,。
在非漸近統(tǒng)計推斷中,亞高斯分布的類方差型參數(shù)至關(guān)重要。然而,,使用經(jīng)驗矩母函數(shù)直接估計這些參數(shù)是不可行的。為了解決這個問題,,我們建議使用通過最大化一系列標準化矩得到的亞高斯本質(zhì)矩范數(shù),。在實踐中,我們提供了一種直觀的方法,使用亞高斯圖檢查有限樣本數(shù)據(jù)的亞高斯性質(zhì),。本質(zhì)矩范數(shù)可以通過簡單的帶入方法進行穩(wěn)健估計,。由于現(xiàn)有的UCB算法包含未知的亞高斯參數(shù),我們提出了亞高斯和小樣本假設(shè)下的“Bootstrap+亞高斯估計UCB”算法,。
專家簡介:張慧銘,,北航人工智能研究院的副教授。曾在澳門大學擔任過濠江學者博士后研究員(2020-2022),;曾就讀于北京大學(2016-2020)獲得統(tǒng)計學博士,。本科(2009級)與碩士(2013級)均就讀于華中師大,獲得數(shù)學與經(jīng)濟學雙學士學位以及數(shù)理統(tǒng)計碩士學位,。研究方向:非漸近推斷,、穩(wěn)健估計、機器學習與深度學習理論,、大數(shù)據(jù)子抽樣算法,、高維概率統(tǒng)計、函數(shù)型數(shù)據(jù)等,。發(fā)表SCI論文22篇(包括機器學習與人工智能領(lǐng)域頂刊JMLR; 統(tǒng)計頂刊JASA,Biometrika; 精算頂刊IME; 統(tǒng)計,、數(shù)學、與物理知名期刊Statistica Sinica, Journal of Complexity, 和Physica Scripta等,;谷歌學術(shù)引用超500次),,其中兩篇為Web of Science高被引論文。目前主持國自科青基一項,;擔任美國《數(shù)學評論》評論員,,SCI期刊Mathematics (Q1區(qū),中科院三區(qū))的專題顧問委員會成員(Topical Advisory Panel Member)以及該刊的"高維與非漸近統(tǒng)計專欄"客座主編,。曾擔任統(tǒng)計,、概率、人工智能與機器學習領(lǐng)域頂刊(AOS,AOAP,JASA,JMLR,IEEET-SP)的審稿人,。
作者:羅敬,;編輯:羅敬;審核:郭暉,;上傳:郭敏,。