近日,由北京大學(xué)人工智能研究院、工學(xué)院、計(jì)算機(jī)學(xué)院和倫敦國(guó)王學(xué)院共同完成的論文——《大規(guī)模多智能體系統(tǒng)的高效強(qiáng)化學(xué)習(xí)》在國(guó)際學(xué)術(shù)期刊《自然·機(jī)器智能》上發(fā)表。這一成果首次在大規(guī)模多智能體系統(tǒng)中實(shí)現(xiàn)高效去中心化協(xié)同決策,有利于提升人工智能決策算法的擴(kuò)展性和適用性。
多智能體系統(tǒng)主要以龐大的智能體交互數(shù)據(jù)為基礎(chǔ),利用大量計(jì)算資源驅(qū)動(dòng)每個(gè)智能體學(xué)習(xí)如何與其他智能體合作執(zhí)行復(fù)雜任務(wù),其核心范式是多智能體強(qiáng)化學(xué)習(xí)。當(dāng)前,去中心化的多智能體強(qiáng)化學(xué)習(xí)成為國(guó)際學(xué)術(shù)界的研究熱點(diǎn),其旨在探索一種算法,即在有限數(shù)據(jù)和資源條件下,將決策能力擴(kuò)展到包含大量智能體的復(fù)雜真實(shí)系統(tǒng)中。
據(jù)論文作者介紹,研究團(tuán)隊(duì)通過(guò)網(wǎng)絡(luò)化結(jié)構(gòu)解耦系統(tǒng)的全局動(dòng)態(tài)特性,使智能體能獨(dú)立學(xué)習(xí)局部狀態(tài)轉(zhuǎn)移、鄰域信息價(jià)值和去中心化策略,將復(fù)雜的大規(guī)模決策難題轉(zhuǎn)化為更容易求解的問(wèn)題。得益于此,即使在樣本數(shù)據(jù)和信息交互受限的情況下,大型人工智能系統(tǒng)也能展現(xiàn)令人滿意的決策性能。
研究團(tuán)隊(duì)在較為復(fù)雜的城市交通和電力網(wǎng)絡(luò)中,對(duì)包含數(shù)百個(gè)智能體的場(chǎng)景進(jìn)行了測(cè)試。結(jié)果顯示,與中心化多智能體學(xué)習(xí)方法相比,去中心化的方法可將信息交換成本降低70%或更多。而且,隨著智能體數(shù)量不斷增長(zhǎng),這一比例還會(huì)顯著下降。同時(shí),樣本效率可提升50%以上。這一研究成果對(duì)于將人工智能模型擴(kuò)展到大型電力網(wǎng)絡(luò)、城市交通信號(hào)控制等大規(guī)模多智能體系統(tǒng)具有重要價(jià)值。
圖片來(lái)源|東西南北雜志社
(聲明:本號(hào)所發(fā)內(nèi)容僅作為信息傳遞之目的,版權(quán)歸創(chuàng)作者所有,如有不妥請(qǐng)及時(shí)聯(lián)系刪除,謝謝。)