基于強化學(xué)習(xí)的多路口交通燈控制方法、系統(tǒng)及存儲介質(zhì)

基本信息

申請?zhí)?/td> CN202110324649.9 申請日 -
公開(公告)號 CN113223305A 公開(公告)日 2021-08-06
申請公布號 CN113223305A 申請公布日 2021-08-06
分類號 G08G1/08(2006.01)I;G08G1/081(2006.01)I;G06N20/00(2019.01)I 分類 信號裝置;
發(fā)明人 王斌;甘海洋;盛津芳;康文軍 申請(專利權(quán))人 禾麥科技開發(fā)(深圳)有限公司
代理機構(gòu) 長沙朕揚知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 鄧宇
地址 410083湖南省長沙市麓山南路932號
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于強化學(xué)習(xí)的多路口交通燈控制方法、系統(tǒng)及存儲介質(zhì),通過構(gòu)建并訓(xùn)練以MADDPG為框架,以多路口交通燈系統(tǒng)控制的多個路口的車流數(shù)據(jù)作為輸入狀態(tài),以輸入狀態(tài)對應(yīng)的信號燈的時序調(diào)控動作為輸出動作,以t時刻的歷史輸入狀態(tài)、歷史輸入狀態(tài)對應(yīng)的歷史輸出動作、歷史輸出動作對應(yīng)的獎賞值、t+1時刻的歷史輸入狀態(tài)以及t時刻的歷史輸入狀態(tài)對應(yīng)的歷史輸出動作平均值作為訓(xùn)練樣本的多智能體強化模型,并基于多智能體強化模型獲取多路口交通燈系統(tǒng)的最優(yōu)控制動作,相比現(xiàn)有技術(shù),該方法在訓(xùn)練時將智能體之間的相互影響簡化為動作平均值,極大地簡化了智能體數(shù)量帶來的模型空間的增大,能有效縮短解算時間。