基于強化學(xué)習(xí)的多路口交通燈控制方法、系統(tǒng)及存儲介質(zhì)
基本信息

| 申請?zhí)?/td> | CN202110324649.9 | 申請日 | - |
| 公開(公告)號 | CN113223305A | 公開(公告)日 | 2021-08-06 |
| 申請公布號 | CN113223305A | 申請公布日 | 2021-08-06 |
| 分類號 | G08G1/08(2006.01)I;G08G1/081(2006.01)I;G06N20/00(2019.01)I | 分類 | 信號裝置; |
| 發(fā)明人 | 王斌;甘海洋;盛津芳;康文軍 | 申請(專利權(quán))人 | 禾麥科技開發(fā)(深圳)有限公司 |
| 代理機構(gòu) | 長沙朕揚知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 鄧宇 |
| 地址 | 410083湖南省長沙市麓山南路932號 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了基于強化學(xué)習(xí)的多路口交通燈控制方法、系統(tǒng)及存儲介質(zhì),通過構(gòu)建并訓(xùn)練以MADDPG為框架,以多路口交通燈系統(tǒng)控制的多個路口的車流數(shù)據(jù)作為輸入狀態(tài),以輸入狀態(tài)對應(yīng)的信號燈的時序調(diào)控動作為輸出動作,以t時刻的歷史輸入狀態(tài)、歷史輸入狀態(tài)對應(yīng)的歷史輸出動作、歷史輸出動作對應(yīng)的獎賞值、t+1時刻的歷史輸入狀態(tài)以及t時刻的歷史輸入狀態(tài)對應(yīng)的歷史輸出動作平均值作為訓(xùn)練樣本的多智能體強化模型,并基于多智能體強化模型獲取多路口交通燈系統(tǒng)的最優(yōu)控制動作,相比現(xiàn)有技術(shù),該方法在訓(xùn)練時將智能體之間的相互影響簡化為動作平均值,極大地簡化了智能體數(shù)量帶來的模型空間的增大,能有效縮短解算時間。 |





