增強交通模擬器真實性的逆強化學(xué)習(xí)方法及系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN202110625802.1 | 申請日 | - |
| 公開(公告)號 | CN113221469A | 公開(公告)日 | 2021-08-06 |
| 申請公布號 | CN113221469A | 申請公布日 | 2021-08-06 |
| 分類號 | G06F30/27;G06N20/00 | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 薛貴榮 | 申請(專利權(quán))人 | 上海天壤智能科技有限公司 |
| 代理機構(gòu) | 上海段和段律師事務(wù)所 | 代理人 | 黃磊;郭國中 |
| 地址 | 201100 上海市閔行區(qū)劍川路951號5幢1層(集中登記地) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供了一種增強交通模擬器真實性的逆強化學(xué)習(xí)方法及系統(tǒng),包括:通過生成器初始化一個軌跡動作策略;結(jié)合當(dāng)前環(huán)境,生成多個智能體的軌跡數(shù)據(jù);將軌跡數(shù)據(jù)與預(yù)設(shè)的專家軌跡數(shù)據(jù)混合,將混合軌跡數(shù)據(jù)輸入判別器,訓(xùn)練判別器區(qū)分專家軌跡數(shù)據(jù),訓(xùn)練的目標(biāo)是最大化獎勵函數(shù);將獎勵函數(shù)輸入生成器,生成器得到新的軌跡動作策略;用新的軌跡動作策略生成多個智能體的軌跡數(shù)據(jù),并與預(yù)設(shè)的專家軌跡數(shù)據(jù)混合及訓(xùn)練判別器,直至收斂;交通模擬器根據(jù)最終的獎勵函數(shù)和軌跡動作策略進(jìn)行交通模擬。本發(fā)明能夠推斷真實世界車輛的獎勵函數(shù),它使我們能夠在不同的交通環(huán)境下優(yōu)化策略,具有良好的可擴展能力。 |





