增強交通模擬器真實性的逆強化學(xué)習(xí)方法及系統(tǒng)

基本信息

申請?zhí)?/td> CN202110625802.1 申請日 -
公開(公告)號 CN113221469A 公開(公告)日 2021-08-06
申請公布號 CN113221469A 申請公布日 2021-08-06
分類號 G06F30/27;G06N20/00 分類 計算;推算;計數(shù);
發(fā)明人 薛貴榮 申請(專利權(quán))人 上海天壤智能科技有限公司
代理機構(gòu) 上海段和段律師事務(wù)所 代理人 黃磊;郭國中
地址 201100 上海市閔行區(qū)劍川路951號5幢1層(集中登記地)
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種增強交通模擬器真實性的逆強化學(xué)習(xí)方法及系統(tǒng),包括:通過生成器初始化一個軌跡動作策略;結(jié)合當(dāng)前環(huán)境,生成多個智能體的軌跡數(shù)據(jù);將軌跡數(shù)據(jù)與預(yù)設(shè)的專家軌跡數(shù)據(jù)混合,將混合軌跡數(shù)據(jù)輸入判別器,訓(xùn)練判別器區(qū)分專家軌跡數(shù)據(jù),訓(xùn)練的目標(biāo)是最大化獎勵函數(shù);將獎勵函數(shù)輸入生成器,生成器得到新的軌跡動作策略;用新的軌跡動作策略生成多個智能體的軌跡數(shù)據(jù),并與預(yù)設(shè)的專家軌跡數(shù)據(jù)混合及訓(xùn)練判別器,直至收斂;交通模擬器根據(jù)最終的獎勵函數(shù)和軌跡動作策略進(jìn)行交通模擬。本發(fā)明能夠推斷真實世界車輛的獎勵函數(shù),它使我們能夠在不同的交通環(huán)境下優(yōu)化策略,具有良好的可擴展能力。