基于合作式強化學(xué)習(xí)與遷移學(xué)習(xí)的多智能體對抗決策方法
基本信息

| 申請?zhí)?/td> | CN202010748266.X | 申請日 | - |
| 公開(公告)號 | CN111695690A | 公開(公告)日 | 2020-09-22 |
| 申請公布號 | CN111695690A | 申請公布日 | 2020-09-22 |
| 分類號 | G06N5/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 冷立雄;馬占國;宮業(yè)國 | 申請(專利權(quán))人 | 航天歐華信息技術(shù)有限公司 |
| 代理機構(gòu) | 深圳市輝泓專利代理有限公司 | 代理人 | 航天歐華信息技術(shù)有限公司 |
| 地址 | 518000廣東省深圳市南山區(qū)桃源街道學(xué)苑大道1001號南山智園A5棟8層 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提出一種基于合作式強化學(xué)習(xí)與遷移學(xué)習(xí)的多智能體對抗決策方法,其特征在于,包括如下步驟:定義智能體的狀態(tài)空間S={s1,s2,...,sn};設(shè)定其動作空間?。絳a1,a2,...,an};設(shè)定智能體強化學(xué)習(xí)模型的值函數(shù)矩陣;使用動作評估器計算當(dāng)前狀態(tài)st對應(yīng)的值函數(shù)序列通過基于模擬退火與softmax策略的動作選擇器選擇相應(yīng)的動作at;同時,智能體的狀態(tài)發(fā)生變化,轉(zhuǎn)移到下一狀態(tài)st+1。在執(zhí)行動作at后,智能體從環(huán)境中獲得獎勵信號rt;通過權(quán)重共享的方式可以降低經(jīng)驗存儲的損耗,提高對抗決策效率。通過基于衰減函數(shù)的遷移學(xué)習(xí)方法使得智能體以逐漸遞減的概率復(fù)用先前經(jīng)驗,遷移學(xué)習(xí)將先前訓(xùn)練得到的動作評估器權(quán)重遷移到更多的對抗決策場景,提高了學(xué)習(xí)模型的泛化性。?? |





