黄色电影国产黄片A一级,日本一区二区三区成人电影

請輸入想查詢的關(guān)鍵字

查詢

退出

會員

商務(wù)合作

瀏覽歷史

清除

首頁/ 航天歐華信息技術(shù)有限公司/ 專利詳情

基于合作式強化學(xué)習(xí)與遷移學(xué)習(xí)的多智能體對抗決策方法

基本信息

申請?zhí)?/td>	CN202010748266.X	申請日	-
公開（公告）號	CN111695690A	公開（公告）日	2020-09-22
申請公布號	CN111695690A	申請公布日	2020-09-22
分類號	G06N5/04(2006.01)I;G06N3/08(2006.01)I	分類	計算；推算；計數(shù);
發(fā)明人	冷立雄;馬占國;宮業(yè)國	申請（專利權(quán)）人	航天歐華信息技術(shù)有限公司
代理機構(gòu)	深圳市輝泓專利代理有限公司	代理人	航天歐華信息技術(shù)有限公司
地址	518000廣東省深圳市南山區(qū)桃源街道學(xué)苑大道1001號南山智園A5棟8層
法律狀態(tài)	-

摘要

本發(fā)明提出一種基于合作式強化學(xué)習(xí)與遷移學(xué)習(xí)的多智能體對抗決策方法，其特征在于，包括如下步驟：定義智能體的狀態(tài)空間S＝{s1,s2,...,sn}；設(shè)定其動作空間?。絳a1,a2,...,an}；設(shè)定智能體強化學(xué)習(xí)模型的值函數(shù)矩陣；使用動作評估器計算當(dāng)前狀態(tài)st對應(yīng)的值函數(shù)序列通過基于模擬退火與softmax策略的動作選擇器選擇相應(yīng)的動作at；同時，智能體的狀態(tài)發(fā)生變化，轉(zhuǎn)移到下一狀態(tài)st+1。在執(zhí)行動作at后，智能體從環(huán)境中獲得獎勵信號rt；通過權(quán)重共享的方式可以降低經(jīng)驗存儲的損耗，提高對抗決策效率。通過基于衰減函數(shù)的遷移學(xué)習(xí)方法使得智能體以逐漸遞減的概率復(fù)用先前經(jīng)驗，遷移學(xué)習(xí)將先前訓(xùn)練得到的動作評估器權(quán)重遷移到更多的對抗決策場景，提高了學(xué)習(xí)模型的泛化性。??

人人插人人射人人草|欧美亚洲黄色一级A片|国产女人Av影片|我想看中国的黄片|成人在线免费岛国|乱伦婷婷五月天|国产黄色五级毛片|蜜桃AV鲁一鲁一鲁一一区二区|国产无码精品自拍视频|亚洲日韩视频久久久成人AV