一種基于人工智能的多模態(tài)語義識(shí)別服務(wù)接入方法

基本信息

申請(qǐng)?zhí)?/td> CN202011036983.6 申請(qǐng)日 -
公開(公告)號(hào) CN112201228A 公開(公告)日 2021-01-08
申請(qǐng)公布號(hào) CN112201228A 申請(qǐng)公布日 2021-01-08
分類號(hào) G10L15/18(2013.01)I 分類 樂器;聲學(xué);
發(fā)明人 黃晨宇 申請(qǐng)(專利權(quán))人 蘇州貝果智能科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 215000江蘇省蘇州市昆山市花橋經(jīng)濟(jì)開發(fā)區(qū)金星路18號(hào)A6棟三層303室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種基于人工智能的多模態(tài)語義識(shí)別服務(wù)接入方法,包括基于多模態(tài)對(duì)齊的語音情感識(shí)別的模型,首先通過語音進(jìn)行識(shí)別,識(shí)別時(shí),通過視頻設(shè)備、錄音設(shè)備進(jìn)行語音的收集,收集好的語音信息先進(jìn)行分類,分類后的語音進(jìn)行特征標(biāo)記,然后將收集好的語音進(jìn)行分析,利用雙向長短期記憶模型對(duì)音頻基于幀進(jìn)行高維特征表示。本發(fā)明利用多模態(tài)模型比單一模態(tài)訓(xùn)練出的模型更精準(zhǔn),所以即使在實(shí)際使用中只使用一個(gè)模態(tài)輸入,由多模態(tài)訓(xùn)練得到的模型也會(huì)優(yōu)于單模態(tài)訓(xùn)練得到的模型,對(duì)不同模態(tài)的關(guān)聯(lián)融合進(jìn)行中間層特征融合和最后層的融合時(shí),每種模態(tài)的特征識(shí)別產(chǎn)生各自的置信度,從而在互相融合時(shí)將置信度作為貢獻(xiàn)的權(quán)重。??