一種應(yīng)用離群點(diǎn)檢測(cè)算法LOF模型的文本分類方法及裝置

基本信息

申請(qǐng)?zhí)?/td> CN202111388531.9 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN114036265A 公開(kāi)(公告)日 2022-02-11
申請(qǐng)公布號(hào) CN114036265A 申請(qǐng)公布日 2022-02-11
分類號(hào) G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06F40/126(2020.01)I;G06F40/279(2020.01)I;G06F40/30(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 胡加明;李健銓;劉小康 申請(qǐng)(專利權(quán))人 鼎富智能科技有限公司
代理機(jī)構(gòu) 北京弘權(quán)知識(shí)產(chǎn)權(quán)代理有限公司 代理人 郭放;許偉群
地址 230000安徽省合肥市高新區(qū)習(xí)友路3333號(hào)A1樓19層-B區(qū)
法律狀態(tài) -

摘要

摘要 本申請(qǐng)實(shí)施例提供了一種應(yīng)用離群點(diǎn)檢測(cè)算法LOF模型的文本分類方法及裝置。該方法包括:獲取包括訓(xùn)練文本及其對(duì)應(yīng)的類別標(biāo)簽的訓(xùn)練數(shù)據(jù)集,訓(xùn)練文本包括以預(yù)設(shè)比例配置的具有已知標(biāo)簽的訓(xùn)練文本和具有其他標(biāo)簽的訓(xùn)練文本;使用訓(xùn)練數(shù)據(jù)集訓(xùn)練分類模型;將具有已知標(biāo)簽的訓(xùn)練文本輸入到分類模型中,以獲取具有已知標(biāo)簽的訓(xùn)練文本的嵌入表示、中間結(jié)果和最終表示向量;根據(jù)具有已知標(biāo)簽的訓(xùn)練文本的嵌入表示、中間結(jié)果和最終表示向量訓(xùn)練多個(gè)LOF模型;根據(jù)分類模型和多個(gè)LOF模型判斷測(cè)試文本是否為未知類別。本申請(qǐng)?zhí)峁┑募夹g(shù)方案使得文本分類模型能夠從測(cè)試文本中識(shí)別出未知類別,避免將未知類別的文本分配到已知的類別標(biāo)簽,提高了文本分類的準(zhǔn)確性。