一種基于自然語(yǔ)言特征提取有效告警數(shù)據(jù)的方法

基本信息

申請(qǐng)?zhí)?/td> CN201911095317.7 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN112784592A 公開(kāi)(公告)日 2021-05-11
申請(qǐng)公布號(hào) CN112784592A 申請(qǐng)公布日 2021-05-11
分類號(hào) G06F40/284;G06F16/35 分類 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 何毅鵬;葛艷芳 申請(qǐng)(專利權(quán))人 四川睿象科技有限公司
代理機(jī)構(gòu) - 代理人 -
地址 610000 四川省成都市中國(guó)(四川)自由貿(mào)易試驗(yàn)區(qū)成都高新區(qū)吉泰五路88號(hào)3棟29層11號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種基于自然語(yǔ)言特征提取有效告警數(shù)據(jù)的方法,包括局部敏感hash模塊和編輯距離算法模塊,所述局部敏感hash算法模塊包括分詞模塊,hash模塊,加權(quán)模塊,合并模塊,降維模塊;所述分詞模塊給定一段語(yǔ)句,進(jìn)行分詞,得到有效的特征向量,然后為每一個(gè)特征向量設(shè)置1?5等5個(gè)級(jí)別的權(quán)重;所述hash模塊通過(guò)hash函數(shù)計(jì)算各個(gè)特征向量的hash值;所述加權(quán)模塊在hash值的基礎(chǔ)上,給所有特征向量進(jìn)行加權(quán);所述合并模塊將各特征向量的加權(quán)結(jié)果累加,變成只有一個(gè)序列串;所述降維模塊用于得到語(yǔ)句的simhash值;所述編輯距離算法模塊將hash值進(jìn)行相似度聚類。