一種基于自然語(yǔ)言特征提取有效告警數(shù)據(jù)的方法
基本信息

| 申請(qǐng)?zhí)?/td> | CN201911095317.7 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN112784592A | 公開(kāi)(公告)日 | 2021-05-11 |
| 申請(qǐng)公布號(hào) | CN112784592A | 申請(qǐng)公布日 | 2021-05-11 |
| 分類號(hào) | G06F40/284;G06F16/35 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 何毅鵬;葛艷芳 | 申請(qǐng)(專利權(quán))人 | 四川睿象科技有限公司 |
| 代理機(jī)構(gòu) | - | 代理人 | - |
| 地址 | 610000 四川省成都市中國(guó)(四川)自由貿(mào)易試驗(yàn)區(qū)成都高新區(qū)吉泰五路88號(hào)3棟29層11號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開(kāi)了一種基于自然語(yǔ)言特征提取有效告警數(shù)據(jù)的方法,包括局部敏感hash模塊和編輯距離算法模塊,所述局部敏感hash算法模塊包括分詞模塊,hash模塊,加權(quán)模塊,合并模塊,降維模塊;所述分詞模塊給定一段語(yǔ)句,進(jìn)行分詞,得到有效的特征向量,然后為每一個(gè)特征向量設(shè)置1?5等5個(gè)級(jí)別的權(quán)重;所述hash模塊通過(guò)hash函數(shù)計(jì)算各個(gè)特征向量的hash值;所述加權(quán)模塊在hash值的基礎(chǔ)上,給所有特征向量進(jìn)行加權(quán);所述合并模塊將各特征向量的加權(quán)結(jié)果累加,變成只有一個(gè)序列串;所述降維模塊用于得到語(yǔ)句的simhash值;所述編輯距離算法模塊將hash值進(jìn)行相似度聚類。 |





