域識別加主題識別構(gòu)建機器學習模型檢測網(wǎng)頁暗鏈的方法
基本信息

| 申請?zhí)?/td> | CN201710853580.2 | 申請日 | - |
| 公開(公告)號 | CN107566391A | 公開(公告)日 | 2018-01-09 |
| 申請公布號 | CN107566391A | 申請公布日 | 2018-01-09 |
| 分類號 | H04L29/06(2006.01)I;G06F17/30(2006.01)I;G06N99/00(2010.01)I | 分類 | 電通信技術(shù); |
| 發(fā)明人 | 孟雷 | 申請(專利權(quán))人 | 上海斗象信息科技有限公司 |
| 代理機構(gòu) | 上海翰信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 上海斗象信息科技有限公司 |
| 地址 | 201203 上海市浦東新區(qū)自由貿(mào)易試驗區(qū)碧波路690號8號樓102室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明提供了一種域識別加主題識別構(gòu)建機器學習模型檢測網(wǎng)頁暗鏈的方法,包括:收集大量含已被標注為包含暗鏈的網(wǎng)頁源碼和標注為正常的網(wǎng)頁源碼作為訓練集,通過可疑域識別、敏感域識別、安全域識別、全域分析和主題識別提取每個網(wǎng)頁源碼中風險文本、風險度、主題異樣度、主題、風險文本向量、風險文本異常概率、以及風險文本長度,將訓練集中所有網(wǎng)頁源碼的特征數(shù)據(jù)用機器學習算法進行模型訓練得到分類判別模型,最后,將待預測網(wǎng)頁源碼的特征數(shù)據(jù)導入分類判別模型中,得到待預測網(wǎng)頁源碼是否包含暗鏈,因此,本發(fā)明對高混雜暗鏈代碼識別效果好、特征提取的比較完整、且能夠很好解決傳統(tǒng)方法無法正確區(qū)分暗鏈和頁面篡改的問題。 |





