域識別加主題識別構(gòu)建機器學習模型檢測網(wǎng)頁暗鏈的方法

基本信息

申請?zhí)?/td> CN201710853580.2 申請日 -
公開(公告)號 CN107566391A 公開(公告)日 2018-01-09
申請公布號 CN107566391A 申請公布日 2018-01-09
分類號 H04L29/06(2006.01)I;G06F17/30(2006.01)I;G06N99/00(2010.01)I 分類 電通信技術(shù);
發(fā)明人 孟雷 申請(專利權(quán))人 上海斗象信息科技有限公司
代理機構(gòu) 上海翰信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 上海斗象信息科技有限公司
地址 201203 上海市浦東新區(qū)自由貿(mào)易試驗區(qū)碧波路690號8號樓102室
法律狀態(tài) -

摘要

摘要 本發(fā)明提供了一種域識別加主題識別構(gòu)建機器學習模型檢測網(wǎng)頁暗鏈的方法,包括:收集大量含已被標注為包含暗鏈的網(wǎng)頁源碼和標注為正常的網(wǎng)頁源碼作為訓練集,通過可疑域識別、敏感域識別、安全域識別、全域分析和主題識別提取每個網(wǎng)頁源碼中風險文本、風險度、主題異樣度、主題、風險文本向量、風險文本異常概率、以及風險文本長度,將訓練集中所有網(wǎng)頁源碼的特征數(shù)據(jù)用機器學習算法進行模型訓練得到分類判別模型,最后,將待預測網(wǎng)頁源碼的特征數(shù)據(jù)導入分類判別模型中,得到待預測網(wǎng)頁源碼是否包含暗鏈,因此,本發(fā)明對高混雜暗鏈代碼識別效果好、特征提取的比較完整、且能夠很好解決傳統(tǒng)方法無法正確區(qū)分暗鏈和頁面篡改的問題。