一種網(wǎng)站識(shí)別方法及可讀存儲(chǔ)介質(zhì)

基本信息

申請(qǐng)?zhí)?/td> CN201910733928.3 申請(qǐng)日 -
公開(kāi)(公告)號(hào) CN110825998A 公開(kāi)(公告)日 2020-02-21
申請(qǐng)公布號(hào) CN110825998A 申請(qǐng)公布日 2020-02-21
分類(lèi)號(hào) G06F16/958;G06F16/35;G06K9/62 分類(lèi) 計(jì)算;推算;計(jì)數(shù);
發(fā)明人 佟玲玲;李揚(yáng)曦;胡燕林;井雅琪;任博雅;時(shí)磊;韓鵬;柳新民;佟美瑩 申請(qǐng)(專(zhuān)利權(quán))人 哈爾濱工業(yè)大學(xué)軟件工程股份有限公司
代理機(jī)構(gòu) 工業(yè)和信息化部電子專(zhuān)利中心 代理人 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心;哈爾濱工業(yè)大學(xué)軟件工程股份有限公司
地址 100029 北京市朝陽(yáng)區(qū)裕民路甲3號(hào)
法律狀態(tài) -

摘要

摘要 本發(fā)明公開(kāi)了一種網(wǎng)站識(shí)別方法及可讀存儲(chǔ)介質(zhì),該方法包括如下步驟:提取網(wǎng)站樣本數(shù)據(jù),并對(duì)所述網(wǎng)站樣本數(shù)據(jù)進(jìn)行處理構(gòu)建網(wǎng)頁(yè)文本卷積神經(jīng)網(wǎng)絡(luò)CNN特征;提取網(wǎng)頁(yè)特征,根據(jù)所述網(wǎng)頁(yè)特征和所述網(wǎng)頁(yè)文本CNN特征進(jìn)行特征融合獲得網(wǎng)站融合特征;根據(jù)所述網(wǎng)站融合特征進(jìn)行模型訓(xùn)練獲得識(shí)別模型,根據(jù)所述識(shí)別模型對(duì)待識(shí)別的網(wǎng)站進(jìn)行識(shí)別。本發(fā)明方法通過(guò)使用網(wǎng)頁(yè)文本特征構(gòu)建的分類(lèi)模型比較構(gòu)建多特征融合分類(lèi)模型,分類(lèi)精度有大幅度提高。