一種網(wǎng)站識(shí)別方法及可讀存儲(chǔ)介質(zhì)
基本信息

| 申請(qǐng)?zhí)?/td> | CN201910733928.3 | 申請(qǐng)日 | - |
| 公開(kāi)(公告)號(hào) | CN110825998A | 公開(kāi)(公告)日 | 2020-02-21 |
| 申請(qǐng)公布號(hào) | CN110825998A | 申請(qǐng)公布日 | 2020-02-21 |
| 分類(lèi)號(hào) | G06F16/958;G06F16/35;G06K9/62 | 分類(lèi) | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 佟玲玲;李揚(yáng)曦;胡燕林;井雅琪;任博雅;時(shí)磊;韓鵬;柳新民;佟美瑩 | 申請(qǐng)(專(zhuān)利權(quán))人 | 哈爾濱工業(yè)大學(xué)軟件工程股份有限公司 |
| 代理機(jī)構(gòu) | 工業(yè)和信息化部電子專(zhuān)利中心 | 代理人 | 國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心;哈爾濱工業(yè)大學(xué)軟件工程股份有限公司 |
| 地址 | 100029 北京市朝陽(yáng)區(qū)裕民路甲3號(hào) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開(kāi)了一種網(wǎng)站識(shí)別方法及可讀存儲(chǔ)介質(zhì),該方法包括如下步驟:提取網(wǎng)站樣本數(shù)據(jù),并對(duì)所述網(wǎng)站樣本數(shù)據(jù)進(jìn)行處理構(gòu)建網(wǎng)頁(yè)文本卷積神經(jīng)網(wǎng)絡(luò)CNN特征;提取網(wǎng)頁(yè)特征,根據(jù)所述網(wǎng)頁(yè)特征和所述網(wǎng)頁(yè)文本CNN特征進(jìn)行特征融合獲得網(wǎng)站融合特征;根據(jù)所述網(wǎng)站融合特征進(jìn)行模型訓(xùn)練獲得識(shí)別模型,根據(jù)所述識(shí)別模型對(duì)待識(shí)別的網(wǎng)站進(jìn)行識(shí)別。本發(fā)明方法通過(guò)使用網(wǎng)頁(yè)文本特征構(gòu)建的分類(lèi)模型比較構(gòu)建多特征融合分類(lèi)模型,分類(lèi)精度有大幅度提高。 |





