基于馬爾可夫隨機場的網(wǎng)頁正文提取方法

基本信息

申請?zhí)?/td> CN201310210384.5 申請日 -
公開(公告)號 CN103309961A 公開(公告)日 2013-09-18
申請公布號 CN103309961A 申請公布日 2013-09-18
分類號 G06F17/30(2006.01)I 分類 計算;推算;計數(shù);
發(fā)明人 柳立寧 申請(專利權(quán))人 北京智海創(chuàng)訊信息技術(shù)有限公司
代理機構(gòu) 北京愛普納杰專利代理事務(wù)所(特殊普通合伙) 代理人 北京智海創(chuàng)訊信息技術(shù)有限公司
地址 100095 北京市海淀區(qū)清河三街同源大廈9層917室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了一種網(wǎng)頁正文的提取方法及裝置,該方法包括如下步驟:順序解析HTML文本,對HTML文本進(jìn)行預(yù)處理;對預(yù)處理后的HTML文本抽取標(biāo)簽文本窗,獲得標(biāo)簽文本窗集合,標(biāo)簽文本窗為標(biāo)簽包圍的內(nèi)容文本及其相關(guān)屬性;對標(biāo)簽文本窗依據(jù)相鄰關(guān)系構(gòu)建馬爾可夫隨機場模型;以文本長度和標(biāo)簽類型為基本特征,采用最小偏差閾值法初始化馬爾可夫場模型;根據(jù)標(biāo)簽文本窗的行號及相鄰窗的字符間隔,采用ICM方法對馬爾科夫隨機場模型進(jìn)行優(yōu)化;以及根據(jù)優(yōu)化后的馬爾科夫隨機場模型重構(gòu)正文,得到抽取的正文,本發(fā)明可應(yīng)用于信息檢索領(lǐng)域的自動文摘和自動分類系統(tǒng),具有抽取精度高、抽取速度快、維護(hù)代價低、適應(yīng)性強、靈活性高等優(yōu)點。