一種基于神經(jīng)網(wǎng)絡(luò)的PDF文檔內(nèi)容文本段落聚合的方法
基本信息

| 申請?zhí)?/td> | CN201910201653.9 | 申請日 | - |
| 公開(公告)號 | CN109948518A | 公開(公告)日 | 2019-06-28 |
| 申請公布號 | CN109948518A | 申請公布日 | 2019-06-28 |
| 分類號 | G06K9/00(2006.01)I; G06K9/46(2006.01)I | 分類 | 計算;推算;計數(shù); |
| 發(fā)明人 | 聶昱 | 申請(專利權(quán))人 | 武漢漢王數(shù)據(jù)技術(shù)有限公司 |
| 代理機(jī)構(gòu) | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) | 代理人 | 魏波 |
| 地址 | 430070 湖北省武漢市洪山區(qū)珞喻路33號中部創(chuàng)意大廈18樓1804 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種基于神經(jīng)網(wǎng)絡(luò)的PDF文檔內(nèi)容文本段落聚合的方法,通過定義一行文本的幾十個特征、把特征轉(zhuǎn)換為多維向量、生成樣本數(shù)據(jù)集、設(shè)計算法模型,持續(xù)訓(xùn)練模型,最后輸出訓(xùn)練好的算法模型。實(shí)現(xiàn)對輸入的兩行文本,使用此算法模型,準(zhǔn)確判斷是否這兩行文本應(yīng)該合并到同一個段落。本發(fā)明基于神經(jīng)網(wǎng)絡(luò)的人工智能技術(shù),研發(fā)應(yīng)用程序?qū)DF提取的行文字自動聚合成段落,還原文字原本的句子和段落結(jié)構(gòu)信息,便于PDF內(nèi)容數(shù)據(jù)的重復(fù)利用;人工智能程序自動聚合的效率是人工處理無法企及的,實(shí)現(xiàn)機(jī)器代替人工,節(jié)約人力成本、大幅提高效率。 |





