一種基于文本數(shù)據(jù)讀取的方法和系統(tǒng)

基本信息

申請?zhí)?/td> CN202110767562.9 申請日 -
公開(公告)號 CN113626385B 公開(公告)日 2022-07-15
申請公布號 CN113626385B 申請公布日 2022-07-15
分類號 G06F16/14(2019.01)I;G06F16/31(2019.01)I;G06F16/33(2019.01)I 分類 計算;推算;計數(shù);
發(fā)明人 周成祖;林文楷;吳文;陳濤濤;朱海勇;藍(lán)坤宏 申請(專利權(quán))人 廈門市美亞柏科信息股份有限公司
代理機(jī)構(gòu) 廈門福貝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 代理人 -
地址 361000福建省廈門市思明區(qū)軟件園二期觀日路12號102-402單元
法律狀態(tài) -

摘要

摘要 本發(fā)明給出了一種基于文本數(shù)據(jù)讀取的方法和系統(tǒng),包括分析過濾重復(fù)文件并將關(guān)聯(lián)的文件合并歸類至對應(yīng)數(shù)據(jù)集合Fn中;比對待提取文本文件中屬性集合與屬性列表以根據(jù)其相似程度賦值處理引擎,并形成文件的屬性分析結(jié)果集合;響應(yīng)于屬性分析結(jié)果集合與待提取文本文件中的內(nèi)容分析集合的匹配度超過第一閾值,利用屬性對應(yīng)的特處理引擎提取文本數(shù)據(jù)。該方法和系統(tǒng)可以自動適配已知特征和未知特征的文本文件數(shù)據(jù),調(diào)取相應(yīng)的數(shù)據(jù)提取引擎,實(shí)現(xiàn)文本文件類型原始數(shù)據(jù)的自動識別和解析入庫,提高文本文件的提取效率和準(zhǔn)確性,提升大數(shù)據(jù)分析能力。