一種分析非結(jié)構(gòu)化數(shù)據(jù)的方法及系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN202110233220.9 | 申請日 | - |
| 公開(公告)號 | CN113010629A | 公開(公告)日 | 2021-06-22 |
| 申請公布號 | CN113010629A | 申請公布日 | 2021-06-22 |
| 分類號 | G06F16/31;G06F16/332 | 分類 | 計(jì)算;推算;計(jì)數(shù); |
| 發(fā)明人 | 崔文正;王拓;和樹偉;陸林鋒 | 申請(專利權(quán))人 | 上海七牛信息技術(shù)有限公司 |
| 代理機(jī)構(gòu) | 上海碩力知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人 | 郭桂峰 |
| 地址 | 201203 上海市浦東新區(qū)中國(上海)自由貿(mào)易試驗(yàn)區(qū)博霞路66號1-5層 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開一種分析非結(jié)構(gòu)化數(shù)據(jù)的方法和系統(tǒng),該方法包括:讀入目標(biāo)數(shù)據(jù)源,解析目標(biāo)數(shù)據(jù)源數(shù)據(jù)獲得提取字段列表;生成搜索規(guī)則和搜索表達(dá)式,將搜索規(guī)則添加到歷史字段規(guī)則映射庫用以后續(xù)學(xué)習(xí);根據(jù)目標(biāo)數(shù)據(jù)源確定解析后的結(jié)構(gòu)化數(shù)據(jù)的表結(jié)構(gòu),保存所述表結(jié)構(gòu);基于所述搜索規(guī)則和搜索表達(dá)式從目標(biāo)數(shù)據(jù)源中解析獲得字段信息,按照所述表結(jié)構(gòu)保存獲得的字段信息,得到結(jié)構(gòu)化數(shù)據(jù)。本發(fā)明所述方法和系統(tǒng),明顯降低了對非結(jié)構(gòu)化數(shù)據(jù)的處理成本,減少了信息損失,提高了對數(shù)據(jù)的分析提取效率,因此具有明顯的技術(shù)優(yōu)勢和有益效果。 |





