基于機(jī)器學(xué)習(xí)的電子病歷詞庫訓(xùn)練方法
基本信息

| 申請?zhí)?/td> | CN201910443777.8 | 申請日 | - |
| 公開(公告)號 | CN110189830B | 公開(公告)日 | 2021-06-08 |
| 申請公布號 | CN110189830B | 申請公布日 | 2021-06-08 |
| 分類號 | G16H50/70 | 分類 | 物理 |
| 發(fā)明人 | 黃澤明 | 申請(專利權(quán))人 | 杭州火樹科技有限公司 |
| 代理機(jī)構(gòu) | 杭州融方專利代理事務(wù)所(普通合伙) | 代理人 | 沈相權(quán) |
| 地址 | 310013 浙江省杭州市濱江區(qū)長河街道科技館街279號金龍大廈1205室 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了基于機(jī)器學(xué)習(xí)的電子病歷詞庫訓(xùn)練方法。屬于在電子病歷中挖掘醫(yī)療用語技術(shù)領(lǐng)域,該方法可靠性高,能從電子病歷詞庫中訓(xùn)練出醫(yī)療用語通用詞庫。第一步,統(tǒng)計(jì)電子病歷語料庫中出現(xiàn)單字或雙字的頻率,并統(tǒng)計(jì)與該單字或該雙字前后連接字的相關(guān)信息f;第二步,對分詞詞庫中的單字和雙字使用互信熵,選擇大于閾值K1=10.8的詞加入詞庫,作為初始詞庫;第三步,有了初始詞庫,使用正向最大匹配,對電子病歷語料庫進(jìn)行切分,對切分出來的字串按頻率排序輸出并記下字串?dāng)?shù)量seg_num;第四步,對切分產(chǎn)生的字串按頻率排序;第五步,更新詞庫后,重復(fù)第三步和第四步進(jìn)行迭代。 |





