基于機器學習的電子病歷詞庫訓練方法

基本信息

申請?zhí)?/td> CN201910443777.8 申請日 -
公開(公告)號 CN110189830A 公開(公告)日 2021-06-08
申請公布號 CN110189830A 申請公布日 2021-06-08
分類號 G16H50/70 分類 物理
發(fā)明人 黃澤明 申請(專利權(quán))人 杭州火樹科技有限公司
代理機構(gòu) 杭州融方專利代理事務(wù)所(普通合伙) 代理人 沈相權(quán)
地址 310013 浙江省杭州市濱江區(qū)長河街道科技館街279號金龍大廈1205室
法律狀態(tài) -

摘要

摘要 本發(fā)明公開了基于機器學習的電子病歷詞庫訓練方法。屬于在電子病歷中挖掘醫(yī)療用語技術(shù)領(lǐng)域,該方法可靠性高,能從電子病歷詞庫中訓練出醫(yī)療用語通用詞庫。第一步,統(tǒng)計電子病歷語料庫中出現(xiàn)單字或雙字的頻率,并統(tǒng)計與該單字或該雙字前后連接字的相關(guān)信息f;第二步,對分詞詞庫中的單字和雙字使用互信熵,選擇大于閾值K1=10.8的詞加入詞庫,作為初始詞庫;第三步,有了初始詞庫,使用正向最大匹配,對電子病歷語料庫進行切分,對切分出來的字串按頻率排序輸出并記下字串數(shù)量seg_num;第四步,對切分產(chǎn)生的字串按頻率排序;第五步,更新詞庫后,重復第三步和第四步進行迭代。