一種面向醫(yī)療文本的預訓練方法
基本信息

| 申請?zhí)?/td> | CN202110690028.2 | 申請日 | - |
| 公開(公告)號 | CN113674866A | 公開(公告)日 | 2021-11-19 |
| 申請公布號 | CN113674866A | 申請公布日 | 2021-11-19 |
| 分類號 | G16H50/70(2018.01)I;G06F16/33(2019.01)I;G06F16/35(2019.01)I;G06K9/62(2006.01)I;G06F40/289(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分類 | 物理 |
| 發(fā)明人 | 朱強;王衛(wèi)東;楊毅;徐高軍 | 申請(專利權(quán))人 | 江蘇天瑞精準醫(yī)療科技有限公司 |
| 代理機構(gòu) | - | 代理人 | - |
| 地址 | 214091江蘇省無錫市濱湖區(qū)馬山街道梅梁路136號4樓 | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 本發(fā)明公開了一種面向醫(yī)療文本的預訓練方法,具體步驟有:獲取疾病、檢查檢驗、癥狀、藥品、身體部位和手術(shù)等醫(yī)療字典;采集百科、電子病歷中的醫(yī)療文本內(nèi)容;加載醫(yī)療字典,使用jieba對醫(yī)療文本進行分詞處理,作為訓練語料;從漢典中獲取漢字的圖片,不存在的字符,構(gòu)造相對應的圖片;使用VGG?16卷積網(wǎng)絡提取字符特征;使用PCA降低提取的字符特征的維度,作為字向量;疊加字向量和字的位置向量作為新的字向量;加載開源的中文詞向量語料庫作為初始的詞向量;使用ELMo模型對醫(yī)療文本內(nèi)容進行訓練,獲得最終的ELMo預訓練模型;使用ELMo預訓練模型生成句中特定詞的ELMo向量。本發(fā)明的預訓練方法,能夠解決通用語料不適應醫(yī)學自然語言處理任務。 |





