字级别条件随机场-电动折弯机数控滚圆机滚弧机张家港电动滚圆机
作者:lujianjun | 来源:欧科机械 | 发布时间:2019-06-10 08:59 | 浏览次数:

开放域分词器对临床文本进行分词处理时,其性能受到了临床文本独特的子语言特性的极大限制,给后续医学实体边界识别造成了不少错误累积。本文针对该问题构建了面向临床文本的分词器,将该分词器用于医学实体识别模型的词特征提取来减少医学实体边界错误,还构建了字级别的条件随机场模型用于识别医学实体,避免了分词给实体边界识别造成的错误累积问题。 sl是特征函数;λk和μl为特征对应的权重;Z(x)为归一化因子。基于统计机器学习的模型通常可以划分为数据预处理、特征提娶模型编码和解码模块。本研究采用条件随机场模型来进行医学实体识别,其流程如图1所示。这里将对该模型的各个功能模块展开如下研究描述。图1CRF模型流程Fi.1数据预处理本研究使用的医学实体标注语料库是以文档为标注单元的数据集,首先就要对该数据集进行必要的预处理操作。涉及的流程步骤可分述如下。(1)对文本进行句子切分。(2)针对文本中出现的中英文标点使用不统一的情况进行标点替换。  本文由张家港弯管机网站

采集
转载中国知网整理!www.wangaunjimuju.net1.2基于词的模型特征提取中文文本没有空格对词来做出划分,在模型训练前需要利用分词器对句子进行词切分。研究中利用斯坦福分词器]对临床文本进行分词处理,并基于得到的词序列提取特征。首先,研究利用斯坦福词性标注器(StanfordPOSTagger)[5-6]生成句子的词性标记来提取词性特征,接着参照文献[7]提取词的拼写特征。拼写特征由词内的字的字符类型组合而成,同时在文献[7]中使用的大写字母(X)、小写字母(x)和数字(D)的基础上增加了汉字(C)、符号(S)和其他(O)的字符类型。研究还从网络上爬取了医学术语来构建医学术语字典(数据源有好大夫在线万方医学网、国家食品药品监督管理总局等),术语规模见表1。接下来,将通过判断词是否出现在术语字典中或是术语的组成部分来提取模型的字?字级别条件随机场-电动折弯机数控滚圆机滚弧机张家港电动滚圆机弯管机滚弧机  本文由张家港弯管机网站
采集
转载中国知网整理!www.wangaunjimuju.net