实体识别NRE

作者: 潇萧之炎 | 来源:发表于2019-06-10 08:43 被阅读0次

实体识别NRE
命名实体识别V1
目录
自然语义分析实体识别“老人临终画藏宝图”分析步骤
识别-实体识别
使用conlleval.pl对CRF测试结果进行评价的方法
实体识别
自然语义分析实体识别【ImageQ实体识别】分析黄子韬微博高调改
关于NER在简历解析中的应用
用知识图谱辅助NER问题

运行main.py 修改config_file
flask部署 app = Flask(name)
查看example.train 结合文档
utils.py data_utils.py get_seg_feature result_to_json(BOEIS)
运行gen_data.py根据字典产生训练、测试集
deploy是打包好的训练文件，单独本地部署
运行main2.py 训练数据

main2是训练的，main是测试的
example.train文档是双标签，该文档位置词标注是对的，但是实体词有问题，所以效果不好
双 B-REG : B是位置标签，REG是实体标签，所以是双标签，BIO标和BIOES标是一样的 O代表other
X值是：双，Y值是：B-REG双标签
如何做IDS化，即转化为数值，计算机只能识别数值
X值IDS化：（1）可以通过统计词频，把排在靠前的索引比较小来代表文字；（2）或者通过word2vec转化为一个向量
Y值IDS化：有个tag_to_id文档，通过正反向字典
注意：做实体识别的时候，x不是一个数值，而是一个词向量，这是跟聊天机器人不同的地方，已经训练好了，在 NERuselocal\data\vec.txt中
每个字，即便是，也要转化为100维的向量，输入到模型中的时候，x值就要查这个字典，把对应的向量输入进去。y的话，也要查tag_to_id字典去输出

id_to_tag.txt和id_to_tag.txt是正反向字典
vec.txt是词向量，每个都是100维的，即时是一个逗号。
与聊天机器人不同的地方，之前每个字是转化为数值，这里是转化为向量
只要不是函数的，就会从上往下去运行，运行到def()就会跳过,到最后运行main函数

双向lstm或IdCNN模型，找到x,y. y是双标签，x是文字word2vec映射成的词向量。

如何拟合x.y:拟合之前第一步提取x的特征，用BiLstm或idCNN对x做特征提取，+分类器（crf条件随机场）

BiLstm or idCNN + crf

idCNN与cnn的区别是，idCNN的卷积核是扁的：一句话每个字映射成一个向量，找一句话之间的关系可以用扁的，

只需要找一句话前后之间的关系，不需要找上下文之间的关系

好处：可以有效地抗噪音：完形填空时，扁的卷积核它只会扫当前这句话，不会把上下文卷进来，抗的是上下文的躁

CNN和RNN本质上没有太大差别，都是把局部的相关性体现出来，CNN体现在空间上，RNN体现在时间时序上

crf：条件随机场。跟rnn很类似，提供了一个分类结果，当然它也可以做特征提取。

它的分类需要算一个联合概率，用先验概率除以联合概率，得到后验概率

第一步，找到x,y

第二步，对x做特征提取、特征工程（之前所有的resnet等都是为特征工程服务的），对y做one_hot向量（或二分类，训练多个svm）

第三步，去拟合，分类

Cnn、RNN、resNet、googleNet都是为特征工程做准备的

Model.py脚本：
log_likelihood, self.trans = crf_log_likelihood(
#likelihood似然，一般加似然的就是损失函数,已经封装好了，直接代入y^:logits和y:targets值，然后取负号，再求平均
inputs=logits,
tag_indices=targets,
transition_params=self.trans,
sequence_lengths=lengths+1)
return tf.reduce_mean(-log_likelihood)

Loader脚本：

X也是双标签的：
flags.DEFINE_integer("seg_dim", 20, "Embedding size for segmentation, 0 if not used")# embeding的增维

因为Y是双标签，所以x也要用双标签来标注。BIOS是标注y的，不是x

每个文字有两重信息:1.文字本身的100字向量

2.位置信息：20维(用0、1、2、3四个数类似地代替BIOS来标记位置信息，同时将0100四维增维到20维表示位置)

，急性呼吸道感染

0 1 2 2 2 2 2 3 逗号是0，开头是1，结尾是3，中间全是2

比如x急是0100四维，全连接20维，再加上原来的100维，100+20=120维。20就是做位置词的Embedding，用120维来代替一个字x的输入

flags.DEFINE_integer("char_dim", 100, "Embedding size for characters")#字的维度

模型保存目录

flags.DEFINE_string("ckpt_path", "ckpt", "Path to save model") #保存模型的路径，每次训练下一个，之前的就被清理掉了

调参：
main_test中的参数并不是最优的，需要通过做实验训练来调参，才能验算精确率，机器学习调参不需要这么麻烦，因为机器学习样本量有限，不超过30、50M

从main_test.py开始加载utils的create_model方法，然后再走到model.py中
model = create_model(）
model.py类讲完了，就返回到utils.py的create_model中去

网友评论

本文标题：实体识别NRE

本文链接：https://www.haomeiwen.com/subject/tlkaxctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

实体识别NRE

双向lstm或IdCNN模型，找到x,y. y是双标签，x是文字word2vec映射成的词向量。

如何拟合x.y:拟合之前第一步提取x的特征，用BiLstm或idCNN对x做特征提取，+分类器（crf条件随机场）

BiLstm or idCNN + crf

idCNN与cnn的区别是，idCNN的卷积核是扁的：一句话每个字映射成一个向量，找一句话之间的关系可以用扁的，

好处：可以有效地抗噪音：完形填空时，扁的卷积核它只会扫当前这句话，不会把上下文卷进来，抗的是上下文的躁

CNN和RNN本质上没有太大差别，都是把局部的相关性体现出来，CNN体现在空间上，RNN体现在时间时序上

crf：条件随机场。跟rnn很类似，提供了一个分类结果，当然它也可以做特征提取。

第一步，找到x,y

第二步，对x做特征提取、特征工程（之前所有的resnet等都是为特征工程服务的），对y做one_hot向量（或二分类，训练多个svm）

第三步，去拟合，分类

因为Y是双标签，所以x也要用双标签来标注。BIOS是标注y的，不是x

每个文字有两重信息:1.文字本身的100字向量

2.位置信息：20维(用0、1、2、3四个数类似地代替BIOS来标记位置信息，同时将0100四维增维到20维表示位置)

，急性呼吸道感染

0 1 2 2 2 2 2 3 逗号是0，开头是1，结尾是3，中间全是2

比如x急是0100四维，全连接20维，再加上原来的100维，100+20=120维。20就是做位置词的Embedding，用120维来代替一个字x的输入

模型保存目录

相关文章

实体识别NRE

命名实体识别V1

目录

自然语义分析实体识别“老人临终画藏宝图”分析步骤

识别-实体识别

使用conlleval.pl对CRF测试结果进行评价的方法

实体识别

自然语义分析实体识别【ImageQ实体识别】分析黄子韬微博高调改

关于NER在简历解析中的应用

用知识图谱辅助NER问题

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读