美文网首页
自然语言处理N天-AllenNLP学习(入门)

自然语言处理N天-AllenNLP学习(入门)

作者: 我的昵称违规了 | 来源:发表于2019-03-06 10:37 被阅读23次
新建 Microsoft PowerPoint 演示文稿 (2).jpg

1. 前言

在了解了Transformer之后,这个模型是否可用呢?现在遇到的问题是,目前试了几个模型(LSTM、GRU、Transformer),但是还没有放入实践中,具体应该怎么操作?

有一篇帖子总结了一下学习处理NLP问题中间的坑。NLP数据预处理要比CV的麻烦很多。

  • 去除停用词,建立词典,加载各种预训练词向量,Sentence -> Word ID -> Word Embedding的过程(Tobias Lee:文本预处理方法小记),其中不仅需要学习pytorch,可能还要学习spacy,NLTK,numpy,pandas,tensorboardX等常用python包。
  • 用到RNN时,还要经过pad,pack,pad的过程,像这样的很多函数在使用时需要有数学基础加上简单的实践,感觉对一个新人来说,高维数据的流动有点抽象,不容易理解。
  • 数据集的读取,tensorboardX的使用。。。。各种东西要学习。在运行别人的代码后打印出信息,不仅看着上档次,而且可以看到很多实用的信息。。。

AllenNLP是在pytorch基础上的封装,它的目标是处理NLP任务,可以减少很多额外的学习。

  • 分词,帮你用spacy,NLTK,或者简单的按空格分词处理。
  • 数据集的读取,它内置了很多数据集的读取,你可以在通过学习它的读取方式,在它的基础上对自己需要的数据集进行读取。 、
  • 在Sentence -> Word ID -> Word Embedding的过程中,Glove,ELMo,BERT等常用的都可以直接使用,需要word,char粒度的都可以。
  • log打印输出,在内置的输出项之外,你可以很方便地加入想要输出的信息。模型的各个组件中的参数都可以存在一个json/jsonnet文件中,修改参数进行实验很方便。

目标:在入门中按照教程,完成一个分类项目

2. 安装AllenNLP

可以参看这个博客,安装虽费时,但还算简单

https://www.zhongxiaoping.cn/2018/12/11/ALLENNLP%E5%AE%89%E8%A3%85/

pip install http://download.pytorch.org/whl/cpu/torch-0.4.1-cp36-cp36m-win_amd64.whl
pip install pillow
pip install torchvision
pip install allennlp

相关文章

网友评论

      本文标题:自然语言处理N天-AllenNLP学习(入门)

      本文链接:https://www.haomeiwen.com/subject/bjttpqtx.html