美文网首页
2017 · ICLR · EFFICIENT VECTOR R

2017 · ICLR · EFFICIENT VECTOR R

作者: HelloShane | 来源:发表于2018-09-24 12:00 被阅读0次

2017 · ICLR · EFFICIENT VECTOR REPRESENTATION FOR DOCUMENTS THROUGH CORRUPTION

想法来源:文档表示效果差,效率低。

价值:提出一种新的文档表示方法,提升效率和结果表现。证明了所采用的方法可以看做是正则化。

方法:随机从文档中选词来平均作为文档表示。

缺点

详细方案

-c500 -c500

如图所示,前三个单词是上下文单词,后面的三个词用来组成global document context,这三个单词是从文档中随机选出来的mask-out/drop-out,选出来之后对每个词的每个维度做如下操作,然后加权平均。


-c350 -c450

T是文档长度。最后的损失函数:


-c500

训练出来的文档表示:

-c200

数据集

  1. IMDB
  2. 原始Word2Vec文章中的dataset


    -c450

实验

  • 分类问题准确率和时间消耗


    image
    image
  • 最接近0的词


    image
  • 在word2vec的数据集上测试语义和语法准确率

image
image
  • embedding维度影响
image
  • 训练doc2vec的最后类别表示


    image

相关文章

网友评论

      本文标题:2017 · ICLR · EFFICIENT VECTOR R

      本文链接:https://www.haomeiwen.com/subject/kzbcoftx.html