美文网首页
短文本分类和长文本分类的模型如何进行选择?

短文本分类和长文本分类的模型如何进行选择?

作者: top_小酱油 | 来源:发表于2020-03-07 23:11 被阅读0次

短文本分类:

对于短文本,CNN配合Max-pooling池化(如TextCNN模型)速度快,而且效果也很好。因为短文本上的关键词比较容易找到,而且Max-pooling会直接过滤掉模型认为不重要特征。具体工作机制是:卷积窗口沿着长度为n的文本一个个滑动,类似于n-gram机制对文本切词,然后和文本中的每个词进行相似度计算,因为后面接了个Max-pooling,因此只会保留和卷积核最相近的词。这就是TextCNN抓取关键词的机制。虽然Attention也突出了重点特征,但是难以过滤掉所有低分特征。而Capsules效果比CNN好,所以我个人觉得在短文本上LSTM/GRU+Capusules是一个不错模型,这也是目前Kaggle Quora比赛上(短文本分类)最好的baseline之一。

长文本分类:

但是对于长文本直接用CNN就不行了,TextCNN会比HAN模型泛化能力差很多。当然如果在TextCNN前加一层LSTM,这样效果可以提升很大。

相关文章

  • 短文本分类和长文本分类的模型如何进行选择?

    短文本分类: 对于短文本,CNN配合Max-pooling池化(如TextCNN模型)速度快,而且效果也很好。因为...

  • Agisoft PhotoScan-中级教程-密集点云分类和DT

    本教程演示如何在手动和自动模式下执行稠密点云分类以及如何生成数字地形模型(DTM)。 密集点云分类有两种选择:自动...

  • 训练首个神经网络:基本分类

    训练首个神经网络:基本分类 本指南会训练一个对服饰(例如运动鞋和衬衫)图像进行分类的神经网络模型。即使您不了解所有...

  • 2019-02-20

    《如何阅读一本书》第4天打卡 第6章一本书的分类 首先要对书籍进行分类,最好在阅读之前就知道所要阅读的书的分类。前...

  • 机器学习之分类器

    0、分类器热身,NextStep比较懒,直接看图 分类分类,先分解再分类,比如,疾病分类模型先将病情的表现信息进行...

  • 达观杯长文本分类

    1.参赛指导 1.1 背景 这个比赛是文本分类比赛,比传统的短文本(300词)分类难,现在是长文本(3000词)分...

  • 整理与复习

    一、揭示课题 二、整理本单元知识点 1.回顾 2.出示算式分类 3.进行分类 4.分类整理本单元知识 5.介绍其他...

  • 原理 + 代码 | 手把手教你基于不平衡数据的 Python 反

    本文将基于不平衡数据,使用Python进行反欺诈模型数据分析实战,模拟分类预测模型中因变量分类出现不平衡时该如何解...

  • 机器学习之线性回归模型

    回归模型 机器学习中的模型分类方法很多,如果按照label的变量类型分,可分为分类模型和回归模型。分类模型的lab...

  • 李航统计学习--第二章 感知机perception

    二类分类(+1,-1)的线性分类模型,判别模型。 求出将训练数据进行线性划分的分离超平面,导入基于误分类的损失函数...

网友评论

      本文标题:短文本分类和长文本分类的模型如何进行选择?

      本文链接:https://www.haomeiwen.com/subject/vcwkdhtx.html