美文网首页
论文小结(一)

论文小结(一)

作者: LilacZiyun | 来源:发表于2016-06-01 15:53 被阅读148次

前言

懒惰如我,总是想着有时间将所看的论文好好总结一番,却总是如拖延症晚期患者一般,一直拖一直拖,今晚终于下定决心进行总结,现在开工!

Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation

MDMKDD'10

论文流程

  1. 获取t时刻的tweet数据集,将每条推文表示成词频向量
  2. 采用PageRank算法计算每条推文的发布者权威值
  3. 根据novel aging theory,建立每个term的生命周期模型
  4. 对每个term,根据其生命周期状态进行排序,选取emerging terms
  5. 建立话题导航图,由图的强连通子图中的terms构成emergent topic的词汇集

论文小记

本文所采用的词频向量是由未经过预处理的所有词汇构成,虽然这在某种程度上能够保留下所有的推文信息,但是,推文数据量极大,数据集中包含大量噪声信息,如拼写错误、无意义词汇信息、广告信息等,所以在使用时,可以考虑使用经过预处理后的实验数据集。

时间间隔的选取会影响到后续挖掘到的事件数量和质量,当时间间隔设置的比较小时,会挖掘到大量小型事件,同时一些周期性词汇可能会影响挖掘效果。如good morning、afternoon等词汇,以及一些周一上班、周五放假、工作日与非工作日相关的周期性词汇等。所以在对时间间隔进行设置时需要根据数据集的特点,以及挖掘的目的进行相应的设置。

在计算用户权威值时,实际上考虑的是用户的粉丝数,只考虑用户粉丝这一个指标,可以考虑增加几个指标,如用户发布的推文数、推文质量、评论数、转发数、点赞数,被@与@用户等。

生命周期模型比较有吸引力,通过类比的方式,能够比较清晰地表达词汇的变化过程。在话题探测过程中,词汇/话题会经历新生、快速增长、趋于稳定、逐渐消失等过程,但是不同的话题在每个过程中持续的时间长短不一致,需要综合考虑背景话题、周期性话题、激增激没话题、平稳话题等不同类型的话题的不同表现形式,及对话题探测的不同影响

SigniTrend: Scalable Detection of Emerging Topics in Textual Streams by Hashed Significance Thresholds

KDD'14

创新性

  1. 提出一个基于指数权重移动平均/方差和Z-score的term/term对的重要性衡量指标
  2. hash算法可以显著减少内存消耗,本文采用hash的方式对所有词对的重要性进行度量,从而提高可扩展性
  3. 对小话题进行聚类形成大话题

论文小结

本文并非专门针对tweet设计的算法,实验数据集使用了新闻语料、tweet和stackOverflow三个语料,但是实验结果只展示了一个探测到的top-50的话题-词汇表,同时采用的是手工评估方式,所以并不能够很好地看出算法的优势。主要工作集中在重要性衡量指标上。

Streaming First Story Detection with application to Twitter

ACL'10

论文简介

本文以文本/推文为单位,着眼于挖掘关于某一个事件的第一篇报道/推文,具体步骤:

  1. 采用LSH(局部敏感哈希)算法,计算新报道/推文的最近邻;
  2. 根据新推文与最近邻之间余弦相似性,计算该推文的novelty值;
  3. 该推文的novelty值大于阈值时,认为该推文是一个新事件的首篇推文,否则,将该推文放入最近邻所在事件中。
    实验语料集为TDT5和Twitter数据集,评价指标分别为归一化损失函数(遗失一篇新推文、错将一篇旧推文作为新推文以及探测的新推文并非真的新推文的损失)和人工评估

论文小结

本文采用改进的LSH方式能够实现常量级时间开销,但是在计算novelty值时只考虑了新旧文本词频间的余弦相似性,考虑的因素比较少,对于推文这类高噪声短文本,词频向量比较稀疏,效果不会很好。本文主要针对新推文的挖掘,而非新事件。

Topic Dynamics: An Alternative Model of ‘Bursts’ in Streams of Topics

KDD'10

论文简介

本文借用物理学中的一些基本概念来对度量突发性,如速度、加速度、质量、动量等,文中采用两个时点移动平均值间的差异表示速度,用速度与质量的积表示动量,用动量激增的区间表示突发区间。

论文小结

该模型主要用于长文本数据,度量的是一个话题的突发区间,而非对突发话题进行检测,不过文中提出的一些概念可以加以借鉴。

小结

目前,新兴话题探测主要集中于词汇新颖性的度量,词汇聚类形成话题,抽取代表性的词汇表示话题这几个步骤,关键在于词汇新颖性的度量。
突发话题检测主要有几个主要的问题:如何尽可能早的探测到话题,这涉及到时间片的划分,时间片的长度会影响到所探测到的话题的粒度以及周期性话题所带来的噪声;新颖性值的度量,主要需要考虑如何区分背景词汇、新兴词汇、噪声词汇,凸显新兴词汇的值;词汇聚类,不同话题的规模不一致,词汇间距离不一致,如何确定聚类函数,定义距离阈值,最好能够自适应。

相关文章

  • 论文小结(一)

    前言 懒惰如我,总是想着有时间将所看的论文好好总结一番,却总是如拖延症晚期患者一般,一直拖一直拖,今晚终于下定决心...

  • 高考作文丨议论文体结构的六种常用模式

    模式一:议论文段标准模式:观点+材料+分析+小结 由议论文的三要素引入议论文段常用结构模式:观点+材料+评论+小结...

  • 论文小结

    综上所述,我国高等教育的区域不均衡现状与区域间经济发展的实力差距休戚相关。各地区经济实力的差距决定了高等教育水平的...

  • 论文小结(二)

    A Probabilistic Model for Bursty Topic Discovery in Micro...

  • 阅读论文小结

    我等菜鸟这一周又重复阅读了将GCN和胶囊网络结合的文章,同时也弥补了一些核技巧的知识。本周的学习效果有了很大的提升...

  • 论文阅读小结

    这两个月阅读了不少图神经网络领域最新发表的文章,有了和平常阅读完全不一样的体验。 刚开始由于没有经验,阅读文献没有...

  • 3D数据和DL

    本文是学习下面这篇论文的一点小结 《Deep Learning Advances on Different 3D ...

  • meltdown与spectre简述

    本文是基于meltdown/spectre论文与维基的一个科普小结。 meltdown meltdown是基于处理...

  • 暑假实习小结

    实习终于要结束啦,也是时候写个小结啦。 今天老师又一次提出走之前把论文交了。要写毕业论文,时间不多啦,哈哈...

  • 本周论文阅读小结

    本周阅读文章数量比之前下降太多了,总共只勉强看了4篇,与原来预计的每天两篇相差实在是太多了。 按照之前的想法,每次...

网友评论

      本文标题:论文小结(一)

      本文链接:https://www.haomeiwen.com/subject/gjzcdttx.html