词库处理流程和思路

作者: comboo | 来源:发表于2016-06-07 15:21 被阅读333次

一堆屎在你面前展示多久你会吃?

这个问题很可笑吗? 假如没有词库,很可能SEO过程中展示的就是一堆屎。

词库整理的大概流程

词库整理的目的是通过模板把尽可能多的词表示出来。不要在词库这一步掺和进其他乱七八糟的需求,比如这批词如何生成内容,竞争程度怎样等等。

词库整理的流程

词库流程如图所示,不多说。
词库整理的三个重要点

  • 词根
  • 受控词表
  • 组成模板
    1,词根
    词库最终会被整理成{前缀}+词根+{后缀}(三个未必全部出现)的形式。整个公式中,我们唯一能确定的就是词根,基础也是词根。下面我们会说如何解决词根问题。
    2,受控词表
    受控词表就是某类关键词的聚合组成的表。比如在{城市}+旅游这批关键词中,城市这个大集合包含很多关键词,例如深圳,上海等。受控词表的建立只能通过观察规律加手动修改来完成,比如我们发现,城市+旅游这种逻辑,只需要通过正则把旅游前面的词匹配出来,在替换,去重,正则之后人工删选。
    3,组成模板
    每个词库都不太相同,甚至同样一份词库,两个人操作结果都不同。比如{地区}+{岗位}这种词,有些人会觉得地区重要,有些人会觉得岗位重要。

词库整理的一些细节

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
  • 词库划分到什么颗粒停止?
    这个根据自己的需求来定,组成模板的词数量越少,词库划分越精准。

  • 有什么好的工具吗?
    没有。
    我们可以看流程图,词库整理是一个不断循环的过程,这就意味着,每循环一次,我们就需要建立对应的表格(或者叫页面)来存储数据。现在我能想到最好的满足这种需求的东西就是网站,我正在做这个网站。

参考资料
gogo闯:【流量贩子】关键词数据分析| GoGo闯@流量贩子
夜息:夜息:小议SEO数据分析III – 维护词库(完工)

相关文章

  • 词库处理流程和思路

    一堆屎在你面前展示多久你会吃? 这个问题很可笑吗? 假如没有词库,很可能SEO过程中展示的就是一堆屎。 词库整理的...

  • 《SEO学习之关键词扩展(一)》

    本文主旨: 关键词库的建立流程 上篇文章整理了整个关键词研究,包括从关键词库的建立到关键词布局的思路,详细看这里:...

  • 企业IT架构笔记7 异步化

    核心设计思路:串行、同步 --> 异步、并行!解决大容量高并发、及高性能问题。 业务处理异步化:通过业务处理流程异...

  • 2019-06-15 情感分类中 WordEmbedding

    wordvector NLP 任务中最基本的运算单元应该是词了,处理的所有词组成在一起就行成了词库,但是词库是稀疏...

  • 选择图片文件(可拖动)并上传功能的实现——js对象

    一 . 具体效果 二 .大略实现流程和设计思路 大略流程image.png 设计思路将整个模块封装到jquery插...

  • asp.net工作流开发分享

    asp.net工作流开发分享 ---工作流模板处理、流程实例处理、流程节点处理、创建流程实例 今天继续和大家分享工...

  • Dubbo Consumer 响应过程

    开篇 这篇文章主要是分析Dubbo Consumer在处理Provider的响应的流程,整体思路会按照Dubbo ...

  • 整合:小型网站策略

    小型网站的流程 挖词建立简单的小型词库根据词库设计网站结构将关键词布局到各页面完善产品内容上线后持续更新文章一段时...

  • 关于数据处理流程的思路

    1.nginx配置 让浏览网页的记录写在一个固定的文件里面。然后写一个定时任务的脚本,让任务定时切割那个文件,把每...

  • 【PS教程】产品精修瓶子篇

    这篇教程非常有针对性。教程介绍的是使用PS来精修透明瓶子的思路和流程。其实差异和亮点就在于透明部分的处理。挺实用的...

网友评论

    本文标题:词库处理流程和思路

    本文链接:https://www.haomeiwen.com/subject/aniddttx.html