美文网首页算法那些事项目
企业注册地址相似度计算

企业注册地址相似度计算

作者: 勤奋的超跑 | 来源:发表于2020-05-14 09:16 被阅读0次

一、需求

对登记纳税人的注册地址进行相似度计算,发现单个纳税人可能存在的一址多注册。

二、数据

数据来源:登记纳税人数据

数据量:百万级

部分数据展示:

纳税人注册地址

三、数据预处理

1,取数,从hive中提取数据

取数

2,去重、构造专业词库、分词、去停用词

数据预处理

四、算法

采用gensim库,gensim是一个基于Python语言的开源工具集,用于处理向量空间模型(vector space modeling)和话题模型(topic modeling)的相关问题。

1,生成了包含所有词语的词典。

2,有了前一步生成的词典,我们就可以将每个词语转化成一个索引,表示该词语在所有文档中出现的次序,然后每个文档就可以转化成一个索引的列表。

3,调用gensim中的tf-idf模块来进一步对每个单词计算权重。

4,采用了余弦相似度作为衡量指标,进行注册地址相似度计算。

五、算法应用

通过flask起算法服务,通过接口地址访问。

服务函数

六、调用结果展示

算法结果1 算法结果2

七、备注

1,由于是专业数据,停用词库最好简化,基本上每个词都有用,想要提高准确率,专业词库是必须的。

2,当数据量超百万时,gesim在计算相似度时可能存在内存错误,可以用similarities.Similarity类替换,该类存在三个参数。

3,本项目有两个脚本,一个是批量跑数脚本,另一个是服务脚本。

八、项目代码

代码结构

想要项目的两个详细脚本私聊我,加微信。

相关文章

  • 企业注册地址相似度计算

    一、需求 对登记纳税人的注册地址进行相似度计算,发现单个纳税人可能存在的一址多注册。 二、数据 数据来源:登记纳税...

  • 计算句子相似度

    计算句子相似度,①常用方法有基于语义和词序相似度计算方法,②基于关系向量模型基于语义和词序的句子相似度计算方法简介...

  • NLP详解

    (一)余弦相似度、向量空间模型 1、相似度 • 相似度度量:计算个体间相似程度• 相似度值越小,距离越大,相似度值...

  • 图像相似度计算

    利用直方图特征计算图像之间的相似度,得到相关矩阵

  • 文章相似度计算

    算法思路 首先看个简单的例子: 句子A: 我喜欢看电视,不喜欢看电影句子B: 我不喜欢看电影,也不喜欢看电视 基本...

  • SNN相似度计算

    共享最近邻相似度SNN原理 如果向个点都与一些相同的点相似,则即使直接的相似度度量不能指出,我们也认为他们相似。 ...

  • 相似度计算统计

    在计算跨语种文本相似度的过程,部分统计数据展示在这里。 耗时25分钟,处理中文130句,英文190句。 计算...

  • 句子相似度计算

    思路一:先求句向量,然后求余弦相似度 1.求得两个句子的句向量 生成文本词频向量用词频来代替,句子,当然这样做忽略...

  • 词义相似度计算

    语义计算索引作业一 词义相似度计算 实现2种词汇相关度计算方法,基于词典与基于语料各一种基于Mturk-771进行...

  • 余弦相似度计算

    1. 余弦相似度: 余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向...

网友评论

    本文标题:企业注册地址相似度计算

    本文链接:https://www.haomeiwen.com/subject/vvsznhtx.html