美文网首页
2018-07-05

2018-07-05

作者: rayonix | 来源:发表于2018-07-05 20:10 被阅读0次

就业数据处理

因为就业数据只给了就业单位的名称,不方便判断就业质量,所以打算将就业的公司分成‘中国互联网企业100强’,还有很多去了国企的,所以又添加了‘中国企业500强’,‘和世界企业500强’,都在demo数据库中的job2表上操作(好久没弄了忘记了job2是不是最终汇总的job表了)

互联网企业100强链接

备注:中国互联网协会、工业和信息化部信息中心在京联合发布2017年“中国互联网企业100强”榜单。

最终读取的是C:\Users\lenovo\Desktop\研究生院项目\2017年100强互联网企业\100.txt

中国企业500强链接

备注:本排行榜覆盖范围包括在中国境内外上市的所有中国公司,所依据数据为上市公司在各证券交易所正式披露信息。

最终读取的是C:\Users\lenovo\Desktop\研究生院项目\2017年100强互联网企业\top500-new-replace

财富世界500强链接

备注:《财富》世界500强排行榜一直是衡量全球大型公司的最著名、最权威的榜单,被誉为“终极榜单”,由《财富》杂志每年发布一次。

最终读取的是C:\Users\lenovo\Desktop\研究生院项目\2017年100强互联网企业\世界500强\500-world.txt

预计结果

将就业单位打上xx强的标签后,勉强可以区分出来就业质量好坏了,1052/2236人的就业单位带有xx强标签,可以通过聚类等分析行为因素

奇怪的地方

1.google不是世界500强。

2 很多大公司具有不同的名称

世界500强:阿里巴巴集团

中国500强:阿里巴巴集团控股 

互联网企业100强:阿里巴巴集团 

学生就业单位名称:阿里巴巴(中国)网络技术有限公司

因互联网100强中有简称‘阿里巴巴’,故100强标签命中率比较高,世界和中国500因没有简称,命中率低,可加简称到存储文档中

相关文章

网友评论

      本文标题:2018-07-05

      本文链接:https://www.haomeiwen.com/subject/mxcmuftx.html