20170610-日报

作者: eosclover | 来源:发表于2017-06-10 23:32 被阅读8次

今天周六,公司开展培训交流会。

早上,数据组老大讲数据集成和数据存储原理设计及实现。

主要对自己感兴趣的知识和已经了解的知识做以巩固。

1.定时数据集成ETL技术

以前做运维的时候,接触过ETL部署搭建(橘云的二次开发产品),功能算是比较强大了,电总已经使用了3年多。

 ETL不支持实时,不能实时通过ftp向某台服务器取文件。

FTP是取一个文件,比如说这个小时的15点,去取上个小时14点的文件,然后把14点的文件处理入库。也可以按分钟调度。调度,跟实时定时任务一样,最多按分钟执行。

ETL的原理:Hadoop集群自动分配一台当前资源最优化的机器。

数据要怎么入库?在入库之前要做什么操作?
hive入库有两种方式:一种是把数据写到一个文件中,然后load进去,另一种就是从已有表导入到新表。hive不支持insert into 。

比如说:国双的数据要怎么才能入库带CNTV的集群里边?
他是获取json文件,然后把文件转换成响应的数据文件(以\t为分隔符),然后加载到hdfs,其实就是文件load的形式,他是通过json转换后,会生出一个文件存在临时目录,然后move到hdfs.

2.定时  (局域网、广域网、前置机)

实时(RPC模式、消息模式、交易日志模式)

3.Hadoop平台各软件版本;

hadoop 2.7.2 、hbase1.2.4  、JDK1.7 、solr

4.开发流程:

需求方----》需求---》PRD(提前线下评审)---》评审---》排期--》技术评审(前端、服务端、QA)---》项目kick off启动会(设置里程碑,输出、实现了什么功能,开发了什么等)---》输出(项目风险及规避)---》执行---》结束。

5.推荐关注搜索:google  research    和 facebook research

6.用户画像基本流程:

基础数据收集(用户交易数据、用户内容偏爱数据浏览收藏、网络行为数据、服务内容)-----》行为建模  ---》构建画像(基本属性、购买能力、行为特征、兴趣爱好、心理特征、社交网络)

DEEP learning  机器学习  数据挖掘、自然语言、机器学习算法

7.用户画像,标签,key-value

相关文章

  • 20170610-日报

    今天周六,公司开展培训交流会。 早上,数据组老大讲数据集成和数据存储原理设计及实现。 主要对自己感兴趣的知识和已经...

  • ❤️非✊爱上跑步

    易效能天使28班2.0#第八次晨会分享# 20170610-十二组-高光侠 今天收到天哥发给我的《像恋爱一样跑步》...

  • 测试日报怎么写 ?

    读者提问: 什么时候需要写测试日报,为什么要写测试日报,怎么写测试日报? 阿常回答: 什么时候需要写测试日报,为什...

  • 《京郊日报》投稿信息

    《京郊日报》 邮箱:wlbjjj@163.com 《京郊日报》(原名《北京日报郊区版》),始创于1980年10月3...

  • 日报知乎,一个第三方知乎日报客户端

    首先 日报知乎是一个基于Android平台的第三方知乎日报,界面UI参考自ios版的知乎日报。 知乎日报API来自...

  • 那些年曾读过的报刊杂志

    一、《新华日报》 以前生产队长家总是有一堆的报纸,有《人民日报》、《光明日报》、《新华日报》等等。报纸多了之后,队...

  • 唐山那些你连名字都没听说过的报纸

    曾经在唐山常见的报纸 《救国报》 《冀热辽日报》 《长城日报》 《冀东日报》 《救国时报》 《人民报》 《大众报》...

  • 日报

    http://iobs.pingan.com.cn/download/padl-gaia-tl-sf-prd-pr...

  • 日报

    2018.8.28 1.工作内容 9:30~13:00邸阁街美食城装机 14:00~15:30浪串儿国贸360,稻...

  • 日报

    今天一共八个件,下班后去解管了三个客户。 首先到了市区去链家房产收了一个件,然后去升龙大厦跑了几层没出件,华夏朋友...

网友评论

    本文标题:20170610-日报

    本文链接:https://www.haomeiwen.com/subject/oqvcqxtx.html