美文网首页
Research First Month

Research First Month

作者: AlexisXY | 来源:发表于2017-08-20 22:31 被阅读0次

* 做BOW的时候需要把标点符号都替换成空格,统一用小写。

* 处理大文本的时候用readline()而不是readlines(),不然会把文本所有的内容都读到内存里最爆炸的。

* 如果运行时间很长的时候一般打一些log出来看看处理速度,处理到哪里了。

* 对于一些因为文本不干净出现的无关的异常可以用try, except, pass忽略掉

* 做分词的时候先做分句

* 一定要记得数据一般是不干净的,想想可能有哪些需要处理的东西,搜索是否有相应的工具包。

* 新的code 先跑一遍再说。

* 读出数字等一定要做一下强制类型转换,否则都是string类型,写回去的时候也要转换成int or float类型。

* 对于没有使用过的函数,如果是在大数据集上跑最好能自己测试一下是不是对的,每个函数一定要弄清楚是干嘛的再去使用。

* 多用函数定义

*  一定要好好整理文件,没用的数据即刻删除,做好文件归类

* 看论文的时候reference也很重要,可以看出这篇文章的思路

* 涉及一个领域的时候最好先看一下综述,或者公开课,看看这个领域有什么难题,什么方向,一些传统的方法和现在常用的deep learning的方法。一定要搞清楚用deep learning的motivation是什么。

* 捋清思路再写code,要明白这个code是衔接什么的,之前之后需要用这个code干什么,不要瞎写。

* 做一个东西一定要有比较明确的motivation,知道自己为什么要这么做,借鉴别人的东西的时候也是,明白为什么要借鉴,不要觉得work的就是有用的东西。

* 观察数据的时候不要纠结,不要想太多

* 代码要用的时候再去读,记得比较牢固

* 对于model的公式不要囫囵吞枣,需要理解里面一些比较Intuitive的含义,不要着急以为自己懂了,多停5s,多想一下多问自己真的懂了吗。

相关文章

网友评论

      本文标题:Research First Month

      本文链接:https://www.haomeiwen.com/subject/gkjqdxtx.html