今天下午要去师兄开的公司跟小伙伴们见面交流,提前收集了他们感兴趣的问题(见留言),这次讲讲第三点—RNA测序原理,包括测序原理及平台的选择,通用有参无参转录组分析流程,部分软件的算法原理等等
ppt中使用到的图片均来自公开的官网,结题报告,文献,我只是知识的搬运工,用到的参考资料均打包,有需要可以拿去用:
百度云链接:https://pan.baidu.com/s/1jJ7GWiq 密码:vwyi (约45M)
(PPT以PDF那本书为脉络,这本书还是看panda姐的推荐才知道的,查了查该出版社出的书写得都很好,再次推荐~)
以下是这次讲解的ppt内容节选(全部共44页):








测序原理可以在优酷上搜“illumina二代测序原理”“陈巍学基因”







参考 组装算法综述





网友评论
1.对转录组数据中rRNA序列进行去除方法,如何发现有数据中有rRNA污染,并如何对其中rRNA的污染进行去除
2.有没有方法对转录组中线粒体表达出的RNA进行去除
3.转录组无参考序列组装和有参考序列组装的原理,主流软件分析流程
4.对转录组拼接好的序列的注释方法(kegg,go)和表达量的计算,对数据整合分析找出差异表达,对感兴趣的基因的数据提取方法(提取序列,表达量,注释信息)并如何用统计学方法进行比较,一个转录组测序数据可以从哪些方面入手进行分析挖掘有价值的信息
5.如何对大文本(一个文本大小超过4,5个G)数据进行指定的删除替换等操作的方法,使用过程遇到过python处理大文本文件程序直接报错的问题
6.如何利用shell脚本实现分析数据流程自动完成,对常用参数和技巧的介绍,方便读懂别人shell脚本,自己写脚本
7.基因浏览器(例如Jbrowse)的配置,如何整合转录组分析结果,例如将转录组原始数据根据基因组mapping好后,可以得到表达量的信息,转录的基因位置信息序列信息,进行注释后可以得到go,kegg,swissprot等信息,但都是单独的文件,有没有简便的方法整合到一个文件里,比如基因浏览器能识别的gff3格式文件
2. 线粒体叶绿体都是比较保守的,找近源物种的比对上去即可
3. 原理的东西..看看文献就知道了,主流不主流其实基本不会影响 主要矛盾,除非用错参数,或者事实上,很多以前的生信软件默认参数并不适合现在的数据
4. ...太多了
5. 那必定是脚本逻辑出了问题,应该是遍历文件的操作有问题,一次读入,自然全部报错。python读取文件的方式有常见数种,相信你已经找到方式。事实上,需要注意的是,当一个fasta文件,只有几个记录,比如染色体序列,而其中存在某个序列就是单行文本,这一行文本有2G个碱基,有时间考虑下这个
6. 找本数看看 make snakemake nextflow 这些框架
7. 事实上,JBrowser或者几乎我见过的所有基因组浏览器,并没有不直接支持gff3的,如果有,考虑gff3的问题。关于基因组浏览器,文章很多,可以查查。
=============
看到另一篇TBtools的评论啦。TBtools的,怎么说,就是给湿实验的朋友用用,而且并不关注热点研究的物种,所以确实不适合直接做水稻的数据。毕竟优秀的工具太多。
谢谢前面的认可。