Biostar(3)

作者: pearlp | 来源:发表于2017-11-12 20:07 被阅读12次

Biostar(3)
biostar handbook: 第六周笔记汇总
快讯| 全球首款疗法获批使用后，又一款老年痴呆干细胞疗法启动
bed文件转换为gtf文件
第1课 Python学习资料收集整理
Biostar(2)
Biostar(1)
（避坑）samtools bedcov 和 bedtools c
对fasta/fastq进行一些小操作
Biostar学习笔记（3）Gene set analysis

NCBI数据库

NCBI编号的解释

AC：一些可供选择的注释的基因组序列，主要用来标记病毒和原核生物。

AP：AC标记对应的蛋白产物。

NC：完整的基因组分子序列，标记的类别为基因组、染色体、细胞器、质粒。

NG：不完整的基因组。

NM：转录产物序列，成熟mRNA转录本序列。

NP：蛋白产物，主要是全长转录氨基酸序列，有一些只有部分蛋白质的部分氨基酸序列。

NR：非编码的转录子序列，包括结构RNAs，假基因转子。

NT：BAC或鸟枪法的还未完全注释的测序序列。

NW：BAC或鸟枪法的还未完全注释的测序序列。

NZ：automated 收集的各种利用鸟枪法测序的测序计划。

XM：automated 转录产物，mRNA来自基因组注释，序列相当于基因组重叠群。

XP：automated 蛋白产物。

XR：automated 转录产物。

YP：蛋白产物，不涉及到转录，主要用来标记细菌、病毒和线粒体。

ZP：automated 蛋白产物，主要是用电脑自动注释。

NS：automated 未知生物分子基因组序列。

Entrez

对GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB数据库中的核酸和蛋白，包括了物种的序列序列数据提供整合的访问，同时提供对3D蛋白结构，基因组图谱信息和 PubMed MEDLINE 的访问。

使用Entrez Direct

esearch

esearch -db nucleotide/sra/protein -query ... #-db是指定数据库类型，而query是跟着你要搜索的关键词

efetch

esearch -db nucleotide/sra/protein -query ... | efetch -format fasta #将搜索结果的fasta格式存储

Linux

tr

从标准输入删除或替换字符，并将结果写入标准输出

tr '{}' '()' < textfile > newfile 大括号转换为小括号

tr 'a-z' 'A-Z' < textfile > newfile 大小写

tr -cs '[:lower:][:upper:]' '[\n*]' < textfile > newfile 这便将每一序列的字符（除大、小写字母外）都转换成单个换行符。*（星号）可以使 tr 命令重复换行符足够多次以使第二个字符串与第一个字符串一样长。

tr -d '\0' < textfile > newfile 删除所有空字符

echo "thissss is a text linnnnnnne." | tr -s ' sn' this is a text line. 用tr压缩字符，可以压缩输入中重复的字符

cat file | tr -s "\r" "\n" > new_file ／ cat file | tr -d "\r" > new_file 删除Windows文件“造成”的'^M’字符

datamash

文本数据处理

seq 10 | datamash sum 1

DATA=$(printf "%s\t%d\n" a 1 b 2 a 3 b 4 a 3 a 6)；echo "$DATA" | datamash -s -g1 collapse 2

具体例子：https://www.gnu.org/software/datamash/alternatives/

R-PCA

一些注意点：

#apply PCA - scale. = TRUE is highly advisable, but default is FALSE.

#standardize the variables prior to the application of PCA

ir.pca <-prcomp(log.ir,center =TRUE,scale. =TRUE)

#数据大于变量，即行大于列，则应该是R mode的数据 ,转置后变为Q mode——研究observation之间的关系

（这周的笔记是个大杂烩，把这周学到的内容都记下来，方便以后查找。未完待续～）

网友评论

Biostar Handbook学习小组

本文标题：Biostar(3)

本文链接：https://www.haomeiwen.com/subject/uidomxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Biostar(3)

NCBI数据库

Linux

R-PCA

相关文章

Biostar(3)

biostar handbook: 第六周笔记汇总

快讯| 全球首款疗法获批使用后，又一款老年痴呆干细胞疗法启动

bed文件转换为gtf文件

第1课 Python学习资料收集整理

Biostar(2)

Biostar(1)

（避坑）samtools bedcov 和 bedtools c

对fasta/fastq进行一些小操作

Biostar学习笔记（3）Gene set analysis

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Biostar Handbook学习小组