Biostar(3)

作者: pearlp | 来源:发表于2017-11-12 20:07 被阅读12次

NCBI数据库

NCBI编号的解释

    AC:一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。

    AP:AC标记对应的蛋白产物。

    NC:完整的基因组分子序列,标记的类别为基因组、染色体、细胞器、质粒。

    NG:不完整的基因组。

    NM:转录产物序列,成熟mRNA转录本序列。

    NP:蛋白产物,主要是全长转录氨基酸序列,有一些只有部分蛋白质的部分氨基酸序列。

    NR:非编码的转录子序列,包括结构RNAs,假基因转子。

    NT:BAC或鸟枪法的还未完全注释的测序序列。

    NW:BAC或鸟枪法的还未完全注释的测序序列。

    NZ:automated 收集的各种利用鸟枪法测序的测序计划。

    XM:automated 转录产物,mRNA来自基因组注释,序列相当于基因组重叠群。

    XP:automated 蛋白产物。

    XR:automated 转录产物。

    YP:蛋白产物,不涉及到转录,主要用来标记细菌、病毒和线粒体。

    ZP:automated 蛋白产物,主要是用电脑自动注释。

    NS:automated 未知生物分子基因组序列。

Entrez

    对GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB数据库中的核酸和蛋白,包括了物种的序列序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和 PubMed MEDLINE 的访问。

使用Entrez Direct

    esearch

esearch -db nucleotide/sra/protein -query ... #-db是指定数据库类型,而query是跟着你要搜索的关键词

    efetch

esearch -db nucleotide/sra/protein -query ... | efetch -format fasta #将搜索结果的fasta格式存储

Linux

    tr

    从标准输入删除或替换字符,并将结果写入标准输出

tr '{}' '()' < textfile > newfile 大括号转换为小括号

tr 'a-z' 'A-Z' < textfile > newfile 大小写

tr -cs '[:lower:][:upper:]' '[\n*]' < textfile > newfile 这便将每一序列的字符(除大、小写字母外)都转换成单个换行符。*(星号)可以使 tr 命令重复换行符足够多次以使第二个字符串与第一个字符串一样长。

tr -d '\0' < textfile > newfile 删除所有空字符

echo "thissss is a text linnnnnnne." | tr -s ' sn' this is a text line.  用tr压缩字符,可以压缩输入中重复的字符

cat file | tr -s "\r" "\n" > new_file    / cat file | tr -d "\r" > new_file  删除Windows文件“造成”的'^M’字符

    datamash

    文本数据处理

seq 10 | datamash sum 1

DATA=$(printf "%s\t%d\n" a 1 b 2 a 3 b 4 a 3 a 6);echo "$DATA" | datamash -s -g1 collapse 2

具体例子:https://www.gnu.org/software/datamash/alternatives/

R-PCA

一些注意点:

#apply PCA - scale. = TRUE is highly advisable, but default is FALSE.

#standardize the variables prior to the application of PCA

    ir.pca <-prcomp(log.ir,center =TRUE,scale. =TRUE)

#数据大于变量,即行大于列,则应该是R mode的数据 ,转置后变为Q mode——研究observation之间的关系

(这周的笔记是个大杂烩,把这周学到的内容都记下来,方便以后查找。未完待续~)

相关文章

网友评论

    本文标题:Biostar(3)

    本文链接:https://www.haomeiwen.com/subject/uidomxtx.html