DLKcat是一个基于深度学习的计算工具,用于预测酶促反应的turnover number (kcat)值。这是一个由查尔姆斯理工大学系统生物学团队开发的开源项目,旨在解决酶动力学参数预测这一生物工程和系统生物学中的重要问题。
Github项目地址:https://github.com/SysBioChalmers/DLKcat
酶动力学参数,特别是kcat(催化常数),是表征酶催化效率的关键指标。传统上,这些参数需要通过耗时的实验测定,限制了代谢工程和系统生物学研究的进展。DLKcat利用深度学习方法,基于蛋白质序列和底物结构信息来预测kcat值,为代谢网络模型和酶工程提供了一个高效的计算工具。
核心特点
双输入模型架构:结合蛋白质序列和底物分子结构信息
大规模训练数据:整合了BRENDA和SABIO-RK数据库的kcat数据
广泛适用性:能够为不同酶和底物组合预测kcat值
高性能预测:在测试集上展现出良好的预测准确性
易于使用:提供用户友好的预测接口
DLKcat 分为两个主要部分:
DeeplearningApproach: 基于深度学习的 kcat 预测工具,需要蛋白质序列和底物 SMILES 结构作为输入。
BayesianApproach: 使用预测的 kcat 值构建酶约束的代谢模型(ecGEMs),基于贝叶斯方法。
主要区别如下:
两者主要区别g
本文主要介绍DeeplearningApproach的使用:
输入: 蛋白质氨基酸序列(Protein sequence)和底物信息(Substrate SMILES 或名称)。
输出: 预测的 kcat 值。
目标: 为酶约束的基因组规模代谢模型(ecGEMs)提供关键参数,或为用户提供独立的 kcat 预测工具。
应用场景
代谢工程: 在构建 ecGEMs 时填补实验数据缺失的 kcat 值。
酶功能研究: 快速评估新酶或变体的催化效率。
生物信息学: 从序列和化学结构推断酶的性能。
以下介绍通过DeeplearningApproach预测kcat值的步骤
第一部分:环境准备
1. 创建虚拟环境
conda create -n dlkcat python=3.7.6
conda activate dlkcat
2. 安装指定版本的依赖包
pip install --upgrade pip # 首先更新pip
#安装主要依赖
pip install numpy==1.20.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install scipy==1.5.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pandas==1.1.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install matplotlib==3.3.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install seaborn==0.11.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install scikit-learn==0.23.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install biopython==1.78 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
# 安装PyTorch
pip install --upgrade torch torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple
# 安装RDKit
pip install rdkit-pypi==2021.3.5.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
注:也可创建requirements.txt文件(如下),批量安装:pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
#requirements.txt文件(如下)
numpy==1.20.2
scipy==1.5.2
pandas==1.1.3
matplotlib==3.3.2
seaborn==0.11.0
scikit-learn==0.23.2
biopython==1.78
requests
rdkit-pypi==2021.3.5.1
#然后安装PyTorch:
pip install --upgrade torch torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple
3. 验证环境
python -c "import numpy; print(numpy.__version__)"
python -c "import torch; print(torch.__version__)"
python -c "import sklearn; print(sklearn.__version__)"
python -c "import Bio; print(Bio.__version__)"
python -c "from rdkit import Chem; print(Chem)"
第二部分:项目下载与准备
1. 克隆数据
选择一个合适的目录进行克隆
git clone https://github.com/SysBioChalmers/DLKcat
2. 解压后准备数据文件
>cd Data/
解压input.zip
修改E:\DLkcat\DLKcat-master\DeeplearningApproach\Code\example\prediction_for_input.py文件中.pickle文件位置
如上图所示,将.pickle文件路径修改为真实路径。
第三部分:使用模型进行预测
cd Code/example
1. 查看示例输入文件的结构
Input.tsv示例输入文件是一个制表符分隔的文件,包含以下列:底物(化合物)名称、底物SMILES表示、蛋白质序列。可以将input.tsv文件中的几列内容替换为自己的数据后保存。
2. 运行预测
# 使用示例输入文件运行
python prediction_for_input.py input.tsv
# 或使用自己的输入文件
python prediction_for_input.py my_input.tsv
运行结束
3. 查看输出结果
输出结果








网友评论