从基因到蛋白：基于转录本编号批量获取氨基酸序列的实战指南-尧图网络科技

1. 为什么我们需要批量获取氨基酸序列？

在生物信息学研究中，我们经常会遇到这样的场景：手头有一批基因名和转录本编号（比如NM_001384479.1这样的格式），需要快速获取它们对应的蛋白质氨基酸序列。这种需求在基因功能分析、蛋白质结构预测、药物靶点筛选等场景中非常常见。

我刚开始做研究的时候，曾经手动一个个去NCBI和Uniprot上查，50个基因花了我整整两天时间。后来发现其实有更高效的方法，整个过程可以缩短到几分钟。这就是为什么我们需要掌握批量获取氨基酸序列的技巧 - 它能让我们把时间用在更有价值的分析上，而不是重复的机械操作。

2. 准备工作：理解关键概念和工具

2.1 基因、转录本和蛋白质的关系

想象一下基因就像是一本菜谱，转录本就是根据这本菜谱做的不同版本的手抄本（可能有些微差异），而蛋白质就是最终按照手抄本做出来的菜品。NM_开头的编号代表转录本，NP_开头的编号则对应蛋白质。

在实际操作中，我们通常是从转录本编号（NM_xxx）出发，先找到对应的蛋白质编号（NP_xxx），然后再获取氨基酸序列。这个过程就像是通过手抄本找到对应的菜品配方。

2.2 常用数据库介绍

NCBI Gene：相当于基因的身份证登记处，可以查到基因的基本信息和相关转录本。

Uniprot：蛋白质信息的"百科全书"，不仅包含序列，还有功能注释、结构信息等。它的ID Mapping功能特别强大，可以实现不同编号系统之间的批量转换。

我个人的经验是，对于批量操作，Uniprot通常比NCBI更方便，特别是它的"Reviewed"条目（经过人工审阅的）质量更高，可以减少后续分析的噪音。

3. 单基因操作：手动获取氨基酸序列

3.1 通过NCBI Gene获取

假设我们要找转录本NM_001384479.1对应的蛋白质序列：

在NCBI Gene搜索基因名（比如CHD7）
在基因页面按Ctrl+F搜索NM_001384479.1
找到对应的NP_编号（比如NP_001371408.1）
点击NP编号链接进入蛋白质页面
点击"FASTA"下载氨基酸序列

这个方法直观，但效率低。我做过测试，熟练的情况下每个基因也需要2-3分钟。

3.2 通过Uniprot获取

在Uniprot中操作更简洁：

搜索基因名并选择正确物种（如CHD7 human）
在Entry页面按Ctrl+F搜索"refseq"
在搜索结果中找到目标NM编号和对应的NP编号
直接点击NP编号下载FASTA

Uniprot的优势在于一个页面就包含了该基因所有的转录本和蛋白质信息，不用在多个页面间跳转。

4. 批量操作：自动化获取氨基酸序列

4.1 准备输入文件

首先需要准备一个包含转录本编号的列表文件，比如transcripts.txt：

NM_001384479.1 NM_017780.4 NM_000546.6

建议使用纯文本格式，每行一个编号。我在实际项目中发现，最好同时记录基因名和转录本编号，方便后续核对。

4.2 使用Uniprot的ID Mapping工具

这是最强大的批量转换方法：

访问Uniprot的ID Mapping页面（https://www.uniprot.org/id-mapping）
上传你的转录本列表文件
选择"RefSeq_Protein"作为目标数据库
点击"Map IDs"开始转换

转换完成后，你可以：

直接下载FASTA格式的氨基酸序列
选择"Columns"自定义输出信息（建议勾选Gene names、Length、Sequence等）
筛选"Reviewed"条目（通常质量更高）

我最近的一个项目用了这个方法，200个转录本在5分钟内就完成了转换和下载，比手动操作快了近百倍。

4.3 处理转换结果

下载的数据通常包含以下有用信息：

原始转录本编号
对应的Uniprot ID
基因名
蛋白质长度
氨基酸序列

建议用Excel或Python pandas进行后续处理。比如筛选长度异常的序列，或者统计不同基因的序列特征。

5. 常见问题与解决方案

5.1 找不到对应的蛋白质编号

有时候某些转录本可能没有对应的NP编号。这种情况可以：

检查转录本编号是否正确（常见于版本号错误）
尝试在Ensembl等其他数据库中查询
考虑使用该基因的其他转录本替代

5.2 一个转录本对应多个蛋白质

某些基因可能存在剪接变体。这时需要：

确认你需要的特定蛋白质变体
在Uniprot中查看不同变体的功能注释
选择最符合研究目的的变体

5.3 序列质量评估

不是所有数据库中的序列都同样可靠。建议：

优先选择Uniprot中"Reviewed"的条目
检查序列长度是否合理（与同源蛋白比较）
查看是否有实验证据支持

6. 进阶技巧与自动化脚本

6.1 使用Python脚本自动化

对于经常需要做这种转换的研究者，可以写个简单的Python脚本：

import requests def get_protein_sequence(transcript_id): url = f"https://www.uniprot.org/uniprot/?query={transcript_id}&format=fasta" response = requests.get(url) return response.text # 批量处理 transcripts = ["NM_001384479.1", "NM_017780.4"] for transcript in transcripts: sequence = get_protein_sequence(transcript) print(sequence)

这个脚本可以直接从Uniprot获取FASTA序列。我在实验室的服务器上设置了一个定时任务，每周自动更新我们关注的蛋白质序列。

6.2 使用Biopython处理序列

Biopython是生物信息学分析的利器：

from Bio import SeqIO from Bio import ExPASy def get_uniprot_sequence(uniprot_id): handle = ExPASy.get_sprot_raw(uniprot_id) record = SeqIO.read(handle, "swiss") return record.seq

这个方法的优势是可以获取更丰富的注释信息，适合需要深度分析的情况。