怎么用Python快速筛选出FASTA文件里长度不足300的蛋白序列并保存为新文件？

以下是一个 Python 程序，用于对 `Botrytis_cinerea_protein.fa` 文件中的蛋白序列进行长度统计，并以 FASTA 格式输出长度小于 300 的蛋白序列： ```python def process_fasta_file(input_file, output_file): sequences = {} current_id = None current_seq = [] # 读取 FASTA 文件 with open(input_file, 'r') as f: for line in f: line = line.strip() if line.startswith('>'): if current_id is not None: sequences[current_id] = ''.join(current_seq) current_id = line[1:] current_seq = [] else: current_seq.append(line) # 处理最后一个序列 if current_id is not None: sequences[current_id] = ''.join(current_seq) # 统计序列长度并筛选长度小于 300 的序列 short_sequences = {id: seq for id, seq in sequences.items() if len(seq) < 300} # 输出筛选后的序列到新的 FASTA 文件 with open(output_file, 'w') as f: for id, seq in short_sequences.items(): f.write(f">{id}\n{seq}\n") # 使用示例 input_file = 'Botrytis_cinerea_protein.fa' output_file = 'short_sequences.fa' process_fasta_file(input_file, output_file) ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python怎么根据数字1-12快速输出对应月份的英文缩写（如Jan.、Feb.）？

目录

怎么用Python快速筛选出FASTA文件里长度不足300的蛋白序列并保存为新文件？

Python内容推荐

分割fasta文件的python脚本

DNA-FASTA-Python:使用Python分析Multi-Fasta格式的DNA序列

Remove-duplicate-fasta:Python脚本删除重复的Fasta序列

Python库 | jupyterlab-fasta-3.1.0.tar.gz

Python库 | fasta2png-1.tar.gz

Python导入fasta格式的数据，并把多行碱基变为一行

FindTelomeres：用于在FASTA文件中查找端粒重复序列（TTAGGGCCCTAA）的python脚本

python程序运行记录1

氨基酸符号序列转换为FASTA格式的蛋白质序列

phylip2fasta.py_fasta_phylip_

快速从fasta源文件中查询目标基因序列文件

extract_fasta_序列提取_

用于对FASTA格式的蛋白序列进行理论酶切

FASTA序列提取方法[代码]

从NCBI refseq 中下载特定物种的蛋白质数据

DNA_to_Protein:将dna序列转换为蛋白质序列的程序

pdb2fasta:一个简单的C库，可将PDB（蛋白质数据库）文件解析为FASTA文件

CDHITtoFASTA:提取包含参考蛋白的CD-Hit簇并将其以FASTA格式存储

快速读入fasta文件[项目代码]

对fasta序列进行分割，150bp变为101bp

虚化高斯模糊-下载即用.zip

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

告别遮挡！UniApp中WebView与原生导航栏的和谐共处方案（附完整可运行代码）

OSPF是怎么在企业网里自动找最优路径并分区域管理的？