利用python从NCBI上获取数据

### 提取 NCBI 数据的 Python 方法 #### 1. 使用 Biopython 库访问 NCBI 数据 Biopython 是一个功能强大的生物信息学库，支持通过 Entrez 工具轻松访问 NCBI 的数据库。以下是使用 Biopython 获取 NCBI 数据的一个简单示例： ```python from Bio import Entrez # 设置邮箱以便 NCBI 跟踪请求来源 Entrez.email = "your_email@example.com" def fetch_ncbi_data(term, db="pubmed", retmax=10): handle = Entrez.esearch(db=db, term=term, retmax=retmax) record = Entrez.read(handle) id_list = record["IdList"] results = [] for id_ in id_list: fetch_handle = Entrez.efetch(db=db, id=id_, retmode="xml") xml_data = Entrez.read(fetch_handle) results.append(xml_data) fetch_handle.close() return results if __name__ == "__main__": search_term = "cancer AND human" data = fetch_ncbi_data(search_term) print(data) ``` 上述代码展示了如何通过 `esearch` 和 `efetch` 函数从 PubMed 数据库中检索与指定主题相关的记录[^1]。 --- #### 2. 使用 Requests 库构建自定义爬虫如果需要更灵活的方式处理数据，可以使用 `requests` 库直接调用 NCBI 的 RESTful API 接口。以下是一个简单的例子： ```python import requests def ncbi_api_search(query, database="pubmed", tool="my_tool", email="youremail@example.com"): base_url = f"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi?db={database}&term={query}&tool={tool}&email={email}" response = requests.get(base_url) if response.status_code == 200: return response.text else: raise Exception(f"Error fetching data: {response.status_code}") if __name__ == "__main__": query = "machine learning AND biology" result = ncbi_api_search(query=query) print(result) ``` 此代码片段说明了如何通过 HTTP 请求发送查询并解析返回的数据[^3]。 --- #### 3. 处理大规模数据集对于涉及大量数据的任务（如训练大型语言模型），可以从公开可用的大规模语料库入手。例如，Falcon LLM 所使用的 RefinedWeb 数据集证明了仅依赖网络数据也能实现高性能模型训练[^4]。然而，实际操作时需要注意数据质量和清洗策略。 --- #### 4. JSON 格式的转换当从 NCBI 下载的数据以 XML 形式存储时，可能需要将其转化为易于分析的 JSON 结构。这可以通过标准库中的 `json` 模块完成： ```python import xmltodict import json def convert_xml_to_json(xml_string): parsed_dict = xmltodict.parse(xml_string) json_data = json.dumps(parsed_dict, indent=4) return json_data if __name__ == "__main__": sample_xml = """<PubmedArticle><MedlineCitation><PMID>12345</PMID></MedlineCitation></PubmedArticle>""" converted_json = convert_xml_to_json(sample_xml) print(converted_json) ``` 这段脚本演示了如何将 XML 文档转为 JSON 表达形式。 --- ### 注意事项 - **API 配额限制**：频繁调用 NCBI API 可能会触发速率限制机制，因此建议合理设置延迟或批量下载。 - **法律合规性**：确保遵循 NCBI 的服务条款和隐私政策。 - **数据质量控制**：即使采用高质量的原始数据源，仍需注意后续预处理阶段的重要性[^5]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 python获取微博cookie

目录

利用python从NCBI上获取数据

Python内容推荐

基于Python的自动获取生物信息数据的软件设计.zip

基于Python的自动获取生物信息数据的软件设计.pdf

pyphy：与NCBI分类法交互的Python库

Python库 | ncbi_api-0.4-py3-none-any.whl

Python库 | ncbi_api-0.8-py3-none-any.whl

Python库 | NCBI_Companion-2.1.1.tar.gz

Python库 | ncbi-datasets-pylib-3.53.1.tar.gz

LaTeX公式编号引用项目 Python完整源码与测试部署文档

PyPI 官网下载 | ncbi-datasets-pylib-10.3.0.tar.gz

生物信息学：获取taxid与taxname[项目代码]

GEO数据库架构、申请及数据提取方法与流程.pptx

GEO数据库基因数据获取[项目源码]

pubmed_network:给定关键字，搜索PubMed并构建引文网络

生化

GEO数据库数据下载指南[代码]

从NCBI refseq 中下载特定物种的蛋白质数据

Lecture-GFF:读取.gff文件，目前为NCBI

ncbi_downloader

PyPI 官网下载 | ncbi-taxonomist-1.1.0.tar.gz

cbbl:从NCBI核苷酸数据库下载所有cbbl基因并以fasta格式输出的脚本

闲鱼自动发货系统[可运行源码]

智能闲鱼客服机器人系统：专为闲鱼平台打造的AI值守解决方案，实现闲鱼平台7×24小时自动化值守，支持多专家协同决策、智能议价和上.zip

校园二手平台开发与市场分析.zip

闲鱼自动回复系统：闲鱼智能客服与商品自动发货工具

闲鱼自动发货系统部署教程[项目源码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构