Python量化交易入门：利用Baostock API高效获取股票历史数据

## 1. 为什么选择Baostock作为你的第一个股票数据源？如果你刚开始接触Python量化交易，我猜你遇到的第一个难题，肯定不是怎么写策略，而是“数据从哪儿来？”。网上搜一圈，你会发现各种数据源，有的要注册，有的要收费，有的接口复杂，对新手来说，光是配置环境就能劝退一大半人。我刚开始玩量化的时候，也踩过不少坑，折腾过好几个数据接口，最后发现，对于入门和中级玩家来说，**Baostock** 真的是一个被严重低估的“宝藏”。它最大的优点，我总结下来就三个字：**省心、免费、稳**。先说省心。你不需要注册账号，不需要申请API Key，更不用每天担心调用次数超限。安装就是一行 `pip install baostock` 的事，导入就能用。对于初学者，最怕的就是在环境配置上卡半天，热情都被磨没了。Baostock把这个门槛降到了几乎为零。再说免费。这是硬道理。Baostock提供的数据非常全面，从1990年至今的股票日、周、月K线，到分钟级的K线（5、15、30、60分钟），还有各种指数数据、财务数据。这些数据对于构建你的第一个回测系统、验证一些简单的想法，已经完全足够了。很多付费数据源的核心优势在于实时性、高频数据或者更丰富的因子库，但对于学习阶段，我们更需要的是稳定、历史长度足够的数据来练手。最后说稳。我用了好几年，它的数据接口非常稳定，返回的数据格式是规整的pandas DataFrame。这意味着你拿到数据后，可以直接用你熟悉的pandas、numpy进行清洗、分析和计算，无缝衔接。很多数据源返回的是JSON或者自定义对象，你还得花时间解析，Baostock帮你省掉了这一步。当然，它也不是完美的。比如，它暂时只支持Python 3.5以上版本，数据更新频率是日级的（对于历史回测够用），并且主要侧重于A股市场。但对于我们“入门”和“高效获取历史数据”这个目标来说，这些都不是问题。它的定位非常精准：为量化爱好者、学生、研究人员提供一个**零成本、低门槛、高质量**的入门数据解决方案。所以，如果你是量化新手，想快速搭建起自己的数据分析环境，而不是在数据获取上纠缠不休，那么从Baostock开始，绝对是最高效的选择。它能让你把精力集中在核心的“策略思考”和“代码实现”上，而不是沦为“数据搬运工”。 ## 2. 5分钟完成环境搭建与首次数据获取光说不练假把式，咱们直接上手。我保证，即使你之前没写过几行Python，跟着下面的步骤，也能在5分钟内拿到第一份股票历史数据。 ### 2.1 安装与导入：一行命令的事首先，确保你的电脑上安装了Python（建议3.7或以上版本）。打开你的命令行工具（Windows上是CMD或PowerShell，Mac/Linux上是Terminal）。安装Baostock库，我强烈建议使用国内的镜像源，速度会快很多。就像去仓库拿东西，从隔壁城市的仓库（镜像源）取，总比去遥远的原厂仓库快。 ```bash pip install baostock -i https://pypi.tuna.tsinghua.edu.cn/simple/ ``` 安装成功后，我们就可以在Python脚本里使用它了。新建一个Python文件，比如叫 `first_stock_data.py`，开始写代码。第一步永远是导入必要的库。除了 `baostock`，我们还需要 `pandas` 来处理数据，这是量化分析的标配。 ```python # 导入必要的库 import baostock as bs import pandas as pd ``` ### 2.2 登录、查询与登出：标准三步曲 Baostock的使用流程非常固定，就像去图书馆：进门（登录）、找书查资料（查询数据）、离开（登出）。 ```python # 1. 登录系统 lg = bs.login() # 打印一下登录信息，确认连接成功。正常情况下，error_code会是'0'，error_msg是'success'。 print(f"登录状态: {lg.error_code} - {lg.error_msg}") # 2. 查询股票历史K线数据 # 这里我们以贵州茅台（sh.600519）为例，获取2023年全年的日K线数据。 rs = bs.query_history_k_data_plus( code="sh.600519", # 股票代码，沪市股票前加'sh.'，深市股票前加'sz.' fields="date,code,open,high,low,close,preclose,volume,amount,adjustflag,turn,tradestatus,pctChg,isST", start_date="2023-01-01", end_date="2023-12-31", frequency="d", # 'd'代表日线，'w'周线，'m'月线，'5'/'15'/'30'/'60'代表分钟线 adjustflag="3" # 复权类型。3代表后复权，这是最常用的，保证价格连续性，便于回测分析。 ) # 3. 将查询结果转换为pandas DataFrame data_list = [] while (rs.error_code == '0') & rs.next(): # 每次获取一行数据，添加到列表中 data_list.append(rs.get_row_data()) # 用列表创建DataFrame，并指定列名 result = pd.DataFrame(data_list, columns=rs.fields) # 4. 登出系统 bs.logout() # 看一眼我们获取到的数据前几行 print(result.head()) ``` 把上面这段代码复制到你的 `first_stock_data.py` 文件里，直接运行。如果一切顺利，你的终端会打印出登录成功的消息，然后显示一个表格，里面是贵州茅台2023年第一个交易日的股价、成交量等信息。 **第一次运行你可能会遇到的坑：** * **网络问题**：如果登录失败（error_code不是0），检查一下你的网络连接。Baostock服务器在国内，一般访问没问题。 * **日期格式**：`start_date` 和 `end_date` 必须是 `"YYYY-MM-DD"` 的字符串格式。 * **代码格式**：股票代码千万别写错。沪市是 `sh.600xxx`，深市是 `sz.000xxx` 或 `sz.300xxx`（创业板）。这个前缀是必须的。到这里，恭喜你！你已经成功用Python和Baostock API获取了第一份真实的股票历史数据。这个过程是不是比想象中简单？接下来，我们要让这个流程变得更强大、更实用。 ## 3. 封装与优化：打造你的专属数据获取工具每次都写登录、查询、循环、转换的代码太麻烦了。一个好的习惯是把重复性的操作封装成函数。这样不仅代码更整洁，复用性也极高。下面我分享一个我一直在用的增强版数据获取函数，里面包含了很多我踩过坑后才学到的技巧。 ### 3.1 编写一个健壮的数据获取函数这个函数我称之为 `get_stock_data`，它考虑了错误处理、数据清洗和格式转换。 ```python def get_stock_data(code, start_date, end_date, frequency='d', adjustflag='3'): """ 获取股票历史K线数据并返回清洗后的DataFrame 参数: code (str): 股票代码，如 'sh.600519' 或 'sz.000001' start_date (str): 开始日期，格式 'YYYY-MM-DD' end_date (str): 结束日期，格式 'YYYY-MM-DD' frequency (str): K线周期。'd':日线，'w':周线，'m':月线，'5/15/30/60':分钟线 adjustflag (str): 复权类型。'1':前复权，'2':不复权，'3':后复权（默认）返回: pd.DataFrame: 索引为日期，包含 ['open', 'high', 'low', 'close', 'volume', 'pctChg'] 等列的DataFrame """ # 登录 lg = bs.login() if lg.error_code != '0': print(f"登录失败: {lg.error_msg}") return None # 定义要获取的字段。这里比基础字段多要了‘pctChg’（涨跌幅）和‘turn’（换手率），更实用。 fields = "date,code,open,high,low,close,volume,amount,pctChg,turn" # 查询 rs = bs.query_history_k_data_plus(code, fields, start_date=start_date, end_date=end_date, frequency=frequency, adjustflag=adjustflag) if rs.error_code != '0': print(f"查询数据失败: {rs.error_msg}") bs.logout() return None # 转换数据 data_list = [] while (rs.error_code == '0') & rs.next(): data_list.append(rs.get_row_data()) # 重要！如果没查到任何数据，直接返回空DataFrame，避免后续处理出错 if not data_list: print(f"未在{start_date}至{end_date}期间找到股票{code}的{frequency}线数据。") bs.logout() return pd.DataFrame() result = pd.DataFrame(data_list, columns=rs.fields) # 登出 bs.logout() # 数据清洗与类型转换（关键步骤！） # 1. 将数字字符串转换为数值类型 numeric_cols = ['open', 'high', 'low', 'close', 'volume', 'amount', 'pctChg', 'turn'] for col in numeric_cols: if col in result.columns: # 使用errors='coerce'，如果转换失败（如遇到‘--’），会变成NaN，而不是报错 result[col] = pd.to_numeric(result[col], errors='coerce') # 2. 将‘date’列转换为datetime类型，并设为索引 result['date'] = pd.to_datetime(result['date']) result.set_index('date', inplace=True) # 3. 对价格进行四舍五入（保留两位小数），成交量取整 price_cols = ['open', 'high', 'low', 'close'] for col in price_cols: if col in result.columns: result[col] = result[col].round(2) if 'volume' in result.columns: result['volume'] = result['volume'].astype('int64') # 使用int64避免大数溢出 # 4. 按日期排序，确保数据顺序正确 result.sort_index(inplace=True) return result ``` 这个函数比基础版本强在哪里？ 1. **错误处理**：检查登录和查询是否成功，失败时给出提示并返回，避免程序崩溃。 2. **数据验证**：处理查询结果为空的情况，返回空DataFrame而不是报错。 3. **稳健的类型转换**：使用 `pd.to_numeric(..., errors='coerce')`，即使数据里混入了奇怪字符（虽然Baostock很少出现），也会变成NaN而不是中断程序。 4. **更实用的字段**：包含了涨跌幅(`pctChg`)和换手率(`turn`)，这些都是常用的分析指标。 5. **索引设置**：将日期设为索引，这是时间序列分析的标准做法，后续做绘图、重采样都非常方便。 ### 3.2 实战调用：多股票、多周期数据获取现在，用我们封装好的函数来干活，体验一下效率的提升。 ```python # 示例1：获取宁德时代（sz.300750）2022年的周线数据 data_weekly = get_stock_data(code='sz.300750', start_date='2022-01-01', end_date='2022-12-31', frequency='w') # 周线 print(f"宁德时代周线数据形状: {data_weekly.shape}") print(data_weekly[['close', 'volume', 'pctChg']].head()) # 示例2：获取沪深300指数（sh.000300）的日线数据 # 注意：指数代码也是类似的格式 index_data = get_stock_data(code='sh.000300', start_date='2023-06-01', end_date='2023-08-31', frequency='d') if not index_data.empty: print(f"\n沪深300指数日线数据收盘价均值: {index_data['close'].mean():.2f}") # 示例3：批量获取多只股票数据 stock_codes = ['sh.600036', 'sz.000858', 'sh.601888'] # 招商银行、五粮液、中国中免 all_data = {} for code in stock_codes: df = get_stock_data(code=code, start_date='2023-01-01', end_date='2023-03-31') if not df.empty: all_data[code] = df print(f"已获取 {code} 数据，共 {len(df)} 条记录。") else: print(f"获取 {code} 数据失败或为空。") ``` 通过函数封装，我们轻松实现了多股票、多周期的数据批量获取。`all_data` 这个字典里就存放了三个股票的数据，你可以方便地进行对比分析。 ## 4. 数据获取的进阶技巧与高效应用掌握了基础获取和函数封装后，我们来看看如何更“聪明”地使用Baostock，以及拿到数据后如何快速入门分析。 ### 4.1 理解关键参数：避开数据处理的坑在 `query_history_k_data_plus` 函数中，有几个参数对数据质量影响很大，必须搞清楚。 * **`adjustflag`（复权类型）**：这是**最重要**的参数之一。 * `‘1’`：**前复权**。以当前价格为基准，调整历史价格。K线图上，最新的价格是真实价格，历史价格被“压缩”或“拉伸”。优点是看近期价格走势直观。 * `‘2’`：**不复权**。原始除权价格，价格曲线会因分红送配出现巨大缺口。**不推荐用于回测**，会导致计算收益率严重失真。 * `‘3’`：**后复权**（**推荐默认使用**）。以上市首日为基准，将历次分红送配都加到价格上。保证了价格序列的连续性，是进行长期历史回测和分析的**标准选择**。你计算从2010年持有到现在的收益率，必须用后复权价格。 * **`frequency`（频率）**：注意分钟线的代码是字符串。 | 频率参数 | 含义 | | :--- | :--- | | `"d"` | 日线 | | `"w"` | 周线 | | `"m"` | 月线 | | `"5"` | 5分钟线 | | `"15"` | 15分钟线 | | `"30"` | 30分钟线 | | `"60"` | 60分钟线 | * **`fields`（数据字段）**：按需索取。字段越多，单次请求返回的数据包越大。如果只需要价量，就只选 `"date,open,high,low,close,volume"`。如果需要计算技术指标，可以加上 `"turn,pctChg"` 等。 ### 4.2 数据本地化存储：一次获取，多次使用反复从网络请求相同的数据是低效的。对于长期不变的历史数据，我们应该下载到本地。这里推荐用 `CSV` 或 `Parquet` 格式保存。 ```python def save_data_to_local(df, stock_code, frequency='d'): """将获取的数据保存到本地CSV文件""" if df.empty: return # 生成有意义的文件名，例如：sh600519_d_20230101_20231231.csv filename = f"{stock_code.replace('.', '')}_{frequency}.csv" df.to_csv(filename, encoding='utf-8-sig') # 使用utf-8-sig避免中文乱码 print(f"数据已保存至: {filename}") # 使用示例 df = get_stock_data('sh.600519', '2020-01-01', '2023-12-31', 'd') save_data_to_local(df, 'sh.600519', 'd') # 下次使用，直接从本地读取，速度极快 df_local = pd.read_csv('sh600519_d.csv', index_col='date', parse_dates=True) ``` 对于非常大的数据集（比如多只股票十年的分钟线），可以考虑用 `Parquet` 格式，它的压缩比高，读写速度更快。 ### 4.3 从数据到洞察：你的第一个简单分析数据到手，不分析就等于白忙。我们来做两个最简单的分析，感受一下量化分析的魅力。 **分析1：计算股票的年化收益率和波动率** ```python # 假设df是我们获取的某股票日线后复权数据 # 计算日收益率 df['daily_return'] = df['close'].pct_change() # 计算年化收益率（假设一年252个交易日） annual_return = df['daily_return'].mean() * 252 # 计算年化波动率 annual_volatility = df['daily_return'].std() * (252 ** 0.5) print(f"年化收益率: {annual_return:.2%}") print(f"年化波动率: {annual_volatility:.2%}") ``` **分析2：简单的移动平均线策略信号** ```python # 计算短期（20日）和长期（60日）移动平均线 df['MA20'] = df['close'].rolling(window=20).mean() df['MA60'] = df['close'].rolling(window=60).mean() # 生成交易信号：当短期均线上穿长期均线时，买入信号（1）；下穿时，卖出信号（-1） df['Signal'] = 0 df.loc[df['MA20'] > df['MA60'], 'Signal'] = 1 df.loc[df['MA20'] < df['MA60'], 'Signal'] = -1 # 信号的变化点就是交易点 df['Position'] = df['Signal'].diff() # 可视化（需要matplotlib） import matplotlib.pyplot as plt plt.figure(figsize=(14, 7)) plt.plot(df.index, df['close'], label='Close Price', alpha=0.5) plt.plot(df.index, df['MA20'], label='20-day MA', alpha=0.8) plt.plot(df.index, df['MA60'], label='60-day MA', alpha=0.8) # 标记买入点 plt.scatter(df.index[df['Position'] == 2], df['close'][df['Position'] == 2], color='red', marker='^', label='Buy Signal', s=100) # 标记卖出点 plt.scatter(df.index[df['Position'] == -2], df['close'][df['Position'] == -2], color='green', marker='v', label='Sell Signal', s=100) plt.title('Moving Average Crossover Strategy') plt.legend() plt.show() ``` 这段代码会画出一张图，你可以清晰地看到价格、两条均线以及根据“金叉死叉”产生的买卖信号。这就是量化策略最直观的雏形。虽然这个策略非常朴素，但它完整地展示了从数据获取、处理、指标计算到信号生成和可视化的全流程。走到这一步，你已经不再是单纯的“数据获取者”了，你拥有了利用数据进行初步决策分析的能力。Baostock就像给你提供了一块上好原料的供应商，而如何烹饪出美味的菜肴（量化策略），则需要你不断学习和尝试更多的食谱（金融知识、统计方法、机器学习模型）。记住，获取数据只是起点，真正的乐趣和挑战在于从数据中发现规律。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python实战：用MNE和NetworkX构建脑电复杂网络（附完整代码）

目录

Python量化交易入门：利用Baostock API高效获取股票历史数据

Python内容推荐

Python金融数据分析：使用Baostock获取A股日线数据-可实现的-有问题请联系博主，博主会第一时间回复！！！

量化交易入门与Python实践 code.zip

Python量化交易从小白到大神.pdf

（161节）AI量化之道：DeepSeek+Python让量化交易插上翅膀价值298-3.8G课程网盘链接提取码下载.txt

python量化交易教程

Python股票量化投资课程——00股票量化配套课件.rar

python量化交易1.zip

python量化交易2.zip

Python量化交易-源码.rar

Python量化交易策划开发领域-视频教程网盘链接提取码下载 .txt

Python量化交易：聚宽平台策略编写指南.pdf

Python量化交易策略及回测系统源码+文档使用说明（高分项目）

Python 机器学习与量化交易入门：量化简介及回测框架详解

Python量化交易策略及回测系统源代码+全部数据（高分项目）

基于Python的QUANTAXIS量化交易设计源码

Python期货量化交易系统.zip

python期货量化书推荐-Python期货量化交易基础教程（12）.pdf

python量化交易：海龟交易法则复盘

python量化交易股票预测系统

Python量化交易入门[项目代码]

Python量化交易学习笔记（20）——保护点卖出策略

Python利用Django如何写restful api接口详解

Python 利用高德地图api实现经纬度与地址的批量转换

利用Python实现Excel的文件间的数据匹配功能

利用python对excel中一列的时间数据更改格式操作

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构