免费获取股票历史数据的3种方法：从Excel到Python爬虫全攻略

# 免费获取股票历史数据的实战手册：从零基础到自动化采集最近几年，身边对金融市场感兴趣的朋友越来越多，无论是想自己做些简单的回测，还是想验证某个投资想法，第一步总是绕不开“数据”。我刚开始接触量化分析时，也在这个环节卡了很久——网上信息看似很多，但要么收费昂贵，要么数据质量堪忧，要么就是操作步骤繁琐得让人望而却步。对于大多数个人研究者和数据分析爱好者来说，找到一个稳定、免费且易于获取的股票历史数据源，确实是个不大不小的门槛。这篇文章，我想结合自己这几年的摸索和实际项目经验，为你梳理出一条清晰的路径。我们不会只讲一种方法，而是会覆盖从完全不懂代码的“鼠标流”用户，到习惯用Excel处理数据的中级用户，再到希望实现自动化采集的开发者。每种方法都有其最适合的场景和人群，关键在于找到与你当前技能和需求最匹配的那一个。数据是分析的基石，而获取数据的过程本身，也不应成为阻碍你探索的绊脚石。 ## 1. 零代码方案：利用现成工具与平台对于没有任何编程背景，或者只是偶尔需要查看、下载某只股票历史行情的朋友来说，学习编程的成本显然过高。这个阶段，我们的核心诉求是：**简单、直观、快速拿到数据**。幸运的是，市面上确实存在一些设计良好的免费工具和平台，能够满足这个需求。我最早使用的一个途径，是通过一些财经数据服务商的公开接口或导出功能。很多大型的金融信息网站，为了吸引用户，会提供基础历史数据的CSV或Excel导出。虽然通常有单次导出数据量（比如最多500条）或频率的限制，但对于非高频的复盘和分析来说，已经足够。 **操作流程通常如下：** 1. 访问目标财经数据网站（例如一些国际知名的免费金融数据门户）。 2. 在搜索框输入股票代码或名称。 3. 进入该股票的历史行情页面。 4. 找到“下载数据”或“导出”按钮（通常以`CSV`、`Excel`或下载图标表示）。 5. 选择需要的数据时间范围（如“过去5年”、“全部历史”）和周期（日线、周线、月线）。 6. 点击下载，数据文件会自动保存到本地。 > 注意：使用这类服务时，务必留意其服务条款。大部分免费服务禁止将数据用于商业用途或大规模自动化抓取。同时，数据的更新频率和准确性也需要在使用前进行交叉验证。除了直接访问网站，另一种更“懒人”但有时更稳定的方法，是借助一些数据聚合工具或插件。例如，某些浏览器插件或桌面小工具，可以帮你把网页上的数据表格“刮”下来，保存为结构化的文件。这类工具的好处是避免了重复的点击操作，但设置起来可能需要一点学习成本。为了让你更清晰地对比几种常见零代码工具的优缺点，我整理了一个简单的表格： | 工具/平台类型 | 典型代表 | 优点 | 缺点 | 适用场景 | | :--- | :--- | :--- | :--- | :--- | | **财经网站导出** | Yahoo Finance (历史版块)、 Investing.com | 数据全面、免费、无需注册（部分） | 有下载限制，界面可能变动，数据格式不统一 | 偶尔下载单只股票长期历史数据 | | **数据服务API（带GUI）** | 部分国内券商APP的数据中心 | 数据相对规范、稳定 | 通常需要开户，有使用额度限制 | 已开户用户进行简单数据导出 | | **浏览器抓取插件** | Web Scraper、 Data Miner | 可自定义抓取规则，灵活性高 | 需要学习插件使用，对动态网页支持有限 | 从固定格式页面定期抓取少量数据 | 选择哪种方式，取决于你的使用频率和对数据稳定性的要求。如果只是偶尔为之，直接使用财经网站的导出功能是最快的。如果你需要定期从某个固定页面获取数据，那么花半小时学习一个抓取插件，长远来看可能更省力。 ## 2. Excel进阶：连接外部数据与Power Query 当你已经不再满足于一次性的手动下载，或者需要处理多只股票、多个时间段的数据时，Excel内置的“获取和转换数据”功能（在较新版本中称为Power Query）就能大显身手了。它本质上是一个可视化的ETL（提取、转换、加载）工具，允许你建立可刷新的数据连接。想象一下这个场景：你需要跟踪一个包含20只股票的自选组合，每天收盘后更新它们的收盘价到Excel中，用于计算组合净值。手动去20个页面下载再复制粘贴，显然不现实。而用Power Query，你可以建立一个“数据管道”，一键刷新所有数据。 **让我们以从某个提供CSV下载链接的公开数据源为例，看看如何操作：** 1. **新建查询**：在Excel中，点击“数据”选项卡，选择“获取数据” -> “自其他源” -> “自Web”。（注意：此处的“自Web”功能是Excel内置的网页连接器，其使用需遵守目标网站规则，且功能有限，仅适用于结构清晰的表格数据）。 2. **输入URL**：在弹出的对话框中，输入目标数据页面的URL。有些数据源会提供直接的CSV文件链接，这种是最理想的。 3. **导航与选择数据**：Excel会尝试预览网页内容。你需要在导航器中选择包含所需数据的表格。 4. **数据转换**：进入Power Query编辑器后，你可以进行一系列清洗操作：删除不必要的列、重命名列标题、更改数据类型（确保数字是数字，日期是日期）、过滤错误值等。 5. **加载数据**：点击“关闭并上载”，处理好的数据就会以表格形式载入当前工作表。关键在于，这个查询可以被保存。明天你需要更新数据时，只需右键点击数据区域，选择“刷新”，Excel就会自动重新访问那个URL，抓取最新数据并应用同样的清洗步骤，实现半自动化更新。 ```excel // 这是一个Power Query M语言的高级函数示例，用于动态构建多个股票的查询 // 假设我们有一个股票代码列表在Excel的Sheet1的A列 let // 从Excel表获取股票代码列表 Source = Excel.CurrentWorkbook(){[Name="StockList"]}[Content], StockCodes = Table.TransformColumnTypes(Source,{{"代码", type text}}), // 定义一个函数，根据股票代码生成查询 GetStockData = (code as text) as table => let // 动态拼接数据源URL，此处仅为示例，实际URL需替换 BaseUrl = "https://api.example.com/history?symbol=", FullUrl = BaseUrl & code, // 从Web获取JSON数据（假设数据源返回JSON） Source = Json.Document(Web.Contents(FullUrl)), // 将JSON转换为表格 #"Converted to Table" = Table.FromRecords(Source[history]) in #"Converted to Table", // 对列表中的每个代码调用函数，并添加一列标识股票代码 Custom1 = Table.AddColumn(StockCodes, "自定义", each GetStockData([代码])), #"展开的“自定义”" = Table.ExpandTableColumn(Custom1, "自定义", {"date", "open", "high", "low", "close", "volume"}, {"date", "open", "high", "low", "close", "volume"}) in #"展开的“自定义”" ``` > 提示：使用Web.Contents函数直接访问API或网页时，务必谨慎。频繁请求可能触发目标服务器的反爬机制。对于个人非商业用途的轻度使用，通常问题不大，但建议在查询中添加适当的延迟设置，并尊重`robots.txt`协议。通过Power Query，你甚至可以将多个数据源（比如不同股票的历史数据、宏观经济指标）合并到一起，创建属于你自己的分析数据库。它填补了完全手动操作和全编程自动化之间的空白，是数据分析师和金融从业者必须掌握的技能之一。 ## 3. Python爬虫入门：定向抓取与解析当你需要的数据量更大、频率更高，或者数据源没有提供方便的导出功能时，编程自动化就成了唯一高效的选择。Python因其丰富的库和简洁的语法，成为数据抓取领域的首选语言。别被“爬虫”这个词吓到，基础的网页数据抓取，其核心逻辑就像是用程序模拟一个非常执着且手速极快的用户。整个过程可以分解为三个核心步骤：**请求网页、解析内容、保存数据**。我们用一个经典的库组合`requests` + `BeautifulSoup`来演示。假设我们要从一个静态结构的历史行情页面抓取数据。首先，你需要安装必要的库。打开命令行（CMD或Terminal），输入： ```bash pip install requests beautifulsoup4 pandas ``` 接下来，我们来看一段实际的代码。假设目标页面是一个表格，包含了日期、开盘价、最高价、最低价、收盘价和成交量。 ```python import requests from bs4 import BeautifulSoup import pandas as pd from datetime import datetime import time # 用于添加请求间隔 # 1. 请求网页 url = 'https://example.com/stock/AAPL/history' # 示例URL，请替换为实际地址 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' # 模拟浏览器访问 } try: response = requests.get(url, headers=headers, timeout=10) response.raise_for_status() # 检查请求是否成功 except requests.exceptions.RequestException as e: print(f"请求失败: {e}") exit() # 2. 解析内容 soup = BeautifulSoup(response.content, 'html.parser') # 假设数据在一个id为‘historical-data’的表格中 data_table = soup.find('table', {'id': 'historical-data'}) if not data_table: print("未找到数据表格，页面结构可能已更改。") exit() rows = data_table.find_all('tr')[1:] # 跳过表头行 stock_data = [] for row in rows: cols = row.find_all('td') if len(cols) >= 6: # 确保有足够的数据列 date_str = cols[0].text.strip() # 解析日期，格式需根据实际情况调整 try: date = datetime.strptime(date_str, '%b %d, %Y').strftime('%Y-%m-%d') except ValueError: date = date_str # 如果解析失败，保留原字符串 open_price = cols[1].text.strip().replace(',', '') high_price = cols[2].text.strip().replace(',', '') low_price = cols[3].text.strip().replace(',', '') close_price = cols[4].text.strip().replace(',', '') volume = cols[5].text.strip().replace(',', '') stock_data.append([date, open_price, high_price, low_price, close_price, volume]) # 3. 保存数据 if stock_data: df = pd.DataFrame(stock_data, columns=['Date', 'Open', 'High', 'Low', 'Close', 'Volume']) # 转换数据类型 df['Date'] = pd.to_datetime(df['Date'], errors='coerce') for col in ['Open', 'High', 'Low', 'Close']: df[col] = pd.to_numeric(df[col], errors='coerce') df['Volume'] = pd.to_numeric(df['Volume'], errors='coerce') # 保存到CSV文件 df.to_csv('apple_stock_history.csv', index=False, encoding='utf-8-sig') print(f"数据已成功保存至 apple_stock_history.csv，共 {len(df)} 条记录。") else: print("未提取到任何数据。") ``` 这段代码做了几件关键事情： - **设置请求头**：模拟真实浏览器访问，降低被简单反爬机制拦截的风险。 - **异常处理**：网络请求可能失败，代码需要能妥善处理这些情况。 - **精准定位**：使用`find`方法通过表格的`id`属性定位，这比依赖固定的行列索引更稳定。 - **数据清洗**：移除数字中的千位分隔符（逗号），并将字符串转换为数值和日期类型。 - **结构化存储**：使用`pandas`的`DataFrame`，最终导出为通用的CSV格式。 **在实际操作中，你肯定会遇到各种问题，以下是几个常见的坑和应对策略：** - **页面是动态加载的**：你用`requests`拿到的是初始HTML，可能看不到数据。这时需要分析网页的网络请求（F12打开开发者工具，查看XHR或Fetch请求），找到直接返回数据的API接口，然后用`requests`去调用那个接口（通常返回JSON）。 - **遇到反爬措施**：除了设置`User-Agent`，可能还需要处理Cookies、添加Referer头，或者在频繁请求时使用`time.sleep()`添加随机延迟。过于激进的抓取行为可能导致IP被暂时封禁。 - **页面结构频繁变动**：这是维护爬虫最头疼的地方。尽量使用具有唯一性的HTML属性（如`id`、`data-*`属性）来定位元素，而不是依赖于复杂的CSS选择器路径。写一些简单的日志或检查点，当抓取失败时能快速发现问题。 ## 4. 使用专业金融数据API 对于追求数据质量、稳定性和开发效率的严肃项目或个人，使用专业的金融数据API是更值得投资的方案。这里的“专业”并非一定指昂贵，许多平台提供了非常慷慨的免费额度，足以支撑个人学习和中小型项目。与爬虫相比，API的优势是压倒性的： - **数据标准化**：字段定义清晰，格式统一（通常是JSON），无需复杂的解析和清洗。 - **稳定可靠**：服务提供商保证API的可用性，数据结构不会随意变动。 - **功能丰富**：除了历史行情，通常还提供实时数据、财务指标、公司基本信息、新闻情绪等。 - **法律合规**：在服务条款允许的范围内使用，避免了潜在的法律风险。目前市场上有不少提供免费层级的金融数据API，例如Alpha Vantage、IEX Cloud、Twelve Data等。它们通常通过API Key进行身份验证，并有明确的调用频率限制（如每分钟5次，每天500次等）。下面以获取某只股票日线历史数据为例，展示一个典型的API调用流程： ```python import requests import pandas as pd # 你的API密钥，需要在对应平台注册获取 API_KEY = 'YOUR_DEMO_API_KEY_HERE' SYMBOL = 'AAPL' # 股票代码 FUNCTION = 'TIME_SERIES_DAILY' # 函数，表示获取日线数据 OUTPUTSIZE = 'compact' # ‘compact’返回最近100条，‘full’返回全部历史 url = f'https://www.alphavantage.co/query?function={FUNCTION}&symbol={SYMBOL}&apikey={API_KEY}&outputsize={OUTPUTSIZE}&datatype=json' try: response = requests.get(url) data = response.json() # 检查API返回是否包含错误信息 if 'Error Message' in data: print(f"API错误: {data['Error Message']}") elif 'Note' in data: # 免费API常有调用频率提示 print(f"提示: {data['Note']}") else: # 提取时间序列数据 time_series = data.get('Time Series (Daily)', {}) # 转换为pandas DataFrame df = pd.DataFrame.from_dict(time_series, orient='index') df.index = pd.to_datetime(df.index) # 将索引转换为日期时间类型 df = df.rename(columns={ '1. open': 'Open', '2. high': 'High', '3. low': 'Low', '4. close': 'Close', '5. volume': 'Volume' }) # 转换数据类型 df = df.apply(pd.to_numeric) df = df.sort_index() # 按日期排序 print(f"成功获取 {SYMBOL} 共 {len(df)} 个交易日数据。") print(df.head()) # 预览前几行 # 保存到CSV df.to_csv(f'{SYMBOL}_daily.csv') except requests.exceptions.RequestException as e: print(f"网络请求失败: {e}") except ValueError as e: print(f"解析JSON失败: {e}") ``` 使用API时，管理好你的API Key和调用频率至关重要。对于免费套餐，合理规划请求，避免短时间内集中调用。对于需要批量获取多只股票数据的情况，可以将请求队列化，并加入延时。 **在选择API时，你可以从以下几个维度评估：** - **免费额度**：每日/每月调用次数、历史数据长度、支持的市场范围。 - **数据质量**：数据是否经过调整（复权）、更新频率、错误率。 - **延迟**：实时数据的延迟情况（对于免费套餐，15分钟延迟很常见）。 - **文档与社区**：API文档是否清晰，是否有活跃的社区或技术支持。 - **扩展性**：如果需要升级到付费套餐，价格是否合理。从我个人的项目经验来看，在初期探索和小型原型阶段，免费API完全够用。它能让你把精力集中在数据分析和策略开发上，而不是耗费大量时间与不稳定的网页结构做斗争。当项目规模扩大，对数据实时性、深度和广度有更高要求时，再考虑付费方案也不迟。 ## 5. 数据质量校验与本地化管理无论通过哪种方式获取数据，到手后的第一步都不应该是直接投入分析，而是进行**数据质量校验**。这一步常常被新手忽略，却直接决定了后续所有分析的可靠性。原始数据中可能隐藏着各种问题：缺失值、异常值（比如价格突然为0或极大）、格式错误（日期格式混乱）、重复记录等。一个简单的校验流程可以包括： - **完整性检查**：检查是否有整行或整列数据缺失。对于时间序列，检查日期是否连续，是否存在非交易日的错误数据。 - **范围校验**：股价、成交量是否在合理范围内？例如，一只普通股票的价格不应为负，单日振幅通常也有一定限度。 - **逻辑校验**：当日最高价是否大于等于开盘价和收盘价？最低价是否小于等于它们？ - **一致性检查**：如果从多个来源获取了同一只股票的数据，进行交叉比对，看关键数据点是否一致。在Python中，`pandas`提供了强大的工具来进行这些检查： ```python import pandas as pd import numpy as np # 假设df是我们之前获取的股票DataFrame print("数据概览:") print(df.info()) print("\n描述性统计:") print(df.describe()) # 检查缺失值 print(f"\n缺失值统计:") print(df.isnull().sum()) # 检查异常值（例如，收盘价为0或负值） abnormal_close = df[df['Close'] <= 0] if not abnormal_close.empty: print(f"\n发现异常收盘价记录 {len(abnormal_close)} 条:") print(abnormal_close) # 检查价格逻辑：High >= Low, High >= Open, High >= Close, Low <= Open, Low <= Close logic_errors = df[(df['High'] < df['Low']) | (df['High'] < df['Open']) | (df['High'] < df['Close']) | (df['Low'] > df['Open']) | (df['Low'] > df['Close'])] if not logic_errors.empty: print(f"\n发现价格逻辑错误记录 {len(logic_errors)} 条:") print(logic_errors) # 处理缺失值（示例：用前一个交易日的值填充） df_cleaned = df.fillna(method='ffill') # 前向填充 # 或者删除缺失行 # df_cleaned = df.dropna() print("\n数据清洗完成。") ``` 校验并清洗完数据后，下一步是思考如何**有效地本地化管理**这些历史数据。如果只是散乱地存放一堆CSV文件，随着股票数量和时间跨度的增加，查找和使用会变得非常低效。一个推荐的做法是使用轻量级数据库，例如**SQLite**。它无需安装服务器，单个文件就是一个数据库，非常适合个人项目管理。你可以将多只股票、多个时间段的数据规整地存入一张表中，然后通过SQL语句进行灵活的查询和聚合。 ```python import sqlite3 from datetime import datetime # 连接到SQLite数据库（如果不存在则会创建） conn = sqlite3.connect('stock_data.db') cursor = conn.cursor() # 创建数据表 create_table_sql = ''' CREATE TABLE IF NOT EXISTS daily_bars ( id INTEGER PRIMARY KEY AUTOINCREMENT, symbol TEXT NOT NULL, date DATE NOT NULL, open REAL, high REAL, low REAL, close REAL, volume INTEGER, UNIQUE(symbol, date) -- 防止同一只股票同一日期的数据重复插入 ) ''' cursor.execute(create_table_sql) # 假设我们有一个包含多只股票数据的DataFrame `df_all`，包含'symbol'列 # 将DataFrame写入数据库 df_cleaned.to_sql('daily_bars', conn, if_exists='append', index=False) # 查询示例：获取某只股票2023年的所有数据 query_sql = ''' SELECT date, open, high, low, close, volume FROM daily_bars WHERE symbol = ? AND date BETWEEN ? AND ? ORDER BY date ''' symbol = 'AAPL' start_date = '2023-01-01' end_date = '2023-12-31' cursor.execute(query_sql, (symbol, start_date, end_date)) results = cursor.fetchall() # 将查询结果转回DataFrame df_query = pd.DataFrame(results, columns=['Date', 'Open', 'High', 'Low', 'Close', 'Volume']) print(df_query.head()) conn.close() # 关闭连接 ``` 建立这样一个本地数据仓库后，你的数据分析工作流将变得清晰且高效。新的数据可以定期通过爬虫或API脚本获取，经过校验清洗后增量更新到数据库。分析时，直接从数据库按需查询，无需再面对杂乱的文件。这套方法在我自己的几个长期跟踪项目中运行良好，它让数据维护变成了一个后台自动化过程，而我可以更专注于策略本身。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Java开发必看：@JsonFormat、@DateTimeFormat、@JSONField三兄弟的恩怨情仇（附避坑指南）