Pandas时间序列创建和筛选的三种典型场景怎么实现？

# 头歌Pandas基本操作第六关答案详解第六关主要涉及Pandas的描述性统计和时间序列处理功能，这是数据分析中的重要组成部分。下面我将详细解析第六关的各个任务及其实现方法。 ## 一、任务概述第六关包含三个核心任务，主要围绕时间序列的创建和筛选操作： 1. **任务1**：创建以2021年1月1日为开始的12条时间索引，相邻索引间隔时间长度为一个月 2. **任务2**：在2021年1月1日到2021年3月1日间，每隔一周创建一条索引 3. **任务3**：给定以时间为索引的Series对象，查找索引时间在2021年1月内的所有记录 ## 二、完整通关代码 ```python import pandas as pd from datetime import datetime def task1(): ''' 任务：创建以 2021 年1 月1 日为开始的 12 条时间索引，相邻索引间隔时间长度为一个月。 ''' ########## Begin ########## result = pd.date_range('2021-1-1', periods=12, freq='M') # 使用date_range创建时间序列 [ref_1] ########## End ########## return result def task2(): ''' 任务：在 2021 年 1 月 1 日到 2021 年 3 月 1 日间，每隔一周创建一条索引。 ''' ########## Begin ########## start = datetime(2021, 1, 1) # 创建起始时间对象 end = datetime(2021, 3, 1) # 创建结束时间对象 result = pd.date_range(start, end, freq='W') # 使用'W'频率表示每周 [ref_1] ########## End ########## return result def task3(): ''' 任务：给定以时间为索引的 Series 对象，查找索引时间在 2021 年 1 月内的所有记录。 ''' start = datetime(2021, 1, 1) end = datetime(2021, 2, 1) rng = pd.date_range(start, end, freq='W') ts = pd.Series(range(len(rng)), index=rng) ########## Begin ########## result = ts # Pandas时间索引会自动处理时间范围筛选 [ref_1] ########## End ########## return result ``` ## 三、关键技术点解析 ### 3.1 `pd.date_range()` 函数详解这是Pandas中创建时间序列的核心函数，具有以下重要参数： ```python # pd.date_range() 基本语法 pd.date_range( start=None, # 起始时间 end=None, # 结束时间 periods=None, # 生成的时间点数量 freq=None, # 时间频率 tz=None, # 时区 normalize=False, # 是否标准化到午夜时间 name=None, # 结果索引的名称 closed=None # 区间闭合方式 ) ``` **参数组合方式对比表：** | 参数组合 | 示例 | 说明 | |---------|------|------| | start + periods | `pd.date_range('2021-01-01', periods=5)` | 从起始时间开始生成指定数量的时间点 | | end + periods | `pd.date_range(end='2021-01-10', periods=5)` | 在结束时间前生成指定数量的时间点 | | start + end | `pd.date_range(start='2021-01-01', end='2021-01-10')` | 在起止时间范围内生成时间点 | | freq参数 | `freq='D'`（天）、`freq='H'`（小时）等 | 控制时间间隔 | ### 3.2 时间频率参数详解 Pandas支持丰富的时间频率参数，以下是常用频率代码： | 频率代码 | 别名 | 说明 | 示例 | |---------|------|------|------| | 'D' | 'day' | 日历日 | 每天 | | 'B' | 'business day' | 工作日 | 每个工作日（周一至周五） | | 'W' | 'week' | 周 | 每周日 | | 'W-MON' | - | 指定星期几 | 每周一 | | 'M' | 'month end' | 月 | 每月最后一天 | | 'MS' | 'month start' | 月起始 | 每月第一天 | | 'Q' | 'quarter end' | 季度 | 每季度最后一天 | | 'QS' | 'quarter start' | 季度起始 | 每季度第一天 | | 'Y' | 'year end' | 年 | 每年最后一天 | | 'YS' | 'year start' | 年起始 | 每年第一天 | | 'H' | 'hour' | 小时 | 每小时 | | 'T' | 'min' | 分钟 | 每分钟 | | 'S' | 'sec' | 秒 | 每秒 | ### 3.3 时间序列筛选技巧 Pandas时间序列支持多种灵活的筛选方式： ```python # 示例时间序列 rng = pd.date_range('2021-01-01', periods=10, freq='D') ts = pd.Series(range(10), index=rng) # 1. 按年份筛选 ts['2021'] # 筛选2021年的所有数据 # 2. 按年月筛选 ts['2021-01'] # 筛选2021年1月的所有数据 # 3. 按日期范围筛选 ts['2021-01-01':'2021-01-05'] # 筛选指定日期范围 # 4. 使用切片对象 ts[ts.index.month == 1] # 筛选1月份的数据 # 5. 使用between_time筛选特定时间段（针对包含时间的索引） ts.between_time('09:00', '17:00') ``` ## 四、实际应用场景 ### 4.1 金融数据分析 ```python # 创建股票价格时间序列示例 import numpy as np # 模拟2021年全年的交易日数据（剔除周末） trading_days = pd.date_range('2021-01-01', '2021-12-31', freq='B') stock_prices = pd.Series( np.random.normal(100, 10, len(trading_days)), # 正态分布模拟价格 index=trading_days ) # 计算月收益率 monthly_returns = stock_prices.resample('M').last().pct_change() print(f"月收益率统计:\n{monthly_returns.describe()}") # 筛选第一季度数据 q1_data = stock_prices['2021-01':'2021-03'] print(f"第一季度平均价格: {q1_data.mean():.2f}") ``` ### 4.2 销售数据分析 ```python # 创建销售数据时间序列 sales_dates = pd.date_range('2021-01-01', periods=365, freq='D') sales_data = pd.DataFrame({ 'date': sales_dates, 'sales': np.random.poisson(50, 365), # 泊松分布模拟日销量 'revenue': np.random.uniform(1000, 5000, 365) # 均匀分布模拟日收入 }) sales_data.set_index('date', inplace=True) # 按周汇总销售数据 weekly_sales = sales_data['sales'].resample('W').sum() weekly_revenue = sales_data['revenue'].resample('W').sum() # 创建周报数据 weekly_report = pd.DataFrame({ '总销量': weekly_sales, '总收入': weekly_revenue, '平均单价': weekly_revenue / weekly_sales }) print("周销售报告（前5周）:") print(weekly_report.head()) ``` ### 4.3 气象数据分析 ```python # 创建气象数据时间序列 weather_dates = pd.date_range('2021-01-01', periods=8760, freq='H') # 全年每小时数据 temperature = pd.Series( 15 + 10 * np.sin(2 * np.pi * np.arange(8760) / 8760) + np.random.normal(0, 3, 8760), index=weather_dates ) # 计算日平均温度 daily_avg_temp = temperature.resample('D').mean() # 计算月统计指标 monthly_stats = pd.DataFrame({ '月平均温度': temperature.resample('M').mean(), '月最高温度': temperature.resample('M').max(), '月最低温度': temperature.resample('M').min(), '温度标准差': temperature.resample('M').std() }) print("2021年月度温度统计:") print(monthly_stats) ``` ## 五、常见问题与解决方案 ### 5.1 时区处理 ```python # 创建带时区的时间序列 # 方法1：创建时指定时区 utc_times = pd.date_range('2021-01-01', periods=5, freq='D', tz='UTC') # 方法2：转换现有时间序列的时区 local_times = pd.date_range('2021-01-01', periods=5, freq='D') local_times_utc = local_times.tz_localize('Asia/Shanghai').tz_convert('UTC') # 时区转换示例 print("原始时间（上海时区）:", local_times_utc[0]) print("转换为UTC时间:", local_times_utc[0]) ``` ### 5.2 处理不规则时间序列 ```python # 创建不规则时间间隔的数据 irregular_times = pd.DatetimeIndex([ '2021-01-01 09:00', '2021-01-01 09:15', '2021-01-01 10:30', '2021-01-01 14:00', '2021-01-02 09:00' ]) irregular_data = pd.Series([100, 105, 110, 115, 120], index=irregular_times) # 重采样为规则时间间隔 regular_data = irregular_data.resample('H').mean().ffill() # 前向填充 print("重采样后的规则数据:") print(regular_data.head()) ``` ### 5.3 性能优化技巧 ```python # 1. 使用向量化操作 # 不推荐：循环操作 result = [] for date in date_range: result.append(process_function(date)) # 推荐：向量化操作 result = process_function_vectorized(date_range) # 2. 使用合适的数据类型 # 将datetime对象转换为Timestamp可以提升性能 timestamps = pd.to_datetime(date_strings) # 3. 批量处理大数据集 chunk_size = 10000 results = [] for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size, parse_dates=['date']): chunk_result = process_chunk(chunk) results.append(chunk_result) final_result = pd.concat(results) ``` ## 六、进阶应用：时间序列分析 ### 6.1 移动窗口计算 ```python # 创建示例数据 dates = pd.date_range('2021-01-01', periods=100, freq='D') data = pd.Series(np.random.randn(100).cumsum(), index=dates) # 移动平均计算 ma_7 = data.rolling(window=7).mean() # 7日移动平均 ma_30 = data.rolling(window=30).mean() # 30日移动平均 # 扩展窗口统计 expanding_mean = data.expanding().mean() # 扩展平均值 expanding_std = data.expanding().std() # 扩展标准差 # 创建统计报表 stats_report = pd.DataFrame({ '原始数据': data, '7日移动平均': ma_7, '30日移动平均': ma_30, '累积平均': expanding_mean, '累积标准差': expanding_std }) print("时间序列统计报表（前10天）:") print(stats_report.head(10)) ``` ### 6.2 季节性分析 ```python # 创建带有季节性的数据 dates = pd.date_range('2020-01-01', '2022-12-31', freq='D') # 添加年度季节性（365天周期）和每周季节性（7天周期） seasonal_pattern = 10 * np.sin(2 * np.pi * np.arange(len(dates)) / 365) + \ 5 * np.sin(2 * np.pi * np.arange(len(dates)) / 7) data = pd.Series(seasonal_pattern + np.random.randn(len(dates)), index=dates) # 按年分组分析 yearly_stats = data.groupby(data.index.year).agg(['mean', 'std', 'min', 'max']) # 按月分组分析 monthly_stats = data.groupby(data.index.month).agg(['mean', 'std']) # 按星期几分组分析 weekday_stats = data.groupby(data.index.weekday).agg(['mean', 'std']) print("年度统计:") print(yearly_stats) print("\n月度平均:") print(monthly_stats['mean']) print("\n星期几平均:") print(weekday_stats['mean']) ``` ## 七、调试与验证技巧 ### 7.1 验证时间序列创建 ```python def validate_date_range(): """验证date_range函数的输出""" # 测试任务1 result1 = task1() print("任务1验证:") print(f"长度: {len(result1)} (应为12)") print(f"起始时间: {result1[0]} (应为2021-01-31)") print(f"结束时间: {result1[-1]} (应为2021-12-31)") print(f"频率: {result1.freq} (应为M)") # 测试任务2 result2 = task2() print("\n任务2验证:") print(f"长度: {len(result2)}") print(f"起始时间: {result2[0]} (应为2021-01-03)") print(f"结束时间: {result2[-1]} (应为2021-02-28)") print(f"频率: {result2.freq} (应为W-SUN)") # 测试任务3 result3 = task3() print("\n任务3验证:") print(f"筛选后数据长度: {len(result3)}") print(f"时间范围: {result3.index.min()} 到 {result3.index.max()}") print("所有数据都应在2021年1月内") ``` ### 7.2 性能测试 ```python import time def performance_test(): """测试不同方法的性能""" # 测试大规模数据创建 sizes = [1000, 10000, 100000] for size in sizes: print(f"\n测试数据量: {size}") # 方法1：使用date_range start_time = time.time() dates = pd.date_range('2021-01-01', periods=size, freq='H') end_time = time.time() print(f"date_range耗时: {end_time - start_time:.4f}秒") # 方法2：使用列表推导式（对比） start_time = time.time() dates_list = [pd.Timestamp('2021-01-01') + pd.Timedelta(hours=i) for i in range(size)] dates_series = pd.DatetimeIndex(dates_list) end_time = time.time() print(f"列表推导式耗时: {end_time - start_time:.4f}秒") ``` 通过以上详细解析，您应该能够全面理解第六关的所有任务要求，并掌握Pandas时间序列处理的核心技术。在实际应用中，这些技能对于金融分析、销售预测、气象研究等领域的数据处理至关重要。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇附件一的坐标数据时间间隔是0.25秒，怎么用Python把它对齐成严格等间隔的时间序列？