Python时间序列分析教程_Pandas时间索引实践

Pandas时间序列分析的核心是将时间列设为DatetimeIndex索引——先用pd.to_datetime()转换类型,再用set_index()设为索引;此后asfreq()可对齐频率,resample()支持重采样聚合,shift()、rolling()等操作才能基于时间自动对齐与计算。

用Pandas做时间序列分析,核心是把时间变成索引——不是简单加一列日期,而是让DataFrame或Series真正“认出”这是时间,并能自动按日、月、季、年对齐、重采样、切片。关键在pd.to_datetime()set_index()之后的asfreq()resample()shift()等操作才能生效。

把普通列转成真正的时间索引

常见错误是只调用pd.to_datetime()转换列,却没设为索引。必须两步到位:

  • 先用df['date'] = pd.to_datetime(df['date'])确保类型是datetime64[ns]
  • 再用df = df.set_index('date')——此时df.index才是DatetimeIndex,支持时间智能操作
  • 检查是否成功:type(df.index)应返回pandas.core.indexes.datetimes.DatetimeIndex

按固定频率对齐数据(asfreq)

原始时间序列常有缺失日期(比如周末无交易)、不等间隔。用asfreq()可强制转为日频、月频等,并填入NaN或指定值:

  • df.asfreq('D') → 转为日频,缺失日补NaN
  • df.asfreq('M', fill_value=0) → 月末频,缺失月用0填充
  • 注意:asfreq()不插值,只对齐;要插值用ffillbfillinterpolate()

重采样与聚合(resample)

高频转低频(如分钟→小时)或低频转高频(如月→日),靠resample()。它必须作用于DatetimeIndex上:

  • df.resample('W').mean() → 按自然周聚合,计算每组均值
  • df.resample('MS').first() → 每月第一天(Month Start)取首条记录
  • 支持闭区间控制:resample('M', closed='left')指定左闭右开
  • 可传字典对不同列用不同聚合函数:resample('D').agg({'price': 'max', 'volume': 'sum'})

时间位移与滚动计算

时间索引启用shift()diff()rolling()等操作,语义清晰且自动对齐:

  • df['price_shift1'] = df['price'].shift(1) → 自动按时间对齐,昨天的价格对今天行
  • df['daily_return'] = df['price'].pct_change() → 相邻时间点百分比变化
  • df.rolling('7D').mean() → 7天滑动窗口均值(非固定7行,而是7个自然日)
  • df.rolling('30D').apply(lambda x: x.max() - x.min()) → 自定义滚动计算

时间索引不是装饰,是Pandas时间序列能力的地基。设对了索引,后续所有分析才自然、准确、少出错。