公交数据可视化指南：用Python爬取+GeoPandas绘制城市公交网络图

# 公交数据可视化实战：从Python爬取到GeoPandas空间分析全流程当我们需要分析城市公交网络的覆盖范围、站点密度或线路优化时，第一道门槛往往是获取结构化的空间数据。传统GIS软件通常需要手动绘制线路，而现代数据科学方法则能通过编程自动完成从数据采集到可视化的全流程。本文将展示如何用Python构建一套完整的公交数据解决方案，涵盖网页数据抓取、坐标转换、空间分析与交互式可视化等关键技术环节。 ## 1. 公交数据采集方法论获取公交数据的途径大致可分为三类：开放数据平台、网络地图API和网页爬取。开放数据平台如政府数据门户通常提供规范的CSV或GeoJSON格式数据，但覆盖城市有限；地图API虽然数据全面，但存在调用限制和商业授权问题；而网页爬取则能灵活获取各类地图服务中的公交信息。以高德地图为例，其网页版隐藏着丰富的结构化公交数据。通过浏览器开发者工具（F12）的Network面板，搜索公交线路时可以发现名为`poiInfo`的接口返回JSON格式的线路详情，包含以下关键字段： ```json { "data": { "busline_list": [ { "name": "11路", "stations": [ { "name": "火车站", "xy_coords": "108.123,34.456;", "station_id": "12345" } ], "xs": "108.123,108.124,...", "ys": "34.456,34.457,..." } ] } } ``` 构建爬虫时需特别注意三个技术要点： 1. **参数构造**：需要动态组合线路名称、城市编码和地理范围 2. **反爬策略**：随机延迟和请求头设置必不可少 3. **坐标转换**：地图API通常使用GCJ-02坐标系，需转换为WGS84 以下是一个改进版的爬虫核心代码： ```python import requests from urllib.parse import urlencode import pandas as pd import time import random def gcj02_to_wgs84(lng, lat): # 坐标系转换实现 return lng, lat def fetch_bus_line(line_name, city_code): base_url = "https://ditu.amap.com/service/poiInfo" params = { 'query_type': 'TQUERY', 'keywords': line_name, 'city': city_code, 'geoobj': '107.623|33.696|109.817|34.745' # 城市边界坐标 } try: response = requests.get(base_url, params=params) data = response.json() if data.get('data', {}).get('busline_list'): return process_bus_data(data['data']['busline_list'][0]) except Exception as e: print(f"Error fetching {line_name}: {str(e)}") return None def process_bus_data(bus_data): stations = [] for station in bus_data['stations']: lng, lat = map(float, station['xy_coords'].split(';')[0].split(',')) wgs_lng, wgs_lat = gcj02_to_wgs84(lng, lat) stations.append({ 'line_name': bus_data['name'], 'station_name': station['name'], 'gcj_lng': lng, 'gcj_lat': lat, 'wgs_lng': wgs_lng, 'wgs_lat': wgs_lat }) return stations ``` ## 2. 空间数据结构化处理原始爬取的数据需要经过多个处理步骤才能用于空间分析： ### 2.1 数据清洗关键步骤 | 处理环节 | 常见问题 | 解决方案 | |---------|---------|---------| | 坐标转换 | GCJ-02坐标系偏移 | 使用精确的转换算法 | | 字段缺失 | 站点名称或坐标为空 | 人工校验或剔除异常数据 | | 线路重复 | 往返线路重复采集 | 通过direction字段区分 | | 编码问题 | 特殊字符乱码 | 统一UTF-8编码 | ### 2.2 构建空间数据框架使用GeoPandas创建地理数据框时，需要先将常规数据框转换为几何对象： ```python import geopandas as gpd from shapely.geometry import Point, LineString # 创建站点几何 stations_gdf = gpd.GeoDataFrame( df_stations, geometry=gpd.points_from_xy(df_stations.wgs_lng, df_stations.wgs_lat), crs="EPSG:4326" ) # 创建线路几何 line_coords = list(zip(df_line['wgs_lng'], df_line['wgs_lat'])) bus_line = LineString(line_coords) lines_gdf = gpd.GeoDataFrame( df_line[['line_name']], geometry=[bus_line], crs="EPSG:4326" ) ``` > 注意：实际项目中建议将数据保存为GeoPackage格式，相比Shapefile更现代且支持中文路径 ## 3. 高级空间可视化技巧基础的可视化只需几行代码，但要制作专业级地图需要更多技巧： ### 3.1 分层渲染策略 1. **底图层**：使用contextily添加在线地图 2. **线路层**：按公交类型设置不同颜色 3. **站点层**：根据客流量调整点大小 4. **热力层**：展示站点密度分布 ```python import matplotlib.pyplot as plt import contextily as ctx fig, ax = plt.subplots(figsize=(12, 10)) lines_gdf.plot(ax=ax, linewidth=1.5, column='line_type', legend=True) stations_gdf.plot(ax=ax, color='red', markersize=5) ctx.add_basemap(ax, crs=stations_gdf.crs, source=ctx.providers.Stamen.TonerLite) plt.title('城市公交网络空间分布', fontsize=16) plt.axis('off') plt.tight_layout() ``` ### 3.2 交互式可视化方案静态图适合报告展示，而交互地图更适合探索性分析： ```python import folium m = folium.Map(location=[34.26, 108.94], zoom_start=12) # 添加线路 for _, row in lines_gdf.iterrows(): folium.PolyLine( locations=[(y, x) for x, y in zip( row.geometry.xy[0], row.geometry.xy[1] )], color='blue', weight=2 ).add_to(m) # 添加站点聚类 marker_cluster = folium.plugins.MarkerCluster().add_to(m) for _, row in stations_gdf.iterrows(): folium.Marker( location=[row.wgs_lat, row.wgs_lng], popup=row['station_name'] ).add_to(marker_cluster) m.save('bus_network.html') ``` ## 4. 空间分析实战案例有了结构化空间数据后，可以开展多种分析： ### 4.1 站点服务范围分析使用缓冲区分析计算每个站点500米覆盖范围： ```python stations_gdf['buffer'] = stations_gdf.geometry.buffer(0.0045) # 约500米 coverage = stations_gdf.unary_union print(f"公交站点500米覆盖面积：{coverage.area:.2f}平方度") ``` ### 4.2 线路重叠度检测找出重复率高的线路段，为线路优化提供依据： ```python from shapely.ops import linemerge, unary_union all_lines = lines_gdf.unary_union merged = linemerge(all_lines) overlaps = [line for line in merged.geoms if len(line.coords) > 2] ``` ### 4.3 接驳便利性评估计算地铁站与公交站点的最近距离： ```python from sklearn.neighbors import BallTree import numpy as np # 构建距离矩阵 bus_points = np.array([[g.y, g.x] for g in stations_gdf.geometry]) metro_points = np.array([[g.y, g.x] for g in metro_gdf.geometry]) tree = BallTree(bus_points, metric='haversine') distances = tree.query(metro_points, k=1)[0] * 6371000 # 转换为米 ``` 将上述分析结果可视化后，可以清晰识别出城市公交网络的薄弱环节。例如，在某次实际分析中，我们发现新建住宅区与地铁站之间虽然直线距离仅800米，但由于缺乏公交接驳，居民步行需要绕行1.5公里。这类洞察正是空间数据分析的价值所在。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 DeepSeek-R1代码生成实战：Python函数自动编写案例

目录

公交数据可视化指南：用Python爬取+GeoPandas绘制城市公交网络图

Python内容推荐

数据可视化基础_python_数据开发_源码.zip

python可视化图表案例-网格地图与连接映射地图

时空社交网络分析与模拟_Python_下载.zip

运用Python可视化技术,提高中学编程教学趣味性.zip

Web-Map:使用python pandas和folium库的网络地图

-Introduction-to-GIS-and-Geospatial-analysis-with-Python-

基于显式拓扑变量可靠性评估的双Q交直流混合配电网优化规划研究（Python代码实现）

Python Supervision 计算机视觉工具库完整源码｜目标检测标注与图像处理工程

香农编码算法源码｜信息论熵值计算+无损数据压缩Python项目

《城市公交站点设置的优化分析》项目全套

数据可视化

东北林业大学nefu数据可视化课程实验源程序

体育可视化：我尝试利用体育数据进行有意义的可视化

data-visualization

Wrangle-OpenStreetMap-Data

UrbanTrans-Processing

练习07_要求1

作图.rar

jiaotong.rar_AE最短路径

重大项目

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？