不同格式的数据集该怎么加载进Python做分析？

读取数据集是进行数据分析或机器学习的第一步，正确的读取方式取决于数据存储的形式和位置（如文件、数据库或其他来源）。以下是几种常见的读取数据集的方式及示例代码。 --- ### **1. 从 CSV 文件读取数据** CSV 文件是最常用的数据存储格式之一，可以使用 `pandas` 库轻松加载这种类型的文件。 ```python import pandas as pd # 假设有一个名为 'dataset.csv' 的文件 data = pd.read_csv('dataset.csv') # 查看前几行数据 print(data.head()) ``` --- ### **2. 从 Excel 文件读取数据** 如果数据是以 Excel 格式保存的，则可以使用 `read_excel` 方法来加载数据。 ```python import pandas as pd # 假设有一个名为 'dataset.xlsx' 的文件 data = pd.read_excel('dataset.xlsx', sheet_name='Sheet1') # 指定工作表名称 # 查看前几行数据 print(data.head()) ``` --- ### **3. 从 JSON 文件读取数据** JSON 数据也常用于现代应用程序中，Pandas 支持直接将 JSON 文件转为 DataFrame 结构。 ```python import pandas as pd # 假设有一个名为 'dataset.json' 的文件 data = pd.read_json('dataset.json') # 查看前几行数据 print(data.head()) ``` --- ### **4. 从 SQL 数据库读取数据** 当数据存储在关系型数据库中时，可通过 SQLAlchemy 连接数据库并查询数据到 Pandas 中处理。 ```python import pandas as pd from sqlalchemy import create_engine # 创建数据库连接引擎 (MySQL 示例) engine = create_engine('mysql+pymysql://username:password@host/dbname') # 执行 SQL 查询并将结果存入 DataFrame query = "SELECT * FROM table_name" data = pd.read_sql(query, engine) # 查看前几行数据 print(data.head()) ``` --- ### **5. 从 Scikit-learn 自带的小型数据集中获取数据** Scikit-learn 包含了一些经典小型数据集可以直接加载使用，比如鸢尾花数据集 (`load_iris`) 或波士顿房价数据集 (`load_boston`) 等等。 ```python from sklearn.datasets import load_iris # 加载鸢尾花数据集 iris_data = load_iris() df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names) # 添加目标变量一栏 df['target'] = iris_data.target # 查看数据概况 print(df.head()) ``` --- ### **6. 其他特殊格式数据** 对于一些非传统格式的数据源（例如 HTML 页面表格），也可以通过适当的库提取数据： ```python import pandas as pd # 从网页中的表格抓取数据 url = 'https://example.com/table' tables = pd.read_html(url) # 返回的是包含所有页面内表格的一个列表 # 获取第一个表格 table_df = tables[0] print(table_df.head()) ``` --- 总结起来，根据实际需求选择合适的读取方式很重要。无论是本地文件还是远程服务器上的资源，Python 都有强大的生态支持帮助我们高效完成这一任务！ ####

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 ROS 2里怎么用Python自定义消息并让rclpy节点收发它？