python 去除dataframe数据中重复的数据

### 如何在 Pandas DataFrame 中移除重复数据为了处理 Python 的 `pandas` 库中的 DataFrame 并从中删除重复的数据项，可以使用内置函数 `drop_duplicates()` 方法来实现这一目标。此方法允许指定要检查的列以及保留哪些副本。当面对包含冗余记录的数据集时，调用 `drop_duplicates()` 可以帮助清理这些不必要的条目并简化数据分析过程[^1]。下面是一个简单的例子展示如何去重： ```python import pandas as pd # 创建一个带有重复值的数据框 df = pd.DataFrame({ 'CN': ['WD', 'JG', 'P5', 'PK', 'PK', 'UL', 'UL'], 'value': [10, 20, 30, 40, 40, 50, 50] }) print("原始DataFrame:") print(df) # 移除重复行，默认基于所有列判断是否完全相同 df_cleaned = df.drop_duplicates() print("\n去重后的DataFrame:") print(df_cleaned) ``` 上述代码创建了一个名为 `df` 的 DataFrame 对象，并通过 `drop_duplicates()` 函数将其内部存在的任何重复行去掉。默认情况下，该操作会考虑每一列的内容来进行比较；如果某两行或多行之间所有的单元格都相等，则认为它们是重复的，并仅保留第一次出现的那一行[^3]。对于更复杂的情况，比如只想依据特定的一列或几列来决定是否为重复项，可以在调用 `drop_duplicates()` 时传递参数 `subset` 来限定范围。例如只根据 `'CN'` 列判定重复情况的话，应该这样做: ```python df_unique_cn = df.drop_duplicates(subset=['CN']) print("\n按 CN 去重后的DataFrame:") print(df_unique_cn) ```

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 python读取文件夹内文件的文件名