CSV里薪资字段格式五花八门（如‘100-150K·14薪’‘100-130元/天’‘面议’），怎么用Python统一转成月薪数值？

在Python中处理CSV文件中包含薪资信息，尤其是有各种表达形式的情况，可以先统一转换为数值类型以便后续计算。我们可以使用pandas库来进行数据清洗和处理。以下是一个简单的示例代码： ```python import pandas as pd # 假设df是DataFrame，其中包含'薪资'这一列 data = { '薪资': ['100-150K·14薪', '12-19K', '10000-15000元/月', '1000-3000元/周', '100-130元/天', '100-150元/时', '面议'] } df = pd.DataFrame(data) def clean_salary(salary_string): # 这里有一些预设的替换规则，可以根据实际需求调整 salary_dict = { 'K': 1e3, '元/月': 1e4 / 12, # 因为1个月通常有大约4周 '元/周': 1e4, '元/天': 1e4, '元/时': 1e4, } for unit, factor in salary_dict.items(): salary_string = salary_string.replace(f'{unit} ', '').replace(unit, '') # 尝试分割成起止值并转换为浮点数 try: start, end = map(int, salary_string.split('-')) return (start + end) / 2 * factor # 假设平均值 except ValueError: if '面议' in salary_string: return None # 面议的薪资无法直接处理，这里可以设置为None或者其他特殊标记 df['薪资'] = df['薪资'].apply(clean_salary) # 清洗后的薪资列会存储为数值型（None代表面议） print(df['薪资'])

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇用Python抓当当网的图书数据，怎么写爬虫并做基础分析？