Pandas里多个ICD编码列相加时，为什么大部分结果变为空值？

这是一个很好的问题！让我们逐步分析这个问题。 ### 已知信息：你在操作一个Pandas DataFrame (`df_org_mg_expand_mg_v1`) 的 `ICD10` 列，并尝试将其他几列的数据拼接到该列上： ```python df_org_mg_expand_mg_v1['ICD10'] = ( df_org_mg_expand_mg_v1['ICD10'] + df_org_mg_expand_mg_v1['ICCD10'] + df_org_mg_expand_mg_v1['DICD10'] + df_org_mg_expand_mg_v1['IC10'] + df_org_mg_expand_mg_v1['I10'] ) ``` 假设除了 `ICD10` 列外，其他列（如 `'ICCD10', 'DICD10', 'IC10', 'I10'`）大多数为 **空值 (NaN)**。 --- ### 为什么会发生这种情况？在 Pandas 中，当对包含 NaN 值的字符串进行加法运算时，只要参与运算的任意一列为 NaN，则整个结果都会变为 NaN。这是因为 Pandas 和 Python 默认会把字符串和 NaN 的连接视为未定义的操作，导致返回的结果总是 NaN。 #### 具体解释步骤如下： 1. 当前公式中每一项都可能是字符串或 NaN。 - 如果某一行的所有相关列均为 NaN（即 `'ICCD10', 'DICD10', 'IC10', 'I10'` 都是 NaN），那么即使原始的 `ICD10` 列有非空值，在相加过程中由于 NaN 参与了计算，最终结果仍会被设置为 NaN。 2. 即使只有一部分列是非空的，如果某些行存在缺失数据（例如只有其中一部分列含有有效内容），也会因为 NaN 运算规则而导致更多的 NaN 结果。 3. 因此，如果你的大部分辅助列（如 `'ICCD10', 'DICD10', 'IC10', 'I10'`）本身已经有许多空值，就会显著增加合并后的 ICD10 列成为 NaN 的概率。 --- ### 解决方案为了防止这种现象的发生，可以采取一些措施处理 NaN 数据后再执行累加操作。以下是几个推荐的做法： #### 方法1：填充 NaN 值你可以先用空字符串替换所有的 NaN 值，然后再进行字符串拼接： ```python columns_to_add = ['ICD10', 'ICCD10', 'DICD10', 'IC10', 'I10'] # 将所有需要添加的列中的 NaN 替换为空字符串 '' for col in columns_to_add[1:]: df_org_mg_expand_mg_v1[col] = df_org_mg_expand_mg_v1[col].fillna('') # 执行字符串拼接 df_org_mg_expand_mg_v1['ICD10'] = df_org_mg_expand_mg_v1[columns_to_add].apply( lambda row: ''.join(row.values.astype(str)), axis=1 ) ``` 这种方式避免了 NaN 对于字符串的影响，同时保证原有非空值得以保留并正确组合在一起。 #### 方法2：逐个判断是否为空如果你想更精确地控制哪些列的内容应加入到最终结果中，也可以通过条件筛选的方式完成任务： ```python def combine_columns(row): combined_value = str(row['ICD10']) if pd.notna(row['ICD10']) else "" for field in ['ICCD10','DICD10','IC10','I10']: value = str(row[field]) if pd.notna(row[field]) and len(str(row[field]).strip()) > 0 else "" combined_value += value return combined_value.strip() df_org_mg_expand_mg_v1['ICD10'] = df_org_mg_expand_mg_v1.apply(combine_columns, axis=1) ``` 这种方法允许你自定义如何对待每种情况下的空字段，比如忽略长度为零的字符串等特殊情况。 ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Mac上装LabelMe总报错？M1芯片和Python版本有啥坑要避开？

目录

Pandas里多个ICD编码列相加时，为什么大部分结果变为空值？

Python内容推荐

Python 数据操作教程，如何从 PANDAS DATAFRAME 中删除一列或多列

Python示例源码-Pandas数据处理-空值处理方案-大作业.zip

python pandas处理空值和空格

Python源码-Pandas数据处理-空值处理方案.zip

Python使用pandas读取csv文件支持utf-8和gbk编码自动识别

pandas官方文档中文版_pandas_pandas文档_python_

Python源码-Pandas数据处理-空值、0值等异常值检测.zip

数据处理Pandas-空值处理方案-Python实例源码.zip

python处理csv中的空值方法

Python pandas 列转行操作详解(类似hive中explode方法)

Python pandas.DataFrame 找出有空值的行

Python3.7Pandas离线包

pandas官方文档中文版_python教程_pandas中文API_pandas中文_

Python示例源码-Pandas数据处理-空值、0值等异常值检测-大作业.zip

【负荷预测】基于BiTCN-GRU的负荷预测研究附Python代码.pdf

用pandas按列合并两个文件的实例

pandas删除含有特定数值的行或列

pandas DataFrame 根据多列的值做判断,生成新的列值实例

pandas 行转列、列转行.ipynb

Pandas中缺失值及空值处理的多种实现方式

python pandas读取csv后,获取列标签的方法

pandas对指定列进行填充的方法

学生成绩管理系统C++课程设计与实践

你的MacBook和iPhone能一起快充吗？实测基于LDR6020芯片的Type-C一拖二方案

生成一个10*10的矩阵（元素为1~100范围内的随机整数）并保存为文本文件“rm.txt”，文件中用空格分隔列向量，换行分隔行向量； 然后编写程序将该文本文件另存为CSV格式文件“rm.csv”。

RH公司应收账款管理优化策略研究

SPSS描述统计进阶：用Explore功能挖掘数据隐藏特征（含异常值检测&正态性检验）

STM32怎么把FFT频谱结果稳定可靠地发到电脑上？

桌面工具软件项目效益评估及市场预测分析

Java与C++混合编程必看：如何正确设置环境变量避免JNI调用崩溃

生成一个10*10的矩阵（元素为1~100范围内的随机整数）并保存为文本文件“rm.txt”，文件中用空格分隔列向量，换行分隔行向量；然后编写程序将该文本文件另存为CSV格式文件“rm.csv”。