Python写入txt文件中文变乱码，到底该用utf-8还是utf-8-sig？

要解决Python写入TXT文件时内容显示乱码的问题，核心在于确保数据在内存中的编码格式与写入文件时指定的编码格式保持一致，并且目标阅读环境（如文本编辑器、终端）也支持该编码。问题解构通常涉及数据来源编码、文件操作编码参数以及读取环境兼容性三个方面。解决方案推演如下：首先检查并确认待写入字符串的编码，然后在调用`open()`函数时显式指定正确的`encoding`参数，最后针对特定环境（如Windows记事本）可能需要考虑添加BOM（字节顺序标记）以确保兼容性。下面通过具体的场景和代码示例来详细说明。 ### 1. 核心原因与诊断乱码的根本原因是“编码不一致”。当Python程序以编码A（如`gbk`）将一个字符串（在内存中可能是Unicode）写入文件，而用编码B（如`utf-8`）打开该文件时，就会产生乱码[ref_6]。 **诊断步骤**：可以尝试用不同的编码（如UTF-8、GBK）重新打开文件，看是否能正常显示。更直接的方法是在Python中明确指定编码。 ### 2. 标准解决方案：指定 `encoding` 参数最通用和推荐的方法是在使用内置`open()`函数时，明确指定`encoding`参数为`'utf-8'`。`utf-8`是一种广泛支持、能处理全球绝大多数字符的编码。 ```python # 示例：将中文字符串以UTF-8编码写入txt文件 content = "这是要写入的中文内容，Hello World!" file_path = "output_utf8.txt" # 关键：在 open() 函数中指定 encoding='utf-8' with open(file_path, 'w', encoding='utf-8') as f: f.write(content) print(f"文件 '{file_path}' 已使用UTF-8编码写入。") ``` **注意**：如果您的源字符串（例如从网络或数据库读取）是其他编码（如`gb2312`、`latin-1`），需要先将其正确解码（decode）为Python内部的`str`（Unicode）对象，然后再用`utf-8`编码写入。例如，读取一个GBK编码的字节串： ```python gbk_bytes = b'\xd6\xd0\xce\xc4' # 这是“中文”的GBK编码字节串 # 1. 先解码为Python的str对象 unicode_str = gbk_bytes.decode('gbk') # 得到“中文” # 2. 再以UTF-8编码写入文件 with open('output.txt', 'w', encoding='utf-8') as f: f.write(unicode_str) ``` ### 3. 针对Windows记事本等环境的特殊处理：使用`utf-8-sig` 在Windows系统中，一些传统软件（如记事本）在打开UTF-8编码文件时，会因为没有BOM（Byte Order Mark）而无法正确识别编码，导致显示乱码[ref_1][ref_3]。为了解决这个问题，可以使用`utf-8-sig`编码。`utf-8-sig`会在文件开头写入一个特殊的BOM标记（`\xef\xbb\xbf`），帮助软件自动识别文件为UTF-8编码。 ```python # 示例：使用带BOM的UTF-8编码写入文件，确保在Windows记事本中正常打开 content = "这段文字在Windows记事本中也能正常显示。" file_path = "output_utf8_sig.txt" # 使用 encoding='utf-8-sig' with open(file_path, 'w', encoding='utf-8-sig') as f: f.write(content) print(f"文件 '{file_path}' 已使用UTF-8-sig（带BOM）编码写入。") ``` ### 4. 兼容Python 2.7的解决方案如果必须在Python 2.7环境中工作，其默认编码处理与Python 3不同，需要更谨慎。推荐使用`io.open()`来获得与Python 3类似的、支持显式编码声明的行为[ref_4]。 ```python # Python 2.7 解决方案示例 import io content = u"这是Python 2.7中的中文字符串" # 注意：字符串前加‘u’声明为Unicode字符串 with io.open('output_py27.txt', 'w', encoding='utf-8') as f: f.write(content) print "文件写入完成。" ``` ### 5. 处理复杂来源数据（如分词结果）当处理来自外部库（如`jieba`分词）的数据时，写入前可能需要进行格式转换和清洗。例如，分词库返回的可能是一个生成器或列表，直接写入会出错或乱码，需要先转换为字符串[ref_6]。 ```python import jieba text = "我爱自然语言处理" seg_list = jieba.cut(text) # 返回一个生成器 # 将分词结果用空格连接成一个字符串 seg_str = ' '.join(seg_list) # 以UTF-8编码写入文件 with open('seg_result.txt', 'w', encoding='utf-8') as f: f.write(seg_str) ``` ### 总结与最佳实践选择为了彻底避免乱码，应遵循以下实践流程： 1. **源头统一**：尽可能在程序内部使用Unicode字符串（Python 3的`str`类型）进行逻辑处理。 2. **写入明确**：在调用`open()`写入文件时，**始终显式指定`encoding`参数**。 3. **环境适配**： * 通用场景（Linux/macOS、现代IDE、代码编辑器）：使用`encoding='utf-8'`。 * 需要被Windows系统自带软件（如记事本、Excel）直接打开的场景：使用`encoding='utf-8-sig'`[ref_1][ref_3]。 4. **读取一致**：用相同编码读取文件。例如，用`utf-8-sig`写入的文件，读取时也应该用`utf-8-sig`或能自动处理BOM的编码（如`utf-8`）来打开。以下表格对比了不同编码参数的使用场景： | 编码参数 (`encoding=`) | 优点 | 缺点 | 推荐使用场景 | | :--- | :--- | :--- | :--- | | **`utf-8`** | 最通用、标准，无额外字节开销，兼容性好。 | Windows记事本等部分软件可能无法自动识别（无BOM时）。 | 通用开发、Web应用、Linux/macOS环境、代码存储。 | | **`utf-8-sig`** | 在文件头添加BOM，可被Windows记事本等软件自动识别为UTF-8[ref_1][ref_3]。 | 添加了额外的BOM字节（`\xef\xbb\xbf`），某些严格的无BOM要求的工具可能报错。 | 需要被Windows原生工具（记事本、Excel）正确打开的文件。 | | **`gbk` / `gb2312`** | 在简体中文Windows系统上默认兼容性好。 | 字符集有限，不支持全球字符，跨平台/多语言环境易出问题。 | **不推荐**，除非有明确的遗留系统兼容要求。 | | （不指定） | 使用系统默认编码（如Windows中文版是`gbk`）。 | 移植性差，在不同系统上可能导致乱码。 | **强烈不推荐**，是乱码的主要根源。 |

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python接口用Postman调用时返回\uXXXX格式的Unicode编码，怎么让中文正常显示？

目录

Python写入txt文件中文变乱码，到底该用utf-8还是utf-8-sig？

Python内容推荐

Python利用 utf-8-sig 编码格式解决写入 csv 文件乱码问题

【Python 技巧】利用 utf-8-sig 编码格式解决写入 csv 文件乱码问题

python解决js文件utf-8编码乱码问题(推荐)

Python中使用不同编码读写txt文件详解

Python判断中文字符串是否相等的实例

Python文件循环写入行时防止覆盖的解决方法

python 写入csv乱码问题解决方法

Python之pandas读写文件乱码的解决方法

python 读写文件包含多种编码格式的解决方式

python文件操作编码部分.txt

python 字符串转列表 list 出现\ufeff的解决方法

Python3操作读写CSV文件使用包过程解析

python文件读取失败怎么处理

python 实现两个npy档案合并

python语言douban爬虫程序代码QZQ.txt

【Python办公】批量csv转UTF-8格式工具

python作业资料代码文件.zip

python实现电子词典

python调用百度语音识别api

Python访问MongoDB,并且转换成Dataframe的方法

Python和Anaconda和Pycharm安装教程图文详解

Python 、Pycharm、Anaconda三者的区别与联系、安装过程及注意事项

Python安装之Anaconda+Pycharm(社区版)

Ubuntu18.04安装 PyCharm并使用 Anaconda 管理的Python环境

Python入门Anaconda和Pycharm的安装和配置详解

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构