Python 读取文件时遇到 '\x8f' 这类非 UTF-8 字节报错，该怎么安全处理？

### 解决 Python 非 UTF-8 编码错误当处理非 UTF-8 编码文件时，可能会遇到编码错误。例如，读取包含 `\x8f` 的字节序列可能导致解码失败。以下是解决方案： #### 使用指定编码读取文件可以通过设置正确的编码来避免此类问题。如果已知文件的编码类型，则可以在打开文件时指定该编码。 ```python with open('file.txt', 'r', encoding='latin1') as f: # 假设文件使用 latin1 编码 content = f.read() ``` 如果不确定文件的具体编码，可以先检测其编码类型[^1]。 --- #### 忽略或替换非法字符如果不关心丢失少量数据，可以选择忽略无法解码的字符或将它们替换为替代符（如 `?`）。 ```python # 忽略非法字符 with open('file.txt', 'r', encoding='utf-8', errors='ignore') as f: content = f.read() # 替换非法字符 with open('file.txt', 'r', encoding='utf-8', errors='replace') as f: content = f.read() ``` 上述方法通过参数 `errors='ignore'` 或 `errors='replace'` 来控制异常行为[^3]。 --- #### 转换文件编码至 UTF-8 如果希望将整个文件转换为 UTF-8 编码，可按如下方式操作： ```python import chardet def convert_to_utf8(input_file, output_file): raw_data = open(input_file, 'rb').read() # 以二进制模式读取原始数据 detected_encoding = chardet.detect(raw_data)['encoding'] or 'latin1' decoded_text = raw_data.decode(detected_encoding, errors='replace') encoded_text = decoded_text.encode('utf-8') with open(output_file, 'wb') as f: f.write(encoded_text) convert_to_utf8('input.txt', 'output.txt') ``` 此脚本利用 `chardet` 库自动检测输入文件的编码并将其转换为 UTF-8。 --- #### 处理写入 Beautiful Soup 输出的情况如果正在使用 BeautifulSoup 并需要保存 HTML 文件为特定编码，可以直接在 `.prettify()` 方法中指定编码选项。 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'html.parser') pretty_html = soup.prettify(encoding='utf-8') # 将输出强制转为 utf-8 with open('output.html', 'wb') as f: # 注意这里使用 wb 模式 f.write(pretty_html) ``` 这一步确保即使原文件不是 UTF-8 编码，最终输出也会统一为 UTF-8。 ---

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 Python多行表达式缩进报错'continuation line under-indented for visual indent'是怎么回事？

目录

Python 读取文件时遇到 '\x8f' 这类非 UTF-8 字节报错，该怎么安全处理？

Python内容推荐

python将txt文件读取为字典的示例

Python 字节流,字符串,十六进制相互转换实例(binascii,bytes)

python解决汉字编码问题：Unicode Decode Error

解决python3中解压zip文件是文件名乱码的问题

Python每天必学之bytes字节

Python中文件I/O高效操作处理的技巧分享

python实现unicode转中文及转换默认编码的方法

解决Python2.7读写文件中的中文乱码问题

python将txt文件读入为np.array的方法

Python读写unicode文件的方法

Python中的字符串操作和编码Unicode详解

Python运行报错UnicodeDecodeError的解决方法

python 文件读写 乱码

Unicode和Python的中文处理

python实现统计汉字／英文单词数的正则表达式

python解码方式.docx

Python批量转换文件编码格式

浅谈Python2之汉字编码为unicode的问题(即类似\xc3\xa4)

Python设置默认编码为utf8的方法

Python 忽略文件名编码的方法

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

python 文件读写乱码