怎么用Python自动识别一个文件夹里所有图片的文字，并统一存成CSV表格？

要使用百度的OCR（光学字符识别）API批量识别图片中的文字并将其导出到CSV文件，你需要首先注册一个百度AI API的账号，获取API密钥和秘钥。然后，你可以使用Python的`requests`库发送HTTP请求，以及`pandas`库处理数据。以下是一个基本的步骤指南： 1. **安装依赖库**: - `requests`：用于发送HTTP请求 - `python-docx`或`openpyxl`：用于创建CSV文件，具体取决于你是否希望支持Excel格式 - 如果你的图片很多，可能还需要考虑性能优化，如使用`multiprocessing`库进行并发处理 2. **设置环境变量**: 将你的百度云开发平台的API密钥和秘钥分别存储为环境变量，例如： ``` import os os.environ["BaiduApiID"] = "your_api_id" os.environ["BaiduApiKey"] = "your_api_key" ``` 3. **定义批量识别函数**: ```python import requests import json from collections import defaultdict from io import BytesIO def recognize_text_from_image(image_path, api_url): # 需要替换为实际的API地址 params = { 'image': open(image_path, 'rb'), 'language': 'zh', } headers = {'Content-Type': 'application/x-www-form-urlencoded'} response = requests.post(api_url, data=params, headers=headers) if response.status_code == 200: result = response.json() return result.get('words_result') else: print(f"Error: {response.status_code}, {response.text}") return None ``` 4. **读取文件夹中的图片并处理**: ```python def batch_recognize_images(directory, output_csv): images_dict = defaultdict(list) for filename in os.listdir(directory): if filename.endswith(('.jpg', '.png', '.jpeg')): text = recognize_text_from_image(os.path.join(directory, filename), "https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic?access_token=" + os.environ["BaiduAccessToken"]) if text: images_dict[filename].append(text[0]['words']) df = pd.DataFrame.from_dict(images_dict, orient='index', columns=['Text']) df.to_csv(output_csv, index=False) ``` 5. **调用批量识别函数**: ```python directory = r"C:\path\to\your\images" # 替换为你图片所在的文件夹路径 output_csv = "output.csv" # 输出的CSV文件名 batch_recognize_images(directory, output_csv) ``` 记得在上述代码中替换相应的API URL、环境变量和文件路径。此外，如果API速率限制或频繁使用可能会导致计费问题，确保了解API的使用策略。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 PySide2里怎么让QML的ListView显示Python传来的数据？

目录

怎么用Python自动识别一个文件夹里所有图片的文字，并统一存成CSV表格？

Python内容推荐

python 移动图片到另外一个文件夹的实例

Python 把excel表格的格式转换成*.csv格式文件

使用python将图片按标签分入不同文件夹的方法

merge_csv:将文件夹中的所有 CSV 文件合并为一个的 python 脚本

基于Python的一个自动录入表格的小程序

Python将一个CSV文件里的数据追加到另一个CSV文件的方法

Python实现制作csv表格

使用python-opencv识别图片中的表格数据转换为csv

python 读取文件夹下的子文件 xlsx，csv

python 使用xpath/lxml爬取网页表格并存CSV

python 循环读取txt文档 并转换成csv的方法

Python使用pandas读取csv文件支持utf-8和gbk编码自动识别

python读取csv文件并把文件放入一个list中的实例讲解

python实现将html表格转换成CSV文件的方法

python 实现读取csv数据,分类求和 再写进 csv

Python对CSV文件数据进行可视化

python 写的一个json转csv文件的脚本

python读写csv文件并增加行列的实例代码

合并所有csv文件并去除表头的python代码.zip

python爬虫爬取网页表格数据

Python和Anaconda和Pycharm安装教程图文详解

Python 、Pycharm、Anaconda三者的区别与联系、安装过程及注意事项

Python安装之Anaconda+Pycharm(社区版)

Ubuntu18.04安装 PyCharm并使用 Anaconda 管理的Python环境

Python入门Anaconda和Pycharm的安装和配置详解

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

python 循环读取txt文档并转换成csv的方法

python 实现读取csv数据,分类求和再写进 csv