python提取PDF文件存储时间

提取PDF文件的存储时间通常涉及读取文件的元数据，例如创建时间或修改时间。Python 提供了一些库来处理文件系统操作和PDF文件的元数据。以下是实现此功能的几种方法： ### 方法一：使用 `os` 模块获取文件的创建和修改时间 Python 的 `os` 模块可以用来获取文件的元数据，包括创建时间和修改时间。以下是一个示例代码： ```python import os import time def get_file_metadata(file_path): # 获取文件的创建时间和修改时间（时间戳） creation_time = os.path.getctime(file_path) modification_time = os.path.getmtime(file_path) # 转换为可读格式 creation_time_readable = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(creation_time)) modification_time_readable = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(modification_time)) return creation_time_readable, modification_time_readable # 示例文件路径 file_path = "example.pdf" creation_time, modification_time = get_file_metadata(file_path) print(f"创建时间: {creation_time}") print(f"修改时间: {modification_time}") ``` ### 方法二：使用 `PyPDF2` 提取PDF文件的内部元数据如果需要提取PDF文件内部的元数据（例如文档属性中的创建时间），可以使用 `PyPDF2` 库。以下是一个示例代码： ```python from PyPDF2 import PdfReader def extract_pdf_metadata(file_path): with open(file_path, "rb") as file: reader = PdfReader(file) metadata = reader.metadata return metadata # 示例文件路径 file_path = "example.pdf" pdf_metadata = extract_pdf_metadata(file_path) print(pdf_metadata) ``` ### 方法三：结合 `os` 和 `PyPDF2` 提取全面的文件时间信息可以将文件系统的元数据和PDF内部的元数据结合起来，以获取更全面的时间信息。以下是一个示例代码： ```python import os import time from PyPDF2 import PdfReader def extract_full_metadata(file_path): # 获取文件系统元数据 creation_time = os.path.getctime(file_path) modification_time = os.path.getmtime(file_path) creation_time_readable = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(creation_time)) modification_time_readable = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(modification_time)) # 获取PDF内部元数据 with open(file_path, "rb") as file: reader = PdfReader(file) pdf_metadata = reader.metadata return { "文件创建时间": creation_time_readable, "文件修改时间": modification_time_readable, "PDF内部元数据": pdf_metadata } # 示例文件路径 file_path = "example.pdf" full_metadata = extract_full_metadata(file_path) print(full_metadata) ``` ### 注意事项 1. **文件系统元数据**：`os.path.getctime()` 和 `os.path.getmtime()` 返回的时间戳表示文件在文件系统中的创建时间和修改时间。这些时间可能与文件的实际内容无关。 2. **PDF内部元数据**：`PyPDF2` 提取的元数据是嵌入在PDF文件中的文档属性，可能包含创建时间、修改时间以及其他信息。这些信息取决于PDF文件的生成方式。 ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 python识别发件箱中今日已发送邮件

目录

python提取PDF文件存储时间

Python内容推荐

Python项目-自动办公-24 Python一键提取PDF中的表格到Excel.zip

Python-Camelot一个可以轻松地从PDF文件中提取表格的Python库

Python批量提取PDF文件中文本的脚本

Python 用三行代码提取PDF表格数据

Python提取PDF内容的方法(文本、图像、线条等)

python批量提取pdf表格与文字

PDFPlumber：从PDF文件提取文字和表格的Python库.pdf

python基于pdfminer库提取pdf文字代码实例

python从PDF中提取数据的示例

Python应用实战代码-如何使用python提取pdf表格及文本，并保存到excel

python如何提取英语pdf内容并翻译

Python从PDF中提取表格

python实现从pdf文件中提取文本,并自动翻译的方法

python批量提取PDF中的表格到Excel文档

python+PyQt5实现的PDF文件处理小工具（PDF合并、PDF页面删除、PDF页面提取、PDF中表格提取）

Python一键提取PDF中的表格到Excel

Python-Excalibur一个用于从PDF中提取表格数据的Web界面

Python-用于从PDF文件中提取表单的一组工具

Python提取PDF表格[代码]

Python-pdf2thumb这是一个小Python程序从给定的pdf文件中提取缩略图

python实现npy格式文件转换为txt文件操作

Python 存取npy格式数据实例

numpy的文件存储.npy .npz 文件详解

python 实现两个npy档案合并

将npy文件转化为jpg或者png的python脚本（可直接运行）

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构