怎么用Python自动化处理几十份上市公司年报并统计关键词出现频率？

### 上市公司年报批量词频分析的方法要对上市公司年报进行批量词频分析，可以采用以下技术栈和方法： #### 数据预处理阶段在开始词频分析之前，需要先完成数据的清洗和预处理。这一步骤通常包括去除停用词、标点符号以及特殊字符等内容[^1]。 ```python import re from collections import Counter from nltk.corpus import stopwords def preprocess_text(text): stop_words = set(stopwords.words('english')) text = re.sub(r'[^\w\s]', '', text.lower()) # 去除标点符号并转换为小写 words = text.split() filtered_words = [word for word in words if word not in stop_words] return filtered_words ``` 上述代码展示了如何通过正则表达式清理文本，并利用NLTK库中的`stopwords`模块移除英文停用词[^3]。 #### 批量读取与存储为了实现批量处理功能，可以通过编写脚本自动遍历指定路径下的所有PDF或TXT文件，并逐一加载其内容。如果目标文件是PDF格式，则需借助第三方库如PyPDF2来解析；如果是纯文本文件，则可以直接打开读取。 ```python import os from PyPDF2 import PdfReader def read_pdf(file_path): reader = PdfReader(file_path) content = "" for page in reader.pages: content += page.extract_text() or "" # 防止某些页面无文字的情况 return content.strip() def batch_read_files(directory, file_extension=".pdf"): all_texts = [] for root, _, files in os.walk(directory): for file_name in files: if file_name.endswith(file_extension): full_path = os.path.join(root, file_name) if file_extension == ".pdf": text = read_pdf(full_path) elif file_extension == ".txt": with open(full_path, 'r', encoding='utf-8') as f: text = f.read().strip() all_texts.append((file_name, text)) return all_texts ``` 此部分实现了从本地磁盘上递归查找特定扩展名的文件，并调用相应函数获取它们的内容。 #### 统计词频对于每一份报告，在完成了初步的数据净化之后就可以计算其中各个词语出现次数了。这里推荐使用Python内置的`collections.Counter`类来进行高效统计操作。 ```python def calculate_word_frequency(documents): total_counter = Counter() individual_counters = {} for doc_id, raw_content in documents: processed_words = preprocess_text(raw_content) counter = Counter(processed_words) total_counter.update(counter) individual_counters[doc_id] = dict(counter.most_common()) return total_counter, individual_counters ``` 该函数接收一组文档作为输入参数，返回整体词汇频率分布以及单份文档内的独立结果集。 #### 可视化展示最后还可以考虑将最终得到的结果绘制成柱状图或者词云等形式以便于观察理解趋势变化情况。 ```python from wordcloud import WordCloud import matplotlib.pyplot as plt def generate_word_cloud(word_freq_dict): wc = WordCloud(width=800, height=400, background_color="white").generate_from_frequencies(word_freq_dict) plt.figure(figsize=(10, 5)) plt.imshow(wc, interpolation='bilinear') plt.axis("off") plt.show() ``` 以上就是整个流程的一个简单概述。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇能用纯Python手动实现最小二乘法拟合热敏电阻的R-t关系吗？需要代码能算出yax+b并画图。

目录

怎么用Python自动化处理几十份上市公司年报并统计关键词出现频率？

Python内容推荐

上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例

基于python的上市公司年报分析（pdf转txt，停用词过滤，关键词分析，文本分析）

python实现统计文本中单词出现的频率详解

基于Python的金融报告文本挖掘与自动化分析工具_年度报告下载与关键词频率统计系统_用于自动化处理上市公司年度报告通过读取Excel文件中的公司证券代码自动从网络获取对应年度.zip

python jieba分词并统计词频后输出结果到Excel和txt文档方法

python实现TF-IDF算法提取关键词

python TF-IDF算法实现文本关键词提取

python统计文本字符串里单词出现频率的方法

Python-利用Python实现中文文本关键词抽取分别采用TFIDFTextRankWord2Vec词聚类三种方法

基于 python的NLP应用于聊天信息 包括频率统计，关键词提取和文本聚类（kmeans、LDA）

python关键词共现与社会网络分析.zip

Python实现统计英文文章词频的方法分析

python实现简单中文词频统计示例

Python-pke是一个基于python的开源关键词Keyphrase提取工具包

Python 结巴分词实现关键词抽取分析

基于Python词云分析政府工作报告关键词

RAKE关键词提取python代码

用Python数据分析方法进行汉字声调频率统计分析.pdf

python 文本单词提取和词频统计的实例

python实现关键词提取的示例讲解

PyPI 官网下载 | mlpack3-3.4.2-cp36-cp36m-manylinux1_x86_64.whl

实现基于C++或者python基本库，初学学习之用.zip

机器学习的一些基础算法，主要使用Python、Cpp、Matlab编写。.zip

jenkins-conf:Jenkins的配置文件

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

基于 python的NLP应用于聊天信息包括频率统计，关键词提取和文本聚类（kmeans、LDA）