TF-IDF实战：用Python从《红楼梦》中提取关键词（附完整代码）

# 用Python从《红楼梦》中挖掘人物关系：TF-IDF算法实战解析《红楼梦》作为中国古典文学的巅峰之作，其复杂的人物关系和精妙的语言艺术一直是研究者关注的焦点。传统文学分析方法往往依赖人工阅读和主观判断，而现代文本挖掘技术为我们提供了全新的研究视角。本文将带你用Python实现TF-IDF算法，从这部巨著中自动提取关键人物和关系特征。 ## 1. 环境准备与数据预处理在开始分析之前，我们需要搭建合适的工作环境。推荐使用Anaconda创建独立的Python环境，避免依赖冲突： ```bash conda create -n hongloumeng python=3.8 conda activate hongloumeng pip install jieba pandas scikit-learn ``` 《红楼梦》文本可以从古腾堡计划等公开资源获取，建议使用120回完整版本。为了提高分词准确性，我们需要准备两个关键资源文件： 1. **自定义词典**：包含《红楼梦》特有的人物名称和专有名词 2. **停用词表**：过滤掉"的"、"了"等无实际意义的常用词 ```python # 示例自定义词典内容（红楼梦词库.txt）贾宝玉 10 nr 林黛玉 10 nr 薛宝钗 10 nr 王熙凤 10 nr 大观园 10 ns ... ``` ## 2. 文本分词与清洗中文文本分析的第一步是将连续的文字分割成有意义的词语。我们使用jieba库进行分词，并结合自定义词典提高人名识别的准确率： ```python import jieba import pandas as pd # 加载自定义词典 jieba.load_userdict('红楼梦词库.txt') # 读取停用词表 stopwords = pd.read_csv('StopwordsCN.txt', header=None, names=['word']) def preprocess_text(text): # 分词 words = jieba.cut(text) # 过滤停用词和单字 filtered = [w for w in words if w not in stopwords.word.values and len(w) > 1] return ' '.join(filtered) # 示例应用 sample_text = "贾宝玉见了林黛玉，心中不觉欢喜起来。" print(preprocess_text(sample_text)) # 输出: 贾宝玉见林黛玉心中不觉欢喜起来 ``` 在实际应用中，我们需要将整部《红楼梦》按章节或回目分割后统一处理，建立文档集合（corpus）。这种分章节处理的方式可以让我们后续分析人物关系随情节发展的变化。 ## 3. TF-IDF算法原理与实现 TF-IDF（词频-逆文档频率）是评估词语在文档集合中重要程度的经典算法。它由两部分组成： - **词频(TF)**：词语在当前文档中出现的频率 - **逆文档频率(IDF)**：衡量词语在整个文档集合中的稀有程度计算公式如下： ``` TF(t,d) = (词t在文档d中出现的次数) / (文档d中所有词的总数) IDF(t) = log(文档总数 / (包含词t的文档数 + 1)) TF-IDF(t,d) = TF(t,d) * IDF(t) ``` 使用scikit-learn可以方便地计算TF-IDF： ```python from sklearn.feature_extraction.text import TfidfVectorizer # 示例文档集合 documents = [ "贾宝玉林黛玉薛宝钗", "贾宝玉王熙凤贾母", "林黛玉薛宝钗史湘云" ] vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(documents) # 查看特征词 print(vectorizer.get_feature_names_out()) # 输出: ['贾宝玉' '贾母' '林黛玉' '王熙凤' '史湘云' '薛宝钗'] # 查看第一个文档的TF-IDF向量 print(tfidf_matrix[0].toarray()) ``` ## 4. 《红楼梦》人物关系网络分析通过TF-IDF值，我们可以识别各章节的关键人物。更有趣的是，我们可以构建人物共现网络来分析角色关系： ```python import networkx as nx import matplotlib.pyplot as plt # 统计人物共现次数 co_occurrence = {} for doc in processed_chapters: characters = [w for w in doc.split() if w in main_characters] for i in range(len(characters)): for j in range(i+1, len(characters)): pair = tuple(sorted([characters[i], characters[j]])) co_occurrence[pair] = co_occurrence.get(pair, 0) + 1 # 创建关系图 G = nx.Graph() for pair, count in co_occurrence.items(): if count > 5: # 只显示显著关系 G.add_edge(pair[0], pair[1], weight=count) # 绘制网络图 plt.figure(figsize=(12, 12)) pos = nx.spring_layout(G) nx.draw_networkx_nodes(G, pos, node_size=500) nx.draw_networkx_edges(G, pos, width=[d['weight']*0.1 for (u,v,d) in G.edges(data=True)]) nx.draw_networkx_labels(G, pos, font_size=10) plt.axis('off') plt.show() ``` 这种可视化可以直观展示《红楼梦》中复杂的人物关系网络，中心节点往往是贾宝玉、王熙凤等核心人物，而边缘节点可能是次要角色。 ## 5. 情节发展与人物重要性演变将各章节的TF-IDF值按时间序列排列，可以观察主要人物在全书中的重要性变化： ```python # 计算各章节人物TF-IDF值 character_scores = {} for i, chapter in enumerate(processed_chapters): tfidf_scores = tfidf_matrix[i].toarray()[0] features = vectorizer.get_feature_names_out() for char in main_characters: if char in features: idx = list(features).index(char) character_scores.setdefault(char, []).append(tfidf_scores[idx]) else: character_scores.setdefault(char, []).append(0) # 绘制趋势图 plt.figure(figsize=(15, 8)) for char in ['贾宝玉', '林黛玉', '薛宝钗', '王熙凤']: plt.plot(character_scores[char], label=char) plt.xlabel('章节') plt.ylabel('TF-IDF值') plt.legend() plt.show() ``` 这种分析可以揭示许多有趣的模式，比如林黛玉在后半部分的重要性逐渐下降，而薛宝钗的权重则相对上升，这与小说的情节发展高度吻合。 ## 6. 进阶技巧与优化建议在实际应用中，我们可以通过以下方法提升分析质量： 1. **动态窗口分析**：使用滑动窗口计算TF-IDF，捕捉更细腻的变化 ```python window_size = 5 moving_scores = {} for char in main_characters: moving_scores[char] = [sum(character_scores[char][i:i+window_size])/window_size for i in range(len(character_scores[char])-window_size+1)] ``` 2. **情感分析结合**：将TF-IDF与情感词典结合，分析人物情感倾向 ```python from snownlp import SnowNLP def get_sentiment(text): return SnowNLP(text).sentiments character_sentiment = {} for char in main_characters: char_texts = [' '.join([w for w in doc.split() if w == char]) for doc in processed_chapters] character_sentiment[char] = [get_sentiment(text) for text in char_texts] ``` 3. **主题模型补充**：使用LDA等主题模型与TF-IDF结果相互验证 ```python from sklearn.decomposition import LatentDirichletAllocation lda = LatentDirichletAllocation(n_components=10) lda.fit(tfidf_matrix) ``` 在处理《红楼梦》这类古典文本时，需要特别注意： - 古今词义差异（如"可怜"在古代表示可爱） - 诗词歌赋的特殊语言结构 - 人物别名的统一处理（如"颦儿"指代林黛玉）通过本项目的实践，我们不仅掌握了TF-IDF算法的实际应用，还发现了许多传统阅读难以察觉的文本模式。这种量化分析方法为文学研究提供了全新的视角和工具。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 DBC文件逆向工程：如何用Python解析CAN通信矩阵并自动生成文档？

目录

TF-IDF实战：用Python从《红楼梦》中提取关键词（附完整代码）

Python内容推荐

基于Python的红楼梦文本分析.zip

机器学习红楼梦Python代码

Desktop_pythonjieba_

基于遗传算法优化TCN-LSTM开发预测研究（Python代码实现）

【锂电池SOC估计】PyTorch基于Basisformer时间序列锂离子电池SOC预测研究（python代码实现）

机械学习-TF-IDF实战-红楼梦数据处理

TF-IDF详解与应用[代码]

redDreamDigging:对红楼梦文本进行挖掘，实现字，章的统计，实现章节聚类

文本分析1

人工智能-项目实践-信息检索-红楼梦对话检索及说话人预测系统，基于红楼梦中的人物对话数据，预测给定话语的说话人

政府科技管理者如何利用科创数智大脑提升产业政策精准匹配效率？.docx

三相逆变器PQ控制模型仿真研究（simulink仿真实现）

实证分析-地市环境规制综合指数测算-原始数据+do代码（2011-2024年）.txt

Java 深度学习框架 Omega-AI 源码（支持自动求导 / GPU 加速）

科技中介服务机构如何借助产业数智大脑实现服务精准化与价值变现？.docx

凝胶卡离心机，全球前19强生产商排名及市场份额（by QYResearch）.pdf

国央企创新负责人如何通过区域科技创新数智大脑实现跨区域资源整合？.docx

政府科技管理者在推动区域科技创新时，如何精准识别产业关键节点和薄弱环节？.docx

科技中介服务机构在服务企业时，如何利用产业大脑实现供需精准对接与资源高效匹配？.docx

傅立叶变换红外光谱分析软件

VS2022配置OpenCV[源码]

opencv4.7.0用VS2022编译的debug和release库

OpenCV源码阅读教程[项目代码]

编译GPU加速OpenCV[可运行源码]

OpenCV4.8+CUDA编译教程[源码]

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构