怎么用 Python 自动抓小说、数人物出场次数，再做成好看的中文词云图？

以下是使用 Python 从网络爬取小说，统计人物出场词频并展示前 10 个人物姓名词云的详细步骤和代码示例。 ### 爬取小说可以使用`requests`库发送 HTTP 请求获取小说网页内容，再用`BeautifulSoup`库解析 HTML 内容，提取小说文本。示例代码如下： ```python import requests from bs4 import BeautifulSoup # 小说网页的 URL url = 'https://example.com/novel' # 替换为实际的小说网页 URL response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 假设小说内容在 <div class="novel-content"> 标签内 novel_content = soup.find('div', class_='novel-content').get_text() ``` ### 人物出场词频统计使用`jieba`库进行中文分词，并结合自定义的人物名单，统计人物出场次数。示例代码如下： ```python import jieba # 假设已经有一个人物名单 characters = ['贾宝玉', '林黛玉', '薛宝钗'] # 替换为实际的人物名单 # 分词 words = jieba.lcut(novel_content) # 统计人物出场次数 character_count = {} for word in words: if word in characters: if word in character_count: character_count[word] += 1 else: character_count[word] = 1 # 按出场次数排序 sorted_characters = sorted(character_count.items(), key=lambda x: x[1], reverse=True) top_10_characters = sorted_characters[:10] ``` ### 生成词云使用`wordcloud`库生成前 10 个人物姓名的词云。示例代码如下： ```python from wordcloud import WordCloud import matplotlib.pyplot as plt # 提取前 10 个人物姓名和出场次数 character_names = [name for name, count in top_10_characters] character_frequencies = {name: count for name, count in top_10_characters} # 生成词云 wordcloud = WordCloud(font_path='simhei.ttf', background_color='white').generate_from_frequencies(character_frequencies) # 显示词云 plt.figure(figsize=(8, 8)) plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show() ``` ### 完整代码 ```python import requests from bs4 import BeautifulSoup import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt # 爬取小说 url = 'https://example.com/novel' # 替换为实际的小说网页 URL response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') novel_content = soup.find('div', class_='novel-content').get_text() # 人物出场词频统计 characters = ['贾宝玉', '林黛玉', '薛宝钗'] # 替换为实际的人物名单 words = jieba.lcut(novel_content) character_count = {} for word in words: if word in characters: if word in character_count: character_count[word] += 1 else: character_count[word] = 1 sorted_characters = sorted(character_count.items(), key=lambda x: x[1], reverse=True) top_10_characters = sorted_characters[:10] # 生成词云 character_names = [name for name, count in top_10_characters] character_frequencies = {name: count for name, count in top_10_characters} wordcloud = WordCloud(font_path='simhei.ttf', background_color='white').generate_from_frequencies(character_frequencies) # 显示词云 plt.figure(figsize=(8, 8)) plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show() ``` ### 注意事项 - 要将`https://example.com/novel`替换为实际的小说网页 URL。 - 需将`['贾宝玉', '林黛玉', '薛宝钗']`替换为实际的人物名单。 - 要确保系统中安装了`simhei.ttf`字体，或者将`font_path`替换为系统中存在的中文字体文件路径。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇这个Python脚本是如何用Armijo线搜索实现Rosenbrock函数的梯度下降优化并可视化收敛过程的？

目录

怎么用 Python 自动抓小说、数人物出场次数，再做成好看的中文词云图？

Python内容推荐

用Python生成词云图.pdf

Python统计西游记主要人物出场次数（使用jieba分词）.zip

用Python做中文分词和绘制词云图

python 程序 生成词云图

Python制作词云图代码

Python 实例 - 生成词云图 Python源码

词云绘制??_python词云绘制_

python制作词云图(教师节祝福语)

Python 自定义词云图颜色 Python源码

python 词云图

python绘图代码词云图

Python生成词云图.pdf

数据分析和图标-自行构造词云图中中文停用词-Python源码示例.zip

python词云图Python Web 爬虫，爬豆瓣影评，生成词云，再将词云生成图片.zip

使用python制作词云图.py

Python 制作酷炫词云图 Python源码

Python 按图片轮廓绘制词云图 Python源码

python编程pyecharts数据可视化源码模板折线图柱状图词云图全套

利用python制作词云图片

生成词云图源码 Python

数据可视化之利用Python制作词云图

python 实现识别图片上的数字

用Python制作自己想要的词云图吧！

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

Java线程池运行时状态怎么实时掌握？有哪些靠谱的监控手段？

桌面工具软件项目效益评估及市场预测分析

python 程序生成词云图