给出一个完整的Python程序用以爬取番茄小说的小说内容

### 完整的Python程序用于爬取番茄小说的内容以下是一个完整的 Python 程序，旨在从类似于番茄小说这样的网站中抓取数据。此脚本涵盖了 URL 构建、HTML 解析以及数据存储等功能模块。 #### 1. 导入库首先导入必要的库以支持 HTTP 请求和 HTML 解析功能[^2]。 ```python import requests from bs4 import BeautifulSoup import time import random ``` #### 2. 设置基础变量定义目标站点的基础URL以及其他配置参数，例如 User-Agent 头部信息等[^3]。 ```python base_url = "https://www.tomatonovel.com" type_links = [f"{base_url}/list/{i}-1.html" for i in range(1, 9)] # 假设共有8种类别 headers = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36' } output_file = "./novels_data.txt" ``` #### 3. 获取单页上的所有书籍链接编写函数用来访问指定类型的第一页，并返回该类别下的所有书目链接列表[^4]。 ```python def get_books_from_page(page_link): books = [] try: res = requests.get(page_link, headers=headers) soup = BeautifulSoup(res.content.decode(), 'lxml') book_list_tag = soup.select('.book-list .item') # 替换为实际匹配的选择器 for item in book_list_tag: link = base_url + item.a['href'] name = item.img['alt'] or '' author = item.span.string.strip() books.append({ 'name': name, 'author': author, 'link': link }) except Exception as e: print(f"Error occurred while fetching {page_link}: ", str(e)) finally: return books ``` #### 4. 抓取具体一本书籍详情对于每一本书，进入其主页获取更详细的资料，包括简介、状态和其他相关信息[^5]。 ```python def fetch_book_details(book_info): details = {} try: detail_res = requests.get(book_info["link"], headers=headers) detail_soup = BeautifulSoup(detail_res.content.decode(), 'lxml') intro = detail_soup.find('meta', property="og:description")['content'].strip() status = detail_soup.select_one('#info p:nth-of-type(2)').text.split(":")[1].strip() details.update({ 'introduction': intro, 'status': status }) except Exception as ex: print("Failed to load detailed info:", str(ex)) return dict(**book_info, **details) ``` #### 5. 主循环逻辑遍历所有的分类链接，逐个调用前面定义好的辅助方法完成最终的数据采集工作[^6]。 ```python all_novels = [] for category_index, cat_link in enumerate(type_links): novels_in_cat = get_books_from_page(cat_link) enriched_novels = list(map(fetch_book_details, novels_in_cat)) all_novels.extend(enriched_novels) sleep_time = round(random.uniform(1, 3), 2) print(f"Crawled Category #{category_index+1}, sleeping for {sleep_time} seconds...") time.sleep(sleep_time) ``` #### 6. 输出结果至文件最后将收集到的所有小说记录保存成易于阅读的形式输出到外部文本文件当中去[^7]。 ```python with open(output_file, 'a+', encoding='utf-8') as out_f: for novel_entry in all_novels: line = "\t".join([str(v).replace("\n", "") for v in novel_entry.values()]) out_f.write(line + '\n') print("Data successfully written into file.") ``` --- ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 yolov5 opencv 实现车辆检查

目录

给出一个完整的Python程序用以爬取番茄小说的小说内容

Python内容推荐

番茄小说txt免费下载python永久更新

Python爬取小说网站的小说

python爬取小说实例（仅供参考）

Python爬取番茄小说[代码]

python爬虫-番茄小说下载的Python实现

Python爬虫-笔趣阁小说爬虫-自动爬取小说

Python爬取小说源代码，Python实现小说自由

python爬虫爬取小说（供学习使用）

python爬虫自动爬取多本小说新手练习源代码

python爬虫-某点小说爬取

Python爬取顶点小说教程[代码]

Python 《逆鳞》小说爬取程序

Python爬取起点小说[代码]

scrapy框架爬取小说网的数据的python源码

【python网络爬虫】-爬取小说

Python实现的番茄网小说下载器源代码，利用requests库采集和parsel库进行解析，然后用用tkinter做了UI

Python爬取小说并保存[源码]

python 爬取网络小说

Python爬取网络小说[代码]

python爬取微博图片及内容

python批量截取视频某一帧图片可控制图片大小

Python视频编辑库MoviePy的使用

moviepy：使用Python进行视频编辑

python+ffmpeg批量去视频开头的方法

python进行视频字幕视频和合成

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构