Python爬虫实战:用DrissionPage轻松搞定X音视频评论采集(附完整代码)

# 用DrissionPage构建高稳定性的社交媒体数据采集器:以音视频评论为例 最近在帮一个做内容分析的朋友处理数据需求,他需要持续追踪某个热门话题下的用户反馈,但手动收集不仅效率低下,还容易遗漏关键信息。这让我重新审视了Python生态中的网页自动化工具——除了老牌的Selenium和轻量的Requests,还有一个相对低调但实力不俗的选择:DrissionPage。 如果你也在寻找一个既能处理动态加载内容,又不需要复杂浏览器驱动管理的方案,那么今天分享的这套思路或许能给你带来一些启发。我们不会照搬任何现成的教程,而是从实际工程角度出发,探讨如何构建一个**健壮、可维护、适应性强**的数据采集器。目标读者是那些已经熟悉Python基础语法,但在处理复杂网页交互时感到棘手的开发者。 ## 1. 为什么选择DrissionPage?重新定义自动化工具选型 当我们需要从现代社交媒体平台采集数据时,面临的第一个挑战往往是工具链的选择。传统的`Requests`库简单直接,但对于大量依赖JavaScript渲染的页面束手无策;`Selenium`功能强大,但需要匹配特定版本的浏览器驱动,环境配置常常让人头疼。而`Playwright`或`Puppeteer`虽然现代,但学习曲线相对陡峭。 **DrissionPage** 在这中间找到了一个巧妙的平衡点。它底层基于`requests-html`和`undetected-chromedriver`,但通过精心设计的API将这些能力封装得更加友好。我最欣赏它的几个特点: * **无驱动依赖**:你不需要单独下载ChromeDriver或GeckoDriver,DrissionPage会自动处理浏览器启动问题。 * **混合模式**:可以在同一个会话中无缝切换“请求模式”(类似Requests)和“浏览器模式”(类似Selenium),根据页面特性选择最高效的访问方式。 * **智能等待与元素定位**:内置了多种等待策略和灵活的元素选择器,减少了编写冗余等待代码的需要。 * **网络监听能力**:这是采集动态加载数据的利器,可以直接拦截和分析XHR/Fetch请求,获取原始JSON数据。 下面这个简单的对比表,可以帮助你快速理解不同工具在数据采集场景下的定位: | 特性维度 | Requests | Selenium | Playwright | **DrissionPage** | | :--- | :--- | :--- | :--- | :--- | | **JavaScript支持** | 不支持 | 完全支持 | 完全支持 | 完全支持 | | **驱动/环境配置** | 无需 | 复杂,需版本匹配 | 自动安装,较简单 | **无需,自动管理** | | **执行速度** | **极快** | 慢 | 中等 | 中等偏快 | | **API简洁度** | 简单 | 较复杂 | 较复杂 | **简洁直观** | | **网络请求监听** | 不支持 | 需插件或复杂配置 | 支持 | **原生支持,API简单** | | **适用场景** | 静态页面、API调用 | 复杂交互、E2E测试 | 复杂交互、跨浏览器测试 | **动态页面数据采集、轻量自动化** | > 提示:工具选型没有绝对的好坏,只有是否适合当前场景。对于需要高频采集、页面交互逻辑复杂的社交媒体数据,DrissionPage的“开箱即用”和“混合模式”特性往往能显著降低开发和维护成本。 ## 2. 实战核心:逆向分析与数据包监听策略 直接模拟点击和滚动来获取评论,是最直观的方法,但往往也是最脆弱的。页面UI的任何微小改动都可能导致你的定位器失效。更高级、更稳定的做法是**理解数据是如何被加载的**,然后直接从源头获取。 现代Web应用(包括各大社交媒体平台)普遍采用前后端分离架构。你在页面上看到的评论列表,通常不是直接写在HTML里的,而是浏览器执行JavaScript后,通过Ajax(XHR/Fetch)请求从服务器获取JSON数据,再动态渲染到页面上的。我们的目标就是找到并模拟这个请求。 ### 2.1 开启开发者工具,定位关键请求 1. **打开目标页面**:在Chrome或Edge浏览器中,打开一个包含评论的音视频页面。 2. **进入Network面板**:按 `F12` 打开开发者工具,切换到 `Network`(网络)选项卡。 3. **筛选XHR/Fetch请求**:在筛选器中选择 `XHR` 或 `Fetch`。清除当前记录,然后触发评论加载(如点击“展开评论”或向下滚动)。 4. **寻找评论数据请求**:观察新出现的请求,重点关注请求URL中包含 `comment`、`list`、`api` 等关键词的条目。点击该请求,查看其 `Preview`(预览)或 `Response`(响应)标签页,确认里面是否包含结构化的评论数据(通常是JSON格式)。 你会发现,请求的URL可能像这样:`https://www.example.com/api/comment/list/?aweme_id=...&cursor=...`。其中 `aweme_id` 是视频的唯一标识,`cursor` 是分页游标。这就是我们的“数据接口”。 ### 2.2 使用DrissionPage监听并获取数据 DrissionPage的 `listen` 模块让拦截这类请求变得异常简单。我们不需要去手动解析和复制复杂的请求头、Cookie,只需要告诉它监听包含特定关键词的URL即可。 ```python from DrissionPage import ChromiumPage # 创建页面对象 page = ChromiumPage() # 开始监听所有URL中包含 'comment/list' 的请求 page.listen.start('comment/list/') # 访问目标页面 page.get('https://www.douyin.com/video/your_video_id') # 等待并获取第一个匹配的响应 response = page.listen.wait() # 响应体通常已经是解析好的JSON data = response.response.body print(data.keys()) # 查看数据结构 ``` 这段代码的精髓在于 `page.listen.wait()`,它会阻塞程序,直到监听到符合条件的请求并完成响应。获取到的 `data` 就是最原始的API返回数据,比从HTML中解析要干净、可靠得多。 ## 3. 构建健壮的采集器:工程化思维与代码设计 掌握了核心的数据获取方法后,我们需要用工程化的思维来搭建整个采集流程。一个好的采集脚本应该具备错误处理、日志记录、数据持久化和一定的反反爬虫能力。 ### 3.1 项目结构与配置管理 不建议将所有代码都写在一个文件里。一个清晰的结构有助于长期维护: ``` douyin_comment_crawler/ ├── config.py # 配置文件,存放URL模板、关键词、请求头等 ├── crawler.py # 核心爬虫逻辑 ├── storage.py # 数据存储相关(文件、数据库) ├── utils.py # 工具函数(日志、请求重试等) └── main.py # 主程序入口 ``` 在 `config.py` 中,我们可以定义一些常量: ```python # config.py class Config: # 目标视频ID列表 TARGET_AWEME_IDS = [ '7467513490379509043', # ... 其他视频ID ] # 监听URL的关键词 LISTEN_KEYWORD = 'comment/list/' # 请求头(可模拟更真实的浏览器) HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...', } # 数据存储路径 OUTPUT_DIR = './data' ``` ### 3.2 核心采集类实现 在 `crawler.py` 中,我们实现一个 `CommentCrawler` 类,封装所有采集逻辑。 ```python # crawler.py import time import logging from DrissionPage import ChromiumPage, SessionPage from typing import Optional, Dict, List from dataclasses import dataclass from config import Config @dataclass class Comment: """评论数据类""" nickname: str ip_location: str content: str create_time: int aweme_id: str class CommentCrawler: def __init__(self, headless: bool = True): """ 初始化爬虫 :param headless: 是否使用无头模式(不显示浏览器界面) """ self.page = ChromiumPage(headless=headless) self.page.set.user_agent(Config.HEADERS.get('User-Agent')) self.logger = logging.getLogger(__name__) # 启动监听 self.page.listen.start(Config.LISTEN_KEYWORD) def fetch_comments_by_aweme_id(self, aweme_id: str, max_pages: int = 10) -> List[Comment]: """ 根据视频ID获取评论 :param aweme_id: 视频唯一ID :param max_pages: 最大尝试翻页次数 :return: 评论对象列表 """ comments = [] url = f"https://www.douyin.com/video/{aweme_id}" self.logger.info(f"开始采集视频 {aweme_id} 的评论,URL: {url}") try: self.page.get(url) # 等待页面基本加载,可以尝试点击“展开评论”按钮(如果存在) # 这里使用更稳健的定位方式,避免CSS选择器因UI更新失效 comment_btn = self.page.ele('@class=comment-btn or @class=展开评论 or text()=展开评论', timeout=5) if comment_btn: comment_btn.click() time.sleep(1) for page_num in range(1, max_pages + 1): self.logger.debug(f"正在获取第 {page_num} 页评论...") # 等待并获取评论数据包 resp = self.page.listen.wait(timeout=15) if not resp: self.logger.warning(f"第 {page_num} 页未监听到评论数据,可能已加载完毕或超时。") break data = resp.response.body # 解析当前页评论 page_comments = self._parse_comment_data(data, aweme_id) comments.extend(page_comments) self.logger.info(f"第 {page_num} 页获取到 {len(page_comments)} 条评论。") # 判断是否还有更多评论(根据返回数据中的 has_more, cursor 等字段) if not data.get('has_more', False): self.logger.info("所有评论已加载完毕。") break # 触发下一页加载:模拟滚动或点击“加载更多” # 方法1:滚动到页面底部特定元素 # load_more_ele = self.page.ele('text()=加载更多 or @class=load-more', timeout=3) # if load_more_ele: # self.page.scroll.to_see(load_more_ele) # load_more_ele.click() # 方法2:直接执行JS滚动(更通用) self.page.run_js('window.scrollTo(0, document.body.scrollHeight);') time.sleep(2) # 等待新内容加载 except Exception as e: self.logger.error(f"采集视频 {aweme_id} 评论时发生错误: {e}", exc_info=True) finally: return comments def _parse_comment_data(self, raw_data: Dict, aweme_id: str) -> List[Comment]: """解析原始API返回的评论数据""" comment_list = [] try: # 不同平台API结构不同,这里是示例,需要根据实际响应调整 comments = raw_data.get('comments', []) for item in comments: comment = Comment( nickname=item.get('user', {}).get('nickname', ''), ip_location=item.get('ip_label', '未知'), content=item.get('text', ''), create_time=item.get('create_time', 0), aweme_id=aweme_id ) comment_list.append(comment) except KeyError as e: self.logger.error(f"解析评论数据时键错误: {e},原始数据: {raw_data}") return comment_list def close(self): """关闭浏览器,释放资源""" self.page.quit() ``` 这个类的设计有几个关键点: 1. **使用数据类**:`Comment` 数据类让数据结构更清晰,便于后续处理和存储。 2. **分离解析逻辑**:`_parse_comment_data` 方法独立出来,方便适配不同平台或API变更。 3. **健壮的错误处理**:使用 `try...except` 捕获异常并记录日志,避免因单条数据解析失败导致整个任务崩溃。 4. **灵活的翻页控制**:通过判断API返回的 `has_more` 字段(名称可能不同)来控制循环,比盲目滚动或点击更可靠。 ### 3.3 数据存储与持久化 将数据保存到文件或数据库是必不可少的环节。在 `storage.py` 中,我们可以提供多种存储方式。 ```python # storage.py import csv import json import sqlite3 from datetime import datetime from pathlib import Path from typing import List from crawler import Comment class CommentStorage: def __init__(self, output_dir: str = './data'): self.output_dir = Path(output_dir) self.output_dir.mkdir(parents=True, exist_ok=True) def save_to_csv(self, comments: List[Comment], filename: str = None): """保存评论到CSV文件""" if not filename: timestamp = datetime.now().strftime('%Y%m%d_%H%M%S') filename = f'comments_{timestamp}.csv' filepath = self.output_dir / filename fieldnames = ['nickname', 'ip_location', 'content', 'create_time', 'aweme_id'] with open(filepath, 'w', encoding='utf-8-sig', newline='') as f: # utf-8-sig 解决Excel打开乱码 writer = csv.DictWriter(f, fieldnames=fieldnames) writer.writeheader() for comment in comments: writer.writerow({ 'nickname': comment.nickname, 'ip_location': comment.ip_location, 'content': comment.content, 'create_time': datetime.fromtimestamp(comment.create_time).isoformat() if comment.create_time else '', 'aweme_id': comment.aweme_id }) print(f"数据已保存至: {filepath}") def save_to_json(self, comments: List[Comment], filename: str = None): """保存评论到JSON文件""" if not filename: timestamp = datetime.now().strftime('%Y%m%d_%H%M%S') filename = f'comments_{timestamp}.json' filepath = self.output_dir / filename data = [{ 'nickname': c.nickname, 'ip_location': c.ip_location, 'content': c.content, 'create_time': c.create_time, 'aweme_id': c.aweme_id } for c in comments] with open(filepath, 'w', encoding='utf-8') as f: json.dump(data, f, ensure_ascii=False, indent=2) print(f"数据已保存至: {filepath}") def save_to_sqlite(self, comments: List[Comment], db_name: str = 'comments.db'): """保存评论到SQLite数据库""" db_path = self.output_dir / db_name conn = sqlite3.connect(db_path) cursor = conn.cursor() # 创建表(如果不存在) cursor.execute(''' CREATE TABLE IF NOT EXISTS comments ( id INTEGER PRIMARY KEY AUTOINCREMENT, nickname TEXT, ip_location TEXT, content TEXT, create_time INTEGER, aweme_id TEXT, crawl_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP ) ''') # 插入数据 for comment in comments: cursor.execute(''' INSERT INTO comments (nickname, ip_location, content, create_time, aweme_id) VALUES (?, ?, ?, ?, ?) ''', (comment.nickname, comment.ip_location, comment.content, comment.create_time, comment.aweme_id)) conn.commit() conn.close() print(f"数据已保存至数据库: {db_path}") ``` ## 4. 应对反爬策略与提升采集效率 没有任何一个公开平台会欢迎无节制的爬虫。我们的代码需要保持礼貌,并做好被限制的准备。 ### 4.1 基础反反爬虫措施 * **设置合理的请求间隔**:在翻页或请求间加入随机延时,模拟人类操作。 ```python import random import time def random_delay(min_sec=1, max_sec=3): """随机延时""" time.sleep(random.uniform(min_sec, max_sec)) ``` * **轮换User-Agent**:准备一个User-Agent列表,每次请求随机选择。 * **使用会话(Session)**:DrissionPage的 `SessionPage` 模式可以维持会话状态,在某些场景下比频繁创建新浏览器实例更高效、更不易被识别。 * **处理验证码**:虽然完全自动化解决验证码很困难,但可以设置超时和重试,并在出现验证码时通过日志报警,转为人工处理。 ### 4.2 异步与并发采集 如果需要采集大量视频的评论,串行操作会非常慢。我们可以结合 `asyncio` 和 `aiohttp`(用于API直连)或使用多线程/进程来管理多个 `ChromiumPage` 实例。 > 注意:并发控制需要格外小心。过高的并发请求会迅速触发平台的风控机制,导致IP被封。建议先从较低的并发数(如2-3个任务)开始测试,并确保每个任务都有独立的、隔离的浏览器环境或会话。 一个简单的多线程示例框架: ```python # multi_thread_crawler.py import threading from queue import Queue from crawler import CommentCrawler from config import Config def worker(task_queue: Queue, result_queue: Queue): """工作线程函数""" crawler = CommentCrawler(headless=True) while not task_queue.empty(): try: aweme_id = task_queue.get_nowait() except: break try: comments = crawler.fetch_comments_by_aweme_id(aweme_id) result_queue.put((aweme_id, comments)) finally: task_queue.task_done() crawler.close() def main(): aweme_ids = Config.TARGET_AWEME_IDS task_queue = Queue() for aid in aweme_ids: task_queue.put(aid) result_queue = Queue() threads = [] # 创建3个工作线程 for _ in range(3): t = threading.Thread(target=worker, args=(task_queue, result_queue)) t.start() threads.append(t) # 等待所有任务完成 task_queue.join() # 收集结果 all_results = [] while not result_queue.empty(): all_results.append(result_queue.get()) # ... 处理所有结果 ``` ### 4.3 监控、日志与错误恢复 一个成熟的采集系统需要有“眼睛”和“记忆”。使用Python标准库的 `logging` 模块记录运行状态、错误信息。 ```python # utils.py import logging def setup_logging(log_file='crawler.log'): logging.basicConfig( level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s', handlers=[ logging.FileHandler(log_file, encoding='utf-8'), logging.StreamHandler() # 同时输出到控制台 ] ) ``` 在 `main.py` 中整合所有模块,并加入简单的错误恢复机制,比如记录成功采集的视频ID,下次运行时跳过。 ```python # main.py import logging from config import Config from crawler import CommentCrawler from storage import CommentStorage from utils import setup_logging def main(): setup_logging() logger = logging.getLogger(__name__) storage = CommentStorage(Config.OUTPUT_DIR) all_comments = [] crawler = CommentCrawler(headless=True) # 生产环境建议使用无头模式 try: for aweme_id in Config.TARGET_AWEME_IDS: logger.info(f"=== 开始处理视频: {aweme_id} ===") comments = crawler.fetch_comments_by_aweme_id(aweme_id, max_pages=20) all_comments.extend(comments) logger.info(f"视频 {aweme_id} 处理完成,共获取 {len(comments)} 条评论。") # 每处理完一个视频,可以即时保存一次,防止数据丢失 # storage.save_to_json(comments, f'comments_{aweme_id}.json') except KeyboardInterrupt: logger.info("用户中断采集。") except Exception as e: logger.critical(f"采集过程发生严重错误: {e}", exc_info=True) finally: crawler.close() # 最终保存所有数据 if all_comments: storage.save_to_csv(all_comments) storage.save_to_sqlite(all_comments) logger.info(f"所有数据保存完毕,总计 {len(all_comments)} 条评论。") else: logger.warning("未采集到任何评论数据。") if __name__ == '__main__': main() ``` 最后,记得在实际部署时,将配置中的目标ID、请求头等参数替换成你自己的。运行环境最好使用固定的Python版本(如3.8+),并通过 `requirements.txt` 管理依赖:`DrissionPage>=3.0.0`。这套方案的核心优势在于其**可维护性**和**适应性**。当目标网站的API或页面结构发生变化时,你通常只需要调整 `_parse_comment_data` 方法中的解析逻辑,或者更新 `LISTEN_KEYWORD`,而无需重写整个交互流程。

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

Python内容推荐

网上购物系统前台后台设计

网上购物系统前台后台设计

代码转载自:https://pan.quark.cn/s/6ed33eea69b4 OnlineShoppingSystem 本仓库下存放网上购物系统源代码。 -- OnlineShoppingSystem - 工程目录结构简介 - 其他 -- 工程目录结构简介 其他 以上目录结构只是初步的框架,如需其他类和文件,直接添加到相应文件夹即可。 因为时间紧张,所以实体类设计的可能不够好,如需修改的话自行修改自己负责的部分。

中介效应分析-下载即用.zip

中介效应分析-下载即用.zip

源码下载地址: https://pan.quark.cn/s/63841d5fbb94 在心理学及相关社会科学领域内,众多实证性研究文献构建中介效应模型,旨在探究自变量对因变量产生影响的具体路径和内在运作机制。评估中介效应效果最为广泛应用的策略是Baron与Kenny所提出的逐步分析法,然而该方法近年来持续遭遇批评和质疑,部分学者甚至强烈建议摒弃其中的序列检验步骤,转而采用当前普遍认可度较高的Bootstrap方法进行系数乘积的直接验证。本研究聚焦于相关争议性议题展开深入辨析,并对中介分析中确立因果关系的具体途径进行了探讨。基于最新研究进展,系统归纳出一种中介效应分析的规范化操作流程,并分别针对显变量与潜变量情形,提供了相应的Mplus软件程序示例。文章最后对中介效应模型的演进历程进行了概述。

量子机器学习算法开发解决方案.pptx

量子机器学习算法开发解决方案.pptx

量子机器学习算法开发解决方案.pptx

Notepad- 是使用C++编写的轻量级文本编辑器, 简称ndd, 可以支持Window/Mac/Linux操作系统平台

Notepad- 是使用C++编写的轻量级文本编辑器, 简称ndd, 可以支持Window/Mac/Linux操作系统平台

Notepad-- 是使用C++编写的轻量级文本编辑器, 简称ndd, 可以支持Window/Mac/Linux操作系统平台。

MySQL查询重写规则[源码]

MySQL查询重写规则[源码]

本文详细介绍了MySQL的查询重写规则,包括条件化简、外连接消除和子查询优化。条件化简部分涵盖了移除不必要的括号、常量传递、移除没用的条件、表达式计算和常量表检测。外连接消除部分解释了如何通过空值拒绝条件将外连接转换为内连接以提高查询效率。子查询优化部分则深入探讨了子查询的分类、执行方式以及MySQL对IN子查询的优化策略,如物化表和物化表转连接。这些优化技术帮助MySQL在执行复杂查询时提高性能,减少资源消耗。

chromedriver-linux64-149.0.7827.53(Beta).zip

chromedriver-linux64-149.0.7827.53(Beta).zip

chromedriver-linux64-149.0.7827.53(Beta).zip

Quartus II中文指导

Quartus II中文指导

源码直接下载地址: https://pan.quark.cn/s/a4b39357ea24 基于VHDL语言的24进制多功能数字钟 FPGA多功能数字钟设计 安装要求 本项目采用QuartusII9.0版本设计,非9.0版本打开可能会存在兼容性问题。 本项目选用FPGA器件为CycloneIII_EP3C40Q240C8 设计任务 设计一个24进制多功能数字电子钟,要求具备以下功能: (1)时钟显示:能够以十进制在7段数码管上显示“时”、“分”、“秒”、“十分之一秒”。 (2)校表功能:能够对时钟进行校正。 (3)启动/暂停功能:能够控制时钟的启动和暂停。 (4)一键清零功能:能够将时钟清零。 (5)整点报时功能:能够在整点时发出报时信号。 (6)闹钟功能:能够在设置的时间到达时发出闹钟信号。 顶层设计原理图如下: image 设计方案/设计原理及总体框图 设计实现思路: (1)计时功能。 计时功能主要由四个计数器模块共同构成,其中十分之一秒计时器为十进制计数、分,秒计时器为六十进制计数、小时计时器为二十四进制计数。 计时器之间采用进位信号进行串联。 (2)十进制7端数码管显示功能。 显示功能由译码器模块实现。 译码器模块的两个输入端分别为刷新端和数据端。 七个译码器的刷新端连接十分之一秒的周期脉冲信号。 而数据端连接计数器的输出端,用以将4位输出BCD码译码为7端数码管的七位显示信号。 (3)校表功能。 校表功能由二选一模块和校时模式选择器模块构成。 其中二选一模块用于连接下一级计时器模块的进位信号和手动按钮脉冲信号。 当控制信号为“0”时,二选一模块输出计时器模块的进位信号。 而当控制信号为“1”时,二选一模块输出手动按钮信号。 控制信号由校时模式选择器模块输出,校时模式选择器输出端连...

商用级量子卫星互联网接入解决方案.pptx

商用级量子卫星互联网接入解决方案.pptx

商用级量子卫星互联网接入解决方案.pptx

回文质数解析[代码]

回文质数解析[代码]

本文详细介绍了回文质数的概念及其在编程中的应用。回文质数是指既是素数又是回文数的整数,如151。文章通过洛谷题目P1217为例,讲解了如何在一个范围内找出所有回文质数。具体步骤包括判断素数、判断回文数以及检查位数,以减少计算时间。此外,文章还提供了完整的C语言代码示例,并讨论了主函数的优化方法,如特判2和调整函数调用顺序以提高效率。最后,作者分享了一些优化技巧和注意事项,帮助读者更好地理解和解决类似问题。

C/C++断点调试指南[项目源码]

C/C++断点调试指南[项目源码]

本文详细介绍了C/C++编程中如何使用断点进行调试。文章首先解释了断点的概念及其在程序调试中的重要性,随后提供了断点设置的快捷键(如F9、F10、F11等)及其具体功能说明。此外,文章还介绍了断点的类型(如正常断点和禁用断点)以及设置断点的方法(双击左侧列或使用F9键)。特别提醒读者注意某些语句无法设置断点,如空行或未初始化的基本类型定义语句。最后,文章强调了断点调试的核心目的是逐步执行程序,以便更好地理解程序运行状态和变量值。

生成式AI详解[源码]

生成式AI详解[源码]

本文详细介绍了生成式人工智能(Generative AI)的定义、核心技术原理、应用场景及工具框架。生成式AI能够从现有数据中学习模式并生成全新内容,如文本、图像、音频等。核心技术包括生成对抗网络(GAN)、扩散模型、变换器(Transformer)和大语言模型(LLM)。应用场景涵盖文本生成、图像生成、语音合成、视频生成及多模态任务。文章还提供了典型工具与框架的对比,如Stable Diffusion、Hugging Face和DALL·E 3,并讨论了生成式AI的工作流程、优缺点、伦理挑战及未来发展方向。开发者可根据需求选择合适的技术栈,如LLM用于文本生成,扩散模型用于图像生成,多模态模型用于跨模态任务。

MySQL8开启日志[项目源码]

MySQL8开启日志[项目源码]

本文介绍了如何在MySQL8中开启general_log日志功能。首先需要在配置文件中设置general_log_file参数指定日志文件路径,并确保该文件具有读写权限且所属者正确。然后通过设置general_log = ON来启用日志功能。完成配置后,需要重启MySQL服务以使更改生效。这一功能对于数据库调试和问题排查非常有用。

AI驱动的网络安全态势感知解决方案.pptx

AI驱动的网络安全态势感知解决方案.pptx

AI驱动的网络安全态势感知解决方案.pptx

pip-xgboost-0.4a26.tar.gz.zip

pip-xgboost-0.4a26.tar.gz.zip

pip-xgboost-0.4a26.tar.gz

单片机擦除只读存储器-下载即用.zip

单片机擦除只读存储器-下载即用.zip

源码直接下载地址: https://pan.quark.cn/s/a4b39357ea24 AT89C51是一种具备4K字节可编程及可擦除只读存储器(FPEROM——Flash Programmable and Erasable Read Only Memory)的低功耗、高性能CMOS 8位微处理器,通常被称为单片机。AT89C2051则是一种配备有2K字节可编程及可擦除只读存储器的单片机。单片机的可擦除只读存储器能够进行至少100次的重复擦除操作。该器件运用了ATMEL的高密度非易失存储器制造技术,并且与工业标准的MCS-51指令集及输出端口相兼容。由于将多功能8位CPU和闪存整合在单一芯片之中,ATMEL的AT89C51构成了一种高效微控制器,而AT89C2051则是其精简化的版本。AT89C系列单片机为众多嵌入式控制系统提供了一种兼具高灵活性与低成本的应用方案。单片机的可擦除只读存储器,通常简称为EPROM或在此特别指出的FPEROM(Flash Programmable and Erasable Read Only Memory),是微控制器中不可或缺的组成部分。以AT89C51和AT89C2051为例,这两款单片机均内含这种非易失性存储技术。AT89C51拥有4K字节的闪存,而AT89C2051则含有2K字节,它们均采用了ATMEL的高密度非易失性存储器制造工艺,这确保了即便在断电状态下,存储的数据也能保持不变。这些单片机的设计遵循工业标准的MCS-51指令集,这赋予了它们在硬件和软件兼容性方面的广泛适用性。得益于集成了多功能8位CPU和闪存,它们被视作高效微控制器,尤其适用于嵌入式控制系统。单片机的可擦除只读存储器支持重复擦除和编程操作,AT89C系列...

pip-xgboost-1.0.0.tar.gz.zip

pip-xgboost-1.0.0.tar.gz.zip

pip-xgboost-1.0.0.tar.gz

pip-xgboost-0.82-py2.py3-none-manylinux1_x86_64.whl.zip

pip-xgboost-0.82-py2.py3-none-manylinux1_x86_64.whl.zip

pip-xgboost-0.82-py2.py3-none-manylinux1_x86_64.whl

Springboot毕业设计含文档和代码餐厅点餐系统

Springboot毕业设计含文档和代码餐厅点餐系统

Springboot毕业设计含文档和代码餐厅点餐系统

PDB到Mol结构转换指南[项目代码]

PDB到Mol结构转换指南[项目代码]

本文详细介绍了如何利用PyMOL和Open Babel工具将蛋白质-小分子复合物的PDB文件转换为Mol或SDF格式。文章首先分析了PDB文件的局限性,如信息不完整、电荷缺失和软件兼容性问题,随后提供了工具链选择的建议,并重点介绍了PyMOL和Open Babel的黄金组合。接着,文章给出了分步操作指南,包括如何用PyMOL提取小分子配体、用Open Babel进行格式转换以及验证转换质量。此外,还涵盖了高级问题排查、多组分系统处理和批量处理技巧。最后,通过一个真实案例展示了修正后的文件如何提高DFT计算结果与实验结合能的吻合度。

A character and story-centric AIGC end-to-end creation tool.一款以角.zip

A character and story-centric AIGC end-to-end creation tool.一款以角.zip

全自动AI原生视频生成工作流,集成文生图(LibLib)/图生视频(即梦)/文生音乐(即梦)和AI提示词生成(豆包),一键创作AIGC短视频。generative-ai, text-to-video, image-to-video, text-to-music, aigc,…

最新推荐最新推荐

recommend-type

基于python的百度迁徙迁入、迁出数据爬取(爬虫大数据)(附代码)

本文将介绍如何使用Python进行大数据爬取,特别关注百度迁徙数据的获取。百度迁徙是一个提供人口流动信息的在线平台,它展示了不同城市之间的迁入和迁出情况。通过爬虫技术,我们可以抓取这些数据并进行进一步的分析...
recommend-type

第三关:爬虫库BeautifulSoup – 0入门到进阶(附练习题) | Python爬虫

【标题】: "第三关:爬虫库BeautifulSoup – 0入门到进阶(附练习题) | Python爬虫" 【描述】: "本篇文章旨在介绍Python爬虫库BeautifulSoup的使用,包括从基础到进阶的应用。我们将通过实例讲解BeautifulSoup如何...
recommend-type

Python爬虫100例教程导航帖(已完结)大纲清单.docx

Python爬虫100例教程导航帖(已完结).docx Python爬虫100例教程导航帖(已完结).docx Python爬虫100例教程导航帖(已完结).docx 大纲清单
recommend-type

学生成绩管理系统C++课程设计与实践

资源摘要信息:"学生成绩信息管理系统-C++(1).doc" 1. 系统需求分析与设计 在进行学生成绩信息管理系统开发前,首先需要进行系统需求分析,这是确定系统开发目标与范围的过程。需求分析应包括数据需求和功能需求两个方面。 - 数据需求分析: - 学生成绩信息:需要收集学生的姓名、学号、课程成绩等数据。 - 数据类型和长度:明确每个数据项的数据类型(如字符串、整型等)和长度,例如学号可能是字符串类型且长度为一定值。 - 描述:详细描述每个数据项的意义,以确保系统能够准确处理。 - 功能需求分析: - 列出功能列表:用户界面应提供清晰的操作指引,列出所有可用功能。 - 查询学生成绩:系统应能通过学号或姓名查询学生的成绩信息。 - 增加学生成绩信息:允许用户添加未保存的学生成绩信息。 - 删除学生成绩信息:能够通过学号或姓名删除已经保存的成绩信息。 - 修改学生成绩信息:通过学号或姓名修改已有的成绩记录。 - 退出程序:提供安全退出程序的选项,并确保所有修改都已保存。 2. 系统设计 系统设计阶段主要完成内存数据结构设计、数据文件设计、代码设计、输入输出设计、用户界面设计和处理过程设计。 - 内存数据结构设计: - 使用链表结构组织内存中的数据,便于动态增删查改操作。 - 数据文件设计: - 选择文本文件存储数据,便于查看和编辑。 - 代码设计: - 根据功能需求,编写相应的函数和模块。 - 输入输出设计: - 设计简洁明了的输入输出提示信息和操作流程。 - 用户界面设计: - 用户界面应为字符界面,方便在命令行环境下使用。 - 处理过程设计: - 设计数据处理流程,确保每个操作都有明确的处理逻辑。 3. 系统实现与测试 实现阶段需要根据设计阶段的成果编写程序代码,并进行系统测试。 - 程序编写: - 完成系统设计中所有功能的程序代码编写。 - 系统测试: - 设计测试用例,通过测试用例上机测试系统。 - 记录测试方法和测试结果,确保系统稳定可靠。 4. 设计报告撰写 最后,根据系统开发的各个阶段,撰写详细的设计报告。 - 系统描述:包括问题说明、数据需求和功能需求。 - 系统设计:详细记录内存数据结构设计、数据文件设计、代码设计、输入/输出设计、用户界面设计、处理过程设计。 - 系统测试:包括测试用例描述、测试方法和测试结果。 - 设计特点、不足、收获和体会:反思整个开发过程,总结经验和教训。 时间安排: - 第19周(7月12日至7月16日)完成项目。 - 7月9日8:00到计算机学院实验中心(三楼)提交程序和课程设计报告。 指导教师和系主任(或责任教师)需要在文档上签名确认。 系统需求分析: - 使用表格记录系统需求分析的结果,包括数据项、数据类型、数据长度和描述。 - 分析数据项如学生成绩信息、状态器、链表节点等,确定其属性和行为。 以上就是文档中提到的学生成绩信息管理系统开发的关键知识点。开发此类系统需要熟练掌握C++编程基础,了解面向对象的程序设计思想,以及熟悉文件操作和链表等数据结构的应用。此外,良好的软件开发流程意识、测试意识和文档撰写能力也是必不可少的。
recommend-type

别再手动拖拽了!用Lumerical脚本批量创建FDTD仿真结构(附完整代码)

# 告别低效建模:Lumerical脚本自动化实战指南 在光子学仿真领域,时间就是科研生命线。当同行还在GUI界面里反复点击菜单时,你已经用脚本批量生成了20组参数化结构——这不是未来场景,而是每位FDTD用户都应该掌握的基础生产力革命。本文将彻底改变你与Lumerical的交互方式,从手动拖拽的农耕时代,跃迁到自动化建模的工业文明。 ## 1. 为何脚本建模是必然选择 2019年Nature Photonics的一项研究显示,科研工作者在仿真工具上平均浪费37%的时间在重复性操作上。对于需要参数扫描的纳米光学结构设计,这个数字可能更高。手动创建10个不同尺寸的纳米柱阵列意味着: -
recommend-type

Java邮件解析任务中,如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常?

<think>我们被要求优化一段Java代码,该代码用于处理邮件(特别是来自特定发件人的构建通知邮件)。代码的主要问题包括: 1. 重复获取邮件内容:在检查MIME类型后,多次调用`msg[i].getContent()`,这可能导致性能问题或流关闭异常。 2. 类型转换问题:直接将邮件内容转换为`Multipart`而不进行类型检查,可能引发`ClassCastException`。 3. 代码结构问题:逻辑嵌套过深,可读性差,且存在重复代码(如插入邮件详情的操作在两个地方都有)。 4. 硬编码和魔法值:例如在解析HTML表格时使用了硬编码的索引(如list3.get(10)),这容易因邮件
recommend-type

RH公司应收账款管理优化策略研究

资源摘要信息:"本文针对RH公司的应收账款管理问题进行了深入研究,并提出了改进策略。文章首先分析了应收账款在企业管理中的重要性,指出其对于提高企业竞争力、扩大销售和充分利用生产能力的作用。然后,以RH公司为例,探讨了公司应收账款管理的现状,并识别出合同管理、客户信用调查等方面的不足。在此基础上,文章提出了一系列改善措施,包括完善信用政策、改进业务流程、加强信用调查和提高账款回收力度。特别强调了建立专门的应收账款回收部门和流程的重要性,并建议在实际应用过程中进行持续优化。同时,文章也意识到企业面临复杂多变的内外部环境,因此提出的策略需要根据具体情况调整和优化。 针对财务管理领域的专业学生和从业者,本文提供了一个关于应收账款管理问题的案例研究,具有实际指导意义。文章还探讨了信用管理和征信体系在应收账款管理中的作用,强调了它们对于提升企业信用风险控制和市场竞争能力的重要性。通过对比国内外企业在应收账款管理上的差异,文章总结了适合中国企业实际环境的应收账款管理方法和策略。" 根据提供的文件内容,以下是详细的知识点: 1. 应收账款管理的重要性:应收账款作为企业的一项重要资产,其有效管理关系到企业的现金流、财务健康以及市场竞争力。不良的应收账款管理会导致资金链断裂、坏账损失增加等问题,严重影响企业的正常运营和长远发展。 2. 应收账款的信用风险:在信用交易日益频繁的商业环境中,企业必须对客户信用进行评估,以便采取合理的信用政策,降低信用风险。 3. 合同管理的薄弱环节:合同是应收账款管理的法律基础,严格的合同管理能够保障企业权益,减少因合同问题导致的应收账款风险。 4. 客户信用调查:了解客户的信用状况对于预测和控制应收账款风险至关重要。企业需要建立有效的客户信用调查机制,识别和筛选信用良好的客户。 5. 应收账款回收策略:企业应建立有效的账款回收机制,包括定期的账款跟进、逾期账款的催收等。同时,建立专门的应收账款回收部门可以提升回收效率。 6. 应收账款管理流程优化:通过改进企业内部管理流程,如简化审批流程、提高工作效率等措施,能够提升应收账款的管理效率。 7. 应收账款管理策略的调整和优化:由于企业的内外部环境复杂多变,因此制定的管理策略需要根据实际情况进行动态调整和持续优化。 8. 信用管理和征信体系的作用:建立和完善企业内部信用管理体系和征信体系,有助于企业更好地控制信用风险,并在市场竞争中占据有利地位。 9. 对比国内外应收账款管理实践:通过研究国内外企业在应收账款管理上的不同做法和经验,可以借鉴先进的管理理念和方法,提升国内企业的应收账款管理水平。 综上所述,本文深入探讨了应收账款管理的多个方面,为RH公司乃至其他同类型企业提供了应收账款管理的改进方向和策略,对于财务管理专业的教育和实践都具有重要的参考价值。
recommend-type

新手别慌!用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构

# 新手别慌!用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构 第一次拿到BingPi-M2开发板时,面对Tina Linux SDK里密密麻麻的文件夹,我完全不知道从哪下手。就像走进一个陌生的大仓库,每个货架上都堆满了工具和零件,却找不到操作手册。这种困惑持续了整整两天,直到我意识到——理解目录结构比死记硬背每个文件更重要。 ## 1. 为什么SDK目录结构如此重要 想象你正在组装一台复杂的模型飞机。如果所有零件都混在一个箱子里,你需要花大量时间寻找每个螺丝和面板。但如果有分门别类的隔层,标注着"机身部件"、"电子设备"、"紧固件",组装效率会成倍提升。Ti
recommend-type

Java线程池运行时状态怎么实时掌握?有哪些靠谱的监控手段?

<think>我们之前已经讨论过Java线程池监控的多种方法,包括使用第三方工具和自定义监控。现在用户再次询问Java线程池监控方法,我们需要根据引用内容以及之前讨论的内容进行总结和扩展。 引用[1]提到使用JDK自带的监控工具,引用[2]提到了三种常用的线程池创建方式,引用[3]给出了通过ThreadPoolExecutor获取线程池状态的方法。 结合之前回答的内容,我们可以将监控方法分为以下几类: 1. 使用JDK自带工具(如jconsole, jvisualvm)进行监控。 2. 通过编程方式获取线程池状态(如引用[3]所示)。 3. 扩展ThreadPoolExecutor,
recommend-type

桌面工具软件项目效益评估及市场预测分析

资源摘要信息:"桌面工具软件项目效益评估报告" 1. 市场预测 在进行桌面工具软件项目的效益评估时,首先需要对市场进行深入的预测和分析,以便掌握项目在市场上的潜在表现和风险。报告中提到了两部分市场预测的内容: (一) 行业发展概况 行业发展概况涉及对当前桌面工具软件市场的整体评价,包括市场规模、市场增长率、主要技术发展趋势、用户偏好变化、行业标准与规范、主要竞争者等关键信息的分析。通过这些信息,我们可以评估该软件项目是否符合行业发展趋势,以及是否能满足市场需求。 (二) 影响行业发展主要因素 了解影响行业发展的主要因素可以帮助项目团队识别市场机会与风险。这些因素可能包括宏观经济环境、技术进步、法律法规变动、行业监管政策、用户需求变化、替代产品的发展、以及竞争环境的变化等。对这些因素的细致分析对于制定有效的项目策略至关重要。 2. 桌面工具软件项目概论 在进行效益评估时,项目概论部分提供了对整个软件项目的基本信息,这是评估项目可行性和预期效益的基础。 (一) 桌面工具软件项目名称及投资人 明确项目名称是评估效益的第一步,它有助于区分市场上的其他类似产品和服务。同时,了解投资人的信息能够帮助我们评估项目的资金支持力度、投资人的经验与行业影响力,这些因素都能间接影响项目的成功率。 (二) 编制原则 编制原则描述了报告所遵循的基本原则,可能包括客观性、公正性、数据的准确性和分析的深度。这些原则保证了报告的有效性和可信度,同时也为项目团队提供了评估标准。基于这些原则,项目团队可以确保评估报告的每个部分都建立在可靠的数据和深入分析的基础上。 报告的其他部分可能还包括桌面工具软件的具体功能分析、技术架构描述、市场定位、用户群体分析、商业模式、项目预算与财务预测、风险分析、以及项目进度规划等内容。这些内容的分析对于评估项目的整体效益和潜在回报至关重要。 通过对以上内容的深入分析,项目负责人和投资者可以更好地理解项目的市场前景、技术可行性、财务潜力和潜在风险。最终,这些分析结果将为决策提供重要依据,帮助项目团队和投资者进行科学合理的决策,以期达到良好的项目效益。