The Enron Email Dataset Transformer
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
Python内容推荐
Enron Email 安然公司邮件数据数据集
Enron Email Dataset 包括安然公司部分高管和中级管理人员150位员工500万封邮件消息,由美国联邦能源管理委员会进行调查期间发布。
对邮件数据集 (Enron Email Dataset.zip
人工智能-机器学习-数据预处理
enron-aeslc-emails dataset - enron-aeslc-emails 数据集
Enron AESLC Emails数据集是一个用于自然语言处理(NLP)研究的数据集,它包含了来自安然(Enron)公司的电子邮件。这些电子邮件是由安然公司在2002年破产后公开发布的,因此这个数据集是公开可用的。 Enron AESLC Emails数据集的特点包括: 1. **大规模**:数据集包含了超过60,000封电子邮件,涵盖了从1999年到2002年的时间段内的通信。这使得它成为一个适合大规模自然语言处理研究的数据集。 2. **真实场景**:这些电子邮件反映了真实的商业通信场景,包括了各种类型的邮件,如内部员工之间的邮件、公司管理层之间的邮件以及与外部合作伙伴的邮件等。 3. **多样性**:数据集中的邮件涵盖了各种主题和内容,包括了业务讨论、会议安排、工作进展报告等多种类型的邮件内容。 4. **标记**:数据集中的一部分邮件已经被标记,包括了邮件的发送者、接收者、主题、时间戳等信息,这些标记可以帮助研究人员进行有监督的学习任务。 5. **隐私处理**:由于数据集涉及到个人和敏感信息,安然公司在发布数据集时对电子邮件内容进行了匿名化处理,以保护个人隐私。
Spam-Classification-Enron-Dataset:利用逻辑回归和计数向量化将Enron数据集的电子邮件分为垃圾邮件或火腿邮件
垃圾邮件分类---安然数据集 使用逻辑回归和计数向量化将Enron数据集的电子邮件分为垃圾邮件或火腿邮件。 注意:彻底评论了Jupyter / IPython笔记本,因此这里不需要广泛的自述文件。
enron:使用Enron财务和电子邮件数据集的Udacity机器学习项目
Udacity-机器学习入门 安然传奇 安然(Enron)丑闻是财务丑闻,最终导致安然公司(Enron Corporation)破产,该公司位于德克萨斯州休斯敦的美国能源公司,实际上是阿瑟·安徒生(Arthur Andersen)的解散,后者是美国五大审计和会计合伙企业之一世界。 除了是当时美国历史上最大的破产重组外,安然还被认为是最大的审计失败。 安然公司由肯尼思·莱(Kenneth Lay)于1985年合并休斯顿天然气公司和InterNorth公司后成立。 几年后,当杰弗里·斯基林(Jeffrey Skilling)被聘用时,他培养了一批高管人员,这些人员通过使用会计漏洞,特殊目的实体以及不良的财务报告,能够从失败的交易和项目中隐藏数十亿美元的债务。 首席财务官安德鲁·法斯托(Andrew Fastow)和其他高管不仅误导了安然公司董事会和审计委员会关于高风险会计的作法,而且还向亚瑟
LLM微调数据集_Phishing Email Dataset.zip
LLM微调数据集_Phishing Email Dataset
The Extended Cohn-Kanade Dataset (CK+)
Bai渡Yun链接 内含CK和CK+两个完整数据集,只可用于人脸表情识别的学术研究。The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression
The Brackish Dataset 咸淡的数据集-数据集
数据集已于2020年8月25日更新,以修复一系列错误的否定注释。大约添加了14,000个新注释。这是第一个可公开获得的欧洲水下图像数据集,其中包含鱼,蟹和其他海洋生物的边界框注释。 train.txt test.txt valid.txt The Brackish Dataset_datasets..txt The Brackish Dataset_datasets..zip
The Paris Dataset介绍[代码]
本文介绍了The Paris Dataset,一个主要用于图像检索的数据集,与巴黎街景数据集不同。文章提供了数据集的下载链接,包括直接下载和云盘获取两种方式,并建议关注博客同名公众号以获取更多资源。此外,作者还推荐了其他深度学习相关的干货博文和教程,鼓励读者点赞、评论以支持创作。对于计算机视觉领域的新手,本文提供了有价值的数据集和资源信息。
102 Category Flower Dataset(标签文件)
102 Category Flower Dataset图片标签、训练集标签、验证集标签、测试集标签
The dataset for Nature Communications
The dataset for Nature Communications, Xing Hu, Xinjian Li, Zhengguang Wang, Jie Ren, Yi An, Cheng Shao, Huosheng Hu, Qingru Guo, article "An Union Method Combining the Stitching of Normal Images and the Supervised Semantic Segmentation of Stitched Image".
email-spam-ham-learning-dataset:从不同来源收集的用于为SpamAssassin学习火腿和垃圾邮件的数据集,例如
电子邮件垃圾邮件火腿学习数据集 从不同来源收集的数据集,用于学习SpamAssassin的火腿和垃圾邮件,例如 使用的数据集
钓鱼邮件数据集-电子邮件网络钓鱼数据集(500000封非钓鱼邮件,20000封钓鱼邮件),适用于数据分析与机器学习
数据集说明 概述: 该数据集设计用于使用机器学习的网络钓鱼电子邮件检测。它结合了: • 来自500,000个非捕捞(“安全”)电子邮件 Enron Email Dataset数据集 • 来自20,000个网络钓鱼和安全的电子邮件 Phishing Email数据集 清理每个电子邮件并通过定制的NLP功能提取管道,该管道着重于网络钓鱼指示器。目的是为使用最少的预处理提供一个现成的数据集,以进行分类。 列详细信息 • num_words- 电子邮件主体中的单词总数 • num_unique_words- 使用的独特单词计数 • num_stopwords - 公共停止词计数(例如,“”,“”和“”) • num_links- 检测到的超链接数量 • num_unique_domains- 链接中的独特域数量(例如,“ paypal.com”) • num_email_addresses- 文本中发现的电子邮件地址计数 • num_spelling_errors - 拼写错误的单词计数 • num_urgent_keywords- 紧急词的数量(例如,“紧急”,“验证”,“更新”) • label- 目标变量:0 =安全电子邮件,1 =网络钓鱼电子邮件 注意: • 该数据集不包含原始文本或标题,而仅包含用于训练/测试模型的工程功能。 • 拼写检查已过滤的令牌上的使用pyspellchecker。 • 停止词是固定的英语列表。 • 不包括个人或PII信息。
Emotional Classification with the DEAP dataset using EEGLAB,
Emotional Classification with the DEAP dataset using EEGLAB, matlab and python. Currently in the status of developing a more efficient and high accuracy method for emotion classification using EEG data regardless of number of channels..zip
C#中DataSet的用法(很详细)
DataSet是ADO.NET开发人员为方便数据处理开发出来的,是数据的集合。DataSet的功能:浏览、排序、搜索、过滤、处理分级数据、缓存更改等。还可以与XML数据互换。DataSet中可包括多个DataTable,可将多个查询结构存到一个DataSet中,方便操作.....
titanic_dataset.csv(泰坦尼克数据集)
Abstract The titanic dataset gives the values of four categorical attributes for each of the 2201 people on board the Titanic when it struck an iceberg and sank. The attributes are social class (first class, second class, third class, crewmember), age (adult or child), sex, and whether or not the person survived. Data Description Origin: natural Usage: assessment Number of attributes: 4 Number of cases: 2,201 Number of prototasks: 1 Number of methods run on this dataset: 3 Contributed by: Radford Neal
The IPN Hand Dataset - segment.tgz
The IPN Hand Dataset, A Video Dataset for Continuous Hand Gesture Recognition
对The CIFAR-10 dataset数据集合的研究与分析
1 The CIFAR-10 dataset 10个类别 ,6万张图片 5万训练 1万测试,分别分为data_batch_1, data_batch_2, ..., data_batch_5 test_batch
电子邮件网络钓鱼检测数据集,社工钓鱼数据集,钓鱼邮件检测数据集(50万封非钓鱼邮件,2万封钓鱼邮件),适用于数据分析、机器学习
这个数据集旨在通过机器学习方法进行钓鱼邮件的检测。它结合了两个来源的数据: 来自Enron Email Dataset的大约50万封非钓鱼("安全")邮件。 来自Phishing Email Dataset的大约2万封钓鱼和安全邮件。 每一封邮件都经过清洗,并通过一个专注于钓鱼指示器的定制自然语言处理(NLP)特征提取管道处理。该数据集的目标是为分类任务提供一个几乎无需预处理即可使用的数据集。 列详情 num_words - 邮件正文中总词数。 num_unique_words - 使用的不同单词的数量。 num_stopwords - 常见停用词(例如:"the", "and", "in")的数量。 num_links - 检测到的超链接数量。 num_unique_domains - 链接中不同域名的数量(例如:"paypal.com")。 num_email_addresses - 在文本中找到的电子邮件地址数量。 num_spelling_errors - 错别字数量。 num_urgent_keywords - 紧急词汇(如:"urgent", "verify", "update")的数量。 label - 目标变量:0 = 安全邮件,1 = 钓鱼邮件。 注意事项 本数据集不包含原始文本或头部信息,仅包含训练/测试模型所需的工程特征。 拼写检查使用pyspellchecker对过滤后的标记进行。 停用词列表是一个固定的英文列表。 不包含任何个人或PII(个人可识别信息)信息。
The MALICIA dataset: identification and analysis of drive-by download operations
为了促进未来的研究,例如恶意软件分类, 我们已将这项工作中收集的数据汇编到Malicia数据集,我们提供给其他研究人员,此篇文章介绍了数据集采集方法。 学术界的研究人员可以要求Malicia数据集.它根据协议发布,不重新分发数据集并且仅限于研究机构签订合同的研究人员。 学生需要让他们的主管代表他们请求数据集。我们在发布数据集之前使用基本身份检查(例如,发送请求的电子邮件地址属于请求它的机构)。在撰写本文时 该数据集已发布给17个机构:15所大学和2个工业研究实验室。
最新推荐





