公开数据集文件说明
The Enron-Spam datasets (aueb.gr)
- 基本信息说明
- 英文邮件样本数据集
- 样本分布开始时间: 1999-12-10
- 样本分布结束时间: 2005-09-06
- 正常邮件样本总数: 19088
- 垃圾邮件样本总数: 32988
- 目录结构说明
- README.txt
- pre-processed 适用于作者论文的已预处理的数据格式
- raw 原始邮件数据格式
- ham 正常邮件数据
- beck-s.tgz 样本数: 1966
- farmer-d.tgz 样本数: 3669
- kaminski-v.tgz 样本数: 4363
- kitchen-l.tgz 样本数: 4012
- lokay-m.tgz 样本数: 2364
- williams-w3.tgz 样本数: 2714
- spam 垃圾邮件数据
- ham 正常邮件数据
- 基本信息说明
- README.txt
- trec06c.tgz
- 基本信息说明
- 中文邮件样本数据集
- 样本分布结束时间: 2006 年以前
- 正常邮件样本总数: 21766
- 垃圾邮件样本总数: 42854
- 目录结构说明
- data 邮件样本数据
- full 理想反馈中文样本索引
- delay 延迟反馈中文样本索引
- 基本信息说明
- trec06p.tgz
- 基本信息说明
- 英文邮件样本数据集
- 样本分布时间: 2006 年以前
- 正常邮件样本总数: 12910
- 垃圾邮件样本总数: 24912
- 目录结构说明
- data 邮件样本数据
- full 理想反馈英文样本索引
- ham25: full 索引的子集,包含 100%垃圾样本与 25%正常样本
- ham50: full 索引的子集,包含 100%垃圾样本与 50%正常样本
- spam25: full 索引的子集,包含 25%垃圾样本与 100%正常样本
- spam50: full 索引的子集,包含 50%垃圾样本与 100%正常样本
- full-delay 延迟反馈英文样本索引
- ham25-delay
- ham50-delay
- spam25-delay
- spam50-delay
- 基本信息说明