数据集
数据集资源库
各领域高质量数据集集合
综合性数据集
UCI Machine Learning Repository
UCI 机器学习库是机器学习领域常用的数据集集合,为相关研究提供丰富数据资源。经典的机器学习数据集仓库,包含677个数据集,涵盖分类、回归、聚类等多种机器学习任务。该数据集仓库是由加州大学尔湾分校的博士生大卫·阿哈(David Aha)于1987年创建的。
IEEE Dataport
IEEE Dataport 是 IEEE 旗下用于共享各类工程与计算机科学相关数据集的平台。IEEE提供的数据集平台,包含7500多个数据集,涵盖人工智能、图像处理、信号处理、计算机视觉、通信、传感器、物联网等多个领域。
Huggingface
Huggingface 是专注于人工智能领域,特别是 NLP 技术,提供丰富数据集和开源工具的平台。HuggingFace平台提供超过30万个开放数据集,包含3D、音频、图像、地理空间、文本、时间序列、视频、表格等多种模态。
Kaggle Datasets
Kaggle Datasets 是 Kaggle 平台上用于机器学习竞赛和研究的高质量数据集集合。全球最大的机器学习和数据科学社区Kaggle提供的数据仓库,涵盖计算机科学、艺术娱乐、生物学等多领域,包含 443K 个高质量公开数据集。
KDD Cup历年竞赛数据集
KDD Cup 历年竞赛数据集是数据挖掘领域竞赛用的数据集,推动相关技术发展。KDD杯是ACM知识发现与数据挖掘特别兴趣小组(ACM SIGKDD)每年举办的数据挖掘和知识发现竞赛。本数据集包含历年KDD Cup竞赛中使用的数据集,涵盖不同领域和任务,可用于数据挖掘算法研究。
OpenDataLab
OpenDataLab 是上海人工智能实验室旗下的开放数据平台,提供丰富 AI 相关数据集。OpenDataLab为中国大模型语料数据联盟开源数据服务指定平台,包含7700多个数据集,数据集总大小超过200TB,可用于计算机视觉、自然语言处理、多模态、音频识别等多种类型的任务。
Amazon数据集
Amazon 数据集是与亚马逊业务相关的数据集合,可用于电商和 AI 等相关研究。Amazon数据集包含了不同领域的数据内容,例如:公共交通、生态资源、卫星图像等。同时提供了搜索功能,以帮助用户找到所需的数据集,还有各种数据集的描述信息以及用例,非常易于使用。
数学领域
NuminaMath-CoT
该数据集包含约86万道数学题目,每道题目的解答都采用思维链格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。
美国邀请数学考试AIME Problem Set: 1983-2024
数据集精选了从 1983 年到 2024 年的 AIME 问题和解决方案。由美国数学协会(MAA)主办并由问题解决艺术(AoPS)赞助,AIME(美国邀请数学考试)多年来一直是数学素养的重要基石。
Deepmind/Aqua_rat代数问题解答数据集
包含约 100,000 个代数问题,解决方案使用自然语言逐步解释。该数据集包含约 100,000 个代数问题。每个问题的解决方案都使用自然语言逐步解释。
AutoMathText
包含约200GB数学文本的数据集。AutoMathText是一个包含约200GB数学文本的数据集,内容来源于多个网站、arXiv和GitHub等平台。
MathScape多模态数学问题数据集
包含1325张图像,涵盖从小学到高中的数学问题。MathScape是由南开大学、北京大学、百川公司和中国科学院大学联合开发的多模态数学问题数据集,旨在评估多模态大语言模型在数学问题解决中的应用。
MathInstruct
属于指令调整数据集,由13个具有中间原理的数学数据集编译而成。MathInstruct是指令调整数据集。由13个具有中间原理的数学数据集编译而成。
无线领域
4G LTE数据集
爱尔兰移动运营商蜂窝 KPI 数据集。由从爱尔兰两家主要移动运营商收集的客户端蜂窝关键绩效指标(KPI)组成,涵盖不同移动模式,含135条轨迹,每条轨迹平均持续15分钟。
Wisense数据集
用于 Wi-Fi 信号活动识别的数据集。用于实现基于Wi-Fi信号的人类活动识别研究,用公开的通道状态信息收集工具和简单设备收集,含RSSI和CSI等信息。
Stable WiFi RF Datasets for Device Fingerprinting
设备指纹识别的 WiFi 数据集。本Dataset提供了四个15台设备的WiFi 802.11b数据集,这些数据集是在每台设备的硬件预热期(设备激活后12分钟)之后捕获的。
TeleQnA
评估大模型电信知识的问答数据集。TeleQnA由10,000个多选问答对(Multiple-choice Questions, MCQs)组成,可作为基准数据集,用于评估大语言模型所具备的电信领域的知识水平。
TSpec-LLM
用于大语言模型训练的 3GPP 文档集。TSpec-LLM数据集包含从Release 8到Release 19的所有3GPP文档,可用于大语言模型的预训练和微调。
Tele-Data
电信领域综合大语言模型训练集。Tele-Data是一个电信领域的综合数据集,数据总量大约25亿个tokens,包含arxiv论文、3GPP标准文稿、Wikipedia中与通信相关的论文、通信相关的网页等四类数据,可用于大语言模型的持续预训练。
AI领域
COCO 2017
COCO 2017 是 COCO 数据集在 2017 年的版本,用于计算机视觉研究。COCO 是一个大规模的对象检测、分割和字幕数据集。
MNIST手写数字数据集
MNIST 是经典的手写数字图像数据集,广泛用于手写数字识别算法测试。含6万张训练图像和1万张测试图像,用于图像识别、数字分类任务,是经典的入门数据集。
CIFAR-10
CIFAR-10 是小型彩色图像数据集,用于图像分类任务研究。含10个类别、6万张32x32彩色图像,用于图像分类研究,可评估模型在小尺寸图像上的泛化能力。
Caltech 101
Caltech 101 是包含 101 类物体图像的数据集,用于图像分类等研究。Caltech 101是一个由加州理工学院(California Institute of Technology)的Fei-Fei Li、Marco Andreetto、Marc 'Aurelio Ranzato和Pietro Perona于2003年9月创建和汇编的数字图像数据集。
Caltech 256 Image Dataset
Caltech 256 是含 256 类物体图像的数据集,为图像相关研究提供数据。Caltech 256 数据集被认为是其前身Caltech 101 数据集的改进版本,具有更大的类别大小、新的和更大的杂乱类别以及整体难度增加等新功能。
ImageNet
ImageNet 是大型图像数据集,极大推动计算机视觉领域发展。ImageNet 是一个根据 WordNet 层次结构(目前仅限于名词)组织的图片数据库,其中每个层次结构的节点都由数百到数千张图片表示。
材料领域
Materials Project
无机材料研究支持的数据集。由加州大学伯克利分校和麻省理工学院发起,涵盖超过12万种无机材料。支持材料检索、电池材料分析、晶体结构预测等。
ChemNLP
材料化学文本挖掘设计数据集。基于自然语言处理(NLP)的材料化学文本数据库。 整合了arXiv和PubChem数据集,适用于文本挖掘和材料设计。
NIST Chemistry WebBook
美研究院化合物热化学数据集。由美国国家标准与技术研究院(NIST)开发,提供超过7000种有机小分子和无机化合物的热化学数据。支持化合物检索、热化学数据查询等。
PubChem
美 NCBI 维护的化合物数据库集。由美国国家生物技术信息中心(NCBI)维护,涵盖超过1亿种化合物的化学数据。提供化合物的物性、毒性、光谱数据等。
SDBS光谱数据库
日有机化合物光谱数据集。由日本国家高等工业科学与技术研究院建立,专注于有机化合物的光谱数据。 支持化合物光谱数据的检索和下载。
OrChem
Oracle 开源化学搜索数据集。Oracle的开源化学搜索引擎,支持化学结构的注册、索引和快速子结构搜索。 基于化学开发工具包(CDK),支持相似性搜索和子结构验证。 (from 2009)
半导体领域
MixedWM38
混合模式晶圆图缺陷数据集。由Junliangwangdhu开发,混合WM38数据集(WaferMap)有超过38000个晶圆图,包括1个正常图样、8个单一缺陷图样和29个混合缺陷图样,共计38个缺陷图样。
WM-811K
晶圆图缺陷模式识别数据集。台湾元智大学(Chuao University)的研究团队创建,专注于半导体制造领域的缺陷分析研究 。这一数据集由 许多晶圆的缺陷模式组成,其中每个晶圆被标记为正常或存在某种类型的缺陷模式。
SECOM
半导体制造工艺的数据集。由加州大学欧文分校开发,复杂的现代半导体制造工艺通常在通过监测从传感器收集的信号/变量和或过程测量点。
Real-IAD
大规模工业异常检测数据集。由上海交通大学开发的大规模、多视角工业异常检测数据集,用于评估多样化工业异常检测方法。
The OpenROAD Project
开放源代码的布局生成流程(RTL-to-GDS)数据集。由Qualcomm、Arm等共同开发。目标是开发自主开源工具链,专注于数字SoC的布局生成,特别是在RTL到GDSII阶段多种工艺节点(7nm-28nm)设计数据。
CHIPQA
时空芯片的无参考视频质量评估数据集。由得克萨斯大学奥斯汀分校团队开发, 提出了一种新的无参考视频质量评估(VQA)模型。
其他
计算机硬件数据集
计算机硬件数据集是关于计算机硬件参数和性能的数据集合。相对 CPU 性能数据,以周期时间、内存大小等描述。
Cora数据集
Cora 是包含科学论文文本和引用关系的数据集,用于机器学习相关研究。Cora 数据集由 2708 篇科学出版物组成,这些出版物被分类为七个类别之一。引文网络由 5429 个链接组成。
Citeseer数据集
Citeseer 是含科学文献文本和引用关系的数据集,用于相关研究。类似Cora,含科学文献及其引用关系。CiteSeer数据集由3312篇科学出版物组成,这些出版物被分类为6个类别之一。
Caltech Mouse Social Interactions (CalMS21)
Caltech Mouse Social Interactions (CalMS21) 是用于小鼠行为分析的图像数据集。CalMS21是一个来自行为神经科学的多智能体数据集,由社会交互的轨迹数据组成。
KDD CUP 99 网络入侵检测数据集
用于第三届国际知识发现和数据挖掘工具竞赛的数据集,用于网络入侵检测研究。竞赛任务是建立一个网络入侵检测器,即:一个能够区分'坏'连接(称为入侵或攻击)和'好'正常连接的预测模型。
CSE-CIC-IDS2018 数据集
针对多种场景,用于网络入侵检测技术研发的数据集。由加拿大网络安全研究所收集,包括七种不同的攻击场景:暴力破解、Heartbleed、僵尸网络、拒绝服务、分布式拒绝服务、Web攻击和从内部入侵网络。
文档信息
- 本文作者:Jiazhe Miao
