Papers With Code新增数据集检索功能：3000+经典数据集，具备多种过滤功能

Papers with Code 现在已经集成了 3044 个机器学习数据集，点点鼠标就能检索需要的数据集。

在机器学习中，数据集占据了重要的一部分。研究人员除了需要开发先进的算法外，其实数据集的建立才是最基础也是最重要的部分。在过往的研究中，机器学习从业者也建立了许多可用的数据集。

在哪里可以找到比较好的数据集呢？

近日，查找论文对应开源代码的神器 Papers with Code 官网发布，Datasets 已经实现了 3044 个机器学习数据集的汇总，并且按照不同的类型进行归类，还具有过滤功能，值得一看。

我们现在正在索引 3000 + 来自机器学习的数据集。使用者可以按照任务分类和模式进行数据集查找，还可以按照时间比较数据集的使用情况、浏览基准等要素进行查找。

网站地址：https://www.paperswithcode.com/datasets

覆盖范围众多的数据集

在这 3044 个机器学习数据集里，不乏我们常用的经典数据集，例如，ImageNet、COCO、CIFAR-10、MNIST 等。

快速检索

如果你想搜索指定的数据集，该网站也具备检索功能，例如从事计算机视觉的研究者，比较关心的是人脸数据集，这时就可以在搜索框敲入要搜索的内容，如果数据集的全拼你没有记住，也不用担心，只需键入几个字母，搜索栏就会出现相应的数据集。

对数据集进行归纳整理

该 Datasets 对数据集进行了归纳整理，包含图像类、文本类、视频类等多个类别。以文本数据集为例，点击「Texts」选项，右侧页面会显示和文本相关的数据集，从检索结果可以看出，符合要求的有 828 个数据集。

按任务进行数据集过滤

机器学习研究分为不同的任务，我们都了解做自然语言推理任务的数据集不能用来进行机器翻译。怎样才能找到适合的数据集呢？Papers with Code 的 Datasets 具有该功能，该研究对 3044 个数据集根据任务进行了分类。包括问答、语言模型、视觉问答等。

以左侧栏红框中标出的「Named Entity Recognition」为例，点击「Named Entity Recognition」，右侧页面检索出来有 28 个相关数据集，但它的检索条件是「Named Entity Recognition」以及「Texts」，如绿色框所示。如果你不想要这个检索条件，可以在设置「Texts」条件功能区内，将该条件取消，取消方式是点击「clear」。