机器之心
首发于机器之心
这是一份非常全面的开源数据集,你,真的不想要吗?

这是一份非常全面的开源数据集,你,真的不想要吗?

选自Medium,作者:Bharath Raj,机器之心编译,参与:高璇、王淑婷。

近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~)


最近新增数据集













自然图像数据集


  • MNIST:手写数字图像。最常用的可用性检查。格式 25x25、居中、黑白手写数字。这是一项简单的任务——仅某部分适用于 MNIST,不意味着它有效。
  • yann.lecun.com/exdb/mni










  • ImageNet:新算法的客观图像数据集(de-facto image dataset)。许多图像 API 公司都有来自其 REST 接口的标签,这些标签近 1000 类;WordNet; ImageNet 的层次结构。
  • image-net.org/


  • LSUN:具有很多辅助任务的场景理解(房间布局估计,显著性预测(saliency prediction)等),有关联竞赛。(associated competition)。
  • lsun.cs.princeton.edu/2






地理空间数据





————————我是深度学习图像的分割线————————


人工数据集


  • Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。
  • github.com/caglar/Arcad










人脸数据集


  • Labelled Faces in the Wild:13000 个经过裁剪的人脸区域(使用已经用名称标识符标记过的 Viola-Jones)。数据集中每个人员的子集里包含两个图像——人们常用此数据集训练面部匹配系统。
  • vis-www.cs.umass.edu/lf















————————我是深度学习视频的分割线————————


视频数据集



文本数据集


  • 20 newsgroups:分类任务,将出现的单词映射到新闻组 ID。用于文本分类的经典数据集之一,通常可用作纯分类的基准或任何 IR /索引算法的验证。
  • qwone.com/~jason/20News




  • UCI‘s Spambase:来自著名的 UCI 机器学习库的(旧版)经典垃圾邮件数据集。根据数据集的组织细节,可以将它作为学习私人垃圾邮件过滤的基线。
  • archive.ics.uci.edu/ml/







  • Common Crawl:网络的字节级抓取——最常用于学习单词嵌入。可从 Amazon S3 上免费获取。也可以用作网络数据集,因为它可在万维网进行抓取。
  • commoncrawl.org/the-dat




————————我是深度学习文本的分割线————————


问答数据集








情感数据集





推荐和排名系统







  • Netflix Prize:Netflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版。
  • netflixprize.com/


————————我是深度学习图表的分割线————————


网络和图形


  • Amazon Co-Purchasing:亚马逊评论从「购买此产品的用户也购买了……」这一部分抓取数据,以及亚马逊相关产品的评论数据。适合在网络中试行推荐系统。
  • snap.stanford.edu/data/#



语音数据集



  • LibriSpeech:包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成,包含带有文本和语音的章节。
  • openslr.org/12/


  • VoxForge:带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。
  • voxforge.org/



  • CHIME:嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。
  • spandh.dcs.shef.ac.uk/c



————————我是深度学习音频的分割线————————


音符音乐数据集






其它数据集








健康 &生物数据





政府&统计数据





发布于 2018-09-05

文章被以下专栏收录