【架构】全网最大机器学习数据集,视觉、NLP、音频大汇集

是这样的,想请教下,【架构】全网最大机器学习数据集,视觉、NLP、音频大汇集
最新回答
菊花碎大石

2024-11-24 12:58:41

网站提供约 70 个最新数据集,涵盖计算机视觉、自然语言理解和音频三大领域。


寻找机器学习数据集?现在有一个由开发人员 Nikola Pleša 创建的网站,汇集了所有大型数据集,提供便捷的访问。


网站受到好评,拥有约 70 个数据集,覆盖三大领域,包括链接、简介、许可类型、论文等信息,数据集数量将不断增长。


网站地址:datasetlist.com/


以下是最新数据集的分类介绍:


计算机视觉(46个)



  • IBM 人脸多样性数据集:100万张带注释的人脸图像,旨在促进人脸识别技术的研究。


  • GQA 数据集:包含2200万个关于各种日常图像的问题,与图像的对象、属性和关系相关联。


  • NVIDIA Flickr-Faces-HQ 数据集:70000张分辨率为1024×1024的高质量PNG图像,包含人物的年龄、种族和图像背景差异。


  • Google Open Images V4:包含约900万个URL图像,具有数千个类别的图像级标签和边界框注释。


  • Youtube-8M 2018:大型带标签的视频数据集,包含数百万个YouTube视频ID和4700多个视觉实体的词汇标签。


  • Berkeley Deep Drive (BDD100K):100k个驾驶体验视频,每秒30帧,包含大量视频画面信息、音频信息和标签信息。


  • ApolloScape:提供高分辨率图像,逐像素标注,包括26种可识别对象,如汽车、行人和建筑物。


  • Tencent ML - Images:目前最大的开源多标签图像数据集,包含17,609,752个训练图像和88739个验证图像URL,注释多达11,166个类别。


  • Fashion MNIST:Zalando文章图像数据集,包括60,000个示例训练集和10,000个示例测试集。


  • MegaFace:身份数量最大的面部识别数据集,包含470万张面部图像和672K个身份。



自然语言理解(18个)



  • Stanford问答数据集 (SQuAD):由众包工作者根据维基百科文章提出的问题组成,每个问题的答案对应阅读文章的一段文本。


  • MultiNLI:包含433k个句子对的语料库,涵盖一系列口语和书面文本的体裁,并支持独特的跨体裁评估。


  • CoQA:用于构建会话问答系统的大型数据集,包含127k个问题和答案,来自7个不同领域的8k个文本段落的对话。


  • Spider 1.0:跨域语义分析和text-to-SQL的数据集,包含10181个问题和5693个独特的复杂SQL查询。


  • HotpotQA:具有强大的支持事实的监督,用于实现更易于解释的问答系统的问答数据集。


  • Question Pairs (Quora):包含超过400,000行潜在的问题对。


  • Yelp open dataset:用于个人、教育和学术目的的业务、评论和用户数据集。


  • Facebook bAbI:用于自动文本理解和推理的数据集。


  • MS MARCO:阅读理解和问题回答的新型大型数据集,所有问题都是从真实的匿名用户查询中提取的。


  • NewsQA:旨在帮助研究社区构建能够回答需要人类水平理解和推理技能的问题的算法。



音频(4个)



  • Mozilla Common Voice:人类语音数据集,包含18种语言,近1400小时录音语音数据。


  • NSynth:大规模、高质量的注释音符数据集,包含约300k个音符,每个音符具有独特的音调、音色和包络。


  • Google Audioset:由632个音频事件类的扩展本体和来自YouTube视频的2084320个带有人类标记的10秒声音片段组成。


  • LibriSpeech:有声图书数据集,包含文本和语音,多位讲者朗读的各类有声读物,时长近500小时。



访问网站:datasetlist.com/