7393

180种鸟类图片数据集

100-bird-species

生物学 鸟类 物种分类 图像数据集 物体检测 动物识别

180种鸟类的数据集。24497个训练图像,900个测试图像(每个物种5个)和900个验证图像(每个物种5个)。

免积分下载
数据集市
2020年04月11日
2GB

相关数据

10种猴子图片数据集
10种猴子图片数据集
用于细粒度分类的图像数据集 免积分下载
僧伽罗语多语种TTS语料库
僧伽罗语多语种TTS语料库
该数据集包含僧伽罗语的多扬声器高质量转录音频数据,由斯里兰卡... 免积分下载
通用知识图谱数据集
通用知识图谱数据集
ownthink致力于最大的中文开放知识图谱,目前已经对两千... 免积分下载

数据介绍

180种鸟类的数据集。24497个训练图像,900个测试图像(每个物种5个)和900个验证图像(每个物种5个)。

G2Wm0U.jpg

所有图像都是jpg格式的224x224x3彩色图像,还包括结合训练,测试和测试的“合并”图像集验证图像到一个单一的数据集中,这对想要创建自己的训练,测试和验证集的用户很有用。

每种物种的图像都包含在单独的子目录中,如果您使用来自目录的Keras流作为实现输入数据。

图片是通过互联网搜索按物种名称收集的。一旦下载了某个物种的图像文件,就使用我开发的python重复图像检测程序检查它们是否存在重复图像。删除所有检测到的重复项,以防止它们成为训练,测试和验证集之间的通用图像。

之后,将图像裁切,以使鸟类至少占据图像中像素的50%。然后将图像调整为jpg格式的224x224x3。裁剪可确保在被CNN处理时,它们在图像中具有足够的信息以创建高度准确的分类器。每个文件的所有文件也按顺序编号。因此,测试图像被命名为1.jpg至5.jpg。对于验证图像也是如此。训练图像也使用“零”填充顺序编号。例如001.jpg,002.jpg….010.jpg,011.jpg…..099.jpg,100jpg,102.jpg等。零值填充可与python文件功能一起使用,并保留目录中的Keras流。

训练集不平衡,每个物种的文件数不等。但是,每个物种至少都有100个训练图像文件。这种不平衡不会影响我的内核分类器,因为它在测试集上达到了98%以上的准确性。

数据集中的一个重大失衡是雄性物种图像与雌性物种图像的比率。大约80%的图像是雄性,而20%是雌性。典型的雄性的颜色要多样化得多,而一个物种的雌性通常是平淡的。因此,雄性和雌性图像看起来可能完全不同。几乎所有测试和验证图像均来自该物种的雄性。因此,分类器在女性物种图像上的表现可能不佳。

数据集中还包括经过训练的模型文件BIRDS-224-175-98.62.h5和文本文件BIRDS-175.txt。这些文件与伴随的Predictor程序结合使用,该程序使用这些文件使用经过训练的模型对输入图像进行预测。文件夹预测变量测试集包含101个Predictor程序可以预测的测试图像。我将很快发布预测程序。最后,有一个文件错误列表98.62.txt,其中显示了该模型在875个测试图像上具有的测试集上的错误列表。

收集方式

使用python例程下载基于物种关键字的图像,然后使用另一个python程序消除了重复图像。然后裁剪图像,以最大化与鸟类相关的图像中像素的百分比。最后,将所有图像调整为224 X 224 X3,并按数字顺序重命名所有文件。

还没有任何文件记录.