PASCAL Visual Object Classes Challenge 2007（VOC 2007）数据集预处理-程序员宅基地

技术标签：数据集 python 机器学习 VOC 2007 classification multi-label

VOC 2007^[1] 是一个多标签数据集，有 20 类。这里为 multi-label classification 任务做预处理，包括：

将图片移到同一个目录（方便读取）；
数据划分（本身就已经分好 train/val 和 test 两部分）；
处理标签。

Prepare

[1] 有下载链，train/val 450M，test 430M。下下来就是 VOCtrainval_06-Nov-2007.tar 和 VOCtest_06-Nov-2007.tar 两个文件。以 test set 的文件为例，解压之后在 VOCtest_06-Nov-2007/VOCdevkit/VOC2007/ 下可以见到：

Annotations/：各样本对应的 .xml 标注文件，可以从中提取 label 信息，解析可参考 [5]。其中 <object> 标签下的 <difficult> 子标签与下一条的 0 tag 有对应关系，见 [2]；
ImageSets/：只用到其中 Main/ 目录，里面是按类组织的 .txt 文件，标注每幅 image 样本是否包含此类物体，有 1/0/-1 三种标记（解释见 [2]）：1 是含有，-1 是不含，0 表示 difficult。
JPEGImages/：图片；
SegmentationClass/：其它任务的，用不到；
SegmentationObject/：其它任务的，用不到；

ID, Label

JPEGImages/ 下的图片是用 ID 命名的，可以从此获取样本 ID；而在 ImageSets/Main/ 中，又有 test.txt、train.txt、val.txt、trainval.txt 这 4 个 ID 划分文件。经验证，以两种方式获得的 ID 划分是一致的，且 train/val 与 test 无重合。
~~处理 label 时，参照 [4]，将 0 当成 -1，即只有 1 表示正例，0/-1 都表示负例，结果与 [3] 里每类正例数统计是对得上的。~~ 获取 label 又有两中方式：通过 Annotations/ 中的 .xml 文件，或通过 ImageSets/Main/（除了刚才的 ID 划分文件之外的）.txt 文件。经验证，将 .txt 中的 0 当成 -1 处理与忽略 .xml 中 <difficult> 为 1 的效果相同。

Code

update 2020.12.5：label 改为用 scipy.io.savemat 存，加压缩参数，见 [7]。
notes 2020.7.22：ML-GCN^[6] 会把 ID、label 写进两个 csv 文件：classification_trainval.csv、classification_test.csv，后续读数据也是按这两个 csv 文件来。经验证，所得 label 信息与本文处理的结果一致。
update 2020.7.5：由于 ML-GCN 对 0 标签的处理是当成 1 而不是上述的 -1，所以改变处理标签的做法：保留 -1/0/1 原貌，读入后再按需处理 0 的问题。

import os
from os.path import join
from xml.dom import minidom
import numpy as np
import scipy.io as sio


# http://host.robots.ox.ac.uk/pascal/VOC/voc2007/index.html
# http://host.robots.ox.ac.uk/pascal/VOC/voc2007/htmldoc/voc.html#SECTION00090000000000000000


P = "E:/iTom/dataset/VOC2007"  # 下载目录
ALL_IMAGE_P = join(P, "images")  # 所有 image 复制一份到此目录下

# train/val 解压目录
TRAIN_P = join(P, "VOCtrainval_06-Nov-2007/VOCdevkit/VOC2007")
TRAIN_IMAGE_P = join(TRAIN_P, "JPEGImages")
TRAIN_LABEL_P = join(TRAIN_P, "ImageSets/Main")
TRAIN_ANNO_P = join(TRAIN_P, "Annotations")

# test 解压目录
TEST_P = join(P, "VOCtest_06-Nov-2007/VOCdevkit/VOC2007")
TEST_IMAGE_P = join(TEST_P, "JPEGImages")
TEST_LABEL_P = join(TEST_P, "ImageSets/Main")
TEST_ANNO_P = join(TEST_P, "Annotations")

# ID 划分文件
SPLIT_TRAIN = join(TRAIN_LABEL_P, "train.txt")
SPLIT_VAL = join(TRAIN_LABEL_P, "val.txt")
SPLIT_TRAIN_VAL = join(TRAIN_LABEL_P, "trainval.txt")
SPLIT_TEST = join(TEST_LABEL_P, "test.txt")


"""处理 ID 划分"""

# print("--- 第一种方式：从 JPEGImages/ 目录提取 ID ---")
file_key = lambda s: int(s.split('.')[0])


# def get_id_list(path):
#     id_list = os.listdir(path)
#     id_list = list(map(file_key, id_list))
#     print("#files:", len(id_list))
#     id_set = set(id_list)
#     print("#unique:", len(id_set))
#     return id_list


# print("- train -")
# train_img_id = get_id_list(TRAIN_IMAGE_P)  # 5011
# print("- test -")
# test_img_id = get_id_list(TEST_IMAGE_P)  # 4952

# print("- 验证 train/val 与 test 无重复 ID -")
# train_img_id_set = set(train_img_id)
# test_img_id_set = set(test_img_id)
# # no intersection in id of train/val & test
# print("#common in train & test:", len(train_img_id_set.intersection(test_img_id_set)))  # 0


print("--- 第二种方式：从 ID 划分文件提取 ID ---")


def get_id_list_from_file(_file):
    id_list = []
    with open(_file, "r") as f:
        for line in f:
            id_list.append(int(line))
    print("#id:", len(id_list))
    id_set = set(id_list)
    print("#unique id:", len(id_set))
    return id_list


print("- train -")
id_train = get_id_list_from_file(SPLIT_TRAIN)  # 2501
print("- val -")
id_val = get_id_list_from_file(SPLIT_VAL)  # 2510
print("- train-val -")
id_train_val = get_id_list_from_file(SPLIT_TRAIN_VAL)  # 5011
print("- test -")
id_test = get_id_list_from_file(SPLIT_TEST)  # 4952

# print("- 验证 train/val 与 test 无重复 ID -")
# train_val_id_set = set(id_train_val)
# test_id_set = set(id_test)
# # train/val 和 test 无重复 ID
# print("#common in train & test:", len(train_val_id_set.intersection(test_id_set)))  # 0
# print("- 验证两种方法获取的 ID 划分一致 -")
# print("#common in train:", len(train_img_id_set.intersection(train_val_id_set)))  # 5011
# print("#common in test:", len(test_img_id_set.intersection(test_id_set)))  # 4952

# print("- check id complete -")
id_all = id_train_val + id_test
print("#id:", len(id_all), ", max id:", max(id_all), ", min id:", min(id_all))
n_id = max(id_all)
# for i in range(1, n_id + 1):
#     if i not in id_all:
#         print("id absent:", i)
# print("complete check done")


print("- save indices -")
id_train = np.array(id_train) - 1
id_val = np.array(id_val) - 1
id_train_val = np.array(id_train_val) - 1
id_test = np.array(id_test) - 1
print("id train-val:", id_train_val.max(), id_train_val.min())
print("id test:", id_test.max(), id_test.min())

np.save(join(P, "idx_train.npy"), id_train)
np.save(join(P, "idx_val.npy"), id_val)
np.save(join(P, "idx_train_val.npy"), id_train_val)
np.save(join(P, "idx_test.npy"), id_test)


"""将全部 image 移到同一个目录"""
# since all IDs are distinct
# we can move all image into one dir

if not os.path.exists(ALL_IMAGE_P):
    os.makedirs(ALL_IMAGE_P)


def copy_image(path):
    img_ls = os.listdir(path)
    for i, f in enumerate(img_ls):
        # os.system("cp {} {}".format(join(path, f), ALL_IMAGE_P))  # linux
        os.system("copy {} {}".format(join(path, f), ALL_IMAGE_P))  # windows
        if i % 100 == 0:
            print(i)


copy_image(TRAIN_IMAGE_P)
copy_image(TEST_IMAGE_P)


"""处理 label"""
# 2 method for processing label
# both treat 0 tag as -1
# http://host.robots.ox.ac.uk/pascal/VOC/voc2007/htmldoc/voc.html#SECTION00031000000000000000

test_ls = os.listdir(TEST_LABEL_P)
test_ls = [f for f in test_ls if "_test" in f]
N_CLASS = len(test_ls)
print("#class:", N_CLASS)
# map id: name -> num
test_ls = [f.split("_test")[0] for f in test_ls]  # 保留类名
id_map = {
    name: num for num, name in enumerate(test_ls)}  # 类名 -> 类 ID
print(id_map)


print("--- 第一种方式：从 ImageSets/Main/ 提取 label ---")
L_label = np.zeros((n_id, N_CLASS))


def proc_label(path, suffix):
    """process by class
    path: {TRAIN_LABEL_P, TEST_LABEL_P}
    suffix: {"_trainval", "_test"}
    """
    file_ls = os.listdir(path)
    for _f in file_ls:
        if suffix not in _f:
            continue
        class_name = _f.split(suffix)[0]
        assert class_name in id_map
        c = id_map[class_name]
        pos_cnt = 0
        with open(join(path, _f), "r") as f:
            for line in f:  # format: ID  1/0/-1
                line = line.split()
                # if int(line[1]) > 0:  # 只把 1 当正例
                lb = int(line[1])
                if 0 != lb:  # 保留 -1/0/1
                    sid = int(line[0]) - 1  # 0-base
                    L_label[sid][c] = lb
                    if 1 == lb:
                    	pos_cnt += 1
        print("#{}: {}".format(class_name, pos_cnt))


print("- train-val label -")
proc_label(TRAIN_LABEL_P, "_trainval")
print("- test label -")
proc_label(TEST_LABEL_P, "_test")
sum_label = L_label.sum(0)
print("label statistics:", sum_label)
L_label = L_label.astype(np.uint8)
# np.save(join(P, "labels.l.npy"), L_label)
sio.savemat(join(P, "labels.l.mat"), {
    "labels": L_label}, do_compression=True)

print("--- 第二种方式：从 Annotations/ 提取 label ---")
# https://github.com/HCPLab-SYSU/SSGRL/blob/master/datasets/voc07dataset.py
L_anno = np.zeros((n_id, N_CLASS)) - 1  # 先设为 -1


def proc_annotation(path):
    """process by sample
    path: {TRAIN_ANNO_P, TEST_ANNO_P}
    """
    pos_cnt = {
    k: 0 for k in id_map.keys()}
    file_ls = os.listdir(path)
    for _f in file_ls:
        sid = file_key(_f) - 1
        DOMTree = minidom.parse(join(path, _f))
        root = DOMTree.documentElement
        objects = root.getElementsByTagName('object')
        for obj in objects:
            lb = 1
            if '1' == obj.getElementsByTagName('difficult')[0].firstChild.data:  # 保留 difficult
                # continue  # 忽略 difficult
                lb = 0
            class_name = obj.getElementsByTagName('name')[0].firstChild.data.lower()
            assert class_name in id_map
            c = id_map[class_name]
            # if 0 == L_anno[sid][c]:
            if 1 != L_anno[sid][c]:  # 保留 -1/0/1
                L_anno[sid][c] = lb
                if 1 == lb:
                	pos_cnt[class_name] += 1
    print("pos count:", pos_cnt)


print("- train-val annotation -")
proc_annotation(TRAIN_ANNO_P)
print("- test annotation -")
proc_annotation(TEST_ANNO_P)
sum_label = L_anno.sum(0)
print("label statistics:", sum_label)
L_anno = L_anno.astype(np.uint8)
# np.save(join(P, "labels.a.npy"), L_anno)
sio.savemat(join(P, "labels.a.mat"), {
    "labels": L_anno}, do_compression=True)

print("#diff:", (L_label != L_anno).astype(np.int8).sum())  # 0

Cloud Drive

链接：https://pan.baidu.com/s/1Mh_nX-y-ijvZEmy3lzTaNw，提取码：oq10。
VOC 2007 baidu pan

References

本文链接：https://blog.csdn.net/HackerTom/article/details/106744252

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

解除PDF限制打印/编辑_advancedpdfpasswordrecovery-程序员宅基地

文章浏览阅读2.4k次。工具：AdvancedPDFPasswordRecovery操作步骤：我们经常会遇到这样一种情况，同事或朋友发给你的pdf被设置了密码，导致被限制了编辑或不能够打印，导致工作进展很麻烦。这时候我们可以用到一款工具AdvancedPDFPasswordRecovery，来破解pdf文件的密码，然后愉快的进行打印或编辑了。1.解压软件，此软件是已破解绿化版，无需安装2.双击打开APDFPR.exe程序3.将待解除限制的pdf文件拖入软件4.显示弹框点击“是”..._advancedpdfpasswordrecovery

w10计算机用户名密码忘了,电脑w10系统开机密码忘了-程序员宅基地

文章浏览阅读1.4w次。如果是普通账户密码忘了请用第一种方法。方法(一)重新启动电脑，启动到系统登录界面时，同时按住Ctrl+Alt键，然后连击Del键两次，会出现新的登录界面，用户名处输入“Administrator”密码为空，回车即可登录，登录后，打开控制面板选/用户账户/更改账户/点击原来的“账户名”/更改我的密码/输入新密码，再次输入新密码，然后点击“更改密码”按钮即可。如果是计算机管理员密码忘了，请用第二种方法..._w10系统不知道电脑的账户密码是多少

MQ的概念和RabbitMQ知识点（无代码）-程序员宅基地

文章浏览阅读1.2w次，点赞7次，收藏76次。MQ全称是MessageQueue(消息队列），是保存消息在传输过程中的一种容器，既是存储消息的一种中间件。多是应用在分布式系统中进行通信的第三方中间件，如下图所示，发送方成为生产者，接收方称为消费者。............_mq

如何做好Bug分析-程序员宅基地

文章浏览阅读1.5k次，点赞47次，收藏18次。Bug分析是QA的一项主要技能，需要针对项目中遇到的经典问题进行分类分析，直达问题本质。并且能够给团队其他项目或者成员起到典型的借鉴作用。当然也有一些非常经典的问题可以进行技术深挖，以供参考。个人认为比较典型的「Bug分析」是stackoverflow，当然，一个完善的bug分析库，可以进行问题分类总结。对于测试新人是有很大的帮助的。本质上，在测试领域很多问题是可重现可整理可规避的。另外， bug分析本身是为了拓宽每个人的认知边界，缩小团队间的乔哈里窗以达到最佳的合作状态。一个「好的B

H5020NL PULSE 50PIN千兆四口网络变压器 HQST H85001S建议IC配置型号_4口网络变压器-程序员宅基地

文章浏览阅读800次。HQST导读：PULSE普思是网络通讯行业中龙头企业之一，其中网络变压器产品大都由国内代工厂代为生产，H5020NLHX5020NL千兆四口网络变压器是普思公司经典老牌产品，相对整个市场用量不是很大，集中生产约一月20万颗左右……PULSE普思是网络通讯行业中龙头企业之一，其中网络变压器产品大都由国内代工厂代为生产，H5020NLHX5020NL千兆四口网络变压器是普思公司经典老牌产品，相对整个市场用量不是很大，集中生产约一月20万颗左右，……PULSE H5020NL千兆网络变压器对应HQS._4口网络变压器

D20 EME 支持2k MAC地址表-程序员宅基地

文章浏览阅读242次，点赞3次，收藏9次。交换机，壳体采用镀锌钢板，结构紧凑，支持八个百兆端口，可配置一至四个百兆光纤端口。两路冗余电源设计，支持4pin可插拔端子，交直流通用，同时提供电源防接保护及过压、欠压保护，极大提升产品工作的稳定性。2.支持两路冗余电源设计，4pin可插拔端子，支持12～36V宽电压输入，交直流通用，同时提供电源防反接保护及过压、欠压保护，极大提升产品工作的稳定性。4.-40℃～75℃工作温度，-40～85℃存储温度，在极端气象条件下也能安全运行。8.支持IEEE802.3，IEEE802.3u，IEEE802.3x。

随便推点

MeterSphere使用MySQL8.0部署(Windows10)_metersphere mysql-程序员宅基地

文章浏览阅读1.3k次。背景看MeterSphere文档推荐5.7，但是因为我本地和服务器均为8.0版本，考虑到已经有很多服务在使用MySQL服务，而且相对来说，8.0比5.7性能更好，其他地方也更好些，所以就尝试直接用Mysql8.0部署本地环境：Windows10 MySQL8.0.18关于为什么会推荐使用MySQL5.7，其实主要原因是他们后端的sql有些group by语句在高版本的MySQL中是不合法的。MySQL 5.7.5及以上功能依赖检测功能。如果启用了ONLY_FULL_G.._metersphere mysql

简单的重写控件_自定义控件通常要重写哪些方法-程序员宅基地

文章浏览阅读923次。我们知道最基本的就是继承View，下面我们结合一个例子对重写进行简单地分析：继承一个view，都会有一个或多个构造方法，在不同的时候调用到不同的构建方法，一般会重写三个方法，onMeasure();onLayout();onDraw();分别是测量，定位和画下面说下，android中重写view时，经常会遇到的混淆：requestLayout()，invalidate_自定义控件通常要重写哪些方法

十三周一次课Nginx负载均衡、ssl原理、生成ssl密钥对、配置ssl-程序员宅基地

文章浏览阅读120次。2019独角兽企业重金招聘Python工程师标准>>> ..._负载加证书原理过程

curviloft插件怎么用_【su】插件及其功能图示-程序员宅基地

文章浏览阅读3.3k次。01、TGI3D首先出场的是TGI3D，这个插件是我发目前认为最强大的插件。因为它可以处理线、面、体、贴图，还可以照片匹配建模，这个照片匹配建模不是SketchUp自带的那种简单匹配，而是可以匹配超复杂的模型。简直爱不释手，但遗憾的是这个插件是一个商业版的插件。02、SoapskinbubbleSoapskinbubble，这是个极富梦幻色彩的插件。其原理是以最适合的曲面来封闭几条规定的空间曲线，..._su curvioft

JAVA使用Gson排除特定字段_java po排除某个字段-程序员宅基地

文章浏览阅读2.4k次。1. 忽略值为NULLGson gson = new GsonBuilder().serializeNulls().create(); 2. 使用Java关键字transientclass Item { String name; public transient int age; } 3. 使用@Expose注解class Item { String name; @Ex_java po排除某个字段

网关、安全网关？与防火墙的区别(2)，网络安全多线程断点续传-程序员宅基地

文章浏览阅读640次，点赞6次，收藏18次。网关是一个大的概念，没有特指是什么设备，很多设备都可以做网关，普通的PC机也能做，常用的网关设备是路由器。网关的作用主要是用来连接两个不同的网络，比如可以连接两个IP地址不相同的网络，或连接两个操作系统不同的网络，如WINDOWS与LINUX互连，或连接两个网络协议不同的网络，如TCP/IP与IPX.或拓扑结构不同的网络，如以太网和令牌环网。总之网关是一种中间媒介。而防火墙也可以做网关，但它的主要做用只是用来防病毒或防黑客，网关只算是防火墙的一个功能。网关与防火墙的区别。