python解析xml+得到pascal voc xml格式用于目标检测+美化xml_pascalvocxmlparser-程序员宅基地

1.python解析xml

    img_path='./data/001.tif'
    xml_path='./xml/001.xml'
    img=cv2.imread(img_path)
    # cv2.imshow('img', img)
    # cv2.waitKey(0)
    print(img.shape)

    try:
        xmlp = ET.XMLParser(encoding="utf-8")
        tree = ET.parse(xml_path, parser=xmlp)
        root = tree.getroot()
        print(tree)
        print(root)
    except Exception as e:
        print(e, xml_path)

    content_info={}
    for i in tree.iterfind('.//正文组/正文'):
        print("i.attrib['篇目号']", i.attrib['篇目号'])
        for j in i.findall('篇目坐标'):
            print(j.text)
            print(type(j.text))
            content_info[i.attrib['篇目号']] =j.text
    print('content_info=',content_info)

若要更改xml内容，可以

new_point='1,2,3,4'
j.text = new_point
tree.write('output_test.xml', encoding='utf-8')

2. 得到pascal voc xml格式用于目标检测

img_dir = "./images/train"
csv_dir = "./train_xml.csv"
xml_dir = "./Annotations"
if not os.path.exists(xml_dir):
    os.mkdir(xml_dir)

imgs_path_Lists = [os.path.join(img_dir,i) for i in os.listdir(img_dir)]

df=pd.read_csv(csv_dir).copy()
df_value=df.values
print(df_value.shape)
coord_h,coord_w=df_value.shape
print(df_value[:2])
for img_path_List in imgs_path_Lists:
    im = Image.open(img_path_List)
    width, height = im.size
    img_name=img_path_List.split('/')[-1]

    # write in xml file
    xml_file = open((xml_dir + '/' + img_name.split('.jpg')[0] + '.xml'), 'w')
    xml_file.write('<annotation>\n')
    xml_file.write('    <folder>steel</folder>\n')
    xml_file.write('    <filename>' + img_name + '</filename>\n')
    xml_file.write('    <size>\n')
    xml_file.write('        <width>' + str(width) + '</width>\n')
    xml_file.write('        <height>' + str(height) + '</height>\n')
    xml_file.write('        <depth>3</depth>\n')
    xml_file.write('    </size>\n')
    for i in df_value:
        if i[0].split('/')[-1]==img_name:
            xmin=i[1]
            ymin=i[2]
            xmax=i[3]
            ymax=i[4]
            class_name=i[-1]

            # write the region of image on xml file
            xml_file.write('    <object>\n')
            xml_file.write('        <name>' + class_name + '</name>\n')
            xml_file.write('        <pose>Unspecified</pose>\n')
            xml_file.write('        <truncated>0</truncated>\n')
            xml_file.write('        <difficult>0</difficult>\n')
            xml_file.write('        <bndbox>\n')
            xml_file.write('            <xmin>' + str(xmin) + '</xmin>\n')
            xml_file.write('            <ymin>' + str(ymin) + '</ymin>\n')
            xml_file.write('            <xmax>' + str(xmax) + '</xmax>\n')
            xml_file.write('            <ymax>' + str(ymax) + '</ymax>\n')
            xml_file.write('        </bndbox>\n')
            xml_file.write('    </object>\n')

    xml_file.write('</annotation>')

3.美化xml

原始xml如下

<?xml version='1.0' encoding='utf-8'?>
<lab>
 	<person name='Blue'>
 		<age>22</age>
 		<gender>male</gender>
 	 </person>
 	 <person name='Yellow'>
 		<age>22</age>
 		<gender>female</gender>
 	 </person>
 </lab>

代码:

def prettyXml(element, indent, newline, level = 0): # elemnt为传进来的Elment类，参数indent用于缩进，newline用于换行
    if element:  # 判断element是否有子元素
        if element.text == None or element.text.isspace(): # 如果element的text没有内容
            element.text = newline + indent * (level + 1)
        else:
            element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * (level + 1)
    #else:  # 此处两行如果把注释去掉，Element的text也会另起一行
        #element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * level
    temp = list(element) # 将elemnt转成list
    for subelement in temp:
        if temp.index(subelement) < (len(temp) - 1): # 如果不是list的最后一个元素，说明下一个行是同级别元素的起始，缩进应一致
            subelement.tail = newline + indent * (level + 1)
        else:  # 如果是list的最后一个元素， 说明下一行是母元素的结束，缩进应该少一个
            subelement.tail = newline + indent * level
        prettyXml(subelement, indent, newline, level = level + 1) # 对子元素进行递归操作
def testXML():
    from xml.etree import ElementTree as ET
    tree = ET.parse('test.xml')
    root = tree.getroot()
    print(root)
    # #查看tag和attrib
    # for person in root:
    #     print(person.tag, person.attrib)

    ZF_COORD = ET.Element('字符坐标')
    ZWZ = ET.SubElement(ZF_COORD, '正文组')
    #这里需要把001变成需要的篇目号
    ZW = ET.SubElement(ZWZ , '正文',{'篇目号':"001"})

    #栏目
    LM=ET.SubElement(ZW, '栏目')
    LM.text = '12,12,334,123;12,34,45,56'

    #引题
    YT=ET.SubElement(ZW,'引题')
    YT.text='12,12,334,123;12,34,45,56'

    # 标题
    BT = ET.SubElement(ZW, '标题')
    BT.text = '12,12,334,123;12,34,45,56'

    # 副题
    FT = ET.SubElement(ZW, '副题')
    FT.text = '12,12,334,123;12,34,45,56'

    # 小标题
    XBT = ET.SubElement(ZW, '小标题')
    XBT.text = '12,12,334,123;12,34,45,56'

    # 作者
    author = ET.SubElement(ZW, '作者')
    author.text = '12,12,334,123;12,34,45,56'

    # # 向根节点添加新的子节点 
    root.append(ZF_COORD)
    # 写入 
    tree.write('./sample.xml', encoding="utf-8",xml_declaration=True)

    #美化作用
    tree = ET.parse('./sample.xml')  # 解析test.xml这个文件，该文件内容如上文
    root = tree.getroot()  # 得到根元素，Element类
    prettyXml(root, '\t', '\n')  # 执行美化方法
    # ET.dump(root)
    tree.write('./sample.xml', encoding="utf-8",xml_declaration=True)

新生成xml如下

<?xml version='1.0' encoding='utf-8'?>
<lab>
	<person name="Blue">
		<age>22</age>
		<gender>male</gender>
	</person>
	<person name="Yellow">
		<age>22</age>
		<gender>female</gender>
	</person>
	<字符坐标>
		<正文组>
			<正文 篇目号="001">
				<栏目>12,12,334,123;12,34,45,56</栏目>
				<引题>12,12,334,123;12,34,45,56</引题>
				<标题>12,12,334,123;12,34,45,56</标题>
				<副题>12,12,334,123;12,34,45,56</副题>
				<小标题>12,12,334,123;12,34,45,56</小标题>
				<作者>12,12,334,123;12,34,45,56</作者>
			</正文>
		</正文组>
	</字符坐标>
</lab>

本文链接：https://blog.csdn.net/fanzonghao/article/details/86609650

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

React学习记录-程序员宅基地

文章浏览阅读936次，点赞22次，收藏26次。React核心基础

Linux查磁盘大小命令,linux系统查看磁盘空间的命令是什么-程序员宅基地

文章浏览阅读2k次。linux系统查看磁盘空间的命令是【df -hl】，该命令可以查看磁盘剩余空间大小。如果要查看每个根路径的分区大小，可以使用【df -h】命令。df命令以磁盘分区为单位查看文件系统。本文操作环境：red hat enterprise linux 6.1系统、thinkpad t480电脑。(学习视频分享：linux视频教程)Linux 查看磁盘空间可以使用 df 和 du 命令。df命令df 以磁..._df -hl

Office & delphi_range[char(96 + acolumn) + inttostr(65536)].end[xl-程序员宅基地

文章浏览阅读923次。uses ComObj;var ExcelApp: OleVariant;implementationprocedure TForm1.Button1Click(Sender: TObject);const // SheetType xlChart = -4109; xlWorksheet = -4167; // WBATemplate xlWBATWorksheet = -4167_range[char(96 + acolumn) + inttostr(65536)].end[xlup]

若依 quartz 定时任务中 service mapper无法注入解决办法_ruoyi-quartz无法引入ruoyi-admin的service-程序员宅基地

文章浏览阅读2.3k次。上图为任务代码，在任务具体执行的方法中使用，一定要写在方法内使用SpringContextUtil.getBean()方法实例化Spring service类下边是ruoyi-quartz模块中util/SpringContextUtil.java(已改写)import org.springframework.beans.BeansException;import org.springframework.context.ApplicationContext;import org.s..._ruoyi-quartz无法引入ruoyi-admin的service

CentOS7配置yum源-程序员宅基地

文章浏览阅读2w次，点赞10次，收藏77次。yum，全称“Yellow dog Updater, Modified”，是一个专门为了解决包的依赖关系而存在的软件包管理器。可以这么说，yum 是改进型的 RPM 软件管理器，它很好的解决了 RPM 所面临的软件包依赖问题。yum 在服务器端存有所有的 RPM 包，并将各个包之间的依赖关系记录在文件中，当管理员使用 yum 安装 RPM 包时，yum 会先从服务器端下载包的依赖性文件，通过分析此文件从服务器端一次性下载所有相关的 RPM 包并进行安装。_centos7配置yum源

智能科学毕设分享(算法) 基于深度学习的抽烟行为检测算法实现(源码分享)-程序员宅基地

文章浏览阅读828次，点赞21次，收藏8次。今天学长向大家分享一个毕业设计项目毕业设计基于深度学习的抽烟行为检测算法实现(源码分享)毕业设计深度学习的抽烟行为检测算法实现通过目前应用比较广泛的 Web 开发平台，将模型训练完成的算法模型部署，部署于 Web 平台。并且利用目前流行的前后端技术在该平台进行整合实现运营车辆驾驶员吸烟行为检测系统，方便用户使用。本系统是一种运营车辆驾驶员吸烟行为检测系统，为了降低误检率，对驾驶员视频中的吸烟烟雾和香烟目标分别进行检测，若同时检测到则判定该驾驶员存在吸烟行为。进行流程化处理，以满足用户的需要。

随便推点

STM32单片机示例：多个定时器同步触发启动_stm32 定时器同步-程序员宅基地

文章浏览阅读3.7k次，点赞3次，收藏14次。多个定时器同步触发启动是一种比较实用的功能，这里将对此做个示例说明。_stm32 定时器同步

android launcher分析和修改10,Android Launcher分析和修改9——Launcher启动APP流程（转载）...-程序员宅基地

文章浏览阅读348次。出处 : http://www.cnblogs.com/mythou/p/3187881.html本来想分析AppsCustomizePagedView类，不过今天突然接到一个临时任务。客户反馈说机器界面的图标很难点击启动程序，经常点击了没有反应，Boss说要优先解决这问题。没办法，只能看看是怎么回事。今天分析一下Launcher启动APP的过程。从用户点击到程序启动的流程，下面针对WorkSpa..._回调bubbletextview

Ubuntu 12 最快的两个源个人感觉 163与cn99最快 ubuntu安装源下包过慢_un.12.cc-程序员宅基地

文章浏览阅读6.2k次。Ubuntu 12 最快的两个源个人感觉 163与cn99最快 ubuntu下包过慢 1、首先备份Ubuntu 12.04源列表 sudo cp /etc/apt/sources.list /etc/apt/sources.list.backup （备份下当前的源列表，有备无患嘛） 2、修改更新源 sudo gedit /etc/apt/sources.list （打开Ubuntu 12_un.12.cc

vue动态路由（权限设置）_vue动态路由权限-程序员宅基地

文章浏览阅读5.8k次，点赞6次，收藏86次。1.思路（1）动态添加路由肯定用的是addRouter，在哪用？（2）vuex当中获取到菜单，怎样展示到界面2.不管其他先试一下addRouter找到router/index.js文件，内容如下，这是我自己先配置的登录路由现在先不管请求到的菜单是什么样，先写一个固定的菜单通过addRouter添加添加以前注意：addRoutes()添加的是数组在export defult router的上一行图中17行写下以下代码var addRoute=[ { path:"/", name:"_vue动态路由权限

JSTL 之变量赋值标签-程序员宅基地

文章浏览阅读8.9k次。关键词： JSTL 之变量赋值标签 /* * Author Yachun Miao * Created 11-Dec-06 */关于JSP核心库的set标签赋值变量，有两种方式: 1.日期" />2. 有种需求要把ApplicationResources_zh_CN.prope

VGA带音频转HDMI转换芯片|VGA转HDMI 转换器方案|VGA转HDMI1.4转换器芯片介绍_vga转hdmi带音频转换器,转接头拆解-程序员宅基地

文章浏览阅读3.1k次，点赞3次，收藏2次。1.1ZY5621概述ZY5621是VGA音频到HDMI转换器芯片，它符合HDMI1.4 DV1.0规范。ZY5621也是一款先进的高速转换器，集成了MCU和VGA EDID芯片。它还包含VGA输入指示和仅音频到HDMI功能。进一步降低系统制造成本，简化系统板上的布线。ZY5621方案设计简单，且可以完美还原输入端口的信号，此方案设计广泛应用于投影仪、教育多媒体、视频会议、视频展台、工业级主板显示、手持便携设备、转换盒、转换线材等产品设计上面。1.2 ZY5621 特性内置MCU嵌入式VGA_vga转hdmi带音频转换器,转接头拆解