Java压缩与解压缩ZIP文件_java解压缩zip文件-程序员宅基地

技术标签: zip  java  解压缩文件  ZipOutputStream  笔记杂谈  压缩文件  

前言

在现代计算机上,数据传输和存储越来越依赖于文件压缩技术。当我们需要发送大量数据时,压缩文件可以大大减少传输时间和网络带宽,而且压缩文件还可以帮助我们节省磁盘空间。在Java中提供了压缩和解压缩文件的功能,可以使用java.util.zip包中的类来实现。本篇将对如何使用 Java 实现单文多件压缩和解压缩进行总结。

文件压缩指的是将一个或多个文件通过压缩算法,将其存储为一个更小的文件,以便于存储和传输。压缩的原理是通过对文件的数据进行编码和压缩,使其占用更少的空间。压缩后的文件可以通过解压缩算法还原成原始的文件格式。在文件压缩过程中,常见的操作是将多个文件打包成一个压缩文件,例如zip、tar等格式。

Java解压缩文件

常见的文件压缩格式包括:

  • ZIP:最常见的压缩文件格式之一,可以存储一个或多个文件,并可在不同的操作系统中进行解压缩。
  • TAR:Linux系统中的常见文件压缩格式,通常用于打包多个文件,但不会进行压缩。
  • GZIP:常用的文件压缩格式,通常用于压缩单个文件,可以获得更高的压缩比。
  • BZIP2:高效的压缩算法,通常用于压缩文本文件和XML文件等。
  • JAR: Jar包对于Java开发同学来说肯定很熟悉,其也是一个压缩包

Java提供了多种用于压缩和解压缩文件的API,主要包括以下类和方法:

  • ZipOutputStream 和 ZipInputStream:用于创建和读取ZIP格式的压缩文件。
  • GZIPOutputStream 和 GZIPInputStream:用于创建和读取GZIP格式的压缩文件。
  • JarOutputStream 和 JarInputStream:用于创建和读取JAR格式的压缩文件。
  • DeflaterOutputStream 和 InflaterInputStream:用于创建和读取DEFLATE格式的压缩文件。
  • CheckedOutputStream 和 CheckedInputStream:用于在压缩和解压缩过程中计算文件的校验和。

压缩和解压缩ZIP文件

通过使用Java 自带的 java.util.zip 类库下的ZipOutputStreamZipInputStreamZipEntry实现文件的压缩和解压缩,其中ZipOutputStream用于创建ZIP压缩文件输出流输出ZIP压缩文件,ZipInputStream用于创建ZIP文件输入流读取ZIP文件用于解压缩而ZipEntry对应ZIP压缩包中的每个被压缩对象;

  • 生成ZIP文件

    压缩单个文件或者单个文件夹方法,代码如下:

    /**
     * 压缩文件(支持单个文件和单个文件夹)
     * @param sourceFile 被压缩文件/文件夹
     * @param zipFile Zip文件
     */
    public static void zipCompress(File sourceFile, File zipFile) {
          
        try (ZipOutputStream zos = new ZipOutputStream(new FileOutputStream(zipFile))) {
          
            // 设置压缩方法
            zos.setMethod(ZipOutputStream.DEFLATED);
            zos.setLevel(Deflater.BEST_COMPRESSION); // 默认为-1,压缩级别,1速度快,效率低,9 速度满,效率高
            // zos.setLevel(Deflater.BEST_SPEED);
            zos.setComment("zip文件说明");
            // 处理文件夹
            if (sourceFile.exists() && sourceFile.isDirectory() && Objects.nonNull(sourceFile.listFiles())){
          
                Arrays.stream(Objects.requireNonNull(sourceFile.listFiles())).forEach(file -> {
          
                    addZipFile(file, zos);
                });
            }else{
          
                addZipFile(sourceFile, zos);
            }
        } catch (IOException e) {
          
            e.printStackTrace();
        }
    }
    

    为了支持读取单个文件夹进行压缩,增加一个向ZipOutputStream中添加ZipEntry的方法,代码如下:

    /**
     * 向ZIP中添加文件
     * @param file 源文件
     * @param zos zip输出流
     */
    private static void addZipFile(File file, ZipOutputStream zos){
          
        if (!file.exists() || file.isDirectory()){
          
            throw new RuntimeException("文件不存在或该文件为文件夹,请检查");
        }
        try {
          
            // 读入文件
            FileInputStream fis = new FileInputStream(file);
            // 创建压缩对象并设置一些属性
            ZipEntry entry = new ZipEntry(file.getName());
            entry.setMethod(ZipEntry.DEFLATED); // 压缩方法默认为DEFLATED
            // entry.setMethod(ZipEntry.STORED); // STORED(不压缩)。当使用STORED压缩方法时,需要设置未压缩的数据大小和CRC-32校验和,否则压缩和解压缩时会出现错误。
            entry.setSize(file.length()); // 设置未压缩的数据大小,这里设置的是文件大小
            // 计算 CRC-32 校验码
            // byte[] data = Files.readAllBytes(file.toPath());
            // CRC32 crc = new CRC32();
            // crc.update(data);
            // entry.setCrc(crc.getValue()); // 设置CRC-32校验和,用于保证压缩后的数据完整性,尽量别手动设置,可以通过CRC-32计算
            entry.setCompressedSize(file.length()); // 设置压缩后的数据大小,这里设置的是使用DEFLATED方法压缩后的数据大小
            entry.setExtra(new byte[]{
          }); // 设置额外的数据,这里设置为空
            entry.setComment("file comment"); // 设置ZipEntry的注释,即文件说明
            entry.setCreationTime(FileTime.from(Instant.now())); // 设置文件的创建时间
            entry.setLastAccessTime(FileTime.from(Instant.now())); // 设置文件的最后访问时间
            entry.setLastModifiedTime(FileTime.from(Instant.now())); // 设置文件的最后修改时间。
            // 向ZIP输出流中添加一个ZIP实体,构造方法中的name参数指定文件在ZIP包中的文件名
            zos.putNextEntry(entry);
            // 向ZIP实体中写入内容
            byte[] buf = new byte[1024];
            int len;
            while ((len = fis.read(buf)) > 0) {
          
                zos.write(buf, 0, len);
            }
            // 关闭ZipEntry
            zos.closeEntry();
        } catch (IOException e) {
          
            e.printStackTrace();
        }
    }
    

    注意:

    涉及到文件IO流,如果没有使用try with source 的语法,一定要记得关闭输入输出流;

    使用Java.util.zip下的工具类压缩成ZIP不支持设置ZIP密码且每种模式下生成的ZIP文件大小大于等于原文件/文件夹;

    当使用STORED压缩方法时,需要设置未压缩的数据大小和CRC-32校验和,该值需要借助CRC-32计算非常的麻烦,不设置此值会抛出异常;

    对于压缩,可以使用 ZipOutputStream 的 putNextEntry 方法逐个添加文件,避免将所有文件一次性读入内存;

    可以设置缓冲区大小,例如对于文件的读取和写入,可以设置缓冲区大小为 4KB 或者 8KB,减少内存的占用;

    对于解压缩,可以使用 ZipInputStream 的 getNextEntry 方法逐个读取文件,避免将所有文件一次性读入内存;

  • 解压缩ZIP文件

    将ZIP文件解压缩支持生成文件夹,代码如下:

    /**
     * 解压缩ZIP文件
     * @param zipFile ZIP文件
     * @param destDir 目标路径
     */
    public static void zipDecompress(File zipFile, File destDir) {
          
        byte[] buffer = new byte[1024];
        try (ZipInputStream zis = new ZipInputStream(new FileInputStream(zipFile))) {
          
            ZipEntry entry = zis.getNextEntry();
            while (entry != null) {
          
                File file = new File(destDir, entry.getName());
                if (entry.isDirectory()) {
          
                    file.mkdirs();
                } else {
          
                    File parent = file.getParentFile();
                    if (!parent.exists()) {
          
                        parent.mkdirs();
                    }
                    try (FileOutputStream fos = new FileOutputStream(file)) {
          
                        int len;
                        while ((len = zis.read(buffer)) > 0) {
          
                            fos.write(buffer, 0, len);
                        }
                    }
                }
                entry = zis.getNextEntry();
            }
        } catch (IOException e) {
          
            e.printStackTrace();
        }
    }
    
  • 如何避免压缩文件中的注入攻击?

    压缩文件中的路径名和文件名可以被精心构造的攻击者利用,从而使得解压缩的过程中可能会导致路径遍历、文件覆盖等问题,进而导致安全问题。为了避免这些安全问题,可以进行如下处理:

    • 限制压缩文件中的路径名和文件名的长度,以及字符集,可以采用白名单机制对输入进行限制;
    • 对于解压缩的路径名和文件名,不要使用压缩文件中的路径名和文件名,而是在解压缩时自行构造一个路径名和文件名;
    • 对于不可信任的压缩文件,最好在安全的环境下解压缩,例如在沙箱或虚拟机中进行操作。

检验

主要测试使用上述代码压缩单文件和解压缩单文件能否成功以后测量单个文件的处理耗时,同时测试单文件夹多文件压缩和解压缩能否成功以及处理耗时,单元测试代码如下:

@Test
void testJavaUtilZip(){
    // 测试压缩和解压缩单文件ZIP
    // 被压缩的MP4单文件,大小112.5MB
    File inputFile = new File("/Users/zlc/Documents/own/images/GPT-4 Developer Livestream.mp4");
    // ZIP文件路径
    File zipFile = new File("/Users/zlc/Documents/own/mp4.zip");
    // ZIP 解压缩路径
    File unzipFile = new File("/Users/zlc/Documents/own/unzip");
    long start = System.currentTimeMillis();
    // 压缩文件
    ZipFileUtil.zipCompress(inputFile, zipFile);
    long end = System.currentTimeMillis();
    System.out.println("ZIP-压缩单文件耗时:" + (end - start) + "毫秒");
    start = System.currentTimeMillis();
    ZipFileUtil.zipDecompress(zipFile, unzipFile);
    end = System.currentTimeMillis();
    System.out.println("ZIP-解压缩单文件耗时:" + (end - start) + "毫秒");
    // 单文件夹多文件压缩和解压缩测试
    // 文件夹大小2.42G
    File inputFiles = new File("/Users/zlc/Documents/own/images");
    File zipFiles = new File("/Users/zlc/Documents/own/imagesZip.zip");
    File unzipFiles = new File("/Users/zlc/Documents/own/imagesUnzip");
    start = System.currentTimeMillis();
    // 压缩文件
    ZipFileUtil.zipCompress(inputFiles, zipFiles);
    end = System.currentTimeMillis();
    System.out.println("ZIP - 多文件压缩耗时:" + (end - start) + "毫秒");
    start = System.currentTimeMillis();
    ZipFileUtil.zipDecompress(zipFiles, unzipFiles);
    end = System.currentTimeMillis();
    System.out.println("ZIP - 多文件解压缩耗时:" + (end - start) + "毫秒");
}

测试结果如下:

ZIP-压缩单文件耗时:5492毫秒
ZIP-解压缩单文件耗时:1920毫秒
ZIP - 多文件压缩耗时:136059毫秒
ZIP - 多文件解压缩耗时:45739毫秒

同时测试了设置不同压缩等级的耗时比较,结果如下:

// 不同压缩等级下的处理耗时 
BEST_COMPRESSION 2.43G 文件夹耗时119801毫秒快两分钟了
BEST_SPEED 2.43G 文件夹耗时112646毫秒 也没差多少,但确实快了

结论:

测试环境为MacOS 四核Intel Core i7,16G内存,处理将近2.5G大小的文件夹耗时接近两分钟,效率十分低下,在总文件大小不大的时候可以考虑使用JDK自带的压缩工具类。

应用

设计一个API,通过使用Hutool生成两个CSV文件和一个Excel文件,将这三个文件放入到ZIP压缩包中,当通过浏览器调用API时,下载ZIP压缩包。

同时在服务器上不生成CVS、EXCEL以及Zip文件而是直接通过HttpServletResponse将文件传送给客户端,避免服务器因过多生成这些文件导致服务硬盘不够用(PS:生成文件以后基本上不会有人管了,会随着时间的增加爆炸式增加,当然如果你需要留存建议生成本地文件存储到OSS中),代码如下:

  /**
 * 下载ZIP
 * @param response HttpServletResponse 响应流
 * @return zip file 
 */
@GetMapping(value = "/downloadZip")
public String downloadZipFile(HttpServletResponse response) {
    

    // 设置响应头
    response.setContentType("application/octet-stream");
    response.setHeader("Content-Disposition", "attachment; filename=download.zip");

    try (ZipOutputStream outputStream = new ZipOutputStream(response.getOutputStream())) {
    

        ExcelWriter writer = new ExcelWriter(true);
        List<String> header = Arrays.asList("开始日期", "结束日期", "算法厂商", "期末资产总额", "累计成交金额",
                "期间委托笔数", "期间成交笔数", "期间撤单笔数");
        writer.writeHeadRow(header);

        List<List<String>> rows = new ArrayList<>();
        rows.add(Arrays.asList("张三", "里斯", "男", "张三", "里斯", "男", "张三", "里斯"));
        rows.add(Arrays.asList("李四", "王武", "女", "张三", "里斯", "男", "张三", "里斯"));
        writer.write(rows);

        writer.passRows(1);

        List<String> header1 = Arrays.asList("日期", "资金账号", "算法母单编号", "委托编号", "交易所", "股票代码",
                "委托数量", "交易方向", "订单类型", "委托价格", "委托状态", "累计成交数量", "累计成交金额");
        writer.writeHeadRow(header1);
        writer.autoSizeColumn(writer.getCurrentRow());
        List<List<String>> rows2 = new ArrayList<>();
        rows2.add(Arrays.asList("张三", "里斯", "男", "张三", "里斯", "男", "张三", "里斯", "找大大", "赵打打", "炸", "茅台", "米线"));
        rows2.add(Arrays.asList("李四", "王武", "女", "张三", "里斯", "男", "张三", "里斯", "找大大", "赵打打", "炸", "茅台", "米线"));
        writer.write(rows2);
        writer.autoSizeColumnAll();

        ZipEntry entry = new ZipEntry("数据.xlsx");
        outputStream.putNextEntry(entry);
        writer.flush(outputStream);
        writer.close();
        outputStream.closeEntry();

        ZipEntry entry1 = new ZipEntry("母单.csv");
        outputStream.putNextEntry(entry1);
        CsvWriter csvWriter1 = new CsvWriter(new OutputStreamWriter(outputStream));
        String[] csvHead1 = {
    "日期", "资金账号", "算法厂商", "算法", "算法母单编号", "交易所", "股票代码", "委托数量", "交易方向", "启动时间", "停止时间", "算法状态"};
        csvWriter1.writeLine(csvHead1);
        String[] csvData1 = {
    "20230203", "98830901", "XX", "TWAP", "12984", "SH", "600000", "10000", "4", "102311", "112311", "1"};
        String[] csvData2 = {
    "20230203", "98830901", "XX", "TWAP", "12984", "SH", "600000", "10000", "4", "102311", "112311", "1"};
        csvWriter1.writeLine(csvData1);
        csvWriter1.writeLine(csvData2);

        csvWriter1.flush();
        outputStream.closeEntry();

        ZipEntry entry2 = new ZipEntry("子单.csv");
        outputStream.putNextEntry(entry2);
        CsvWriter csvWriter2 = new CsvWriter(new OutputStreamWriter(outputStream));
        String[] csvHead2 = {
    "日期", "资金账号", "算法母单编号", "委托编号", "交易所", "股票代码", "委托数量", "交易方向", "订单类型", "委托价格", "委托状态", "累计成交数量", "累计成交金额"};
        csvWriter2.writeLine(csvHead2);
        String[] csvData3 = {
    "20230203", "98830901", "12984", "ord1122", "SH", "600000", "1000", "4", "1", "7.23", "1", "800", "5600"};
        String[] csvData4 = {
    "20230203", "98830901", "12984", "ord1122", "SH", "600000", "1000", "4", "1", "7.23", "1", "800", "5600"};
        csvWriter2.writeLine(csvData3);
        csvWriter2.writeLine(csvData4);
        csvWriter2.flush();
        outputStream.closeEntry();
        outputStream.finish();
        return "success";
    } catch (Exception e) {
    
        return "faild";
    }
}

总结

Java 自带的 java.util.zip 类库是一个基础的压缩和解压缩类库,它提供了很基本的压缩和解压缩功能。在处理小型文件或数据时,java.util.zip 是一个可行的选择。不过,对于大型文件或数据的处理,效率可能会受到影响。相比之下,一些第三方的类库如 Apache Commons Compress、Zip4j 等提供了更为高级的压缩和解压缩功能,同时也提供了更好的性能。
本文首发于香菜喵,打开微信随时随地读,文章下方 ↓ ↓ ↓

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/chen15369337607/article/details/130591293

智能推荐

开源项目,毕业设计_本科毕业设计拿别人的开源代码修改-程序员宅基地

文章浏览阅读1.5w次,点赞35次,收藏385次。自己在网上找的开源项目,比较好分享给大家热门开源项目(包含小四轴、智能手环、光立方、智能车、防丢器等项目)号外!号外!(搞四轴,有这套就足够了!)科研级别的小四轴STM32F4芯片支持WIFI且android手机控制自适应控制就是牛掰!该飞机面向有科研和强烈学习意向的小伙伴们使用,如果只是想玩的话你肯定不会喜欢这套四轴的,主要设计思想是提供一个高性能的控制和姿态算法验证平台,因此..._本科毕业设计拿别人的开源代码修改

Java快速开发框架_若依——Ruoyi添加自己的业务模块_ruoyi java17-程序员宅基地

文章浏览阅读1w次,点赞2次,收藏26次。QQ 1274510382Wechat JNZ_aming商业联盟 QQ群538250800技术搞事 QQ群599020441解决方案 QQ群152889761加入我们 QQ群649347320共享学习 QQ群674240731纪年科技aming网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。叮叮叮:产品已上线 —>关注 官方-微信公众号——济南纪年信息科技有限公司民生项目:商城加盟/娱乐交友/创业商圈/外包兼职开发-项目发布/安全项目:态势感.._ruoyi java17

CISCO 交换机配置 Web浏览器的方式-程序员宅基地

文章浏览阅读9k次,点赞2次,收藏3次。 当利用Console口为交换机设置好IP地址信息并启用HTTP服务后,即可通过支持JAVA的Web浏览器访问交换机,并可通过Web通过浏览器修 改交换机的各种参数并对交换机进行管理。事实上,通过Web界面,可以对交换机的许多重要参数进行修改和设置,并可实时查看交换机的运行状态。不过在利用 Web浏览器访问交换机之前,应当确认已经做好以下准备工作:·在用于管理的计算机中安装T..._思科交换机2960s有web配置吗

ERROR - file: tracker_proto.c, line: 48, server: 127.0.0.1:22122, response status 2 != 0-程序员宅基地

文章浏览阅读2.5w次,点赞2次,收藏6次。报错信息: [2018-09-09 20:33:12] ERROR - file: tracker_proto.c, line: 48, server: 127.0.0.1:22122, response status 2 != 0 [2018-09-09 20:33:12] ERROR - file: tracker_proto.c, line: 48, server: 127.0.0.1:..._error - file: tracker_proto.c, line: 48, server: 172.17.0.1:22122, response

使用matplotlib显示图片(《深度学习入门:基于Python的理论与实现》实践笔记)_matplotlib展示图片-程序员宅基地

文章浏览阅读3.9k次。使用matplotlib显示图片(《深度学习入门:基于Python的理论与实现》实践笔记)一、安装matplotlib库二、导入matplotlib.pyplot库和matplotlib.image库里的imread函数三、实例:显示图片一、安装matplotlib库在命令行使用下面的命令即可:pip install matplotlib二、导入matplotlib.pyplot库和matplotlib.image库里的imread函数在程序开头使用:import matplotlib.pyp_matplotlib展示图片

Subversion实践案例——客户现场模式的分布式开发_开发去客户现场的案例-程序员宅基地

文章浏览阅读1.2k次。基本信息 用户单位:某应用软件研发企业 用户规模:100人以上 组织过程水平:中等 CMMI评审等级:无 Subversion使用时间:1年 客户需求 由于公司每次向新客户提交软件的时候都需要派出一个小规模的团队到客户现场进行一段时间的软件定制和维护。此外,老客户系统的重大升级和功能扩展也需要一个小团队在客户现场进行一段时间的开发。因此,异地开发的配置管理就是一_开发去客户现场的案例

随便推点

(基于matlab自写代码)语音信号的短时分析,计算平均能量,短时过零数_matlab求语音信号短时过零率的函数-程序员宅基地

文章浏览阅读3.2k次。一定时宽的语音信号,其能量的大小随时间有明显的变化。清音段能量比浊音段小得多。短时过零数也可用于语音信号分析中,发浊音时,其语音能量约集中于3kHz以下,而发清音时,多数能量出现在较高频率上。可认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数,故对一短时语音段计算其短时平均能量及短时平均过零数,就可以区分其中的清音段和浊音段,从而可判别句中清、浊音转变时刻,声母韵母的分界以及无声与有声的分界。这在语音识别中有重要意义。自己编写的matlab代码,对一段语音,取帧长为240个点,计算其平均能_matlab求语音信号短时过零率的函数

Ubuntu服务器创建新用户及解决新用户登录Access denied问题

默认情况下,在Ubuntu上,sudo组的成员被授予sudo访问权限。如果您希望新创建的用户具有管理权限,需要将将用户添加到sudo组。命令将向你询问一系列的问题。密码是必需的,其他字段都是可选的。最后,输入Y确认信息是否正确。执行完上述步骤后需要重启ssh服务,否则新创建的用户连接服务器时会出现。

项目组织战略管理及组织结构_项目组织的具体形态的是战略管理层-程序员宅基地

文章浏览阅读1.7k次。组织战略是组织实施各级项目管理,包括项目组合管理、项目集管理和项目管理的基础。只有从组织战略的高度来思考,思考各个层次项目管理在组织中的位置,才能够理解各级项目管理在组织战略实施中的作用。同时战略管理也为项目管理提供了具体的目标和依据,各级项目管理都需要与组织的战略保持一致。..._项目组织的具体形态的是战略管理层

图像质量评价及色彩处理_图像颜色质量评价-程序员宅基地

文章浏览阅读1k次。目录基本统计量色彩空间变换亮度变换函数白平衡图像过曝的评价指标多视影像因曝光条件不一而导致色彩差异,人眼可以快速区分影像质量,如何利用图像信息辅助算法判断影像优劣。基本统计量灰度均值方差梯度均值方差梯度幅值直方图图像熵p·log(p)色彩空间变换RGB转单通道灰度图像 mean = 225.7 stddev = 47.5mean = 158.5 stddev = 33.2转灰度梯度域gradMean = -0.0008297 / -0.000157461gr_图像颜色质量评价

MATLAB运用规则,利用辛普森规则进行数值积分-程序员宅基地

文章浏览阅读1.4k次。Simpson's rule for numerical integrationZ = SIMPS(Y) computes an approximation of the integral of Y via the Simpson's method (with unit spacing). To compute the integral for spacing different from one..._matlab利用幸普生计算积分

【AI之路】使用huggingface_hub优雅解决huggingface大模型下载问题-程序员宅基地

文章浏览阅读1.2w次,点赞28次,收藏61次。Hugging face 资源很不错,可是国内下载速度很慢,动则GB的大模型,下载很容易超时,经常下载不成功。很是影响玩AI的信心。经过多次测试,终于搞定了下载,即使超时也可以继续下载。真正实现下载无忧!究竟如何实现?且看本文分解。_huggingface_hub