Python底层实现一个简易的HashMap(dict)_python hashmap dict-程序员宅基地

技术标签: python  java  TheFuckingTask  链表  hashmap  数据结构  


前前言

在上一片文章中写了对比Python、Java、JavaScript中list, dict的使用,dict就是一个映射集合,在Java中有类似的是HashMap。

上篇文章只是讲了dict的语法层面,只是讲到dict如何增删改查,基本没什么技术含量,这篇文章深入理解Python中的dict(HashMap)底层原理,并且手动封装写一个简易的HashMap(dict).

前言

Python中有一种基础数据结构叫做dict, dict是多个key-value 映射组成的。

在Java中有一个非常类似的工具类,叫做HashMap,也是很多个key-value映射组成的。

python中的dict是作为一种基础数据类型,底层的实现是用C/C++写的,是看不到源码的。而Java中的HashMap是通过基本数据类型封装而成的。

我们也可以使用Python中的基本数据类型封装一个HashMap(不用dict)。

HashMap的作用

HashMap的存在是为了快速访问,通过key可以快速访问到value,并且时间复杂度是O(1)。

那么怎样通过key查找value可以快速查找呢?

学数据结构时学过数组和链表两种线性表,数组可以通过下标随机访问,时间复杂度是O(1),而链表需要遍历来访问,时间复杂度是O(n)。

如果key-value键值对是简单的线性排列,如下:

或者:

那么通过key访问value必须要遍历整个列表,时间复杂度是O(n)。

那么有没有办法可以通过key快速访问到value呢?

这就是hash表。

Hash表原理

能做到随机访问的数据结构只有数组,通过数组下标可以访问内容,时间复杂度是O(1)。

那么现在是需要通过key来访问value,可以把key-value键值对放到特定的数组位置中让key和数组下标有关联,也就是通过key可以计算出数组下标,那么给定一个key,可以迅速定位到value在数组那个元素。

这就是Hash表通过key访问value时间复杂度为O(1)的原理。

Java中HashMap的实现原理

Java中的HashMap结构是这样的:

首先初始化了一个数组,放入key-value键值对时,先计算key的Hash值,再将hash值计算得到数组下标,然后放入数组中(其实是将引用给了数组)。

如果两个元素key经过hash计算,再计算得到数组下标相同(这也叫Hash冲突),那么一个数组节点不可能放两个元素,因此就在该数组节点再放一个链表,将冲突的元素放入链表中

JDK1.7处理Hash冲突是使用的这种链表的方式,而JDK 1.8是使用链表+红黑树的形式,因为加入链表过长,也需要一个个元素遍历,效率也不高。

要想实现一个HashMap,有一下几点要考虑:

  1. 怎样通过Hash值计算得到数组下标?
  2. Hash冲突怎样处理?(使用链表处理用头插法还是尾插法?)
  3. 链表过长怎么办?扩容?如何扩容?

对于问题1,通过Hash值计算出数组下标,这就需要计算出来的结果很平均,而且不能越界。 常规方法可以是取余数,比如数组长度为N,Hash值是x,那么下标应该是x%N。但是取余数效率不高,JDK中使用的是位运算:

static int indexFor(int h, int length) {
   
    
    // assert Integer.bitCount(length) == 1 : "length must be a non-zero power of 2";
    return h & (length-1);
}

这里有个条件是数组长度必须是2的幂次,因为这样才可以通过位运算得到正确结果。
而这个位运算为什么可以达到效果呢? 因为length是2的幂,也就是最高位是1,其他低位都是0,而length-1就所有位都是1,然后使用&运算,就把h的低位取了出来,然后结果的范围是比length小的。
比如:length = 16,h = 20

length :    0001 0000
length-1:   0000 1111
h :         0001 0100
length&h:   0000 0100   ==  4

对于问题2,JDK1.7中处理Hash冲突是使用的链表,将冲突元素放入到链表中去,并且是使用的头插法插入元素。

对于问题3, 当Hash表中冲突元素过多,链表很长时,那么访问效率就会很慢(因为链表需要都遍历一遍),就需要扩容,将链表变短,让元素在Hash表中更加分散一些。
根据JDK1.7 HashMap的源码,数组默认初始长度是16,当HashMap中元素达到一个阈值,就会扩容,JDK 1.7中这个阈值是默认是75%,当元素个数达到75%时就会扩容。

使用Python实现HashMap

Talk is cheap, show me the code.

这里我仿照JDK1.7中的HashMap源码进行改写了一下,简化了一些地方,实现了一个Python版本的HashMap。

"""
    Entry表示一个Key-value键值对节点,在Python中的dict里面叫做items。
"""
class Entry():
    def __init__(self, hash = 0, key = 0, value = 0, next = None):
        self.hash = hash
        self.key = key
        self.value = value
        self.next =<
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_43414715/article/details/108831139

智能推荐

JavaScript学习笔记_curry函数未定义-程序员宅基地

文章浏览阅读343次。五种原始的变量类型1.Undefined--未定义类型 例:var v;2.String -- ' '或" "3.Boolean4.Number5.Null--空类型 例: var v=null;Number中:NaN -- not a number非数本身是一个数字,但是它和任何数字都不相等,代表非数,它和自己都不相等判断是不是NaN不能用=_curry函数未定义

兑换码编码方案实践_优惠券编码规则-程序员宅基地

文章浏览阅读1.2w次,点赞2次,收藏17次。兑换码编码设计当前各个业务系统,只要涉及到产品销售,就离不开大大小小的运营活动需求,其中最普遍的就是兑换码需求,无论是线下活动或者是线上活动,都能起到良好的宣传效果。兑换码:由一系列字符组成,每一个兑换码对应系统中的一组信息,可以是优惠信息(优惠券),也可以是相关奖品信息。在实际的运营活动中,要求兑换码是唯一的,每一个兑换码对应一个优惠信息,而且需求量往往比较大(实际上的需求只有预期_优惠券编码规则

c语言周林答案,C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt...-程序员宅基地

文章浏览阅读45次。C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt* * 4.1 选择结构程序设计 4.2 循环结构程序设计 4.3 辅助控制语句 第四章 结构化程序设计 4.1 选择结构程序设计 在现实生活中,需要进行判断和选择的情况是很多的: 如果你在家,我去拜访你 如果考试不及格,要补考 如果遇到红灯,要停车等待 第四章 结构化程序设计 在现实生活中,需要进行判断和选择的情况..._在现实生活中遇到过条件判断的问

幻数使用说明_ioctl-number.txt幻数说明-程序员宅基地

文章浏览阅读999次。幻数使用说明 在驱动程序中实现的ioctl函数体内,实际上是有一个switch{case}结构,每一个case对应一个命令码,做出一些相应的操作。怎么实现这些操作,这是每一个程序员自己的事情。 因为设备都是特定的,这里也没法说。关键在于怎样组织命令码,因为在ioctl中命令码是唯一联系用户程序命令和驱动程序支持的途径 。 命令码的组织是有一些讲究的,因为我们一定要做到命令和设备是一一对应的,利_ioctl-number.txt幻数说明

ORB-SLAM3 + VScode:检测到 #include 错误。请更新 includePath。已为此翻译单元禁用波浪曲线_orb-slam3 include <system.h> 报错-程序员宅基地

文章浏览阅读399次。键盘按下“Shift+Ctrl+p” 输入: C++Configurations,选择JSON界面做如下改动:1.首先把 “/usr/include”,放在最前2.查看C++路径,终端输入gcc -v -E -x c++ - /usr/include/c++/5 /usr/include/x86_64-linux-gnu/c++/5 /usr/include/c++/5/backward /usr/lib/gcc/x86_64-linux-gnu/5/include /usr/local/_orb-slam3 include 报错

「Sqlserver」数据分析师有理由爱Sqlserver之十-Sqlserver自动化篇-程序员宅基地

文章浏览阅读129次。本系列的最后一篇,因未有精力写更多的入门教程,上篇已经抛出书单,有兴趣的朋友可阅读好书来成长,此系列主讲有理由爱Sqlserver的论证性文章,希望读者们看完后,可自行做出判断,Sqlserver是否真的合适自己,目的已达成。渴望自动化及使用场景笔者所最能接触到的群体为Excel、PowerBI用户群体,在Excel中,我们知道可以使用VBA、VSTO来给Excel带来自动化操作..._sqlsever 数据分析

随便推点

智慧校园智慧教育大数据平台(教育大脑)项目建设方案PPT_高校智慧大脑-程序员宅基地

文章浏览阅读294次,点赞6次,收藏4次。教育智脑)建立学校的全连接中台,对学校运营过程中的数据进行处理和标准化管理,挖掘数据的价值。能:一、原先孤立的系统聚合到一个统一的平台,实现单点登录,统一身份认证,方便管理;三、数据共享,盘活了教育大数据资源,通过对外提供数。的方式构建教育的通用服务能力平台,支撑教育核心服务能力的沉淀和共享。物联网将学校的各要素(人、机、料、法、环、测)全面互联,数据实时。智慧校园解决方案,赋能教学、管理和服务升级,智慧教育体系,该数据平台具有以下几大功。教育大数据平台底座:教育智脑。教育大数据平台,以中国联通。_高校智慧大脑

编程5大算法总结--概念加实例_算法概念实例-程序员宅基地

文章浏览阅读9.5k次,点赞2次,收藏27次。分治法,动态规划法,贪心算法这三者之间有类似之处,比如都需要将问题划分为一个个子问题,然后通过解决这些子问题来解决最终问题。但其实这三者之间的区别还是蛮大的。贪心是则可看成是链式结构回溯和分支界限为穷举式的搜索,其思想的差异是深度优先和广度优先一:分治算法一、基本概念在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两_算法概念实例

随笔—醒悟篇之考研调剂_考研调剂抑郁-程序员宅基地

文章浏览阅读5.6k次。考研篇emmmmm,这是我随笔篇章的第二更,原本计划是在中秋放假期间写好的,但是放假的时候被安排写一下单例模式,做了俩机试题目,还刷了下PAT的东西,emmmmm,最主要的还是因为我浪的很开心,没空出时间来写写东西。  距离我考研结束已经快两年了,距离今年的考研还有90天左右。  趁着这个机会回忆一下青春,这一篇会写的比较有趣,好玩,纯粹是为了记录一下当年考研中发生的有趣的事。  首先介绍..._考研调剂抑郁

SpringMVC_class org.springframework.web.filter.characterenco-程序员宅基地

文章浏览阅读438次。SpringMVC文章目录SpringMVC1、SpringMVC简介1.1 什么是MVC1.2 什么是SpringMVC1.3 SpringMVC的特点2、HelloWorld2.1 开发环境2.2 创建maven工程a>添加web模块b>打包方式:warc>引入依赖2.3 配置web.xml2.4 创建请求控制器2.5 创建SpringMVC的配置文件2.6 测试Helloworld2.7 总结3、@RequestMapping注解3.1 @RequestMapping注解的功能3._class org.springframework.web.filter.characterencodingfilter is not a jakart

gdb: Don‘t know how to run. Try “help target“._don't know how to run. try "help target".-程序员宅基地

文章浏览阅读4.9k次。gdb 远程调试的一个问题:Don't know how to run. Try "help target".它在抱怨不知道怎么跑,目标是什么. 你需要为它指定target remote 或target extended-remote例如:target extended-remote 192.168.1.136:1234指明target 是某IP的某端口完整示例如下:targ..._don't know how to run. try "help target".

c语言程序设计教程 郭浩志,C语言程序设计教程答案杨路明郭浩志-程序员宅基地

文章浏览阅读85次。习题 11、算法描述主要是用两种基本方法:第一是自然语言描述,第二是使用专用工具进行算法描述2、c 语言程序的结构如下:1、c 语言程序由函数组成,每个程序必须具有一个 main 函数作为程序的主控函数。2、“/*“与“*/“之间的内容构成 c 语言程序的注释部分。3、用预处理命令#include 可以包含有关文件的信息。4、大小写字母在 c 语言中是有区别的。5、除 main 函数和标准库函数以..._c语言语法0x1e