汉字对应的unicode编码_写一段程序,对应打印出汉字和unicode的对应关系-程序员宅基地

技术标签: Java  编码  unicode  

     在Java中采用unicode字符集,每个字符占据2个字节,unicode字符集最多可包含65 535个字符。
65 535是一个很大的数字,英文字母、俄文字母、希腊字母、日文字母、阿拉伯数字、标点符号以及汉字等,都是unicode字符集中的字符。
具体而言,汉字对应的unicode范围为\u4E00~\u9FA5,9FA5-4E00=30101,即有30101个汉字,我们常用的汉字有7000个。
下面以一个程序来测定汉字的unicode编码:
package cn.ch.da;

public class ChaToZhongwen {
	public static void main(String[] args) {
		int s='中',t='国';
		System.out.println("汉字'中'对应的unicode编码为:"+s);
		System.out.println("汉字'国'对应的unicode编码为:"+t);
		char ch1=20013,ch2=22269;
		System.out.println("\\u20013对应的汉字为: "+ch1);
		System.out.println("\\u22269对应的汉字为: "+ch2);
	}

}


效果如下:

备注:(unicode的分别情况表)

  0000..007F;   Basic   Latin  
  0080..00FF;   Latin-1   Supplement  
  0100..017F;   Latin   Extended-A  
  0180..024F;   Latin   Extended-B  
  0250..02AF;   IPA   Extensions  
  02B0..02FF;   Spacing   Modifier   Letters  
  0300..036F;   Combining   Diacritical   Marks  
  0370..03FF;   Greek  
  0400..04FF;   Cyrillic  
  0530..058F;   Armenian  
  0590..05FF;   Hebrew  
  0600..06FF;   Arabic  
  0700..074F;   Syriac      
  0780..07BF;   Thaana  
  0900..097F;   Devanagari  
  0980..09FF;   Bengali  
  0A00..0A7F;   Gurmukhi  
  0A80..0AFF;   Gujarati  
  0B00..0B7F;   Oriya  
  0B80..0BFF;   Tamil  
  0C00..0C7F;   Telugu  
  0C80..0CFF;   Kannada  
  0D00..0D7F;   Malayalam  
  0D80..0DFF;   Sinhala  
  0E00..0E7F;   Thai  
  0E80..0EFF;   Lao  
  0F00..0FFF;   Tibetan  
  1000..109F;   Myanmar    
  10A0..10FF;   Georgian  
  1100..11FF;   Hangul   Jamo  
  1200..137F;   Ethiopic  
  13A0..13FF;   Cherokee  
  1400..167F;   Unified   Canadian   Aboriginal   Syllabics  
  1680..169F;   Ogham  
  16A0..16FF;   Runic  
  1780..17FF;   Khmer  
  1800..18AF;   Mongolian  
  1E00..1EFF;   Latin   Extended   Additional  
  1F00..1FFF;   Greek   Extended  
  2000..206F;   General   Punctuation  
  2070..209F;   Superscripts   and   Subscripts  
  20A0..20CF;   Currency   Symbols  
  20D0..20FF;   Combining   Marks   for   Symbols  
  2100..214F;   Letterlike   Symbols  
  2150..218F;   Number   Forms  
  2190..21FF;   Arrows  
  2200..22FF;   Mathematical   Operators  
  2300..23FF;   Miscellaneous   Technical  
  2400..243F;   Control   Pictures  
  2440..245F;   Optical   Character   Recognition  
  2460..24FF;   Enclosed   Alphanumerics  
  2500..257F;   Box   Drawing  
  2580..259F;   Block   Elements  
  25A0..25FF;   Geometric   Shapes  
  2600..26FF;   Miscellaneous   Symbols  
  2700..27BF;   Dingbats  
  2800..28FF;   Braille   Patterns  
  2E80..2EFF;   CJK   Radicals   Supplement  
  2F00..2FDF;   Kangxi   Radicals  
  2FF0..2FFF;   Ideographic   Description   Characters  
  3000..303F;   CJK   Symbols   and   Punctuation  
  3040..309F;   Hiragana  
  30A0..30FF;   Katakana  
  3100..312F;   Bopomofo  
  3130..318F;   Hangul   Compatibility   Jamo  
  3190..319F;   Kanbun  
  31A0..31BF;   Bopomofo   Extended  
  3200..32FF;   Enclosed   CJK   Letters   and   Months  
  3300..33FF;   CJK   Compatibility  
  3400..4DB5;   CJK   Unified   Ideographs   Extension   A  
  4E00..9FFF;   CJK   Unified   Ideographs  
  A000..A48F;   Yi   Syllables  
  A490..A4CF;   Yi   Radicals  
  AC00..D7A3;   Hangul   Syllables  
  D800..DB7F;   High   Surrogates  
  DB80..DBFF;   High   Private   Use   Surrogates  
  DC00..DFFF;   Low   Surrogates  
  E000..F8FF;   Private   Use  
  F900..FAFF;   CJK   Compatibility   Ideographs  
  FB00..FB4F;   Alphabetic   Presentation   Forms  
  FB50..FDFF;   Arabic   Presentation   Forms-A  
  FE20..FE2F;   Combining   Half   Marks  
  FE30..FE4F;   CJK   Compatibility   Forms  
  FE50..FE6F;   Small   Form   Variants  
  FE70..FEFE;   Arabic   Presentation   Forms-B  
  FEFF..FEFF;   Specials  
  FF00..FFEF;   Halfwidth   and   Fullwidth   Forms  
  FFF0..FFFD;   Specials  
  10300..1032F;   Old   Italic  
  10330..1034F;   Gothic  
  10400..1044F;   Deseret  
  1D000..1D0FF;   Byzantine   Musical   Symbols  
  1D100..1D1FF;   Musical   Symbols  
  1D400..1D7FF;   Mathematical   Alphanumeric   Symbols  
  20000..2A6D6;   CJK   Unified   Ideographs   Extension   B  
  2F800..2FA1F;   CJK   Compatibility   Ideographs   Supplement  
  E0000..E007F;   Tags  
  F0000..FFFFD;   Private   Use  
  100000..10FFFD;   Private   Use  

说明:Unicode CJK 的范围分布在多个区段中,上面贴出来的是整个 Unicode 中区块
表,带有 CJK 的区块名中都拥有汉字。但最常用的范围是 U+4E00~U+9FA5,即名
为:CJK Unified Ideographs 的区块,但 U+9FA6~U+9FFF 之间的字符还属于空码,
暂时还未定义,但不能保证以后不会被定义。

另:在正则表达式中使用 [\u4e00-\u9fa5] 这种方式属于写死的代码,并不能根据
平台所提供的字符集范围不同而改变,不过对于要求不是很高的话的是可以了。如果
对字符集的要求很高,可以采用下面的这种 Unicode 块的方式:

String regex = "[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]";




 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/sanqima/article/details/25917601

智能推荐

2024最新计算机毕业设计选题大全-程序员宅基地

文章浏览阅读1.6k次,点赞12次,收藏7次。大家好!大四的同学们毕业设计即将开始了,你们做好准备了吗?学长给大家精心整理了最新的计算机毕业设计选题,希望能为你们提供帮助。如果在选题过程中有任何疑问,都可以随时问我,我会尽力帮助大家。在选择毕业设计选题时,有几个要点需要考虑。首先,选题应与计算机专业密切相关,并且符合当前行业的发展趋势。选择与专业紧密结合的选题,可以使你们更好地运用所学知识,并为未来的职业发展奠定基础。要考虑选题的实际可行性和创新性。选题应具备一定的实践意义和应用前景,能够解决实际问题或改善现有技术。

dcn网络与公网_电信运营商DCN网络的演变与规划方法(The evolution and plan method of DCN)...-程序员宅基地

文章浏览阅读3.4k次。摘要:随着电信业务的发展和电信企业经营方式的转变,DCN网络的定位发生了重大的演变。本文基于这种变化,重点讨论DCN网络的规划方法和运维管理方法。Digest: With the development oftelecommunication bussiness and the change of management of telecomcarrier , DCN’s role will cha..._电信dcn

动手深度学习矩阵求导_向量变元是什么-程序员宅基地

文章浏览阅读442次。深度学习一部分矩阵求导知识的搬运总结_向量变元是什么

月薪已炒到15w?真心建议大家冲一冲数据新兴领域,人才缺口极大!-程序员宅基地

文章浏览阅读8次。近期,裁员的公司越来越多今天想和大家聊聊职场人的新出路。作为席卷全球的新概念ESG已然成为当前各个行业关注的最热风口目前,国内官方发布了一项ESG新证书含金量五颗星、中文ESG证书、完整ESG考试体系、名师主讲...而ESG又是与人力资源直接相关甚至在行业圈内成为大佬们的热门话题...当前行业下行,裁员的公司也越来越多大家还是冲一冲这个新兴领域01 ESG为什么重要?在双碳的大背景下,ESG已然成...

对比传统运营模式,为什么越拉越多的企业选择上云?_系统上云的前后对比-程序员宅基地

文章浏览阅读356次。云计算快速渗透到众多的行业,使中小企业受益于技术变革。最近微软SMB的一项研究发现,到今年年底,78%的中小企业将以某种方式使用云。企业希望投入少、收益高,来取得更大的发展机会。云计算将中小企业信息化的成本大幅降低,它们不必再建本地互联网基础设施,节省时间和资金,降低了企业经营风险。科技创新已成时代的潮流,中小企业上云是创新前提。云平台稳定、安全、便捷的IT环境,提升企业经营效率的同时,也为企业..._系统上云的前后对比

esxi网卡直通后虚拟机无网_esxi虚拟机无法联网-程序员宅基地

文章浏览阅读899次。出现选网卡的时候无法选中,这里应该是一个bug。3.保存退出,重启虚拟机即可。1.先随便选择一个网卡。2.勾先取消再重新勾选。_esxi虚拟机无法联网

随便推点

在LaTeX中使用.bib文件统一管理参考文献_egbib-程序员宅基地

文章浏览阅读913次。在LaTeX中,可在.tex文件的同一级目录下创建egbib.bib文件,所有的参考文件信息可以统一写在egbib.bib文件中,然后在.tex文件的\end{document}前加入如下几行代码:{\small\bibliographystyle{IEEEtran}\bibliography{egbib}}即可在文章中用~\cite{}宏命令便捷的插入文内引用,且文章的Reference部分会自动排序、编号。..._egbib

Unity Shader - Predefined Shader preprocessor macros 着色器预处理宏-程序员宅基地

文章浏览阅读950次。目录:Unity Shader - 知识点目录(先占位,后续持续更新)原文:Predefined Shader preprocessor macros版本:2019.1Predefined Shader preprocessor macros着色器预处理宏Unity 编译 shader programs 期间的一些预处理宏。(本篇的宏介绍随便看看就好,要想深入了解,还是直接看Unity...

大数据平台,从“治理”数据谈起-程序员宅基地

文章浏览阅读195次。本文目录:一、大数据时代还需要数据治理吗?二、如何面向用户开展大数据治理?三、面向用户的自服务大数据治理架构四、总结一、大数据时代还需要数据治理吗?数据平台发展过程中随处可见的数据问题大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年的历史,相对数据仓库来说我还是个年轻人。而国内企业数据平台的建设大概从90年代末就开始了,从第一代架构出现到..._数据治理从0搭建

大学抢课python脚本_用彪悍的Python写了一个自动选课的脚本 | 学步园-程序员宅基地

文章浏览阅读2.2k次,点赞4次,收藏12次。高手请一笑而过。物理实验课别人已经做过3、4个了,自己一个还没做呢。不是咱不想做,而是咱不想起那么早,并且仅有的一次起得早,但是哈工大的服务器竟然超负荷,不停刷新还是不行,不禁感慨这才是真正的“万马争过独木桥“啊!服务器不给力啊……好了,废话少说。其实,我的想法很简单。写一个三重循环,不停地提交,直到所有的数据都accepted。其中最关键的是提交最后一个页面,因为提交用户名和密码后不需要再访问其..._哈尔滨工业大学抢课脚本

english_html_study english html-程序员宅基地

文章浏览阅读4.9k次。一些别人收集的英文站点 http://www.lifeinchina.cn (nice) http://www.huaren.us/ (nice) http://www.hindu.com (okay) http://www.italki.com www.talkdatalk.com (transfer)http://www.en8848.com.cn/yingyu/index._study english html

Cortex-M3双堆栈MSP和PSP_stm32 msp psp-程序员宅基地

文章浏览阅读5.5k次,点赞19次,收藏78次。什么是栈?在谈M3堆栈之前我们先回忆一下数据结构中的栈。栈是一种先进后出的数据结构(类似于枪支的弹夹,先放入的子弹最后打出,后放入的子弹先打出)。M3内核的堆栈也不例外,也是先进后出的。栈的作用?局部变量内存的开销,函数的调用都离不开栈。了解了栈的概念和基本作用后我们来看M3的双堆栈栈cortex-M3内核使用了双堆栈,即MSP和PSP,这极大的方便了OS的设计。MSP的含义是Main..._stm32 msp psp

推荐文章

热门文章

相关标签