`
chinahnzhou
  • 浏览: 348107 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

汉字在UTF-8中的需要几个字节表示

 
阅读更多

 

汉字在GB家族中是双字节,但在UTF-8中却是3字节,所以其编码方式是1110xxxx 10xxxxxx 10xxxxxx

UTF-8 使用一至四个字节为每个字符编码。

 

  1. 128 个 ASCII 字符(Unicode 范围由 U+0000 至 U+007F)只需一个字节。
  2. 带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及马尔代夫语(Unicode 范围由 U+0080 至 U+07FF)需要二个字节。
  3. 其他基本多文种平面(BMP)中的字符(CJK属于此类-Qieqie注)使用三个字节。
  4. 其他 Unicode 辅助平面的字符使用四字节编码。 
分享到:
评论

相关推荐

    grub4dos-V0.4.6a-2017-02-04更新

    例如:echo -e \x18 显示 UTF-8 字符 0x18。 echo -e \X2191 显示 unicode 字符 0x2191。 2016-03-15(yaya) 1.增加动画控制热键 F2:播放/停止。 2.增加动画控制位 0x835b,位0:0/1=停止/播放。 3.增加精简...

    01------helloServlet.rar

    解决:Desktop>javac -encoding UTF-8 HelloServlet.java 原因:使用CMD运行java程序的时候,系统默认的编码格式是gbk。而包含中文字符的代码一般是UNICODE格式,所以直接运行含有中文字符的代码就很容易出现编码...

    ajax乱码解决汇总

    第二,utf-8是每个汉字(unicode字符)用3个字节来存储。 第三,用utf-8来send数据是不会出现乱码的,是后台程序没有正确解码才会出现乱码。 第四,ajax发送数据的时候如果修改 Content-Type 为 application/x-...

    有关于当安装maven成功后javaweb会出现几个乱码问题,都会解决

    通常我们所遇到过多UTF-8这是Unicode编码的实现方式,请一定要加以区分。 GB2312字集是简体字集;BIG5字集是台湾繁体字集;GBK字集是简繁字集,包括了GB字集、BIG5字集和一些符号 GB18030是国家制定的一个强制性大字集...

    一道 C语言 二维数组作业题目

    题目 有下面这样的一个二维表,请将其使用二维数组... char ach[16][64]={ // utf-8编码中会出现部分文字符占用4字节或3字节的问题,所以这里无论是英文字符还是中文,统一定义宽度4字节,总记64字节 姓名,语文,数学

    SuperNotepad

    21) 支持多种格式UTF-8, BIG5, GB2321, Unicode,Unicode big edian, Rich Text, USC-2 22) 查看密码 (扩展对所有已打开的窗口密码均有效Ctrl+D) 23) 正则表达式处理字符 例︰"\b([a-z]+) \1\b"合并多...

    易语言-编码转换类1.2版模块

    GBK编码:1-2个字节,包含GB2312、ASCII、BIG5,注意:同一个繁体字在GBK和BIG5中的编码是各不相同的。 GB18030编码:1字节、2字节、4字节,兼容GBK。 UNICODE是国际统一编码,UCS-2标准:2字节,UCS-4标准:4字节。...

    Tinyxml 源代码(VC6 & VS2005)

    TinyXML完全支持UTF-8编码和前64k个字符实体(译注:如果你不明白这句译文,可能你需要了解一下Unicode编码)。 它无法做些什么 TinyXML不解析不使用DTDs(文档类型定义)或者XSLs(可扩展样式表语言)。有其它...

    CVASP框架 201204C

    基本信息:版本编号:201204C核心字节:51700核心文件:cvcorem.asp英文名称:CVASP -- Controller View for ASP Framework中文名称:CVASP框架程序语言:VBScript字符编码:GB2312, GBK, UTF-8 功能简介:简便:...

    PHP字符串的编码问题的详细介绍

    如ASCII编码字符占用1个字节,UTF-8编码的中文字符是3字节,GBK为2个字节。    PHP 也自带几种字符串截取函数,其中常用到的就是 substr 和 mb_substr。  使用substr截取中文字符时会出现乱码,这是因为substr是按...

    千字文c语言

    文章中所有的字符在 UCS-2 能够表示的范围内,即字符的 Unicode 值用两个字节就可以表示。 输入 一篇文章,总字数不限、每行字符数不限。每个字重复出现的次数不超过 60000 次。 输出 按照 Unicode 编码从小...

    PHP实时统计中文字数和区别

    这个是困扰我很久的问题,PHP 中有很多函数可以计算字符串的长度,比如下面的例子,分别使用了 strlen,mb_strlen,mb_strwidth 这个三个函数去测试统计字符串的长度,看看把中文算成几个字节: echo strlen(你好...

    eclipse文件编码设置、转换原理与实用工具

    批量转换文件的二进制编码(用新的文件编码重写文件),如从gbk到utf-8,免除逐个文件全选、复制、右键、属性、改文本文件编码、粘贴、保存之苦(该转换是根据编码设置文件进行转换的,因此更加安全); c.结合上述...

    MYQQ2009 - 用控制台上QQ

    3. 补充了几个新的服务器IP。 4. 输入密码时去掉回显或打*。 5. 修正prot_login_verify_password_reply处理返回包的误解,感谢CC-Akita(CCPaging)。 6. 增加Dev-cpp工程文件,增加程序图标。 7. Makefile里定向...

    [洫蜘蛛] 编码转换模块,不依赖系统Api-易语言

    GBK编码:1-2个字节,包含GB2312、ASCII、BIG5,注意:同一个繁体字在GBK和BIG5中的编码是各不相同的。 GB18030编码:1字节、2字节、4字节,兼容GBK。 UNICODE是国际统一编码,UCS-2标准:2字节,UCS-4标准:4字节。...

    iOS UITextField最大字符数和字节数的限制详解

     1、限制10个字节,输入2个Emoj之后是8个字节(一个Emoj是4个字节),此时再输入一个中文,看看结果如何(中文的UTF8占3个字节)  2、限制5个字符,一个Emoj是2个字符,其他都是一个。此时输入两个Emoj,再输入中文,...

    安卓java读取网页源码-AndroidLearningNotes:第一次提交

    安卓java读取网页源码 AndroidLearningNotes Java Java基础面试知识 int与integer的区别 探探对java多态的理解 ...utf-8编码中的中文占几个字节;int型几个字节? 静态代理和动态代理的区别,什么场景使用

    MyQQ(DosQQ) 超小的精简QQ DEV-C++ 源码

    3. 补充了几个新的服务器IP。 4. 输入密码时去掉回显或打*。 5. 修正prot_login_verify_password_reply处理返回包的误解,感谢CC-Akita(CCPaging)。 6. 增加Dev-cpp工程文件,增加程序图标。 7. Makefile里定向...

    CVASP框架 201204C.zip

    字符编码:GB2312, GBK, UTF-8   功能简介: 简便:  常用函数和类采用精简命名,书写代码更少。  提供几个下划线的代码生成工具:  _convutf8.asp --用于转换中文为UTF编码用于AJAX  _mkcvatpl.asp --...

    java开源包1

    开发它是用于在UTF-8 Oracle实例中使用ASCII编码的Oracle 数据库中来正确的传输非ASCII字符。 Java模板语言 Beetl Beetl,是Bee Template Language的缩写,它绝不是简单的另外一种模板引擎,而是新一代的模板引擎,...

Global site tag (gtag.js) - Google Analytics