对联 ·故事 ·史海钩沉 ·人物档案 ·地方风俗 ·谚语大全 ·讽刺与幽默 · 赚钱 · 法律 · 在线教研 · 会员中心 · 心理测试 · 魔鬼词典 · 顺口溜
 
主页特效 网页特效 百家姓
娱乐 歇后语 绕口令 脑筋急转弯
 
谚语 谜语 名言 邮政编码
便民 酒方 验方 偏方 站长工具  
 
算命 风俗 手相 爱情
女孩 音乐 面相 星座 血型
 
饮食 穴道 偏方 医药
生活 软件 硬件 解梦 高考



   JS特效



实用工具
便民服务 加密解密
 
魅力高密 民间故事 Flash教程 PS教程 最新国内新闻
新华字典 黄道吉日 英语园地  万年历 Html2anycode
  首页 | 美图 | 短信 | 安全 | 校园 | 网站 | 游戏 | UFO | 文秘 | 生活 | 信息技术 | 论文 | 人生 | 情感 | 日记
返回首页
当前位置: 主页 > 软硬兼施 > 软件资讯 >

简单介绍UTF-8和UTF-16以及UNICODE的关系

时间:2010-01-10 13:21来源:未知 作者:admin 点击:
回答一: 说到UTF-8与UTF-16就要首先解决一个问题: 么是UTF-8?它与UNICODE是一回事吗? Unicode的最初目标,是用1个16位的编码来为超过65000字符提供映射。 但这还不够,它不能覆盖全部
  

回答一:

说到UTF-8与UTF-16就要首先解决一个问题:

么是UTF-8?它与UNICODE是一回事吗?

Unicode的最初目标,是用1个16位的编码来为超过65000字符提供映射。

但这还不够,它不能覆盖全部历史上的文字,也不能解决传输的问题 (implantation head-ache's),尤其在那些基于网络的应用中。已有的软件必须做大量的工作来处理16位的数据。

因此,Unicode用一些基本的保留字符制定了三套编码方式。

它们分别是

UTF-8

UTF-16

UTF-32

正如名字所示,在UTF-8中,字符是以8位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF-8保留了ASCII字符的编码做为它的一部分,例如,在UTF- 8和ASCII中,“A”的编码都是0x41.

UTF-16和UTF-32分别是Unicode的16位和32位编码方式。

考虑到最初的目的,通常说的Unicode就是指UTF-16。

在讨论Unicode时,搞清楚哪种编码方式非常重要。

 

回答二:

unicode.org制定的编码机制, 要将全世界常用文字都函括进去.

在1.0中是16位编码, 由U+0000到U+FFFF. 每个2byte码对应一个字符;

在2.0开始抛弃了16位限制, 原来的16位作为基本位平面, 另外增加了16个位平面, 相当于20位编码, 编码范围0到0x10FFFF.

UTF: Unicode/UCS Transformation Format

UTF-8
是8bit编码, 其中的ASCII不作变换, 其他字符做变长编码, 每个字符1-3 byte. 通常作为外码.

有以下优点:

* 与CPU字节顺序无关, 可以在不同平台之间交流

* 容错能力高, 任何一个字节损坏后, 最多只会导致一个编码码位损失, 不会链锁错误
(如GB码错一个字节就会整行乱码)

UTF-16
16bit编码, 是变长码, 大致相当于20位编码, 值在0到0x10FFFF之间, 基本上就是unicode编码的实现. 它是变长码, 与CPU字序有关, 但因为最省空间, 常作为网络传输的外码.
UTF-16是unicode的preferred encoding.

UTF-32
仅使用了unicode范围(0到0x10FFFF)的32位编码, 相当于UCS-4的子集.


UTF与unicode的关系:

Unicode是一个字符集, 可以看作为内码.

而UTF是一种编码方式, 它的出现是因为unicode不适宜在某些场合直接传输和处理.

UTF-16直接就是unicode编码, 没有变换, 但它包含了0x00在编码内, 头256字节码的第一个byte都是0x00, 在操作系统(C语言)中有特殊意义, 会引起问题.

采用UTF-8编码对unicode的直接编码作些变换可以避免这问题, 并带来一些优点.

 

综上所述,一些基本的区别就在上面了。

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
最新评论 查看所有评论
发表评论 查看所有评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 密码: 验证码:
赞助商位置
推荐内容
杂七杂八