UTF
什么是UTF-8?
UNICODE(UTF-8)这个项目放在 IE 的菜单栏下是为了让你能够强制 IE 用 UTF-8字符集显示页面。
只有在页面编码为 UTF-8 但 IE 却无法正确地选择 UTF-8 字符集来显示页面的时候,你才应该动用该项目。
如果现在你选择该项目,这个页面将被显示成乱码,因为这个页面的编码是 GB2312 (简体中文),不是 UTF-8。以不正确的编码显示页面就好像把汉语拼音当成法语来念,结果当然是没人能听懂的乱语
首先 UCS 和 Unicode 只是分配整数给字符的编码表. 现在存在好几种将一串字符表示为一串字节的方法. 最显而易见的两种方法是将 Unicode 文本存储为 2 个 或 4 个字节序列的串. 这两种方法的正式名称分别为 UCS-2 和 UCS-4. 除非另外指定, 否则大多数的字节都是这样的(Bigendian convention). 将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00. 如果要转换成 UCS-4, 则必须在每个 ASCII 字节前插入三个 0x00.
在 Unix 下使用 UCS-2 (或 UCS-4) 会导致非常严重的问题. 用这些编码的字符串会包含一些特殊的字符, 比如 '