Skip to content
Erning.write()
Go back

为什么我的网站都使用 UTF-8

今天听了对车东的访谈,里面提到了 UTF-8 的问题。我觉得使用 UTF-8 这样的多语言编码方案还是有必要的。

多语言编码的优点是可以在一个页面里同时显示多种语言。像这样,“アメリカ”、“검색센터”、“กองทัพอากาศ”。但是本地编码的方式通常只能显示一种语言的文字,其他语言的文字就乱码了。

为什么在一个页面里会要多种文字呢?举个例子,blog 经常引用别人的网站吧,那么我现在引用了这个“http://www.콘테이너시공테크.com”,还有这个名称比较有趣的“http://www.♣.com”。这就需要多语言的编码了。(这些网站在支持 punycode 的浏览器里,如 mozilla, firefox,是可以直接访问的)

再举个例子,我有一个 webmail,界面是中文的,编码是 GBK。朋友给我发邮件,中文的、英文的都没有问题,正常显示。可我还有朋友是以色列的,用的是希伯来语给我发的邮件。完蛋,邮件内容都是乱码了。我得手工选择浏览器的编码才能看明白邮件的内容。遗憾的是,这时界面的“回复”按钮又成了乱码,搞得我看不出哪个按钮是回复了。如果 webmail 是多语言的编码,比如 UTF-8,就不会有这样了。

UTF-8 对中文为主的网站有个缺点是,页面变长了。不是内容显示变长了,而是文件的 size 变长了。UTF-8 对一个中文字符的编码通常是 3 个 byte,而 GB2312 是 2 个 byte。


Share this post on:

Previous Post
我 TMD 就是讨厌博客中国
Next Post
今天的 MSN 也在走向庸俗化