Hacder's Lab
哥德疯了


php和js中的URLEncode 相关资料整理

July 5th, 2010 . by hacder

理解URLEncode:
URLEncode:是指针对网页url中的中文字符的一种编码转化方式,最常见的就是Baidu、Google等搜索引擎中输入中文查询时候,生成经过Encode过的网页URL。URLEncode的方式一般有两种一种是传统的基于GB2312的Encode(Baidu、Yisou等使用),一种是基于UTF-8的Encode(Google,Yahoo等使用)。本工具分别实现两种方式的Encode与Decode。
中文 -> GB2312的Encode -> %D6%D0%CE%C4
中文 -> UTF-8的Encode -> %E4%B8%AD%E6%96%87
阅读全文——共956字


关于javascript中的GB2312,UTF-8编码整理

July 5th, 2010 . by hacder

  首先我们要了解下汉字的编码。众所周知,电脑中的每个字符归根结底都是由1和0组成,而电脑是由美国最先研制出来的,所以字符只局限于26个英文字母和若干种符号,每个字符都有对应的ASCII码,如果想要在电脑上表示一个中文字符,就必须先经过编码。任何编码都需要一个共同约定的规范,我们的前辈在汉字编码上所做出的成就是伟大的。以下是现今较为流行的汉字编码方式:
  GBK:GBK编码是GB2312的升级版,GB2312是“中华人民共和国国家汉字信息交换用编码”,由国家标准总局发布,1981年5月1日起实施,通行于大陆,新加坡等地也使用此编码。GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节,两个字节的值分别为区号值和位号值加32(2OH),因此也称为区位码。01-09区为符号、数字区,16-87区为汉字区,10-15区、88-94区是有待进一步标准化的空白区。GB2312最多能表示6763个汉字。但随着时间推移及汉字文化的不断延伸推广,有些原来很少用的字,现在变成了常用字,只能编码6763个汉字就显得捉襟见肘了。所以了为了解决这些问题,以及配合UNICODE的实施,全国信息技术化技术委员会于1995年12 月1日发布GBK。GBK向下与GB2312 完全兼容,向上支持ISO 10646国际标准,起到了承上启下的作用。GBK 亦采用双字节表示,总体编码范围为8140-FEFE之间,共收录21886个汉字和图形符号,简繁体字融于同一库。
阅读全文——共6223字