编码问题总结

2018-06-09

前言

由于在开发中经常遇到中文乱码的问题，每次都百度解决问题就完事了，根本没有去了解其中的原理过程，总是在重复搜索浪费了很多时间。所以决定好好理解和总结一番。

本次总结主要是对编码上的一些概念的区分总结，不对具体编码的如何实现做总结，如需了解不同字符集编码实现请自行百度google搜索资料。

什么是编码？为什么要编码？

计算机只认识0和1二进制，我们人类虽然也认识二进制，但是根据01来提取信息实在是太困难了，我们有自己更方便认识的语言和文字，例如“hello world”等英文字符、“你好，中国”等中文字符等等，但是这些计算机都不认识啊，那怎么办呢？把这些字符转化成01二进制，计算机就能认识啦。

而这个转化的过程，就叫做“编码”。与之对应的逆过程，称为“解码”。

几个重要的概念

字符

“字符（Character）”是文字和符号的统称。

字库

世界上有各种语言文字和符号，古往今来，人类使用的文字和符号总会随着时代的发展而变化，我们甚至不知道世界上到底有多少文字和符号，我们不可能同时处理所有的字符，所以有必要实现规定好要使用哪些字符。这个字符的集合就叫“字库”。

字符编码

字符编码（Character Encoding） 指的是为字库中的每个字符分配一个编码值。

字符集

字符集（Character Set） 可以理解为包含字符与编码值对应的一张映射关系表。不同的字符集对同一个字符的编码值可能相同也可能不同。常见的字符集有ASCII、IOS8859、GBK、Unicode等。

字符编码方式

字符编码方式（Charater Encoding Schema)，简称CES。指的是字符编码对应的内存存储方式。不同字符集的字符编码方式通常都是不同的（如ASCII，ISO-8859-1，GBK等），相同字符集的字符编码方式也可能是不同的（如UTF-8，UTF-16，UTF-32等编码方式不同，字符集都是Unicode）。

值得注意的是，我们通常所说的“××编码”通常是指字符编码方式，如：UTF-8编码。而通常在配置编码格式的配置文件中Charset、Encoding等都是指字符编码方式。

常见编码

ASCII

美国人定义的一套标准，用一个字节的低7位表示，总共容纳128个字符，包含着英文字母、数字、以及一些符号，包括换行空格等。

ISO-8859-1

ISO组织在ASCII编码的基础上进行了扩展，也是单字节编码，使用8位来表是，总共能容纳256个字符，涵盖了大部分的西欧语言字符，有ISO-8859-1(1~16)等16种不同的字符集和编码，用于西欧不同国家。

GB2312

全称《信息交换用汉字编码字符集》，使用双字节表示，共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区，每区有94个位，每个区位上只有一个字符。

GBK

全程《汉字内码扩展规范》，是GB2312的扩展，编码范围是8140～FEFE（去掉XX7F)，总共有23940个码位，能表示21003个汉字，与GB2312兼容。

GB18030

全称《信息技术中文编码字符集》，我国强制标准。由单字节、双字节或四字节编码。

基于Unicode字符集的编码方式

基于Unicode字符集的编码有UTF-8，UTF-16，UTF-16BE，UTF-16LE，UTF-32，UTF-32BE和UTF-32LE，其中UTF-16和UTF-32为复合的CES，其余为简单的CES。

何为复合CES，即UTF-16可以通过BOM头来确定究竟是UTF-16BE还是UTF-16LE。默认情况下UTF-16的BOM头为FF FE（即BE），若指定FE FF则为LE。

另外，若声明是UTF-16BE或着UTF-16LE，则不需要加BOM头以区分。
此处看不懂可先看后面……

为什么有那么多种编码？

看了这么多编码方式，肯定会想问：为什么有这么多种编码呢？
由于早起的计算机由美国人发明的，所以当时他们定义了一套自己的标准，就是ASCII编码，ASCII使用一个字节8位来表示英文字母和一些字符的，这对于美国佬来说已经足够用了。
后来，计算机发展到世界各国，而每个国家都有自己的语言，例如强大的中国，我们有自己的汉字，使用ASCII根本就不能识别汉字，所以我们就要定义自己的字符集。由于中国的汉字很多，用一个字节8位最多只能表示256个字符，根本容纳不了中国的汉字。所以就必须扩展字节数来表示，其中GB2312就是双字节编码。

Unicode的出现与发展

由于互联网的蓬勃发展，软件并不仅限于一国一语使用，很多软件都是面向国际化的，因此很容易导致单一的字符集编码无法满足多国语言情况的出现。于是便出现了ISO10646定义的的UCS2（2 byte Universal Character Set）和Unicode组织的Unicode编码，两者都是使用固定2个字节16bit来映射一个字符，实现是一样的，总共能容纳65536字符。最终决定统一Unicode标准（这也是早期java内部使用的编码，现在知道java的char类型为什么是2字节了吧）。

所以早期的UCS2和Unicode编码没有区别，使用固定的2个字节根据字节顺序的不同，又分为Unicode-16BE（大端）和Unicode-16LE（小端）两个流派，BE的方式则是从高字节到低字节的顺序，LE则是反过来。

Unicode的初衷把世界上所有的语言文字都映射到两个字节16位的空间中去，但是随着各国语言文字的收录，Unicode字符集已经收录了1,112,064个字符，已经超过了最初的65536个最大容量，于是便出现了后期的Unicode编码（也就是UTF-16)，UTF-8，UTF-32等方式。

UTF-16

UCS2和早期的Unicode编码只能表示BMP平面（基础多语言平面）内的字符（也就前65536），那么超过65536的部分UTF-16使用一个辅助平面去表示，其实说白了就是超出了的部分再用2个字节表示，也就是65536之后的字符用4个字节表示。

UTF-32

UCS4、UTF-32就是使用4个字节去表示一个字符，太浪费存储空间了，一般比较少用。

UTF-8

虽然使用固定的2字节去表示字符的编码方式实现起来比较方便、容易，但在一方面来讲会浪费存储空间，另一方便则是网络上的传输问题，使用固定的2字节存在着浪费现象。有一种说法，我觉得有道理，就是说大部分的网络传输使用的是英文字符，如果这些英文字符都用2个字节表示，就很浪费，因此使用了UTF-8这种变长的编码方式会更好。

UTF-8最多可以使用6个字节去表示一个字符。UTF-8的实现规则是：
单个字节表示字符，最高位为0，因此兼容ASCII。
多字节表示字符，则多少个字符，最高字节的前多少位为1，剩余的字节前二位均为10
例如：3字节字符，则是 1110xxxx 10xxxxxx 10xxxxxx
“x”使用Unicode字符集的编码填充

Uincode编码模型

后续补充……

展开全文 >>

毕业前的五味杂陈

2018-05-16

人工湖

无主题

这是我人生中的第一篇博客。
决定写博客其实也是脑子一热，突然萌生的一种想法。
其实，连想要写什么内容都没有想好。

一直以来都不太喜欢文字的东西，对于写文章一直是处于逃避与排斥的态度。
因此，每次写文章都会想很久，憋很久都写不出一篇像样的文章，表达不出内心想表达的东西。
此刻，也是这样！

虽然表达能力很差，但我还是想试一试，把生活点滴记录下来，每周写一篇，或者每月写一篇。
希望我能坚持着写下去……

生活琐碎

临近毕业，有一大堆琐碎的事要做。
实习、毕业设计、毕业论文、毕业照等等……
这些事情一件件接踵而至，甚至是同时进行。
对不善于安排事情的我来说，就是手忙脚乱、淬不及防。

实习
记得从去年的七月份开始，就离开了学校，跟几个很要好的同学到外面去租房子找工作。
那时候，正是大三的暑假，基本所有同学都在享受大学的最后一个假期。
而我，却偏偏要提早出来找虐！（那时没有丝毫心理准备）

那段时间，真正的感受到了绝望！

那个七月，已经记不清简历投了多少份，改了多少遍。
换来了却是屈指可数的面试机会，还全都被我搞砸了。
曾一度害怕投简历，害怕面试。
投了简历，既希望有通知，又害怕有通知。
心情极其复杂……

所幸舍友勇哥先找到了工作，并在短短的几天时间内混成了dalao。
经大佬勇的内推下（感谢大佬），顺利进入了那家公司，开启了第一次实习之旅。
由于是在被迫无奈的情况（工作地点、环境、薪资等条件都迁就）下匆忙就业，且在那里工作也确实找不到幸福感。
所以很快，在短短的两个月的后，便选择离开了那家公司。

回归了无业游民的行列后，又陷入了投简历与面试的痛苦之中。
持续了两个月……
后来，还是通过自己的努力，找到了第二份实习工作。

第二份工作比前一份工作好很多，无论是福利待遇、人才培养还是工作氛围等。
在这家公司工作了四个多月，让我觉得挺舒服的。
遇到不懂的问题，大佬们的会热心帮忙解答；不同部门的小姐姐，也会很热情的分享零食来吃；工作上出问题，大家也都积极的沟通……
在这里工作，才发现我的性格原来是慢热型的，还没真正融入这个集体。
工作中，还是存在着很多不足，沟通能力不够，积极性不高，工作效率不够高。
所以，在接下来的日子，还需要努力改进自己的不足，提高自己的能力，争取早点在工作中创造自己的价值。

实习的这段时间，感觉到生活的柴米油盐。
每到月底，对房东的敲门声就特别的敏感。
每到月初，就在叨念着工资什么时候发。
没钱的时候，就靠着花呗吃饭，用着借呗交房租。
实习的这段时间，感觉到生活多半是单调的、无趣的。
每天起床洗漱，挤地铁上班，挤地铁下班，洗澡睡觉，第二天又是起床洗漱，挤地铁……
真正地感受到了大城市生活的快节奏……

总结起来，实习这段时间，生活是苦涩的。
但也收获不少，熬过来后，也成长了！

2018.05.09 毕业照
转眼间，四年的时间过去了。
我的大学，马上就要结束了。

仔细想想，四年的大学生活竟没有发生过一件令我刻骨铭心的事。
遗憾，除了遗憾想不到什么……
如果大学能再来一次，我肯定不会选择这么上！

步入社会，才知道真正体会到校园生活的美好！
所以，想努力留下一点什么，哪怕是一张正式的照片。
于是乎，叫了一大波亲朋好友过来拍毕业照！

说来也是奇怪，每年计算机学院拍毕业照，都下大雨！
今年，同样也不例外。
即使大雨倾盆，也挡不住相机的快门。
纵然全身湿透，也浇不灭那颗炽热的心。

随着快门声“咔擦”“咔擦”地想，毕业照终于拉下了帷幕。
青春，即将散场！

写在后面

经历了几万个小时的码字，终于快要将这篇流水账写完了。
回头一看，发现竟是悲观情绪居多……
希望从下一篇文章开始，读出来的是积极乐观的内容。

憧憬与展望

毕业了，即将要离开学校，对未来也一无所知。2018后半年，希望自己

保持学习，多读书
坚持写博客，作总结
把病治好，还身体健康
少熬夜，多运动，多锻炼
热爱生活，保持积极乐观

可能不能做到最好，但争取做到最好，希望从现在开始，让自己的生活慢慢变得更好！
努力，前进……

展开全文 >>