字符集详解：从ASCII到UTF-8的演进历程

一、什么是字符集？

字符集（Character Set）是一套编码系统，将字符（如字母、数字、符号）与数字编码建立映射关系，以便计算机存储和处理文本信息。简单来说，就是给每个字符分配一个唯一的”身份证号码”。

ASCII（American Standard Code for Information Interchange）是最早的字符集标准，由美国国家标准协会制定。它使用7位二进制数（0-127）表示128个字符，包括：

局限性：只能表示英文字符，无法支持中文、日文等其他语言。

为了解决中文显示问题，中国制定了GB2312标准。它采用双字节编码，共收录6763个汉字和682个其他字符。

编码方式：

局限性：无法表示繁体字和生僻字。

GBK（汉字内码扩展规范）是GB2312的扩展，收录了21886个汉字和图形符号，包括繁体字和日韩汉字。

特点：

Unicode（统一码）旨在为世界上所有文字系统提供统一的编码方案。它采用码位（Code Point）表示字符，范围从U+0000到U+10FFFF。

编码方案：

UTF-8（8-bit Unicode Transformation Format）是目前最广泛使用的Unicode编码方式。

编码规则：

优势：

乱码问题：

编码转换：

通过理解字符集的发展历程和编码原理，可以更好地处理多语言环境下的文本显示和存储问题。

作者：严锋创建时间：2023-09-18 13:41
最后编辑：严锋更新时间：2025-12-25 10:39