字符編碼是將字節轉換爲字符的一種方法。要正確驗證或顯示HTML文檔,程序必須選擇正確的字符編碼。
計算機上使用的最常見的字符集或字符編碼是ASCII−美國信息交換標準代碼,這可能是最廣泛使用的電子文本編碼字符集。
ASCII編碼只支持大小寫拉丁字母、數字0-9和一些額外字符,這些字符總共有128個字符。您可以查看一整套可列印的ascii字符
然而,許多語言使用重音拉丁字符或完全不同的字母。ASCII不處理這些字符;因此,如果要使用任何非ASCII字符,則需要了解字符編碼。
國際標準組織創建了一系列字符集來處理不同的國家字符。對於英語和大多數其他西歐語言的文檔,使用廣泛支持的編碼ISO-8859-1。
以下是世界各地使用的字符集列表及其描述。
Sr.No | Character Set & Description |
---|---|
1 |
ISO-8859-1標準 拉丁字母表第1部分 覆蓋北美、西歐、拉丁美洲、加勒比海、加拿大、非洲 |
2 |
ISO-8859-2標準 拉丁字母表第2部分 覆蓋東歐 |
3 |
ISO-8859-3標準 拉丁字母表第3部分 覆蓋東南歐,世界語,其他 |
4 |
ISO-8859-4標準 拉丁字母表第4部分 涵蓋斯堪地那維亞/波羅的海(以及其他不在ISO-8859-1中的國家) |
5 |
ISO-8859-5標準 拉丁/西里爾字母第5部分 |
6 |
ISO-8859-6標準 拉丁/阿拉伯字母表第6部分 |
7 |
ISO-8859-7標準 拉丁/希臘字母表第7部分 |
8 |
ISO-8859-8標準 拉丁/希伯來字母表第8部分 |
9 |
ISO-8859-9標準 拉丁語5字母表第9部分 與ISO-8859-1相同,但土耳其語字符取代冰島字符 |
10 |
ISO-8859-10標準 拉丁語6拉丁語6拉皮斯語、北歐語和愛斯基摩語 |
11 |
ISO-8859-15標準 與ISO-8859-1相同,但添加了更多字符 |
12 |
ISO-2022-JP標準 拉丁/日語字母表第1部分 |
13 |
ISO-2022-JP-2標準 拉丁/日語字母表第2部分 |
14 |
ISO-2022-KR標準 拉丁/朝鮮語字母表第1部分 |
Unicode聯盟隨後成立,目的是設計一種顯示不同語言的所有字符的方法,而不是爲不同的語言使用這些不同的不兼容字符代碼。
因此,如果要創建使用多個字符集中的字符的文檔,則可以使用單個Unicode字符編碼。
因此,Unicode指定可以以特殊方式處理字符串的編碼,以便爲其包含的巨大字符集留出足夠的空間。它們被稱爲UTF8、UTF-16和UTF-32。
Sr.No | Character Set & Description |
---|---|
1 |
UTF-8型 以8位爲單位的Unicode轉換格式,即以字節爲單位。UTF8中的字符可以是1到4位元組長,使UTF8變寬。 |
2 |
UTF-16型 一種Unicode翻譯格式,以16位爲單位,也就是說,它是短格式。它可以是1或2短褲長,使UTF16變寬。 |
3 |
UTF-32型 一種以32位爲單位的Unicode翻譯格式,也就是說,它是長格式的。它是一種固定寬度的格式,長度總是1「長」。 |
Unicode字符集的前256個字符對應於ISO-8859-1的256個字符。
默認情況下,HTML 4處理器應該支持UTF-8,XML處理器應該支持UTF-8和UTF-16;因此,所有XHTML兼容的處理器也應該支持UTF-16。