Tham khảo HTML Unicode (UTF-8)
Unicode là một bộ ký tự phổ quát xác định tất cả các ký tự cần thiết để viết phần lớn các ngôn ngữ sống được sử dụng trên máy tính.
Unicode đặt mục tiêu trở thành (và đã là) một bộ siêu ký tự của tất cả các bộ ký tự máy tính được mã hóa khác.
Tiêu chuẩn Unicode bao gồm (gần như) tất cả các ký tự, dấu câu và ký hiệu trên thế giới, đồng thời cho phép xử lý, lưu trữ và vận chuyển văn bản độc lập với nền tảng và ngôn ngữ.
Hiệp hội Unicode
Hiệp hội Unicode phát triển Tiêu chuẩn Unicode. Mục tiêu là thay thế các bộ ký tự hiện có bằng UTF (Định dạng chuyển đổi Unicode).
Tiêu chuẩn Unicode được triển khai trong HTML, XML, JavaScript, E-mail, PHP, Cơ sở dữ liệu và trong tất cả các hệ điều hành và trình duyệt hiện đại.
Bộ ký tự Unicode
Unicode có thể được thực hiện bởi các bộ ký tự khác nhau. Các bảng mã được sử dụng phổ biến nhất là UTF-8 và UTF-16:
Charset | Description |
---|---|
UTF-8 | A variable-length character encoding (1 to 4 bytes long). UTF-8 is backwards compatible with ASCII and the preferred encoding for e-mail and web pages. |
UTF-16 | A variable-length character encoding. UTF-16 is used in all major operating systems like Windows, IOS, and Unix. |
128 ký tự đầu tiên của UTF-8 có cùng giá trị nhị phân với ASCII, làm cho văn bản ASCII trở thành UTF-8 hợp lệ.
Tiêu chuẩn HTML là Unicode UTF-8
Bộ ký tự mặc định trong HTML-4 (ISO-8859-1) bị giới hạn về kích thước và không tương thích trong môi trường đa ngôn ngữ.
Mã hóa ký tự mặc định trong HTML-5 là UTF-8.
Các trang HTML5 sử dụng bộ ký tự khác với UTF-8 phải chỉ định thẻ <meta> này:
Ví dụ
<meta charset="ISO-8859-1">
Sự khác biệt giữa Unicode và UTF-8
Unicode là một bộ ký tự .
Đó là danh sách trong đó tất cả các ký tự có một số thập phân duy nhất:
MỘT | = | 65 |
B | = | 66 |
C | = | 67 |
D | = | 69 |
Các số thập phân biểu thị chuỗi "hello" là 104 101 108 108 111
UTF-8 đang mã hóa .
Đó là cách các số unicode được dịch thành số nhị phân để lưu trữ trong máy tính:
Mã hóa UTF-8 sẽ lưu trữ "xin chào" như thế này (nhị phân): 01101000 01100101 01101100 01101100 01101111
Unicode là một bộ ký tự . Nó dịch ký tự thành số.
UTf-8 là một tiêu chuẩn mã hóa . Nó dịch số thành nhị phân.
Mã ký tự HTML5 UTF-8
Dưới đây là danh sách một số mã ký tự UTF-8 được HTML5 hỗ trợ:
Character codes | Decimal | Hexadecimal |
---|---|---|
C0 Controls and Basic Latin | 0-127 | 0000-007F |
C1 Controls and Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Latin IPA | 592-685 | 0250-02AD |
Spacing Modifiers | 688-767 | 02B0-02FF |
Diacritical Marks | 768-879 | 0300-036F |
Greek and Coptic | 880-1023 | 0370-03FF |
Cyrillic Basic | 1024-1279 | 0400-04FF |
Cyrillic Supplement | 1280-1327 | 0500-052F |
General Punctuation | 8192-8303 | 2000-206F |
Currency Symbols | 8352-8399 | 20A0-20CF |
Letterlike Symbols | 8448-8527 | 2100-214F |
Number Forms | 8528-8591 | 2150-218F |
Arrows | 8592-8703 | 2190-21FF |
Mathematical Operators | 8704-8959 | 2200-22FF |
Box Drawings | 9472-9599 | 2500-257F |
Block Elements | 9600-9631 | 2580-259F |
Geometric Shapes | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |
Misc Mathematical Symbols A | 10176-10223 | 27C0-27EF |
Supplemental Arrows A | 10224-10239 | 27F0-27FF |
Braille | 10240-10495 | 2800-28FF |
Supplemental Arrows B | 10496-10623 | 2900-297F |
Misc Mathematical Symbols B | 10624-10751 | 2980-29FF |
Supplemental Math Operators | 10752-11007 | 2A00-2AFF |
Misc Symbols and Arrows | 11008-11263 | 2B00-2BFF |