Dùng Unicode chữ Việt trong .NET Căn bản Unicode chữ Việt ISO 10646 và Unicode ISO

ISO (International Standard Organisation) 10646 là tiêu chuẩn quốc tế nhằm cung ứng đủ số ký tự để dùng cho mọi chữ của tất cả ngôn ngữ trên thế giới. Thay vì dùng 8 bits để biểu diễn chỉ 255 dấu hiệu, bây giờ người ta dùng đến 16 bits để có thể biểu diễn đến trên 65000 dấu hiệu. Hãy tưởng tượng một bài viết có thể chứa nhiều ngôn ngữ cùng một lúc. Hay môt chương trình hiển thị các đề mục bằng ngôn ngữ địa phương, vì khi chương trình khởi động nó nhận diện ra. | Dùng Unicode chữ Việt trong .NET Căn bản Unicode chữ Việt ISO 10646 và Unicode ISO International Standard Organisation 10646 là tiêu chuẩn quốc tế nhằm cung ứng đủ số ký tự để dùng cho mọi chữ của tất cả ngôn ngữ trên thế giới. Thay vì dùng 8 bits để biểu diễn chỉ 255 dấu hiệu bây giờ người ta dùng đến 16 bits để có thể biểu diễn đến trên 65000 dấu hiệu. Hãy tưởng tượng một bài viết có thể chứa nhiều ngôn ngữ cùng một lúc. Hay môt chương trình hiển thị các đề mục bằng ngôn ngữ địa phương vì khi chương trình khởi động nó nhận diện ra ngay là nó đang đuợc chạy ở xứ nào bằng cách đọc Locale từ Windows . Một trong những ưu điểm của tiêu chuẩn nầy là sự cố gắng để xáp nhập các tiêu chuẩn 8 bit có sẵn để không cần phải thay đổi chúng. Thật ra ISO 10646 là tiêu chuẩn quốc tế chính thức còn Unicode thì được Unicode Consortium tập hợp đại diện các công ty Tin Học lớn soạn ra. Nhưng cả hai tiêu chuẩn gần như y hệt nhau khi nói đến con số dùng để biểu diễn một chữ con số nầy đuợc gọi là code point. Thí dụ như code point của chữ ả là 1EA3 của chữ ơ là 01A1. Để biểu diễn một code point tùy theo cách encoding có khi ta cần 1 2 3 hay 4 bytes .. mỗi byte dùng cho code point người ta không gọi là byte hay octet mà lại gọi là code unit. Thỉnh thoảng Unicode được cập nhật hóa và ấn bản mới nhất hiện giờ là . ISO 10646 định nghĩa hai bộ CCS Coded Character Sets UCS-2 và UCS-4. UCS-2 dùng 16 bits và là một phần nhỏ subset của UCS-4. UCS-4 là một CCS dùng 31bits chia thành 4 nhóm như sau 7 bits 8 bits 8 bits 8 bits 1111111 11111111 11111111 11111111 Group Plane Row Cell Cái Plane đầu tiên của UCS-4 với giá trị Group 0 Plane 0 cũng là chính UCS-2. Nó còn đuợc gọi là BMP Basic Multilingual Plane . Code points trong UCS thường được viết dưới dạng u mà là con số hexadecimal của code point. Characters có giá trị trong khoảng từ u 0021 đến U 007E thì giống như ASCII và các characters trong khoảng từ U 00A0 đến U 00FF thì giống như ISO 8859-1. Do đó rất dễ cho ta hoán chuyển giữa ASCII

Không thể tạo bản xem trước, hãy bấm tải xuống
TỪ KHÓA LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.