utf-8是什么意思?
utf-8是什么意思?
UTF-8(8位元,Universal Character Set/Unicode Transformation Format)是針對Unicode的一種可變長度字符編碼。它可以用來表示Unicode標準中的任何字符,而且其編碼中的第一個字節仍與ASCII相容,使得原來處理ASCII字符的軟件無須或只進行少部分修改后,便可繼續使用。因此,它逐漸成為電子郵件、網頁及其他存儲或傳送文字的應用中,優先采用的編碼。

UCS字符U+0000到U+007F(ASCII)被編碼為字節0×00到0x7F(ASCIⅡ兼容)。這意味著只包含7位ASCIl字符的文件在ASCIⅡ和UTF-8兩種編碼方式下是一樣的。
所有大于0x007F的UCS字符被編碼為一個有多個字節的串,每個字節都有標記位集。因此,ASCIl字節(0x00-0x7F)不可能作為任何其他字符的一部分。表示非ASCIl字符的多字節串的第一個字節總是在0xC0到0XFD的范圍里,并指出這個字符包含多少個字節。多字節串的其余字節都在0x80到0xBF范圍里。這使得重新同步非常容易,并使編碼無國界,且很少受丟失字節的影響。
UTF-8編碼字符理論上可以最多到4個字節長,然而16位BMP字符最多只用到3字節長,Bigendian UCS-4字節串的排列順序是預定的,字節0xFE和OxFF在UTF-8編碼中從未用到。