Ansi，UTF8，Unicode编码（续）

添加时间:2013-6-4 点击量:

1.三种编码的回顾

Ansi字符串我们最熟悉，英文占一个字节，汉字2个字节，以一个\0结尾，常用于txt文本文件。
Unicode字符串，每个字符（汉字、英文字母）都占2个字节；在VC++的世界里，Microsoft斗劲激劝应用Unicode，如wchar_t。
UTF8是Unicode一种紧缩情势，英文A在unicode中默示为0 x0041，英语中这种存储体式格式太浪费，因为浪费了50％的空间，于是就把英文紧缩成1个字节，成了utf8编码；然则汉字在utf8中占3个字节，显然用做中文不如ansi合算，这就是中国的网页用作ansi编码而国外的网页常用utf8的原因。法度中把15.7M大小UTF8格局的txt文件转化为ANSI后，大小仅为10.8M。

2.转换函数

一般景象下，可以经由过程Windows头文件下的两个函数实现各个类型之间的转换。头文件添加：

＃include <Windows.h>

多字节字符集 -> Unicode字符集

int MultiByteToWideChar（

  __in   UINT CodePage， // 标识了与多字节接洽关系的一个代码页值

  __in   DWORD dwFlags， // 容许我们进行额外的把握，它会影响带变音符号（比如重音）的字符。然则一般景象下不实用，赋为 0 即可。

  __in   LPCSTR lpMultiByteStr， // 参数指定要转换的字符串

  __in   int cbMultiByte， // 指定要转换串长度的长度（字节数），若是参数值是-1，函数便可主动断定源字符串的长度

  __out  LPWSTR lpWideCharStr， // 指定转换后Unicode版本的字符串内存地址

  __in   int cchWideChar        // 指定 lpWideCharStr 缓冲区的最大长度。

                                // 若是传入0，函数不会进行转换，而是返回一个宽字符数（包含终止字符\0），

                // 只有当缓冲区可以或许容纳该数量的宽字符时，转换才会成功。

）;

Unicode字符集 –> 多字节字符集

int WideCharToMultiByte（

  __in   UINT CodePage，   // 标记了要与新转换的字符串接洽关系的代码页

  __in   DWORD dwFlags，   // 制订额外的转换把握，一般不须要进行这种程度的把握，而为 dwFlag 传入 0

  __in   LPCWSTR lpWideCharStr， // 指定要转换的字符串的内存地址

  __in   int cchWideChar，       // 指出该字符串的长度，若是传入 -1 ，则由函数来断定字符串的长度

  __out  LPSTR lpMultiByteStr，  // 转换后的缓冲区

  __in   int cbMultiByte，       // 指定 lpMultiByteStr 缓冲区的最大大小（字节数），若是传入 0 ，函数返回该目标缓冲区须要的大小

  __in   LPCSTR lpDefaultChar，  

  __out  LPBOOL lpUsedDefaultChar // 宽字符字符串中，若是至少有一个字符不克不及转换为对应的多字节情势，函数就会把这个变量设为 TRUE 。若是所有字符都能成功转换，就会把这个变量设为 FALSE。 凡是将此函数传入 NULL 值。

）;

只有一个字符在 CodePage 制订的代码页中没有对应的默示时，WideCharToMultiByte 才会应用后两个参数。在碰到一个不克不及转换的字符时，函数便应用 lpDefaultChar 参数指向的字符。若是这个参数指向为 NULL ，函数就会应用一个默认的字符。这个默认的值凡是是一个问号。这对文件操纵是很是危险的，因为问号是一个通配符。

3.法度实现

法度的头文件：

/

 作者：侯凯

 申明：utf8、unicode、utf8彼此转化

 日期：2013-6-4

/

＃include <iostream>

＃include <string>

＃include <fstream>

＃include <Windows.h> //Windows头文件

using std::string;

using namespace std;

ANSI转Unicode

void AnsiToUnicode（） 

{

    char sAnsi = ANSI to Unicode， ANSI 转换到 Unicode;



    //ansi to unicode

    int sLen = MultiByteToWideChar（CP_ACP， NULL， sAnsi， -1， NULL， 0）; 

    wchar_t sUnicode = new wchar_t[sLen];

    //wchar_t sUnicode = （wchar_t）malloc（sLensizeof（wchar_t））;

    MultiByteToWideChar（CP_ACP， NULL， sAnsi， -1， sUnicode， sLen）; 



    ofstream rtxt（ansitouni.txt）;

    rtxt.write（\xff\xfe，2）;//原因拜见上一篇——小尾字节序体式格式存储

    rtxt.write（（char）sUnicode， sLensizeof（wchar_t））;

    rtxt.close（）;



    [] sUnicode; 

    sUnicode =NULL; 

    //free（sUnicode）;

}

Unicode转ANSI

void UnicodeToAnsi（） 

{

    wchar_t sUnicode = LConvert Unicode to ANSI， Unicode 转换为 ANSI;



    //unicode to ansi

    int sLen = WideCharToMultiByte（CP_ACP， NULL， sUnicode， -1， NULL， 0， NULL， NULL）; 

    char sAnsi = new char[sLen];

    //char sAnsi = （char）malloc（sLen）;

    WideCharToMultiByte（CP_ACP， NULL， sUnicode， -1， sAnsi， sLen， NULL， NULL）; 



    ofstream rtxt（unitoansi.txt）;

    rtxt.write（sAnsi， sLen）;

    rtxt.close（）;



    [] sAnsi; 

    sAnsi =NULL; 

    //free（sAnsi）;

}

Unicode转UTF8

void UnicodeToUtf8（）

{

    wchar_t sUnicode = LConvert Unicode to UTF8， Unicode 转换为 UTF8; 

    // unicode to UTF8 

    int sLen = WideCharToMultiByte（CP_UTF8， NULL， sUnicode， -1， NULL， 0， NULL， NULL）; 

    //UTF8固然是Unicode的紧缩情势，但也是多字节字符串，所以可以以char的情势保存 

    char sUtf8 = new char[sLen];  

    //unicode版对应的strlen是wcslen 

    WideCharToMultiByte（CP_UTF8， NULL， sUnicode， -1， sUtf8， sLen， NULL， NULL）; 



    ofstream rtxt（unitoutf8.txt）;

    rtxt.write（\xef\xbb\xbf， 3）;//原因拜见上一篇

    rtxt.write（sUtf8， sLen）;

    rtxt.close（）;



    [] sUtf8; 

    sUtf8 =NULL; 

}

UTF8转Unicode

void Utf8ToUnicode（）

{    

    //UTF8 Convert to Unicode， UTF8 转换为 Unicode，用UE十六进制打开“转化为”直接复制过来乱码，用16进制默示

    char sUtf8 = UTF8 Convert to Unicode， UTF8 \xe8\xbd\xac\xe6\x8d\xa2\xe4\xb8\xba Unicode; 

    //UTF8 to Unicode 

    int sLen = MultiByteToWideChar（CP_UTF8， NULL， sUtf8， -1， NULL， 0）; 

    wchar_t sUnicode = new wchar_t[sLen]; 

    MultiByteToWideChar（CP_UTF8， NULL， sUtf8， -1， sUnicode， sLen）;



    ofstream rtxt（utf8touni.txt）;

    rtxt.write（\xff\xfe，2）;

    rtxt.write（（char）sUnicode， sLensizeof（wchar_t））;

    rtxt.close（）;



    [] sUnicode; 

    sUnicode =NULL;  

}

Ansi转换utf8和utf8转换Ansi就是上方2个的连络，把unicode作为中心量，进行2次转换即可。

4.UTF8转ANSI

在收集传输中，我们经常应用UTF8编码，但在法度处理惩罚时，我们习惯于ANSI编码，至少今朝的VS2010对UTF8码的显示是乱码的。以下函数综合上述法度，实现了txt文件UTF8编码向ANSI编码的转化。

//changeTxtEncoding批改字符串的编码  



char changeTxtEncoding（char szU8）

{  

    int wcsLen = ::MultiByteToWideChar（CP_UTF8， NULL， szU8， -1， NULL， 0）;  

    wchar_t wszString = new wchar_t[wcsLen];

    ::MultiByteToWideChar（CP_UTF8， NULL， szU8， -1， wszString， wcsLen）;

    cout<<wszString<<endl;



    int ansiLen = ::WideCharToMultiByte（CP_ACP， NULL， wszString， -1， NULL， 0， NULL， NULL）;  //wcslen（wszString）

    char szAnsi = new char[ansiLen];  

    ::WideCharToMultiByte（CP_ACP， NULL， wszString， -1， szAnsi， ansiLen， NULL， NULL）; 

    [] wszString;

    return szAnsi;  

}



void changeTextFromUtf8ToAnsi（const char filename）  

{  

    ifstream infile;

    string strLine=;

    string strResult=;  

    infile.open（filename）;

    infile.seekg（3， ios::beg）;

    if （infile）  

    {  

        while（!infile.eof（））

        {  

            getline（infile，strLine）;  

            strResult+=strLine+\n;

        }  

    }

    infile.close（）;

    char changeTemp=new char[strResult.length（）+1];

    changeTemp[strResult.length（）]=\0; //题目记录

    strcpy（changeTemp， strResult.c_str（））; //const char转化char的办法

    char changeResult=changeTxtEncoding（changeTemp）; 

    strResult=changeResult;  



    ofstream outfile;  

    outfile.open（ANSI.txt）;  

    outfile.write（strResult.c_str（）， strResult.length（））;  

    outfile.flush（）;  

    outfile.close（）;

    [] changeResult;

    [] changeTemp;

}

题目记录：
关于字符串的长度a.String类型的length（）和size（）函数都返回字符串的真实大小，不包含\0‘ ；
b.char类型的strlen（）函数也是返回字符串的真实大小，不包含\0‘ ；
c.重视，sizeof（）函数包含\0‘ ，如char str[] = “Hello” ;则sizeof （str ） = 6。

彼此相爱，却不要让爱成了束缚：不如让它成为涌动的大海，两岸乃是你们的灵魂。互斟满杯，却不要同饮一杯。相赠面包，却不要共食一个。一起歌舞欢喜，却依然各自独立，相互交心，却不是让对方收藏。因为唯有生命之手，方能收容你们的心。站在一起却不要过于靠近。—— 纪伯伦《先知》

分享到：

相关文章

按版本划分

按功能划分

企业管理软件

Ansi，UTF8，Unicode编码（续）