Ansi,UTF8,Unicode编码(续)

    添加时间:2013-6-4 点击量:

    1.三种编码的回顾


    Ansi字符串我们最熟悉,英文占一个字节,汉字2个字节,以一个\0结尾,常用于txt文本文件。
    Unicode字符串,每个字符(汉字、英文字母)都占2个字节;在VC++的世界里,Microsoft斗劲激劝应用Unicode,如wchar_t。
    UTF8是Unicode一种紧缩情势,英文A在unicode中默示为0 x0041,英语中这种存储体式格式太浪费,因为浪费了50%的空间,于是就把英文紧缩成1个字节,成了utf8编码;然则汉字在utf8中占3个字节,显然用做中文不如ansi合算,这就是中国的网页用作ansi编码而国外的网页常用utf8的原因。法度中把15.7M大小UTF8格局的txt文件转化为ANSI后,大小仅为10.8M。


    2.转换函数


    一般景象下,可以经由过程Windows头文件下的两个函数实现各个类型之间的转换。头文件添加:



    #include <Windows.h>


    多字节字符集 -> Unicode字符集



    int MultiByteToWideChar(
    
    __in UINT CodePage,
    // 标识了与多字节接洽关系的一个代码页值
    __in DWORD dwFlags, // 容许我们进行额外的把握,它会影响带变音符号(比如重音)的字符。然则一般景象下不实用,赋为 0 即可。
    __in LPCSTR lpMultiByteStr, // 参数指定要转换的字符串
    __in int cbMultiByte, // 指定要转换串长度的长度(字节数),若是参数值是-1,函数便可主动断定源字符串的长度
    __out LPWSTR lpWideCharStr, // 指定转换后Unicode版本的字符串内存地址
    __in int cchWideChar // 指定 lpWideCharStr 缓冲区的最大长度。
    // 若是传入0,函数不会进行转换,而是返回一个宽字符数(包含终止字符\0),
    // 只有当缓冲区可以或许容纳该数量的宽字符时,转换才会成功。
    );


    Unicode字符集 –> 多字节字符集



    int WideCharToMultiByte(
    
    __in UINT CodePage,
    // 标记了要与新转换的字符串接洽关系的代码页
    __in DWORD dwFlags, // 制订额外的转换把握,一般不须要进行这种程度的把握,而为 dwFlag 传入 0
    __in LPCWSTR lpWideCharStr, // 指定要转换的字符串的内存地址
    __in int cchWideChar, // 指出该字符串的长度,若是传入 -1 ,则由函数来断定字符串的长度
    __out LPSTR lpMultiByteStr, // 转换后的缓冲区
    __in int cbMultiByte, // 指定 lpMultiByteStr 缓冲区的最大大小(字节数),若是传入 0 ,函数返回该目标缓冲区须要的大小
    __in LPCSTR lpDefaultChar,
    __out LPBOOL lpUsedDefaultChar
    // 宽字符字符串中,若是至少有一个字符不克不及转换为对应的多字节情势,函数就会把这个变量设为 TRUE 。若是所有字符都能成功转换,就会把这个变量设为 FALSE。 凡是将此函数传入 NULL 值。
    );


    只有一个字符在 CodePage 制订的代码页中没有对应的默示时,WideCharToMultiByte 才会应用后两个参数。在碰到一个不克不及转换的字符时,函数便应用 lpDefaultChar 参数指向的字符。若是这个参数指向为 NULL ,函数就会应用一个默认的字符。这个默认的值凡是是一个问号。这对文件操纵是很是危险的,因为问号是一个通配符。


    3.法度实现


    法度的头文件:



    /
    
    作者:侯凯
    申明:utf8、unicode、utf8彼此转化
    日期:2013-6-4
    /
    #include
    <iostream>
    #include
    <string>
    #include
    <fstream>
    #include
    <Windows.h> //Windows头文件
    using std::string;
    using namespace std;


    ANSI转Unicode



    void AnsiToUnicode() 
    
    {
    char sAnsi = ANSI to Unicode, ANSI 转换到 Unicode;

    //ansi to unicode
    int sLen = MultiByteToWideChar(CP_ACP, NULL, sAnsi, -1, NULL, 0);
    wchar_t
    sUnicode = new wchar_t[sLen];
    //wchar_t sUnicode = (wchar_t)malloc(sLensizeof(wchar_t));
    MultiByteToWideChar(CP_ACP, NULL, sAnsi, -1, sUnicode, sLen);

    ofstream rtxt(
    ansitouni.txt);
    rtxt.write(
    \xff\xfe2);//原因拜见上一篇——小尾字节序体式格式存储
    rtxt.write((char)sUnicode, sLensizeof(wchar_t));
    rtxt.close();

    [] sUnicode;
    sUnicode
    =NULL;
    //free(sUnicode);
    }


    Unicode转ANSI



    void UnicodeToAnsi() 
    
    {
    wchar_t
    sUnicode = LConvert Unicode to ANSI, Unicode 转换为 ANSI;

    //unicode to ansi
    int sLen = WideCharToMultiByte(CP_ACP, NULL, sUnicode, -1, NULL, 0, NULL, NULL);
    char sAnsi = new char[sLen];
    //char sAnsi = (char)malloc(sLen);
    WideCharToMultiByte(CP_ACP, NULL, sUnicode, -1, sAnsi, sLen, NULL, NULL);

    ofstream rtxt(
    unitoansi.txt);
    rtxt.write(sAnsi, sLen);
    rtxt.close();

    [] sAnsi;
    sAnsi
    =NULL;
    //free(sAnsi);
    }


    Unicode转UTF8



    void UnicodeToUtf8()
    
    {
    wchar_t
    sUnicode = LConvert Unicode to UTF8, Unicode 转换为 UTF8;
    // unicode to UTF8
    int sLen = WideCharToMultiByte(CP_UTF8, NULL, sUnicode, -1, NULL, 0, NULL, NULL);
    //UTF8固然是Unicode的紧缩情势,但也是多字节字符串,所以可以以char的情势保存
    char sUtf8 = new char[sLen];
    //unicode版对应的strlen是wcslen
    WideCharToMultiByte(CP_UTF8, NULL, sUnicode, -1, sUtf8, sLen, NULL, NULL);

    ofstream rtxt(
    unitoutf8.txt);
    rtxt.write(
    \xef\xbb\xbf3);//原因拜见上一篇
    rtxt.write(sUtf8, sLen);
    rtxt.close();

    [] sUtf8;
    sUtf8
    =NULL;
    }


    UTF8转Unicode



    void Utf8ToUnicode()
    
    {
    //UTF8 Convert to Unicode, UTF8 转换为 Unicode,用UE十六进制打开“转化为”直接复制过来乱码,用16进制默示
    char sUtf8 = UTF8 Convert to Unicode, UTF8 \xe8\xbd\xac\xe6\x8d\xa2\xe4\xb8\xba Unicode;
    //UTF8 to Unicode
    int sLen = MultiByteToWideChar(CP_UTF8, NULL, sUtf8, -1, NULL, 0);
    wchar_t
    sUnicode = new wchar_t[sLen];
    MultiByteToWideChar(CP_UTF8, NULL, sUtf8,
    -1, sUnicode, sLen);

    ofstream rtxt(
    utf8touni.txt);
    rtxt.write(
    \xff\xfe2);
    rtxt.write((
    char)sUnicode, sLensizeof(wchar_t));
    rtxt.close();

    [] sUnicode;
    sUnicode
    =NULL;
    }


    Ansi转换utf8和utf8转换Ansi就是上方2个的连络,把unicode作为中心量,进行2次转换即可。


    4.UTF8转ANSI


    在收集传输中,我们经常应用UTF8编码,但在法度处理惩罚时,我们习惯于ANSI编码,至少今朝的VS2010对UTF8码的显示是乱码的。以下函数综合上述法度,实现了txt文件UTF8编码向ANSI编码的转化。



    //changeTxtEncoding批改字符串的编码  
    

    char changeTxtEncoding(char szU8)
    {
    int wcsLen = ::MultiByteToWideChar(CP_UTF8, NULL, szU8, -1, NULL, 0);
    wchar_t
    wszString = new wchar_t[wcsLen];
    ::MultiByteToWideChar(CP_UTF8, NULL, szU8,
    -1, wszString, wcsLen);
    cout
    <<wszString<<endl;

    int ansiLen = ::WideCharToMultiByte(CP_ACP, NULL, wszString, -1, NULL, 0, NULL, NULL); //wcslen(wszString)
    char szAnsi = new char[ansiLen];
    ::WideCharToMultiByte(CP_ACP, NULL, wszString,
    -1, szAnsi, ansiLen, NULL, NULL);
    [] wszString;
    return szAnsi;
    }

    void changeTextFromUtf8ToAnsi(const char filename)
    {
    ifstream infile;
    string strLine=;
    string strResult=;
    infile.open(filename);
    infile.seekg(
    3, ios::beg);
    if (infile)
    {
    while(!infile.eof())
    {
    getline(infile,strLine);
    strResult
    +=strLine+\n;
    }
    }
    infile.close();
    char changeTemp=new char[strResult.length()+1];
    changeTemp[strResult.length()]
    =\0; //题目记录
    strcpy(changeTemp, strResult.c_str()); //const char转化char的办法
    char changeResult=changeTxtEncoding(changeTemp);
    strResult
    =changeResult;

    ofstream outfile;
    outfile.open(
    ANSI.txt);
    outfile.write(strResult.c_str(), strResult.length());
    outfile.flush();
    outfile.close();
    [] changeResult;
    [] changeTemp;
    }


    题目记录:
    关于字符串的长度a.String类型的length()和size()函数都返回字符串的真实大小,不包含\0‘ ;
    b.char类型的strlen()函数也是返回字符串的真实大小,不包含\0‘ ;
    c.重视,sizeof()函数包含\0‘ ,如char str[] = “Hello” ;则sizeof (str ) = 6。

    彼此相爱,却不要让爱成了束缚:不如让它成为涌动的大海,两岸乃是你们的灵魂。互斟满杯,却不要同饮一杯。相赠面包,却不要共食一个。一起歌舞欢喜,却依然各自独立,相互交心,却不是让对方收藏。因为唯有生命之手,方能收容你们的心。站在一起却不要过于靠近。—— 纪伯伦《先知》
    分享到: