热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

有关UNICODE、ANSI字符集和相关字符串操作的总结(一)

对论坛中有关UNICODE、ANSI字符集和相关字符串操作的总结!先声明不是我的杰作。我这里只是总结了一部分,如果有错误请指出,同时欢迎大


对论坛中有关UNICODE、ANSI字符集和相关字符串操作的总结!先声明不是我的杰作。我这里只是总结了一部分,如果有错误请指出,同时欢迎大家参与进来!  

   

   

  Q   UNICODE字符串如何显示  

  A  

  如果程序定义了_UNICODE宏直接用  

  WCHAR   *str=L"unicodestring";  

  TextOut(0,0,str);  

  否则就需要转换类型  

  #include    

  WCHAR   *str=L"unicodestring";  

  bstr_t   str1=str;  

  TextOut(0,0,(char*)str1);  

   

  Q   如何实现ANSI和UNICODE的相互转换  

  A  

  将ANSI转换到Unicode  

  (1)通过L这个宏来实现,例如:   CLSIDFromProgID(   L"MAPI.Folder",&clsid);  

  (2)通过MultiByteToWideChar函数实现转换,例如:  

  char   *szProgID   =   "MAPI.Folder";  

  WCHAR   szWideProgID[128];  

  CLSID   clsid;  

  long   lLen   =   MultiByteToWideChar(CP_ACP,0,szProgID,strlen(szProgID),szWideProgID,sizeof(szWideProgID));  

  szWideProgID[lLen]   =   '\0';    

  (3)通过A2W宏来实现,例如:    

  USES_CONVERSION;    

  CLSIDFromProgID(   A2W(szProgID),&clsid);    

   

  将Unicode转换到ANSI  

  (1)使用WideCharToMultiByte,例如:  

  //   假设已经有了一个Unicode   串   wszSomeString...    

  char   szANSIString   [MAX_PATH];    

  WideCharToMultiByte   (   CP_ACP,   WC_COMPOSITECHECK,   wszSomeString,   -1,   szANSIString,   sizeof(szANSIString),   NULL,   NULL   );    

  (2)使用W2A宏来实现,例如:  

  USES_CONVERSION;  

  pTemp=W2A(wszSomeString);    

   

  注意在转换时可能存在的问题:  

  因为ANSI转UNICODE,如果使用A2W或MultiByteToWideChar(第一个参数是CP_ACP)的话,是根据系统默认的转码表,把转入的ANSI字符串看作Multi-Bytes字符串处理的,如果是中文(中文windows默认就是中文),一个大于0x87的byte可能和下一byte一起被看作一个汉字,然后根据汉字的Unicode编码转换为相同的Unicode汉字,如果找不到相应的编码,一般就用一个默认的字符来取代它(一般是问号“?”),由此看,如果随便把一段数据给他转,转化很复杂而且极可能不可逆,而且你加密过的ANSI码是相当混乱的有很多〉0x87的byte,转换就变得不可逆了。  

  建议自己直接就这样写:  

  CHAR   lpANSI[COUNT];  

  WCHAR   lpUnicode[COUNT];  

  int   i   =   0;    

  while(lpANSI[i]   !=   '\0'   )   {  

          lpUnicode[i]   =   (WCHAR)lpANSI[i];  

  }  

  lpUnicode[i]   =   L'\0';  

  然后按相同的方法转回来,因为对于0~0x87的ANSI字符串,对应的Unicode码就是相同的16位值,至于其他的,你的字符串反正加了密,没必要转换成显示出来是一样的字符,就按同样的方法处理了,其实如果中间的字符串不用显示或别的,直接reutrn   (LPWSTR)lpANSI;过去也可以,   反正接受的时候自己清楚就可以了。  

   

  Q   如何让程序支持UNICODE    

  A    

  NT系统的内核是unicode代码,通常vc分创建的工程默认都是ansi代码(可以兼容win9x),在nt下ansi程式在调用windows   API的时系统实际又进行了一次ansi到unicode的代码转化,如MoveWindowA实际上又调用MoveWindowW.如果以我们的程序不考虑win9x(早晚是明日黄花)的话,直接用unicode编译,那么程式的代码执行效率一定能增色不少.具体:  

  (0).在vc编译选项上,在vc7.0以上在工程的属性页中的“字符集”选上"使用   Unicode   字符集"即可,在vc6.0下可能麻烦一点,得先把vc运行库的unicode版本复制到vc路径下,一般都是和xxx.lib的ansi对应xxxU.lib,默认装vc时是不会装的,将工程属性  

  (0).1.改语言定义:  

  在project   settings的"C++"页中的"preprocessor   definitions"中改_MBCS为_UNICODE  

  (0).2.改入口函数:  

  在"link"页中的"project   Options"加入/entry:"wWinMainCRTStartup"即可.  

   

  (1)在代码上,处理字符中的多用TCHAR.H中的宏,如strcpy用_tcscpy代替,用TCHAR代char,  

  用TCHAR   m_mystr[]=_T("xxxx")代替   char   m_mystr[]="xxxx";  

  (2)注意调试UNICODE程序时,需要在安装时VC选择所有选项,否则会缺少动态库和相应的.lib文件  

   

  Q   如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数?  

  A  

  可以调用Microsoft   Visual   C++的运行期库包含函数_mbslen来操作多字节(既包括单字节也包括双字节)字符串。  

  调用strlen函数,无法真正了解字符串中究竟有多少字符,它只能告诉你到达结尾的0之前有多少个字节。  

   

  Q   如何对DBCS(双字节字符集)字符串进行操作?  

  A  

  函数   描述  

  PTSTR   CharNext   (   LPCTSTR   );   返回字符串中下一个字符的地址  

  PTSTR   CharPrev   (   LPCTSTR,   LPCTSTR   );   返回字符串中上一个字符的地址  

  BOOL   IsDBCSLeadByte(   BYTE   );   如果该字节是DBCS字符的第一个字节,则返回非0值  

   

  Q   为什么要使用Unicode?  

  A  

  (1)   可以很容易地在不同语言之间进行数据交换。  

  (2)   使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。  

  (3)   提高应用程序的运行效率。  

  Windows   2000是使用Unicode从头进行开发的,如果调用任何一个Windows函数并给它传递一个ANSI字符串,那么系统首先要将字符串转换成Unicode,然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串,系统就会首先将Unicode字符串转换成ANSI字符串,然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序,就能够使你的应用程序更加有效地运行。  

  Windows   CE   本身就是使用Unicode的一种操作系统,完全不支持ANSI   Windows函数  

  Windows   98   只支持ANSI,只能为ANSI开发应用程序。  

  Microsoft公司将COM从16位Windows转换成Win32时,公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。  

   

  Q   如何编写Unicode源代码?  

  A  

  Microsoft公司为Unicode设计了WindowsAPI,这样,可以尽量减少代码的影响。实际上,可以编写单个源代码文件,以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏(UNICODE和_UNICODE),就可以修改然后重新编译该源文件。  

  _UNICODE宏用于C运行期头文件,而UNICODE宏则用于Windows头文件。当编译源代码模块时,通常必须同时定义这两个宏。  

   

  Q   Windows定义的Unicode数据类型有哪些?  

  A  

  数据类型   说明  

  WCHAR   Unicode字符  

  PWSTR   指向Unicode字符串的指针  

  PCWSTR   指向一个恒定的Unicode字符串的指针  

  对应的ANSI数据类型为CHAR,LPSTR和LPCSTR。  

  ANSI/Unicode通用数据类型为TCHAR,PTSTR,LPCTSTR。  

   

  Q   如何对Unicode进行操作?  

  A  

  字符集   特性   实例  

  ANSI   操作函数以str开头   strcpy  

  Unicode   操作函数以wcs开头   wcscpy  

  MBCS   操作函数以_mbs开头   _mbscpy  

  ANSI/Unicode   操作函数以_tcs开头   _tcscpy(C运行期库)  

  ANSI/Unicode   操作函数以lstr开头   lstrcpy(Windows函数)  

  所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示;Unicode版本函数结尾以W表示。Windows会如下定义:  

  #ifdef   UNICODE  

  #define   CreateWindowEx   CreateWindowExW  

  #else  

  #define   CreateWindowEx   CreateWindowExA  

  #endif   //   !UNICODE


推荐阅读
  • C++字符字符串处理及字符集编码方案
    本文介绍了C++中字符字符串处理的问题,并详细解释了字符集编码方案,包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码,否则将使用windows code page编译。最后,给出了相关的头文件和数据类型定义。 ... [详细]
  • Java中包装类的设计原因以及操作方法
    本文主要介绍了Java中设计包装类的原因以及操作方法。在Java中,除了对象类型,还有八大基本类型,为了将基本类型转换成对象,Java引入了包装类。文章通过介绍包装类的定义和实现,解答了为什么需要包装类的问题,并提供了简单易用的操作方法。通过本文的学习,读者可以更好地理解和应用Java中的包装类。 ... [详细]
  • 使用eclipse创建一个Java项目的步骤
    本文介绍了使用eclipse创建一个Java项目的步骤,包括启动eclipse、选择New Project命令、在对话框中输入项目名称等。同时还介绍了Java Settings对话框中的一些选项,以及如何修改Java程序的输出目录。 ... [详细]
  • Java SE从入门到放弃(三)的逻辑运算符详解
    本文详细介绍了Java SE中的逻辑运算符,包括逻辑运算符的操作和运算结果,以及与运算符的不同之处。通过代码演示,展示了逻辑运算符的使用方法和注意事项。文章以Java SE从入门到放弃(三)为背景,对逻辑运算符进行了深入的解析。 ... [详细]
  • C语言注释工具及快捷键,删除C语言注释工具的实现思路
    本文介绍了C语言中注释的两种方式以及注释的作用,提供了删除C语言注释的工具实现思路,并分享了C语言中注释的快捷键操作方法。 ... [详细]
  • 先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]
  • 本文介绍了解决Netty拆包粘包问题的一种方法——使用特殊结束符。在通讯过程中,客户端和服务器协商定义一个特殊的分隔符号,只要没有发送分隔符号,就代表一条数据没有结束。文章还提供了服务端的示例代码。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • Nginx使用(server参数配置)
    本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • 本文介绍了iOS数据库Sqlite的SQL语句分类和常见约束关键字。SQL语句分为DDL、DML和DQL三种类型,其中DDL语句用于定义、删除和修改数据表,关键字包括create、drop和alter。常见约束关键字包括if not exists、if exists、primary key、autoincrement、not null和default。此外,还介绍了常见的数据库数据类型,包括integer、text和real。 ... [详细]
  • 在Oracle11g以前版本中的的DataGuard物理备用数据库,可以以只读的方式打开数据库,但此时MediaRecovery利用日志进行数据同步的过 ... [详细]
  • 本文介绍了lintcode(12)题目的要求和解题思路,以及给出了相应的代码实现。题目要求在给定的字符串source中找到包括所有目标字符串字母的最短子串,并且时间复杂度为O(n)。解题思路是使用滑动窗口的方法,通过维护一个unordered_map来记录目标字符串中每个字符的出现次数,并使用双指针来寻找最小子串。代码实现部分给出了具体的实现代码。 ... [详细]
author-avatar
KL
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有