热门标签 | HotTags
当前位置:  开发笔记 > Android > 正文

javastring的一些细节剖析

首先说明这里指的是Java中String的一些细节部分,需要的朋友可以参考
首先说明这里指的是Java中的String,虽然我已经决定转战C/C++了,但是因为今天碰到一个问题,还是来看一下。String的定义如下:
代码如下:

public final class String
{
private final char value[]; // 保存的字符串
private final int offset; // 开始的位置
private final int count; // 字符数目
private int hash; // 缓存的hash值
......
}

在Debug的时候可以看到保存的值如下:
 
需要说明一下的是:如果没有调用过hashCode(),那么hash的值为0。容易知道这里的value也就是真正保存的字符串的值(也就是“字符串测试”)的char数组,而每个char的值是多少呢?很容易验证:Unicode。
到这里大家也就猜到我们常用的subString是怎么实现的了:如果是让我们实现的话让new String使用相同的value(char数组),只修改offset和count就可以了。这样的话既省空间又快(不需要拷贝),而事实上也是这样的:
代码如下:

public String substring(int beginIndex) {
return substring(beginIndex, count);
}
public String substring(int beginIndex, int endIndex) {
......
return ((beginIndex == 0) && (endIndex == count)) ? this :
new String(offset + beginIndex, endIndex - beginIndex, value);
}
String(int offset, int count, char value[]) {
this.value = value;
this.offset = offset;
this.count = count;
}

既然是在讨论字符串,JVM默认使用的是什么编码呢?通过调试可以发现:
代码如下:

public static Charset defaultCharset() {
if (defaultCharset == null) {
synchronized (Charset.class) {
java.security.PrivilegedAction pa = new GetPropertyAction("file.encoding");
String csn = (String)AccessController.doPrivileged(pa);
Charset cs = lookup(csn);
if (cs != null)
defaultCharset = cs;
else
defaultCharset = forName("UTF-8");
}
}

其中defaultCharset的值可以通过:
  -Dfile.encoding=utf-8
进行设置。当然如果你想设置为“abc”也可以,但会默认设置为UTF-8。可以通过System.getProperty("file.encoding")来看具体的值。看defaultCharset是为什么呢?因为网络传输的过程中应该都是byte数组,不同的编码方式得到的byte数组可能是不相同的。所以,我们得知道编码方式是怎么得到的吧?具体得到byte数组的方法也就是我们下面重点要看的getBytes了,它最终要调用的是CharsetEncoder的encode方法,如下:
代码如下:

public final CoderResult encode(CharBuffer in, ByteBuffer out, boolean endOfInput) {
int newState = endOfInput ? ST_END : ST_CODING;
if ((state != ST_RESET) && (state != ST_CODING) && !(endOfInput && (state == ST_END)))
throwIllegalStateException(state, newState);
state = newState;
for (;;) {
CoderResult cr;
try {
cr = encodeLoop(in, out);
} catch (BufferUnderflowException x) {
throw new CoderMalfunctionError(x);
} catch (BufferOverflowException x) {
throw new CoderMalfunctionError(x);
}
if (cr.isOverflow())
return cr;
if (cr.isUnderflow()) {
if (endOfInput && in.hasRemaining()) {
cr = CoderResult.malformedForLength(in.remaining());
} else {
return cr;
}
}
CodingErrorAction action = null;
if (cr.isMalformed())
action = malformedInputAction;
else if (cr.isUnmappable())
action = unmappableCharacterAction;
else
assert false : cr.toString();
if (action == CodingErrorAction.REPORT)
return cr;
if (action == CodingErrorAction.REPLACE) {
if (out.remaining() return CoderResult.OVERFLOW;
out.put(replacement);
}
if ((action == CodingErrorAction.IGNORE) || (action == CodingErrorAction.REPLACE)) {
in.position(in.position() + cr.length());
continue;
}
assert false;
}
}

当然首先会根据需要的编码格式选择对应的CharsetEncoder,而最主要的是不同的CharsetEncoder实现了不同的encodeLoop方法。这里可能会不明白为什么这里有个for(;;)?其实看CharsetEncoder所处的包(nio)和它的参数也就大概明白了:这个函数是可以处理流的(虽然我们这里使用的时候不会循环)。
在encodeLoop方法中会将尽可能多的char转换为byte,new String差不多就是上面的逆过程。
在实际的开发过程中经常会遇到乱码问题:
在上传文件的时候取到文件名;
JS传到后端的字符串;
首先先尝试下下面代码的的运行结果:
代码如下:

public static void main(String[] args) throws Exception {
String str = "字符串";
// -41 -42 -73 -5 -76 -82
printArray(str.getBytes());
// -27 -83 -105 -25 -84 -90 -28 -72 -78
printArray(str.getBytes("utf-8"));
// ???
System.out.println(new String(str.getBytes(), "utf-8"));
// 瀛楃涓?
System.out.println(new String(str.getBytes("utf-8"), "gbk"));
// 字符??
System.out.println(new String("瀛楃涓?".getBytes("gbk"), "utf-8"));
// -41 -42 -73 -5 63 63
printArray(new String("瀛楃涓?".getBytes("gbk"), "utf-8").getBytes());
}
public static void printArray(byte[] bs){
for(int i = 0; i System.out.print(bs[i] + " ");
}
System.out.println();
}

在程序中的注释中说明了输出结果:
因为GBK中2个byte表示一个汉字,所以就有了6个byte;
因为UTF-8中3个byte表示一个汉字,所以就有了9个byte;
因为通过无法通过GBK生成的byte数组再根据UTF-8的规则去生成字符串,所以显示???;
这个是经常遇到乱码的原因,GBK使用UTF-8生成的byte能生成字符串;
虽然上面生成的是乱码,但是电脑并不这么认为,所以还是能通过getBytes得到字节数组,而这个数组中是utf-8是可以识别的;
最后的两个63(?)应该是encode填充的(或者是字节不够直接填充的,这个地方没有细看);
GBK和UTF-8对于因为字母和数字的编码是相同的,所以在这几种字符的处理上是不会出现乱码的,但是他们对汉字的编码确实不一样的,这就是很多问题的起源,看下面代码:
  new String(new String("我们".getBytes("UTF-8"), "GBK").getBytes("GBK"), "UTF-8);
显然这段代码的结果是“我们”,但是对我们有什么用?首先我们注意到:
  new String("我们".getBytes("UTF-8"), "GBK");
这段代码的结果是乱码,而且很多的乱码都是“乱成这样的”。但是要记住:这里的乱是对我们而言,对电脑来说无所谓“乱”与“不乱”,它在我们几乎放弃的时候还能从乱码中通过“getBytes("GBK")”得到它的“主心骨”,然后我们就可以用“主心骨”还原出原来的字符串。
貌似上面的这段代码能解决“GBK”和“UTF-8”之间的乱码问题,但是这种解决方法也只限于一种特殊情况:所有连续汉字的个数都是偶数个!原因在上面已经说过了,这里就不赘述了。
那么怎么解决这个问题呢?
第一种解决方法:encodeURI
为什么要用这种方法呢?原因很简单:GBK和UTF-8对于%、数字、字母的编码是统一的,所以在传输encode之后的串可以100%保证在这两种编码下得到的是同一个东西,然后再decode得到字符串就可以。根据String的格式可以猜测encode和decode的效率是非常非常高的,所以这也算是一种很好的解决方法了。
第二种解决方法:统一编码格式
这边使用的是Webx矿建,只需要将webx.xml中设置defaultCharset="UTF-8"就可以了。
推荐阅读
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 本文介绍了使用kotlin实现动画效果的方法,包括上下移动、放大缩小、旋转等功能。通过代码示例演示了如何使用ObjectAnimator和AnimatorSet来实现动画效果,并提供了实现抖动效果的代码。同时还介绍了如何使用translationY和translationX来实现上下和左右移动的效果。最后还提供了一个anim_small.xml文件的代码示例,可以用来实现放大缩小的效果。 ... [详细]
  • 本文讲述了如何通过代码在Android中更改Recycler视图项的背景颜色。通过在onBindViewHolder方法中设置条件判断,可以实现根据条件改变背景颜色的效果。同时,还介绍了如何修改底部边框颜色以及提供了RecyclerView Fragment layout.xml和项目布局文件的示例代码。 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • 本文讨论了在Spring 3.1中,数据源未能自动连接到@Configuration类的错误原因,并提供了解决方法。作者发现了错误的原因,并在代码中手动定义了PersistenceAnnotationBeanPostProcessor。作者删除了该定义后,问题得到解决。此外,作者还指出了默认的PersistenceAnnotationBeanPostProcessor的注册方式,并提供了自定义该bean定义的方法。 ... [详细]
  • eclipse学习(第三章:ssh中的Hibernate)——11.Hibernate的缓存(2级缓存,get和load)
    本文介绍了eclipse学习中的第三章内容,主要讲解了ssh中的Hibernate的缓存,包括2级缓存和get方法、load方法的区别。文章还涉及了项目实践和相关知识点的讲解。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • Java验证码——kaptcha的使用配置及样式
    本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置,包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • Android系统移植与调试之如何修改Android设备状态条上音量加减键在横竖屏切换的时候的显示于隐藏
    本文介绍了如何修改Android设备状态条上音量加减键在横竖屏切换时的显示与隐藏。通过修改系统文件system_bar.xml实现了该功能,并分享了解决思路和经验。 ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • 本文介绍了在使用MSXML解析XML文件时出现DTD禁用问题的解决方案。通过代码示例和错误信息获取方法,解释了默认情况下DTD是禁用的,以及如何启用DTD的方法。此外,还提到了网上关于该问题的信息相对较少,因此本文提供了解决方案以供参考。 ... [详细]
author-avatar
三哥是二姐的三哥
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有