热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

为什么这个hashCode()方法被认为很差?

如何解决《为什么这个hashCode()方法被认为很差?》经验,为你挑选了1个好方法。

这是" 在Java 8中使用Java 7 HashMap "的后续问题.有一些有趣的评论.有些我很清楚; 其他人少.

为什么这种hashCode()方法被认为很差?

乍一看,我觉得这很合理.也许17可以增加到31.否则,它似乎遵循普遍接受的公式Arrays.hashCode(Object[]).一个猜测:它适用于一般情况,其中项目数量相对较小(小于10.000),但对于非常大的集合(1.000.000或更高)表现不佳.

这是原始代码:(包含所有内容以提供一些上下文.)

import java.util.HashMap;
import java.util.Map;
import java.util.Random;

public class Test1 {

static int max_k1 = 500;
static int max_k2 = 500;

static Map map;
static Random random = new Random();

public static void main(String[] args) {
    for (int i = 0; i <15; i++) {
        long start = System.nanoTime();
        run();
        long end = System.nanoTime();
        System.out.println((end - start) / 1000_000);
    }
}

private static void run() {
    map = new HashMap<>();
    for (int i = 0; i <10_000_000; i++) {
        Node key = new Node(random.nextInt(max_k1), random.nextInt(max_k2));
        Node val = getOrElseUpdate(key);
    }
}

private static Node getOrElseUpdate(Node key) {
    Node val;
    if ((val = map.get(key)) == null) {
        val = key;
        map.put(key, val);
    }
    return val;
}

private static class Node {

    private int k1;
    private int k2;

    public Node(int k1, int k2) {
        this.k1 = k1;
        this.k2 = k2;
    }

    @Override
    public int hashCode() {
        int result = 17;
        result = 31 * result + k1;
        result = 31 * result + k2;
        return result;
    }

    @Override
    public boolean equals(Object obj) {
        if (this == obj)
            return true;

        if (!(obj instanceof Node))
            return false;

        Node other = (Node) obj;

        return k1 == other.k1 && k2 == other.k2;
    }
  }
}

RealSkeptic.. 6

我是其中一个告诉你它很穷的人.我告诉你原因:"250,000个可能的Node值它只有15969个哈希码."

如果您的Node项目应该在0≤ k1<500和0≤ k2<500范围内或多或少均匀分布,那么您有250,000个可能的节点值.

一个好的哈希函数应该为你提供这些250,000个值尽可能唯一的哈希码.也就是说,理想情况下,一个好的哈希函数应该给你的每个组合不同的价值k1k2.

散列函数不需要是唯一的,因为在许多情况下这是不可能的 - 如果你的对象具有数万亿和数万亿的可能组合,当然你不能将所有这些组合映射到不同的整数.

您使用的标准哈希函数适用于该类对象.如果你有均匀分布的对象具有很多可能性,那么这种散列函数最终将使用所有可能的整数值,这是它能做的最好的.

但在您的特定情况下,您有250,000个组合,可以使用该函数轻松表示为单个整数500 * k1 + k2.完全独特的哈希函数是理想的选择.

你使用的"标准"哈希函数表现不佳,因为在这么小的整数范围内,它将它们中的许多映射到相同的值,你最终只有15,969个唯一的哈希码.这意味着您的许多Node对象将映射到相同的哈希码.(250,000/15,969对于每个代码!).所以你将会遇到很多哈希冲突.

您拥有的哈希冲突越多,哈希映射的性能就越差,因为大多数哈希映射的良好性能依赖于相同哈希桶中尽可能少的密钥.并且散列桶由散列码确定.



1> RealSkeptic..:

我是其中一个告诉你它很穷的人.我告诉你原因:"250,000个可能的Node值它只有15969个哈希码."

如果您的Node项目应该在0≤ k1<500和0≤ k2<500范围内或多或少均匀分布,那么您有250,000个可能的节点值.

一个好的哈希函数应该为你提供这些250,000个值尽可能唯一的哈希码.也就是说,理想情况下,一个好的哈希函数应该给你的每个组合不同的价值k1k2.

散列函数不需要是唯一的,因为在许多情况下这是不可能的 - 如果你的对象具有数万亿和数万亿的可能组合,当然你不能将所有这些组合映射到不同的整数.

您使用的标准哈希函数适用于该类对象.如果你有均匀分布的对象具有很多可能性,那么这种散列函数最终将使用所有可能的整数值,这是它能做的最好的.

但在您的特定情况下,您有250,000个组合,可以使用该函数轻松表示为单个整数500 * k1 + k2.完全独特的哈希函数是理想的选择.

你使用的"标准"哈希函数表现不佳,因为在这么小的整数范围内,它将它们中的许多映射到相同的值,你最终只有15,969个唯一的哈希码.这意味着您的许多Node对象将映射到相同的哈希码.(250,000/15,969对于每个代码!).所以你将会遇到很多哈希冲突.

您拥有的哈希冲突越多,哈希映射的性能就越差,因为大多数哈希映射的良好性能依赖于相同哈希桶中尽可能少的密钥.并且散列桶由散列码确定.


@kevinarpe他的解释写得很好.:)也许你应该选择它作为答案.
推荐阅读
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 本文介绍了一个Java猜拳小游戏的代码,通过使用Scanner类获取用户输入的拳的数字,并随机生成计算机的拳,然后判断胜负。该游戏可以选择剪刀、石头、布三种拳,通过比较两者的拳来决定胜负。 ... [详细]
  • JavaSE笔试题-接口、抽象类、多态等问题解答
    本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征,以及Java中实现多态的机制。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 本文介绍了Java高并发程序设计中线程安全的概念与synchronized关键字的使用。通过一个计数器的例子,演示了多线程同时对变量进行累加操作时可能出现的问题。最终值会小于预期的原因是因为两个线程同时对变量进行写入时,其中一个线程的结果会覆盖另一个线程的结果。为了解决这个问题,可以使用synchronized关键字来保证线程安全。 ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • 开发笔记:Java是如何读取和写入浏览器Cookies的
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Java是如何读取和写入浏览器Cookies的相关的知识,希望对你有一定的参考价值。首先我 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
  • 猜字母游戏
    猜字母游戏猜字母游戏——设计数据结构猜字母游戏——设计程序结构猜字母游戏——实现字母生成方法猜字母游戏——实现字母检测方法猜字母游戏——实现主方法1猜字母游戏——设计数据结构1.1 ... [详细]
  • JDK源码学习之HashTable(附带面试题)的学习笔记
    本文介绍了JDK源码学习之HashTable(附带面试题)的学习笔记,包括HashTable的定义、数据类型、与HashMap的关系和区别。文章提供了干货,并附带了其他相关主题的学习笔记。 ... [详细]
author-avatar
荆灬樊小姐_526
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有