热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

JAVA向Mysql插入亿级别数据测评

利用JAVA向Mysql插入一亿数量级数据—效率测评前景:这几天研究mysql优化中查询效率时,发现测试的数据太少(10万级别),利用EXPLAIN比较不同的SQL语句,不能够得到

利用JAVA向Mysql插入一亿数量级数据—效率测评


      前景:这几天研究mysql优化中查询效率时,发现测试的数据太少(10万级别),利用 EXPLAIN 比较不同的 SQL 语句,不能够得到比较有效的测评数据,大多模棱两可,不敢通过这些数据下定论。

      所以通过随机生成人的姓名、年龄、性别、电话、email、地址 ,向mysql数据库大量插入数据,便于用大量的数据测试 SQL 语句优化效率。、在生成过程中发现使用不同的方法,效率天差万别。

提示:

下文展示代码为部分代码,源码-github地址
转载请标明出处:-----by 陶浩伟




1. 先上Mysql数据库,随机生成的人员数据图。分别是ID、姓名、性别、年龄、Email、电话、住址。下图一共三千三百万数据:



**
在数据量在亿级别时。别点下面按钮,会导致Navicat持续加载这亿级别的数据,

导致电脑死机。~觉着自己电脑配置不错的可以去试试,可能会有惊喜

**



2、本次测评一共通过三种策略,五种情况,进行大批量数据插入测试

策略分别是:
1、Mybatis 轻量级框架插入(无事务)
2、采用JDBC直接处理(开启事务、无事务)
3、采用JDBC批处理(开启事务、无事务)

####***先展示测试结果:***(耗费时间)

    Mybatis轻量级插入 -》 JDBC直接处理 -》 JDBC 批处理。

####JDBC 批处理,效率最高


下面开始第一种策略测试:


####2.1 Mybatis 轻量级框架插入(无事务)
Mybatis是一个轻量级框架,它比hibernate轻便、效率高。但是处理大批

量的数据插入操作时,需要过程中实现一个ORM的转换,本次测试存在实例,以及
未开启事务,导致mybatis效率很一般。这里实验内容是:
1、利用Spring框架生成mapper实例、创建人物实例对象
2、循环更改该实例对象属性、并插入。

//代码内无事务
private long begin = 33112001;//起始id
private long end = begin+100000;//每次循环插入的数据量
private String url = "jdbc:mysql://localhost:3306/bigdata?useServerPrepStmts=false&rewriteBatchedStatements=true&useUnicode=true&characterEncoding=UTF-8";
private String user = "root";
private String password = "0203";

@org.junit.Test
public void insertBigData2()
{
//加载Spring,以及得到PersonMapper实例对象。这里创建的时间并不对最后结果产生很大的影响
ApplicationContext cOntext= new ClassPathXmlApplicationContext("applicationContext.xml");
PersonMapper pMapper = (PersonMapper) context.getBean("personMapper");
//创建一个人实例
Person person = new Person();
//计开始时间
long bTime = System.currentTimeMillis();
//开始循环,循环次数500W次。
for(int i=0;i<5000000;i++)
{
//为person赋值
person.setId(i);
person.setName(RandomValue.getChineseName());
person.setSex(RandomValue.name_sex);
person.setAge(RandomValue.getNum(1, 100));
person.setEmail(RandomValue.getEmail(4,15));
person.setTel(RandomValue.getTel());
person.setAddress(RandomValue.getRoad());
//执行插入语句
pMapper.insert(person);
begin++;
}
//计结束时间
long eTime = System.currentTimeMillis();
System.out.println("插入500W条数据耗时:"+(eTime-bTime));
}

本想测试插入五百万条数据,但是实际运行过程中太慢,中途不得不终止程
序。最后得到52W数据,大约耗时两首歌的时间(7~9分钟)。随后,利用mybatis向mysql插入 一万 数据。结果如下:

利用mybatis插入 一万 条数据耗时:28613,即28.6**


下面开始第二种策略测试:


###2.2 采用JDBC直接处理(开启事务、关闭事务)
采用JDBC直接处理的策略,这里的实验内容分为开启事务、未开启事务是两种,过程均如下:

1、利用PreparedStatment预编译

2、循环,插入对应数据,并存入

**事务对于插入数据有多大的影响呢?**看下面的实验结果:

//该代码为开启事务
private long begin = 33112001;//起始id
private long end = begin+100000;//每次循环插入的数据量
private String url = "jdbc:mysql://localhost:3306/bigdata?useServerPrepStmts=false&rewriteBatchedStatements=true&useUnicode=true&characterEncoding=UTF-8";
private String user = "root";
private String password = "0203";


@org.junit.Test
public void insertBigData3() {
//定义连接、statement对象
Connection cOnn= null;
PreparedStatement pstm = null;
try {
//加载jdbc驱动
Class.forName("com.mysql.jdbc.Driver");
//连接mysql
cOnn= DriverManager.getConnection(url, user, password);
//将自动提交关闭
conn.setAutoCommit(false);
//编写sql
String sql = "INSERT INTO person VALUES (?,?,?,?,?,?,?)";
//预编译sql
pstm = conn.prepareStatement(sql);
//开始总计时
long bTime1 = System.currentTimeMillis();
//循环10次,每次一万数据,一共10万
for(int i=0;i<10;i++) {
//开启分段计时,计1W数据耗时
long bTime = System.currentTimeMillis();
//开始循环
while (begin //赋值
pstm.setLong(1, begin);
pstm.setString(2, RandomValue.getChineseName());
pstm.setString(3, RandomValue.name_sex);
pstm.setInt(4, RandomValue.getNum(1, 100));
pstm.setString(5, RandomValue.getEmail(4, 15));
pstm.setString(6, RandomValue.getTel());
pstm.setString(7, RandomValue.getRoad());
//执行sql
pstm.execute();
begin++;
}
//提交事务
conn.commit();
//边界值自增10W
end += 10000;
//关闭分段计时
long eTime = System.currentTimeMillis();
//输出
System.out.println("成功插入1W条数据耗时:"+(eTime-bTime));
}
//关闭总计时
long eTime1 = System.currentTimeMillis();
//输出
System.out.println("插入10W数据共耗时:"+(eTime1-bTime1));
} catch (SQLException e) {
e.printStackTrace();
} catch (ClassNotFoundException e1) {
e1.printStackTrace();
}
}

1、我们首先利用上述代码测试无事务状态下,插入10W条数据需要耗时多少。如图:

成功插入1W条数据耗时:21603
成功插入1W条数据耗时:20537
成功插入1W条数据耗时:20470
成功插入1W条数据耗时:21160
成功插入1W条数据耗时:23270
成功插入1W条数据耗时:21230
成功插入1W条数据耗时:20372
成功插入1W条数据耗时:22608
成功插入1W条数据耗时:20361
成功插入1W条数据耗时:20494
插入10W数据共耗时:212106

实验结论如下:

在未开启事务的情况下,平均每 21.2 秒插入 一万 数据。

接着我们测试开启事务后,插入十万条数据耗时,如图:

成功插入1W条数据耗时:4938
成功插入1W条数据耗时:3518
成功插入1W条数据耗时:3713
成功插入1W条数据耗时:3883
成功插入1W条数据耗时:3872
成功插入1W条数据耗时:3873
成功插入1W条数据耗时:3863
成功插入1W条数据耗时:3819
成功插入1W条数据耗时:3933
成功插入1W条数据耗时:3811
插入10W数据共耗时:39255

实验结论如下:

开启事务后,平均每 3.9 秒插入 一万 数据



下面开始第三种策略测试:


###2.3 采用JDBC批处理(开启事务、无事务)

采用JDBC批处理时需要注意一下几点:

1、在URL连接时需要开启批处理、以及预编译
String url = “jdbc:mysql://localhost:3306/User?rewriteBatched
-Statements=true&useServerPrepStmts=false”;

2、PreparedStatement预处理sql语句必须放在循环体外



代码如下:

private long begin = 33112001;//起始id
private long end = begin+100000;//每次循环插入的数据量
private String url = "jdbc:mysql://localhost:3306/bigdata?useServerPrepStmts=false&rewriteBatchedStatements=true&useUnicode=true&characterEncoding=UTF-8";
private String user = "root";
private String password = "0203";
@org.junit.Test
public void insertBigData() {
//定义连接、statement对象
Connection cOnn= null;
PreparedStatement pstm = null;
try {
//加载jdbc驱动
Class.forName("com.mysql.jdbc.Driver");
//连接mysql
cOnn= DriverManager.getConnection(url, user, password);
//将自动提交关闭
// conn.setAutoCommit(false);
//编写sql
String sql = "INSERT INTO person VALUES (?,?,?,?,?,?,?)";
//预编译sql
pstm = conn.prepareStatement(sql);
//开始总计时
long bTime1 = System.currentTimeMillis();
//循环10次,每次十万数据,一共1000万
for(int i=0;i<10;i++) {
//开启分段计时,计1W数据耗时
long bTime = System.currentTimeMillis();
//开始循环
while (begin //赋值
pstm.setLong(1, begin);
pstm.setString(2, RandomValue.getChineseName());
pstm.setString(3, RandomValue.name_sex);
pstm.setInt(4, RandomValue.getNum(1, 100));
pstm.setString(5, RandomValue.getEmail(4, 15));
pstm.setString(6, RandomValue.getTel());
pstm.setString(7, RandomValue.getRoad());
//添加到同一个批处理中
pstm.addBatch();
begin++;
}
//执行批处理
pstm.executeBatch();
// //提交事务
// conn.commit();
//边界值自增10W
end += 100000;
//关闭分段计时
long eTime = System.currentTimeMillis();
//输出
System.out.println("成功插入10W条数据耗时:"+(eTime-bTime));
}
//关闭总计时
long eTime1 = System.currentTimeMillis();
//输出
System.out.println("插入100W数据共耗时:"+(eTime1-bTime1));
} catch (SQLException e) {
e.printStackTrace();
} catch (ClassNotFoundException e1) {
e1.printStackTrace();
}
}


首先开始测试
      无事务,每次循环插入10W条数据,循环10次,一共100W条数据。结果如下图:

成功插入10W条数据耗时:3832
成功插入10W条数据耗时:1770
成功插入10W条数据耗时:2628
成功插入10W条数据耗时:2140
成功插入10W条数据耗时:2148
成功插入10W条数据耗时:1757
成功插入10W条数据耗时:1767
成功插入10W条数据耗时:1832
成功插入10W条数据耗时:1830
成功插入10W条数据耗时:2031
插入100W数据共耗时:21737

实验结果:

使用JDBC批处理,未开启事务下,平均每 2.1 秒插入 十万 条数据

接着测试
      开启事务,每次循环插入10W条数据,循环10次,一共100W条数据。结果如下图:

成功插入10W条数据耗时:3482
成功插入10W条数据耗时:1776
成功插入10W条数据耗时:1979
成功插入10W条数据耗时:1730
成功插入10W条数据耗时:1643
成功插入10W条数据耗时:1665
成功插入10W条数据耗时:1622
成功插入10W条数据耗时:1624
成功插入10W条数据耗时:1779
成功插入10W条数据耗时:1698
插入100W数据共耗时:19003

实验结果:

使用JDBC批处理,开启事务,平均每 1.9 秒插入 十万 条数据

###3 总结

        能够看到,在开启事务下 JDBC直接处理JDBC批处理 均耗时更短。

        Mybatis 轻量级框架插入 , mybatis在我这次实验被黑的可惨了,哈哈。实际开启事务以后,差距不会这么大(差距10倍)。大家有兴趣的可以接着去测试
        JDBC直接处理,在本次实验,开启事务和关闭事务,耗时差距5倍左右,并且这个倍数会随着数据量的增大而增大。因为在未开启事务时,更新10000条数据,就得访问数据库10000次。导致每次操作都需要操作一次数据库。
        JDBC批处理,在本次实验,开启事务与关闭事务,耗时差距很微小(后面会增加测试,加大这个数值的差距)。但是能够看到开启事务以后,速度还是有提升。

         结论,设计到大量单条数据的插入,使用JDBC批处理和事务混合速度最快
         实测使用批处理+事务混合插入1亿条数据耗时:174756毫秒





提示:

下列只是部分代码,源码-github地址
转载请标明出处:-----by 陶浩伟










4、更多彩蛋


      JDBC批处理事务,开启和关闭事务,测评插入20次,一次50W数据,一共一千万数据耗时:
      {

            1、开启事务(数据太长不全贴了)

             插入1000W数据共耗时:197654



            2、关闭事务(数据太长不全贴了)

            插入1000W数据共耗时:200540

       }

还是没很大的差距~




借用:

分别是:

不用批处理,不用事务;
只用批处理,不用事务;
只用事务,不用批处理;
既用事务,也用批处理;(很明显,这个最快,所以建议在处理大批量的数据时,同时使用批处理和事务)


推荐阅读
  • 在springmvc框架中,前台ajax调用方法,对图片批量下载,如何弹出提示保存位置选框?Controller方法 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • PHP设置MySQL字符集的方法及使用mysqli_set_charset函数
    本文介绍了PHP设置MySQL字符集的方法,详细介绍了使用mysqli_set_charset函数来规定与数据库服务器进行数据传送时要使用的字符集。通过示例代码演示了如何设置默认客户端字符集。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
  • MACElasticsearch安装步骤及验证方法
    本文介绍了MACElasticsearch的安装步骤,包括下载ZIP文件、解压到安装目录、启动服务,并提供了验证启动是否成功的方法。同时,还介绍了安装elasticsearch-head插件的方法,以便于进行查询操作。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • 【MicroServices】【Arduino】装修甲醛检测,ArduinoDart甲醛、PM2.5、温湿度、光照传感器等,数据记录于SD卡,Python数据显示,UI5前台,微服务后台……
    这篇文章介绍了一个基于Arduino的装修甲醛检测项目,使用了ArduinoDart甲醛、PM2.5、温湿度、光照传感器等硬件,并将数据记录于SD卡,使用Python进行数据显示,使用UI5进行前台设计,使用微服务进行后台开发。该项目还在不断更新中,有兴趣的可以关注作者的博客和GitHub。 ... [详细]
  • 本文详细介绍了Spring的JdbcTemplate的使用方法,包括执行存储过程、存储函数的call()方法,执行任何SQL语句的execute()方法,单个更新和批量更新的update()和batchUpdate()方法,以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]
  • 如何在php中将mysql查询结果赋值给变量
    本文介绍了在php中将mysql查询结果赋值给变量的方法,包括从mysql表中查询count(学号)并赋值给一个变量,以及如何将sql中查询单条结果赋值给php页面的一个变量。同时还讨论了php调用mysql查询结果到变量的方法,并提供了示例代码。 ... [详细]
author-avatar
誓言俱乐部
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有