热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

echarts无数据时显示无数据_面试题|无索引如何删除亿级数据?

作者:杨奇龙标签:MySQL、无索引、删除亿级数据转自:yangyidba(yangyidba)一业务需求某业务表a数据量大约4.7亿&#

作者:杨奇龙

标签:MySQL、无索引、删除亿级数据

转自:yangyidba(yangyidba)

一 业务需求

某业务表a 数据量大约4.7亿,单表物理大小为370G,其中某些指定xxid='xxx'值的记录大约2亿。受限于磁盘空间比较紧张,需要对在无索引的情况下删除无效数据。如何优雅的删除呢?

二 思路

2.1 xxid本身有索引

存在索引的情况下就比较简单,直接利用索引进行删除,写一个for 循环语句 每次删除500行,每次判断delete 影响的行数可以累加计算删除了多少行,直到删除结果为0行。

delete from a where xxid='xxx' limit 500 ;

那么问题来了 ,如果要求不能创建索引怎么处理?

2.2 xxid 字段无索引

因为表占用的空间已经比较大 370G ,再添加索引会更大。因为没有索引,故我们不能直接像方法一 那样 根据 where xxxid='xxx' 删除数据,那样更慢,可能会引发故障。

我们采取分而治之的方式,基于主键把表的数据分段,比如每段1000行-2000行(如果主键id不连续 则实际数据量会小于指定分段数据)。然后在这1000行里面删除指定的数据,这样delete的执行效率会比直接依赖 xxxid='xxx' 好很多。

1 select min(a.id) min_id,max(a.id) max_id

from (select id from a where id>{init_id} order by id limit 1000) a

2 delete from a where xxid&#61;&#39;xxx&#39; and id >&#61;min_id and id <&#61;max_id

3 init_id &#61; max_id

代码如下:

def get_current_max_id():

"""

获取当前最大的id

:return:

"""

get_max_id &#61; """select max(a.id) max_id from a"""

try:

mydb &#61; pymysql.connect(

host&#61;IP,

port&#61;int(PORT),

user&#61;USER,

read_timeout&#61;5, write_timeout&#61;5,

charset&#61;&#39;utf8&#39;, autocommit&#61;True)

cursor &#61; mydb.cursor(pymysql.cursors.DictCursor)

cursor.execute(get_max_id)

data &#61; cursor.fetchall()

except Exception as e:

print traceback.format_exc(e)

exit(0)

finally:

mydb.close()

print "we get max id of table : %s" % (data[0][&#39;max_id&#39;])

return data[0][&#39;max_id&#39;]

def get_min_max_id(min_id):

"""

:param min_id:

:return:

"""

get_ids &#61; """select min(a.id) min_id,max(a.id) max_id from

(select id from a where id>{init_id} order by id limit 2000) a

""".format(init_id&#61;min_id)

try:

mydb &#61; pymysql.connect(

host&#61;IP,

port&#61;int(PORT),

user&#61;USER,

read_timeout&#61;5, write_timeout&#61;5,

charset&#61;&#39;utf8&#39;, database&#61;&#39;test&#39;, autocommit&#61;True)

cursor &#61; mydb.cursor(pymysql.cursors.DictCursor)

cursor.execute(get_ids)

data &#61; cursor.fetchall()

except Exception as e:

print traceback.format_exc(e)

exit(0)

finally:

mydb.close()

return data[0][&#39;min_id&#39;], data[0][&#39;max_id&#39;]

def del_tokens(min_id, max_id):

"""

:param min_id:

:param max_id:

:return:

"""

del_token &#61; """delete from a

where client_id in (&#39;xxx&#39;,&#39;yyy&#39;) and id>&#61;%s and id<&#61;%s """

try:

mydb &#61; pymysql.connect(

host&#61;IP,

port&#61;int(PORT),

user&#61;USER,

read_timeout&#61;5, write_timeout&#61;5,

charset&#61;&#39;utf8&#39;, database&#61;&#39;test&#39;, autocommit&#61;True)

cursor &#61; mydb.cursor(pymysql.cursors.DictCursor)

rows &#61; cursor.execute(del_token, (min_id, max_id))

except Exception as e:

print traceback.format_exc(e)

exit(0)

finally:

mydb.close()

return rows

def get_last_del_id(file_name):

if not os.path.exists(file_name):

print "{file} is not exist ,exit .".format(file&#61;file_name)

exit(-1)

with open(file_name, &#39;r&#39;) as fh:

del_id &#61; fh.readline().strip()

if not del_id.isdigit():

print "it is &#39;{delid}&#39;, not a num , exit ".format(delid&#61;del_id)

exit(-1)

return del_id

def main():

file_name &#61; &#39;/tmp/del_aid.id&#39;

rows_deleted &#61; 0

maxid &#61; get_current_max_id()

init_id &#61; get_last_del_id(file_name)

while True:

min_id, max_id &#61; get_min_max_id(init_id)

if max_id > maxid:

with open(&#39;/tmp/del_aid.id&#39;, &#39;w&#39;) as f:

f.write(str(min_id))

print "delete end at : {end_id}".format(end_id&#61;init_id)

exit(0)

rows &#61; del_tokens(int(min_id), int(max_id))

init_id &#61; max_id

rows_deleted &#43;&#61; rows

print "delete at %d ,and we have deleted %d rows " % (max_id, rows_deleted)

time.sleep(0.3) ### 可以控制每秒删除的速度

if __name__ &#61;&#61; &#39;__main__&#39;:

main()

这个脚本可以记录上一次的id&#xff0c;用上一次id 作为 init_id进行删除。第一次使用的时候需要手工初始化/tmp/del_aid.id 比如写入 0 或者符合条件的最小主键 id。

2.3 如何更快速的删除

这个环节就当做思考题吧&#xff0c;可以不考虑从库的延迟。大家有什么好的思路&#xff0c;可以分享一下。

推荐文章

工具|Explain 使用分析

哪些因素会导致慢查询&#xff1f;

关于「3306π」社区

围绕 MySQL 核心技术&#xff0c;将互联网行业中最重要的数据化解决方案带到传统行业中&#xff1b;囊括其他开源技术Redis、MongoDB、Hbase、Hadoop、ElasticSearch、Storm、Spark等&#xff1b;分享干货知识&#xff0c;即便是赞助商&#xff0c;也要求如此&#xff0c;拒绝放水。

ca7a1193fe64797983c91f69c1a0914e.png




推荐阅读
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了为什么要使用多进程处理TCP服务端,多进程的好处包括可靠性高和处理大量数据时速度快。然而,多进程不能共享进程空间,因此有一些变量不能共享。文章还提供了使用多进程实现TCP服务端的代码,并对代码进行了详细注释。 ... [详细]
  • 本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法,包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数,以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时,还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说,本文提供了一些有用的技巧和建议。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • 闭包一直是Java社区中争论不断的话题,很多语言都支持闭包这个语言特性,闭包定义了一个依赖于外部环境的自由变量的函数,这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例,介绍了闭包的定义和特性。 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
  • Java中包装类的设计原因以及操作方法
    本文主要介绍了Java中设计包装类的原因以及操作方法。在Java中,除了对象类型,还有八大基本类型,为了将基本类型转换成对象,Java引入了包装类。文章通过介绍包装类的定义和实现,解答了为什么需要包装类的问题,并提供了简单易用的操作方法。通过本文的学习,读者可以更好地理解和应用Java中的包装类。 ... [详细]
  • WhenIusepythontoapplythepymysqlmoduletoaddafieldtoatableinthemysqldatabase,itdo ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • JavaSE笔试题-接口、抽象类、多态等问题解答
    本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征,以及Java中实现多态的机制。 ... [详细]
author-avatar
i1L3i1L4
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有