Python中memcached的操作详解（图文）

作者：无心少年丶的诱惑 | 来源：互联网 | 2017-05-14 02:44

通过缓存数据库查询结果，减少数据库访问次数，可以显著提高动态Web应用的速度和可扩展性。业界常用的有memcached，redis等，今天要讲的就是在python项目中如何使用memcached缓存服务。

前言

许多Web应用都将数据保存到MySQL这样的关系型数据库管理系统中，应用服务器从中读取数据并在浏览器中显示。但随着数据量的增大、访问的集中，就会出现数据库的负担加重、数据库响应恶化、网站显示延迟等不良影响。分布式缓存是优化网站性能的重要手段，大量站点都通过可伸缩的服务器集群提供大规模热点数据缓存服务。通过缓存数据库查询结果，减少数据库访问次数，可以显著提高动态Web应用的速度和可扩展性。业界常用的有redis、memcached等，今天要讲的就是在python项目中如何使用memcached缓存服务。

memcached简介

memcached是一款开源、高性能、分布式内存对象缓存系统，可应用各种需要缓存的场景，其主要目的是通过降低对Database的访问来加速web应用程序。
memcached本身其实不提供分布式解决方案。在服务端，memcached集群环境实际就是一个个memcached服务器的堆积，环境搭建较为简单；cache的分布式主要是在客户端实现，通过客户端的路由处理来达到分布式解决方案的目的。客户端做路由的原理非常简单，应用服务器在每次存取某key的value时，通过路由算法把key映射到某台memcached服务器nodeA上，因此这个key所有操作都在nodeA上进行。只要服务器还缓存着该数据，就能保证缓存命中。
但是，当memcached集群要扩容的时候，就会引发问题。例如：网站需要将3台缓存服务器扩容成4台。在更改服务器列表后，若仍使用余数hash，很容易就计算出，75%的请求不能命中缓存。随着服务器集群规模增大，不能命中的比率就越高。

1%3 = 1    
1%4 = 1
2%3 = 2    
2%4 = 2
3%3 = 0    
3%4 = 3
4%4 = 1    
4%4 = 0
#以此类推

这样扩容操作风险极大，可能给数据库带来很大的瞬时压力，甚至可能导致数据库崩溃。解决这个问题有2个方法：1、在访问低谷进行扩容，在扩容后预热数据；2、使用更优的路由算法。目前使用较多的是一致性Hash算法。

一致性哈希

memcached客户端可采用一致性hash算法作为路由策略，如图，相对于一般hash（如简单取模）的算法，一致性hash算法除了计算key的hash值外，还会计算每个server对应的hash值，然后将这些hash值映射到一个有限的值域上（比如0~2^32）。通过寻找hash值大于hash(key)的最小server作为存储该key数据的目标server。如果找不到，则直接把具有最小hash值的server作为目标server。同时，一定程度上，解决了扩容问题，增加或删除单个节点，对于整个集群来说，不会有大的影响。

memcached内存管理采取预分配、分组管理的方式，分组管理就是我们上面提到的slab class，按照chunk的大小slab被分为很多种类。内存预分配过程是怎样的呢？向memcached添加一个item时候，memcached首先会根据item的大小，来选择最合适的slab class：例如item的大小为190字节，默认情况下class 4的chunk大小为160字节显然不合适，class 5的chunk大小为200字节，大于190字节，因此该item将放在class 5中（显然这里会有10字节的浪费是不可避免的），计算好所要放入的chunk之后，memcached会去检查该类大小的chunk还有没有空闲的，如果没有，将会申请1M（1个slab）的空间并划分为该种类chunk。例如我们第一次向memcached中放入一个190字节的item时，memcached会产生一个slab class 2（也叫一个page），并会用去一个chunk，剩余5241个chunk供下次有适合大小item时使用，当我们用完这所有的5242个chunk之后，下次再有一个在160～200字节之间的item添加进来时，memcached会再次产生一个class 5的slab（这样就存在了2个pages）。

注意事项

chunk是在page里面划分的，而page固定为1m，所以chunk最大不能超过1m。
chunk实际占用内存要加48B，因为chunk数据结构本身需要占用48B。
如果用户数据大于1m，则memcached会将其切割，放到多个chunk内。
已分配出去的page不能回收。
-对于key-value信息，最好不要超过1m的大小；同时信息长度最好相对是比较均衡稳定的，这样能够保障最大限度的使用内存；同时，memcached采用的LRU清理策略，合理甚至过期时间，提高命中率。

使用场景

key-value能满足需求的前提下，使用memcached分布式集群是较好的选择，搭建与操作使用都比较简单；分布式集群在单点故障时，只影响小部分数据异常，目前还可以通过Magent缓存代理模式，做单点备份，提升高可用；整个缓存都是基于内存的，因此响应时间是很快，不需要额外的序列化、反序列化的程序，但同时由于基于内存，数据没有持久化，集群故障重启数据无法恢复。高版本的memcached已经支持CAS模式的原子操作，可以低成本的解决并发控制问题。

安装启动

$ sudo apt-get install memcached
$ memcached -m 32 -p 11211 -d
# memcached将会以守护程序的形式启动 memcached（-d），为其分配32M内存（-m 32），并指定监听 localhost的11211端口。

python操作memcached

在python中可通过memcache库来操作memcached，这个库使用很简单，声明一个client就可以读写memcached缓存了。

python访问memcached

#!/usr/bin/env pythonimport memcache

mc = memcache.Client([&＃39;127.0.0.1:12000&＃39;],debug=0)

mc.set("some_key", "Some value")
value = mc.get("some_key")

mc.set("another_key", 3)
mc.delete("another_key")

mc.set("key", "1")   # note that the key used for incr/decr must be a string.
mc.incr("key")
mc.decr("key")

然而，python-memcached默认的路由策略没有使用一致性哈希。

    def _get_server(self, key):
        if isinstance(key, tuple):
            serverhash, key = key        
            else:
            serverhash = serverHashFunction(key)        
            if not self.buckets:            
            return None, None

        for i in range(Client._SERVER_RETRIES):
            server = self.buckets[serverhash % len(self.buckets)]            
            if server.connect():                
            # print("(using server %s)" % server,)
                return server, key
            serverhash = serverHashFunction(str(serverhash) + str(i))        
            return None, None

从源码中可以看到：server = self.buckets[serverhash % len(self.buckets)]，只是根据key进行了简单的取模。我们可以通过重写_get_server方法，让python-memcached支持一致性哈希。

import memcacheimport typesfrom hash_ring import HashRingclass MemcacheRing(memcache.Client):
    """Extends python-memcache so it uses consistent hashing to
    distribute the keys.
    """
    def init(self, servers, *k, **kw):
        self.hash_ring = HashRing(servers)
        memcache.Client.init(self, servers, *k, **kw)
        self.server_mapping = {}        
        for server_uri, server_obj in zip(servers, self.servers):
            self.server_mapping[server_uri] = server_obj    
            def _get_server(self, key):
        if type(key) == types.TupleType:            
        return memcache.Client._get_server(key)        
        for i in range(self._SERVER_RETRIES):
            iterator = self.hash_ring.iterate_nodes(key)            
            for server_uri in iterator:
                server_obj = self.server_mapping[server_uri]                
                if server_obj.connect():                    
                return server_obj, key        
                return None, None

torando项目中使用memcached

这里采用的策略是：1. 应用程序先从cache取数据，没有得到，则从数据库中取数据，成功后，放到缓存中。2. 应用程序从cache中取数据，取到后返回。缓存更新是一个很复杂的问题，一般是先把数据存到数据库中，成功后，再让缓存失效。后面会再写文单独讨论memcached缓存更新的问题。

代码

# coding: utf-8import sysimport tornado.ioloopimport tornado.webimport loggingimport memcacheimport jsonimport urllib# 初始化memcache clientmc = memcache.Client([&＃39;127.0.0.1:11211&＃39;], debug=0)
mc_prefix = &＃39;demo&＃39;class BaseHandler(tornado.web.RequestHandler):
    """ 把缓存处理抽象到BaseHandler基类 """
    USE_CACHE = False  # 控制是否使用缓存

    def format_args(self):
        arg_list = []        
        for a in self.request.arguments:            
        for value in self.request.arguments[a]:
                arg_list.append(&＃39;%s=%s&＃39; % (a, urllib.quote(value.replace(&＃39; &＃39;, &＃39;&＃39;))))        
                # 根据请求的URL产生key
        arg_list.sort()
        key = &＃39;%s?%s&＃39; % (self.request.path, &＃39;&&＃39;.join(arg_list)) if arg_list else self.request.path
        key = &＃39;%s_%s&＃39; % (mc_prefix, key)        
        # key太长，不进行缓存处理
        if len(key) > 250:
            logging.error(&＃39;key out of length: %s&＃39;, key)            
            return None

        return key    def get(self, *args, **kwargs):
        if self.USE_CACHE:            
        try:                
        # 根据请求获取key
                self.key = self.format_args()                
                if self.key:
                    data = mc.get(self.key)  
                    # 若缓存命中，则直接返回数据
                    if data:
                        logging.info(&＃39;get data from memecahce&＃39;)
                        self.finish(data)                        
                        return
            except Exception, e:
                logging.exception(e)        
                # 若未命中缓存，调用do_get处理请求，获取数据
        data = self.do_get()
        data_str = json.dumps(data)        
        # 把成功获取到的数据，放入memcache缓存
        if self.USE_CACHE and data and data.get(&＃39;result&＃39;, -1) == 0 and self.key:            
        try:
                mc.set(self.key, data_str, 60)            
                except Exception, e:
                logging.exception(e)

        self.finish(data_str)    def do_get(self):
        return Noneclass DemoHandler(BaseHandler):
    USE_CACHE = True

    def do_get(self):
        a = self.get_argument(&＃39;a&＃39;, &＃39;test&＃39;)
        b = self.get_argument(&＃39;b&＃39;, &＃39;test&＃39;)        
        # 访问数据库获取数据，此处略去
        data = {&＃39;result&＃39;: 0, &＃39;a&＃39;: a, &＃39;b&＃39;: b}        return datadef make_app():
    return tornado.web.Application([
        (r"/", DemoHandler),
    ])if name == "main":
    logging.basicConfig(stream=sys.stdout, level=logging.INFO,
                    format=&＃39;%(asctime)s %(levelno)s %(message)s&＃39;,
                    )

    app = make_app()
    app.listen(8888)
    tornado.ioloop.IOLoop.current().start()

测试结果

在浏览器访问http://127.0.0.1:8888/?a=1&b=3，终端打印的log如下：

2017-02-21 22:45:05,987 20 304 GET /?a=1&b=2 (127.0.0.1) 3.11ms
2017-02-21 22:45:07,427 20 get data from memecahce
2017-02-21 22:45:07,427 20 304 GET /?a=1&b=2 (127.0.0.1) 0.71ms
2017-02-21 22:45:10,350 20 200 GET /?a=1&b=3 (127.0.0.1) 0.82ms
2017-02-21 22:45:13,586 20 get data from memecahce

从日志可以看到，缓存命中的情况。

小结

本文介绍了memcached的路由算法、内存管理、使用场景等基本概念，然后举例说明了在python项目中如何使用memcached缓存。缓存更新的问题还需要进一步分析讨论。

以上就是Python中memcached的操作详解（图文）的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

php
搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的详细步骤

本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的步骤，包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]

蜡笔小新 2023-12-14 17:03:58
timestamp
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
php
Redis数据结构之string应用场景解析

本文介绍了Redis的基础数据结构string的应用场景，并以面试的形式进行问答讲解，帮助读者更好地理解和应用Redis。同时，描述了一位面试者的心理状态和面试官的行为。 ... [详细]

蜡笔小新 2023-12-14 14:02:42
php
高校天文共享平台开发过程中的思考与规划

本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面，并总结了项目存在的问题，如前后端未分离、代码混乱等。作者表示希望通过记录和规划，能够理清思路，进一步完善该平台。 ... [详细]

蜡笔小新 2023-12-13 18:08:58
php
面试经验分享：华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试

最近有朋友去华为面试，面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败，因为缺乏基础知识。面试问题涉及 ... [详细]

蜡笔小新 2023-12-09 10:22:03
timestamp
玩转直播系列之消息模块演进(3)

一、背景即时消息(IM)系统是直播系统重要的组成部分，一个稳定的，有容错的，灵活的，支持高并发的消息模块是影响直播系统用户体验的重要因素。IM长连接服务在直播系统有发挥着举足轻重的 ... [详细]

蜡笔小新 2023-10-17 17:52:53
timestamp
python面试题_python面试题——数据库和缓存（46题）

本文由编程笔记#小编为大家整理，主要介绍了python面试题——数据库和缓存（46题）相关的知识，希望对你有一定的参考价值。1、列举常见的关系型数据库和非关系型都有那些？ ... [详细]

蜡笔小新 2023-10-15 21:09:44
timestamp
开发笔记:Memcached高性能内存对象缓存系统

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Memcached高性能内存对象缓存系统相关的知识，希望对你有一定的参考价值。一、Memcached概述 ... [详细]

蜡笔小新 2023-10-13 19:08:11
timestamp
架构师必读：日均500万数据，如何进行数据存储选型？

点击上方关注我，选择“置顶或者星标”作者：麦田里的老农来源：https:zhuanlan.zhihu.comp37964096小编公司有一 ... [详细]

蜡笔小新 2023-10-13 09:35:19
jsp
内存交换机制

相对于内存来说,磁盘的容量是非常大的,所以Linux内核实现了一个叫内存交换的功能--把某些进程的一些暂时用不到的内存页保存到磁盘中,然后把物理内存页分配给更紧急的用户使用,当 ... [详细]

蜡笔小新 2023-10-12 19:20:04
function
python限制递归次数（python最大公约数递归）

本文目录一览：1、python为什么要进行递归限制 ... [详细]

蜡笔小新 2023-12-11 17:39:02
function
mongodb数据迁移,程序员未来职场之路

一面自我介绍对象相等的判断，equals方法实现。可以简单描述挫折，并说明自己如何克服，最终有哪些收获。职业规划表明自己决心，首先自己不准备继续求学了，必须招工作了。希望去哪 ... [详细]

蜡笔小新 2023-10-17 13:57:50
spring
缓存分布式锁 Redis

分布式锁现在Redis基本上没家公司都在使用，只是各自使用的场景不以，但Redis最出名的还是做为缓存服务器，提搞服务器的的吞吐量，下面我们来围绕这个作为缓存做一个总结今天的目标其 ... [详细]

蜡笔小新 2023-10-17 11:51:10
spring
基于内存和 Redis 的两级 Java 缓存框架！

👇👇关注后回复“进群”，拉你进程序员交流群👇👇Java两级缓存框架，可以让应用支持两级缓 ... [详细]

蜡笔小新 2023-10-12 17:09:04
spring
Redis学习笔记(二) .NET中使用Redis

Redis是一个用的比较广泛的KeyValue的内存数据库，新浪微博、Github、StackOverflow等大型应用中都用其作为缓存，Redis的官网为http:redis.io。最 ... [详细]

蜡笔小新 2023-10-12 15:29:54

无心少年丶的诱惑

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章