热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

开发笔记:数据结构与算法简记实现一个短网址系统

篇首语:本文由编程笔记#小编为大家整理,主要介绍了数据结构与算法简记--实现一个短网址系统相关的知识,希望对你有一定的参考价值。 实现一个短网址系统短网址服务把一个长的网址转化成一个短的网址,访问这个

篇首语:本文由编程笔记#小编为大家整理,主要介绍了数据结构与算法简记--实现一个短网址系统相关的知识,希望对你有一定的参考价值。




实现一个短网址系统




短网址服务



  • 把一个长的网址转化成一个短的网址,访问这个短网址,就相当于访问原始的网址


  • 原始网址:https://github.com/wangzheng0822/ratelimiter4j
    短网址:http://t.cn/EtR9QEG



  • 上面第二个网址是通过新浪提供的短网址服务生成的



  • 核心功能:

    • 把原始的长网址转化成短网址

    • 当用户点击短网址的时候,短网址服务会将浏览器重定向为原始网址





如何通过哈希算法生成短网址?



  • 使用比较著名并且应用广泛的一个哈希算法:MurmurHash 算法

  • 提供了两种长度的哈希值,一种是 32bits,一种是 128bits。为了尽可能短,可以选择 32bits 的哈希值

  • 对于开头那个 GitHub 网址,经过 MurmurHash 计算后,得到的哈希值就是 181338494。

  • 再拼上短网址服务的域名,就变成了最终的短网址 http://t.cn/181338494(其中,http://t.cn 是短网址服务的域名)。

 



  • 如何让短网址更短

    • 将 10 进制的哈希值,转化成更高进制的哈希值,这样哈希值就变短了

    • 在网址 URL 中,常用的合法字符有 0~9、a~z、A~Z 这样 62 个字符。

    • 为了让哈希值表示起来尽可能短,将 10 进制的哈希值转化成 62 进制。具体的计算过程如下图。最终用 62 进制表示的短网址就是http://t.cn/cgSqq。




  • 如何解决哈希冲突问题



    • 给原始网址拼接一串特殊字符,比如“[DUPLICATED]”,然后跟再重新计算哈希值,两次哈希计算都冲突的概率,显然是非常低的。

    • 假设出现非常极端的情况,又发生冲突了,再换一个拼接字符串,比如“[OHMYGOD]”,再计算哈希值。

    • 然后把计算得到的哈希值,跟原始网址拼接了特殊字符串之后的文本,一并存储

    • 当用户访问短网址的时候,短网址服务先通过短网址,在数据库中查找到对应的原始网址。

    • 如果原始网址有拼接特殊字符(这个很容易通过字符串匹配算法找到),先将特殊字符去掉,然后再将不包含特殊字符的原始网址返回给浏览器。



  • 如何优化哈希算法生成短网址的性能

    • 首先可以给短网址字段添加 B+ 树索引

    • 其次减少sql语句执行次数来减少通讯次数:

      • 给数据库中的短网址字段,添加一个唯一索引(不止是索引,还要求表中不能有重复的数据)

      • 当有新的原始网址需要生成短网址的时候,并不会先拿生成的短网址,在数据库中查找判重,而是直接将生成的短网址与对应的原始网址,尝试存储到数据库中。

      • 如果数据库能够将数据正常写入,那说明并没有违反唯一索引,也就是说,这个新生成的短网址并没有冲突。

      • 在大部分情况下,我们把新生成的短网址和对应的原始网址,插入到数据库的时候,并不会出现冲突

      • 通过布隆过滤器减少SQL语句执行次数:

        • 把已经生成的短网址,构建成布隆过滤器。

        • 布隆过滤器是比较节省内存的一种存储结构,长度是 10 亿的布隆过滤器,也只需要 125MB 左右的内存空间。

        • 当有新的短网址生成的时候,先拿这个新生成的短网址,在布隆过滤器中查找。

        • 如果查找的结果是不存在,那就说明这个新生成的短网址并没有冲突。此时,只需要再执行写入短网址和对应原始网页的 SQL 语句就可以了。

        • 通过先查询布隆过滤器,总的 SQL 语句的执行次数减少了。








如何通过 ID 生成器生成短网址?



  • 维护一个 ID 自增生成器。它可以生成 1、2、3…这样自增的整数 ID。

  • 当短网址服务接收到一个原始网址转化成短网址的请求之后,它先从 ID 生成器中取一个号码,然后将其转化成 62 进制表示法,拼接到短网址服务的域名(比如http://t.cn/)后面,就形成了最终的短网址。

  • 最后,把生成的短网址和对应的原始网址存储到数据库中。

  • 几个细节问题:

    • 相同的原始网址可能会对应不同的短网址

      • 不处理:用户只关心短网址能否正确地跳转到原始网址,不关心短网址长什么样子。

      • 借助哈希算法生成短网址的处理思想:当要给一个原始网址生成短网址的时候,先拿原始网址在数据库中查找,如果数据库中存在,就取出对应的短网址,直接返回给用户



    • 如何实现高性能的 ID 生成器

      • 给 ID 生成器装多个前置发号器

      •  

         



      • 多个ID生成器

      •  

         









推荐阅读
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 本文介绍了使用postman进行接口测试的方法,以测试用户管理模块为例。首先需要下载并安装postman,然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时,可以进行异常测试,包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 推荐一个ASP的内容管理框架(ASP Nuke)的优势和适用场景
    本文推荐了一个ASP的内容管理框架ASP Nuke,并介绍了其主要功能和特点。ASP Nuke支持文章新闻管理、投票、论坛等主要内容,并可以自定义模块。最新版本为0.8,虽然目前仍处于Alpha状态,但作者表示会继续更新完善。文章还分析了使用ASP的原因,包括ASP相对较小、易于部署和较简单等优势,适用于建立门户、网站的组织和小公司等场景。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 本文是一位90后程序员分享的职业发展经验,从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光,包括与朋友一起玩DOTA的回忆,并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队,如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验,作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]
  • Oracle Database 10g许可授予信息及高级功能详解
    本文介绍了Oracle Database 10g许可授予信息及其中的高级功能,包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明,指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]
author-avatar
莪啝伱在一敧
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有