热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

阿里分析型数据库ads学习记录

1.ads中非分区表关联问题无法关联或关联出结果不对,主要因为ads目前的非分区表之间的关联仅支持分区列,且分区数相同,主因为ads关联首先根据分区对应,所以所关联的表与当前表

1.ads中非分区表关联问题

无法关联或关联出结果不对,主要因为ads目前的非分区表之间的关联仅支持分区列,且分区数相同,主因为ads关联首先根据分区对应,所以所关联的表与当前表分区字段必须一致,分区数也必须一致,否则得到的结果会跟你想象中差很多。而与分区表关联则不受此限制。
使用ads中的维度表
可以与任意表关联,无需对应分区,无需相同分区数。
实际上数据量不大的表优先考虑建成维度表,特别是需要与其他表要关联的表。
维度表的劣势:查询性能不随着扩容提升,浪费更多存储空间,但是对于数据量不大的情况下都不是问题。

2.ads不支持带偏移量的limit

实际上无法做成真实分页,而且最多只能取出前1w条数据。可以使用dump方式解决,但是不建议那么做,ads主要关注快速获得查询结果,并不适用此场景。


3.ads支持count(distinct columnName)
需修改后台配置,
/global/config/query -->新增enableUdfSysGroupDistinctConcat bool类型,值false,然后count distinct可以即时生效


4.UNION无法使用或结果错误

目前仅支持分区列UNION,所以带group by的聚合函数结果或查询出的非分区列结果都不可以使用union。

注:以上基于0.8.18版本,后续版本有所更新,会另写文详解。
之后更新会说明版本。

=====20160805更新===========

版本0.9.10

ads性能优化
1. 注意过滤条件加上表别名
2. 打平关联语句 (采用直接关联表而非关联子查询的方式)
3.将关联条件设置为表聚集列

为什么打平(直接关联表而不采用关联子查询的方式)会比子查询快,这里面涉及什么原理?
打平之后,关联的维度表成为右表,join的时候走索引,所以很快;而子查询情况下,维度表就只能作为左表(子查询会自动将其处理为左表),实时表成为右表。实时部分的数据因为没有强大的索引,所以只能走扫描,这样就慢了。

遇到一个坑!!!强调下!!!
select ... a join b where xrsj>.... 
(a为大表,上百亿数据,b为维度表,上万数据)
这种语句执行的时候,当xrsj这个字段只有a或者b表的时候是完全没问题的,碰巧就是a、b表都有xrsj这个字段的时候,按常理来说,应该报错的!怎么都应该报错才对,然后秀逗了,居然没有报错,还欢快地跑起来了,以至于我一个月都没找到为什么语句那么慢!
所以优化第一句就是过滤条件要加上表别名。
这个bug已经提交给ads开发经理了,不过回复我优先级不会很高,什么时候修复再说。

=====201608011更新===========

分区表与Group-By、Order-By查询
  • Group-By条件包含分区列,则应该放到第一列,此时结果是精确的且查询性能很好
  • Group-By表达式如果不包含分区列(或第一列不是分区列),则分组数量在范围内(<5000),结果是精确的,但性能随分组数量增加而降低
  • Group-By表达式如果不包含分区列(或第一列不是分区列),且分组数量不在范围内(>=5000),此时结果是不精确的且性能随分组数量增加而降低
  • 如果Group-By表达式第一列不是按分区列,则Having语句不支持
  • 全局分组TOP(N):Group-By表达式包含分区列,则应该放到第一列,同时包含Order-By表达式,如果分组数量在范围内(<1000),结果是精确的,但性能随分组数量增加而较大降低
  • 全局模糊分组TOP(N):Group-By表达式第一列如果不是分区列且包含Order-By表达式,而且分组
  • 数量不在范围内(>=1000),此时结果是不精确的且性能随分组数量增加而较大降低
  • 全数据排序:Order-By表达式第一列如果不是分区列,性能会随排序列或表达式取值增加而较大降
使用新引擎不受限制,我估计以后的问题,新引擎都不受限制,毕竟就是为了最大化兼容sql,但是效率较低,最重要的是我现在私有云没有新引擎:)

持续更新中...

推荐阅读
  • 基于PgpoolII的PostgreSQL集群安装与配置教程
    本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件,提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能,可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤,并提供了相关的官方参考地址。 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 推荐一个ASP的内容管理框架(ASP Nuke)的优势和适用场景
    本文推荐了一个ASP的内容管理框架ASP Nuke,并介绍了其主要功能和特点。ASP Nuke支持文章新闻管理、投票、论坛等主要内容,并可以自定义模块。最新版本为0.8,虽然目前仍处于Alpha状态,但作者表示会继续更新完善。文章还分析了使用ASP的原因,包括ASP相对较小、易于部署和较简单等优势,适用于建立门户、网站的组织和小公司等场景。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 本文介绍了如何使用Power Design(PD)和SQL Server进行数据库反向工程的方法。通过创建数据源、选择要反向工程的数据表,PD可以生成物理模型,进而生成所需的概念模型。该方法适用于SQL Server数据库,对于其他数据库是否适用尚不确定。详细步骤和操作说明可参考本文内容。 ... [详细]
  • Oracle Database 10g许可授予信息及高级功能详解
    本文介绍了Oracle Database 10g许可授予信息及其中的高级功能,包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明,指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 本文介绍了使用postman进行接口测试的方法,以测试用户管理模块为例。首先需要下载并安装postman,然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时,可以进行异常测试,包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]
  • 本文详细介绍了MysqlDump和mysqldump进行全库备份的相关知识,包括备份命令的使用方法、my.cnf配置文件的设置、binlog日志的位置指定、增量恢复的方式以及适用于innodb引擎和myisam引擎的备份方法。对于需要进行数据库备份的用户来说,本文提供了一些有价值的参考内容。 ... [详细]
  • 使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]
  • 本文由编程笔记小编整理,介绍了PHP中的MySQL函数库及其常用函数,包括mysql_connect、mysql_error、mysql_select_db、mysql_query、mysql_affected_row、mysql_close等。希望对读者有一定的参考价值。 ... [详细]
  • 本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取,用于解析LOCAL_LISTENER,并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例,并展示了listener.ora文件的内容。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
author-avatar
灬段裝丶緈褔_998
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有