当前位置: 开发笔记 > 编程语言 > 正文

项目需求及架构设计

作者：mobiledu2502879833 | 来源：互联网 | 2023-07-13 09:46

第2章项目需求及架构设计2.1项目需求分析用户行为数据采集平台搭建用户行为数据会以文件的形式存储在服务器，这个阶段需要考虑：采集用户行为数据使用的工具

第2章项目需求及架构设计

2.1 项目需求分析

用户行为数据采集平台搭建
用户行为数据会以文件的形式存储在服务器&＃xff0c;这个阶段需要考虑&＃xff1a;采集用户行为数据使用的工具,需要提供详细的设计需求
如&＃xff1a;flume&＃xff0c;flume采用的 source、channel、sink以及flume代码的设计
业务数据采集平台搭建
将mysql中的业务数据导入到hive数仓中使用什么工具
如&＃xff1a;sqoop的安装、配置、使用
数据仓库的维度建模
数仓建模的分层&＃xff1a;Ods原始数据层、dwd数据清洗层、dws以天为单位的轻度聚合层、dwt粗粒度聚合层、ads指标层
分析&＃xff0c;设备、会员、商品、地区、活动等电商核心主题&＃xff0c;统计的报表主题近100个
对老板关系的指标进行汇总分析
采用即席查询工具&＃xff0c;随时进行指标分析
临时查询指标&＃xff0c;可以快速查询出想要的结果情况
对集群性能进行监控&＃xff0c;发生异常需要报警
如&＃xff1a;hadoop某一进程出现了宕机&＃xff0c;需要即使的进行报警处理&＃xff0c;通过邮件、短信或者钉钉的方式通知开发人员&＃xff0c;便于及时解决集群的异常
元数据管理
可以以图形的方式显示任务间的依赖关系&＃xff0c;如果某一job的运行过程出现异常&＃xff0c;可以通过血缘关系图查看受影响的job,从而挑选出优先级最高的job顺序解决
在没有元数据管理的情况下&＃xff0c;查询job间的影响关系。需要通过调度工具的脚本查看调度关系&＃xff0c;手动进行查询。不便于数据的管理
数据质量监控
时刻监控近期指标间的差异&＃xff0c;如果近期指标差异超过指定数值则通过短信、邮件或钉钉进行报警&＃xff0c;让监控人员快速响应处理
如&＃xff1a;两天内指标差异超过30%以上通过短信、邮件或钉钉进行报警
权限管理
通过权限管理实现不同权限的用户可以看到不同的表、或者不同权限的用户可以看到某张表中不同的字段

2.2 项目框架

2.2.1 技术选型

在这里插入图片描述

技术选型要考虑的因素
数据量大小&＃xff1a; 根据数据量的大小决定使用hdfs存储或者使用mysql存储数据
业务需求&＃xff1a; 根据实时数据的计算或者离线数据的计算来选择flink、spark或者hive
行内经验&＃xff1a; 根据行业内大厂所使用的技术框架进行技术选型
技术成熟度&＃xff1a; 技术的成熟度决定是否使用该技术如&＃xff1a;是否有成熟版本、是否有大厂在生产环境下使用、通常情况下中小型公司都会等待大厂调查成熟后才会使用
开发维护成本&＃xff1a; 结合公司情况&＃xff0c;选择云服务器和物理服务器。需要考虑的因素有场地、维护人员、维护设备等方面。
总成本预算&＃xff1a; 因为项目经理也需要向公司申请资金&＃xff0c;或许申请的资金达不到预期金额
数据采集传输
Flume: 日志文件的采集如&＃xff1a;将用户行为数据以json的形式存储在csv文件中&＃xff0c;通过flume导入到hdfs中
sqoop: 业务数据的传输如&＃xff1a;将mysql的业务数据导入到hive中
kafka: 缓冲消峰的作用
logstash: 与flume相同&＃xff0c;只不过logstash是领英团队开发的与Es、Kibana为一套框架&＃xff0c;理论来说elk框架之间的兼容性是最好的。而且ELK主要针对中小型公司或者数据量小的公司分析的指标不是很复杂DataX:
数据存储
Mysql&＃xff1a; 存储小量数据&＃xff0c;一般会将ads的指标存入mysql中供BI人员展示。
Hdfs&＃xff1a; 存储大量数据
Hbase: 很多情况下会与kylin组合使用&＃xff0c;kylin会将数据存储到Hbase中
Redis: 基于内存的数据库、存储实时数据
MongoDB: 爬虫数据一般会存储于MongDB中
数据计算
Hive: 数据走MR程序需要落盘所以速度较慢
Tez: 完全在内存中进行计算&＃xff0c;内存消耗强但是查询速度快
Spark: 部分数据在内存中、部分数据在磁盘里。相对MR引擎会快
Flink/ Stom: 主要用于实时数据的计算
数据的查询
Presto/Kylin/Impala:通常情况离线查询会选择的框架
Druid/ClickHouse/Doris:实时查询选择的框架
数据可视化
Echarts&＃xff08;开源免费&＃xff09;、
Superset&＃xff08;开源免费&＃xff09;、
QuickBi(ali收费针对离线)、
DataV&＃xff08;ali收费针对实时&＃xff09;、
fineReport&＃xff08;付费与免费版本的区别在于并发访问仅支持2个&＃xff0c;以及部分功能的水印&＃xff09;
任务调度
Azkaban(中小型公司的选择、简单实用、上手快框架较轻)、
Oozie(功能多框架重)
DolphinScheduler(丰富的可视化页面)
Airflow(python编写&＃xff0c;懂python适合)
集群监控
服务器组件宕机能够及时检测到
Zabbix&＃xff08;离线&＃xff09;、Prometheus(实时)
元数据管理
Atlas&＃xff08;中大公司使用&＃xff09;&＃xff1a;任务量少只有几十个任务&＃xff0c;使用atlas的意义并不大。与手动查看任务的效率区别并不大、
任务量多有成百上千的任务&＃xff0c;atlas的意义便会很大、图形化界面通过肉眼查看血缘关系图找到受影响的job,从而挑选出优先级最高的job顺序解决
权限管理
Ranger(主流): 通过权限管理实现不同权限的用户可以看到不同的表、或者不同权限的用户可以看到某张表中不同的字段

2.2.2 系统数据流程设计

在这里插入图片描述

项目需求&＃xff1a; 无论做什么项目首先需要对项目需求进行了解
集群规模&＃xff1a; 需要了解企业数据量的大小
服务器选型&＃xff1a; 先了解企业购买服务器、没有的情况下建议物理机还是云服务器
框架的版本&＃xff1a;
可以选择免费的apache&＃xff08;运维麻烦、需要考虑组件兼容性问题&＃xff09;
也可以选择CDH&＃xff08;CDH已经开始收费了1万美金/年&＃xff0c;目前官网不再提供免费安装包。旧版本安装包依旧可以照常使用&＃xff0c;但是不能确定的是一段时间后是否也会开启收费策略&＃xff0c;在已经部署并且存在大量数据的前提下&＃xff0c;突然收费会造成很多不必要的麻烦&＃xff09;

2.2.3 框架版本选型

在这里插入图片描述
具体版本号

2.2.4 服务器选型

在这里插入图片描述

服务器的选择
服务器选择物理机还是云主机?
1) 物理机:
以128G内存&＃xff0c;20核物理CPU&＃xff0c;40线程&＃xff0c;8THDD和2TSSD硬盘&＃xff0c;戴尔品牌
单台报价4W出头。一般物理机寿命5年左右。
需要有专业的运维人员&＃xff0c;平均一个月1万。电费也是不少的开销。
2)云主机:
云主机:以阿里云为例&＃xff0c;差不多相同配置&＃xff0c;每年5W。
很多运维工作都由阿里云完成&＃xff0c;运维相对较轻松
3&＃xff09;企业选择
金融有钱公司和阿里没有直接冲突的公司选择阿里云
中小公司、为了融资上市&＃xff0c;选择阿里云&＃xff0c;拉到融资后买物理机。
有长期打算&＃xff0c;资金比较足&＃xff0c;选择物理机。

2.2.5 集群规模

在这里插入图片描述

如何确认集群规模?
&＃xff08;假设:每台服务器8T磁盘&＃xff0c;128G内存)
&＃xff08;1&＃xff09;每天日活跃用户100万&＃xff0c;每人一天平均100条: 100万100条&＃61;1亿条
&＃xff08;2&＃xff09;每条日志IK左右&＃xff0c;每天1亿条:I00000000/1024/1024&＃61;约100G
&＃xff08;3&＃xff09;半年内不扩容服务器来算:100G180天&＃61;约18T
&＃xff08;4&＃xff09;保存3副本:18T3&＃61;5.4T
&＃xff08;5&＃xff09;预留20%-30%Buf&＃61;54T/0.7-77T(6&＃xff09;算到这:约8T*10台服务器

2.2.6 集群资源规划设计

在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务&＃xff0c;测试集群用于上线前代码编写和测试。

1&＃xff09;生产集群
&＃xff08;1&＃xff09;消耗内存的分开
&＃xff08;2&＃xff09;数据传输数据比较紧密的放在一起&＃xff08;Kafka 、Zookeeper&＃xff09;
&＃xff08;3&＃xff09;客户端尽量放在一到两台服务器上&＃xff0c;方便外部访问
&＃xff08;4&＃xff09;有依赖关系的尽量放到同一台服务器&＃xff08;例如&＃xff1a;Hive和Azkaban Executor&＃xff09;

1	2	3	4	5	6	7	8	9	10
nn	nn	dn	dn	dn	dn	dn	dn	dn	dn
		rm	rm	nm	nm	nm	nm	nm	nm
		nm	nm
							zk	zk	zk
							kafka	kafka	kafka
							Flume	Flume	flume
		Hbase	Hbase	Hbase
hive	hive
mysql	mysql
spark	spark
Azkaban	Azkaban				ES	ES

2&＃xff09;测试集群服务器规划

服务名称	子服务	服务器	服务器	服务器
		hadoop102	hadoop103	hadoop104
HDFS	NameNode	√
	DataNode	√	√	√
	SecondaryNameNode			√
Yarn	NodeManager	√	√	√
	Resourcemanage		√
Zookeeper	Zookeeper Server	√	√	√
Flume&＃xff08;采集日志&＃xff09;	Flume	√	√
Kafka	Kafka	√	√	√
Flume&＃xff08;消费Kafka&＃xff09;	Flume			√
Hive	Hive	√
MySQL	MySQL	√
Sqoop	Sqoop	√
Presto	Coordinator	√
	Worker		√	√
Azkaban	AzkabanWebServer	√
	AzkabanExecutorServer	√
Spark		√
Kylin		√
HBase	HMaster	√
	HRegionServer	√	√	√
Superset		√
Atlas		√
Solr	Jar	√
服务数总计		19	8	8

推荐阅读

spark
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
spark
数据库异常智能分析与诊断

数据库,异常, ... [详细]

蜡笔小新 2023-10-14 10:52:47
spark
SQL：数据世界的通用语

目录摘要SQL的现在NoSQL,NotOnlySQL要分布式，也要SQL总结引用摘要毫不夸张的说，关系数据库是企业软件系统的核心，企业形形色色信息行为的背后，都有关系数据库的支撑。 ... [详细]

蜡笔小新 2023-10-12 22:29:13
spark
不会搭建大数据平台，我被老板优化了...

不会,搭建,大数,据,平台,我 ... [详细]

蜡笔小新 2023-10-12 16:44:49
spark
数据仓库中基本概念

一、数据仓库数据仓库(DataWarehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合，用于支持管理人员的决策面向主题主题就是类型的意思。传统数 ... [详细]

蜡笔小新 2023-10-12 16:18:36
format
MySQL数据实时同步到KafkaBinlog canal、Maxwell、Kafka Connect 实现MySQL增量同步

一、需求分析早期业务借助Sqoop将Mysql中的数据同步到Hive、hdfs来进行数据分析，使用过程中也带来了一些问题：虽然Sqoop支持增量同步但还属于粗粒度的离线同步，无法满 ... [详细]

蜡笔小新 2023-10-10 13:14:45
format
揭秘双11丝滑般剁手之路背后的网络监控技术

概要：刚刚结束的2020天猫双11中，MaxCompute交互式分析（下称Hologres）实时计算Flink搭建的云原生实 ... [详细]

蜡笔小新 2023-10-09 19:54:08
format
将日志从远程服务器拉入Elasticsearch

简短的问题是：是否可以从远程服务器中提取日志（在日志文件中）并将其提取到 ... [详细]

蜡笔小新 2023-10-13 11:23:51
php
关于存储:Streaming-Data-Warehouse-存储需求与架构

在计算机领域，数据仓库（DW或DWH），是一个用于报告和数据分析的零碎，被认为是商业智能的一个外围组成部分。它将以后和历史数据存储在一个中央，为整个企 ... [详细]

蜡笔小新 2023-10-12 23:20:28
bit
【zookeeper】zookeeper的ZAB协议

文章目录一、前言二、ZAB概要2.1ZAB定义ZAB作用Zxid2.2Zookeeper集群中的三个角色（重点：leaderfollowerobserv ... [详细]

蜡笔小新 2023-10-12 20:39:32
stream
实时计算既有Flink，为何又推出个StreamPark？

StreamPark2.0.0版本于2023年2月21日正式发布，有流处理需求的开发者可以通过StreamPark官网以及GitHub去下载apache配置 ... [详细]

蜡笔小新 2023-10-12 15:44:47
php
架构升级给DolphScheduler带来2~3倍性能提升

引言大数据任务调度作为大数据建设中的核心基础设施，在经过社区用户们长期的使用中，不少用户对调度也提出了很多新的要求，为此，ApacheDolphinScheduler(Incub ... [详细]

蜡笔小新 2023-10-11 15:35:02
web
Sqoop 的使用场景分析

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出， ... [详细]

蜡笔小新 2023-10-10 19:29:19
web
大数据开发笔记（一）：HDFS介绍

✨大数据开发笔记推荐：大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试本文详细介绍大数据hadoop生态圈各部分知识，包括不限 ... [详细]

蜡笔小新 2023-10-10 18:18:49
web
怎么快速学好大数据开发？

新如何学习大数据技术？大数据怎么入门？怎么做大数据分析？数据科学需要学习那些技术？大数据的应用前景等等问题，已成为热门大数据领域热门问题，以下是对新手如何学习大数据技术问题的解答！ ... [详细]

蜡笔小新 2023-10-10 16:15:09