公司级数据服务系统搭建

主模块 子模块 主要技术 依赖
平台搭建与维护、监控 服务器规划、弹性部署、HA、升级 ambari, puppet 大数据平台的服务器规划、所有组件的部署、升级、灾备以及存储、网络、CPU、内存的规划(尤其是海量数据存储的规划,磁盘扩容等)

大数据平台弹性扩容的实现

服务器监控、维护 ganglia, ambari 大数据平台所有组件的监控系统的搭建以及告警等的实现,系统维护。
运维数据报表、统计工作 Elasticsearch, logstash, kibana 大数据平台以及定制平台监控日志的分析、统计、报表生成(运维方向)
ETL logbus实时上报日志采集 logbus, lua-resty-kafka 收集日志并导入数据迁移节点
应用层数据库数据同步 sqoop, mongo-hadoop 将定制平台数据库中的数据同步到大数据平台,存入数据仓库
应用层服务端日志采集 flume 实时收集定制平台的日志,并导入数据迁移节点
服务器状态及访问日志采集 filebeat / logstash 实时采集线上(含大数据平台和定制平台)所有关键组件的状态数据并导入监控系统(运维方向)
数据迁移 kafka 将不同源头的数据统一迁移到大数据平台
数据范式化处理 morphline, flume 对迁移到大数据平台的数据进行抽取、转换,使其变成便于处理的范式化结构
数据入库(数据仓库) flume, hdfs 将处理好的数据加载进hdfs
数据分析 数据仓库设计与建表 hive, hdfs 根据不同大数据分析业务的需求,建立hive表,建表、分区
数据分析 hive 利用hive sql定期对离线数据进行分析提取出关键事件,或者做聚合统计
mapreduce作业开发、维护、监控 hadoop, yarn, mapreduce hadoop作业开发、hadoop参数调优、hadoop作业监控
OLAP事实表、维度表设计与分析 hive, kylin 根据最终需求设计建立数据立方体的事实表和维度表的设计与数据分析
OLAP系统立方体设计与建模、优化 hive, kylin, hbase olap cube建模与优化,减少数据膨胀率,缩短cube build时间。并使得cube能覆盖应用层的所有查找需求
大数据平台作业调度与工作流设计、管理 airflow 管理运行在大数据平台的所有作业,管理其定时运行、失败重试等
数据挖掘 用户画像与用户聚类 mahout 数据分析
推荐系统算法设计与实现 mahout 数据分析
数据可视化 数据接口设计与开发 kylin jdbc, sqoop 对数据分析、数据挖掘的最终结果封装一套共应用层调用的接口
数据可视化站点开发 superset, react, flask, D3 最基础的能体现所有数据分析成果的可视化站点开发
其它数据衍生产品开发(报表、各种客户端应用) 各种数据衍生品开发(包括报表、客户端应用、邮件、微信公众号)

 

Leave a comment

Your email address will not be published.

*