Search Results for: Spark plugs
对于数据分析场景,腾讯基于 spark 和 hbase 构建了一套实时离线统一的统计系统,同时也自研了一套基于ssd的多维数据透视分析系统,对万亿行数据做实时查询仅需秒级;对于机器学习,特征工程重点是保障特征数据的正确性,保证训练和预估使用的特征数据一致性,并且提升特征生产和调研的效率。此外,腾讯积累了大量的数据,同时非常注重用户隐私,不会把底层数据任意打通任意使用,为了保护用户数据安全,在 hadoop 的鉴权机制之上构建了更加安全和严格的鉴权系统,并通过差分隐私,数据脱敏和水印等方式保护各场景下的数据安全,同时也基于密码学多方安全计算提供了部分场景下更加安全的数据应用方案。
基于以上问题,后来就改到了spark streaming做调度计算。 聚合计算平台先将切分好的数据放到hdfs上,通过在spark上调度很小聚合任务的方式去做相应的调度。通过这种方式,首先的话输入和输出都是hdfs,启动后只用看输出不存在输入存在,则做一下相应的逻辑。这样避免了spark checkpoint带来的各种问题。相当于在spark里面去执行一些比较小mapreduce的项目,如何避免刚才说的那个问题,首先spark worker是常驻的进程,不会有jdm的启动和停止的开销,分层调度只用把spark提起来,然后spark在driver里面启动,所以调度能够非常快。...
http://bigdata.it168.com/a2019/0710/6016/000006016907.shtml