flume的使用配置以及优化(行为数据采集)
行为数据采集架构 1. 数据埋点 使用第三方sdk进行埋点数据的采集(泛埋点不够精准); 在前端进行数据埋点,使用OpenResty:Nginx将用户行为存储到日志服务器(image beacon);…
Scala学习——基础语法学习
Scala学习——基础语法学习 Scala 是一种运行在 JVM 上的函数式面向对象语言。它的命名源于其设计目标:随着用户需求一起成长,能够应用于各种编程任务,从小型脚本到大型系统,都能胜任。因此,S…
Apache-Hbase基本架构及工作流程
Apache-Hbase基本架构及工作流程 1.基本概念 简介 Apache HBase(Hadoop DataBase)是一个开源的、高可靠性、高性能、面向列(这里指列族,非列式存储)、可伸 缩、实…
thumbnail
WinSW
WinSW的使用 WinSW 将任何应用程序作为 Windows 服务进行包装和管理 Windows Service Wrapper,简称WinSW,可用于管理windows上的服务(类似于Linux…
Hadoop-Yarn
Hadoop Yarn 资源管理框架(CPU Memory) 1.Yarn基本概念&工作流程(Hadoop 2.x加入Yarn) 1.基本概念 Client: 客户端(Client)是任务提交…
Hadoop-MapReduce
Hadoop MapReduce 1.简介 MapReduce 是一种用来处理大量数据的工具 Map(映射):先把数据分成小块,然后每块数据都交给一个“工人”(即 Map 函数)去处理,每个工人只处理…
thumbnail
Hadoop-HDFS
Hadoop-HDFS 1.大数据思维 分而治之:把一个复杂的算法问题按照一定的方法分解,将方法分解为规模较小的若干部分,再逐个找出各部分的解,再把各部分的解组成整个问题的解,这就是分而治之 比如将一…
zookeeper
Zookeeper ZooKeeper 是 Apache 软件基金会的一个软件项目,它是一个为分布式应用提供一致性服务的软件 1. 集群与分布式 1.集群: 集群将多台服务器用于同一个任务保证可用性。…