Flume是什么框架

Fanly 问答 2019-07-22 17:00:57 阅读(...)

Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。具有高可用,分布式,配置工具,其设计的原理也是基于将数据流。

Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume 具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到 HDFS,HBase 等集中存储器中。

Flume

flume 是由 cloudera 软件公司产出的可分布式日志收集系统,后与 2009 年被捐赠了 apache 软件基金会,为 hadoop 相关组件之一。尤其近几年随着 flume 的不断被完善以及升级版本的逐一推出,特别是 flume-ng;同时 flume 内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为 apache top 项目之一。

Flume 应用场景

比如我们在做一个电子商务网站,然后我们想从消费用户中访问点特定的节点区域来分析消费者的行为或者购买意图. 这样我们就可以更加快速的将他想要的推送到界面上,实现这一点,我们需要将获取到的她访问的页面以及点击的产品数据等日志数据信息收集并移交给 Hadoop 平台上去分析.而 Flume 正是帮我们做到这一点。现在流行的内容推送,比如广告定点投放以及新闻私人定制也是基于次,不过不一定是使用 FLume,毕竟优秀的产品很多,比如 facebook 的 Scribe,还有 Apache 新出的另一个明星项目 chukwa,还有淘宝 Time Tunnel。

Flume 的优势

1.  Flume 可以将应用产生的数据存储到任何集中存储器中,比如 HDFS,HBase

2.  当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,Flume 会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供一共平稳的数据.

3.   提供上下文路由特征

4.   Flume 的管道是基于事务,保证了数据在传送和接收时的一致性.

5.   Flume 是可靠的,容错性高的,可升级的,易管理的,并且可定制的。

4. Flume 具有的特征:

1. Flume 可以高效率的将多个网站服务器中收集的日志信息存入 HDFS/HBase 中

2. 使用 Flume,我们可以将从多个服务器中获取的数据迅速的移交给 Hadoop 中

3. 除了日志信息,Flume 同时也可以用来接入收集规模宏大的社交网络节点事件数据,比如 facebook,twitter,电商网站如亚马逊,flipkart 等

4. 支持各种接入资源数据的类型以及接出数据类型

5. 支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等

6. 可以被水平扩展

收藏 0个人收藏
走进科技生活方式

评论交流

泪雪默认头像 请「登录」后参与评论
  1. 加载中..

相关推荐

  • Big Data 大数据

    大数据定义和概念

    大数据是收集,组织,处理和收集大型数据集洞察所需的非传统策略和技术的总称。虽然处理超过单个计算机的计算能力或存储的数据的问题并不新鲜,但近年来这种类型的计算的普遍性,规模和价值已经大大扩展。
  • Apache Hadoop YARN

    Apache Hadoop YARN是什么

    Apache Hadoop YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。
  • Apache ZooKeeper

    Apache ZooKeeper是什么

    Apache ZooKeeper是Apache软件基金会的一个软件项目,它为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册。ZooKeeper是一个独立的顶级项目,曾经是Hadoop的一个子项目。
  • flume vs kafka

    flume和kafka区别

    kafka和flume都是日志系统,kafka是分布式消息中间件,自带存储;flume每一部分都是可以定制。kafka更合适做日志缓存,flume数据采集部分做的很好,可以定制很多数据源,减少开发量。
  • Apache

    Apache 是什么

    Apache是使用最广泛的Web服务器软件。Apache是由Apache Software Foundation开发和维护的,它是一个免费提供的开源软件。它占全球所有网络服务器的67%。
  • Minio

    Minio是什么

    Minio 是一个基于Apache License v2.0开源协议的对象存储服务,虽然轻量,却拥有着不错的性能。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据。