【媒體觀點】全球100款大數據工具彙總(前50款)

文章來源:發布時間:2017年12月22日

1、 Talend Open Studio

是第一家針對的數據集成工具市場的ETL(數據的提取Extract、傳輸Transform、載入Load)開源軟件供應商。Talend的下載量已超過200萬人次,其開源軟件提供了數據整合功能。其用戶包括美國國際集團(AIG)、康卡斯特、電子港灣、通用電氣、三星、Ticketmaster和韋裏遜等企業組織。

2、DYSON

探碼科技自主研發的DYSON智能分析系統,可以完整的實現大數據的采集、分析、處理。DYSON智能分析系統專業針對互聯網數據抓取、處理、分析,挖掘。可以靈活迅速地抓取網頁上散亂分布的信息,並通過強大的處理功能,准確挖掘出所需數據,是目前使用人數最多的網頁采集工具.

3、YARN

一種新的Hadoop資源管理器,它是一個通用資源管理系統,可爲上層應用提供統一的資源管理和調度,解決了舊MapReduce框架的性能瓶頸。它的基本思想是把資源管理和作業調度/監控的功能分割到單獨的守護進程。

4、Mesos

由加州大学伯克利分校的AMPLab首先开发的一款开源群集管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池,从物理或虚拟机器中抽离了CPU,内存,存储以及其它计算资源, 很容易建立和有效运行具备容错性和弹性的分布式系统。

5、Datale

由探碼科技研發的一款基于Hadoop的大數據平台開發套件,RAI大數據應用平台架構。

6、 Ambari

作为Hadoop生态系统的一部分,提供了基于Web的直观界面,可用于配置、管理和监控Hadoop集群。目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

7、ZooKeeper

一个分布式的应用程序协调服务,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的工具,让Hadoop集群里面的节点可以彼此协调。ZooKeeper现在已经成为了 Apache的顶级项目,为分布式系统提供了高效可靠且易于使用的协同服务。

8、Thrift

在2007年facebook提交Apache基金會將Thrift作爲一個開源項目,對于當時的facebook來說創造thrift是爲了解決facebook系統中各系統間大數據量的傳輸通信以及系統之間語言環境不同需要跨平台的特性。

9、Chukwa

監測大型分布式系統的一個開源數據采集系統,建立在HDFS/MapReduce框架之上並繼承了Hadoop的可伸縮性和可靠性,可以收集來自大型分布式系統的數據,用于監控。它還包括靈活而強大的顯示工具用于監控、分析結果。

10、Lustre

一個大規模的、安全可靠的、具備高可用性的集群文件系統,它是由SUN公司開發和維護的。該項目主要的目的就是開發下一代的集群文件系統,目前可以支持超過10000個節點,數以PB的數據存儲量。

11、HDFS

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

12、GlusterFS

一个集群的文件系统,支持PB级的数据量。GlusterFS 通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统。

13、Alluxio

前身是Tachyon,是以內存爲中心的分布式文件系統,擁有高性能和容錯能力,能夠爲集群框架(如Spark、MapReduce)提供可靠的內存級速度的文件共享服務。

14、Ceph

新一代開源分布式文件系統,主要目標是設計成基于POSIX的沒有單點故障的分布式文件系統,提高數據的容錯性並實現無縫的複制。

15、PVFS

一個高性能、開源的並行文件系統,主要用于並行計算環境中的應用。PVFS特別爲超大數量的客戶端和服務器端所設計,它的模塊化設計結構可輕松的添加新的硬件和算法支持。

16、QFS

Quantcast File System (QFS) 是一个高性能、容错好、分布式的文件系统,用于开发支持 MapReduce处理或者需要顺序读写大文件的应用。

17、 Logstash

一個應用程序日志、事件的傳輸、處理、管理和搜索的平台。可以用它來統一對應用程序日志進行收集管理,提供了Web接口用于查詢和統計。

18、Scribe

Scribe是Facebook開源的日志收集系統,它能夠從各種日志源上收集日志,存儲到一個中央存儲系統(可以是NFS,分布式文件系統等)上,以便于進行集中統計分析處理。

19、Flume

Cloudera提供的一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸的系統。Flume支持在日志系統中定制各類數據發送方,用于收集數據。同時,Flume支持對數據進行簡單處理,並寫入各種數據接受方(可定制)。

20、RabbitMQ

一個受歡迎的消息代理系統,通常用于應用程序之間或者程序的不同組件之間通過消息來進行集成。RabbitMQ提供可靠的應用消息發送、易于使用、支持所有主流操作系統、支持大量開發者平台。

21、ActiveMQ

Apache出品,号称“最流行的,最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快,支持多种跨语言的客户端和协议,其企业集成模式和许多先进的功能易于使用,是一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现。

22、Kafka

一種高吞吐量的分布式發布訂閱消息系統,它可以處理消費者規模網站中的所有動作流數據,目前已成爲大數據系統在異步和分布式消息之間的最佳選擇。

23、Spark

一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点,但不同的是Job的中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用,也可以独立使用。

24、Kinesis

可以构建用于处理或分析流数据的自定义应用程序,来满足特定需求。Amazon Kinesis Streams 每小时可从数十万种来源中连续捕获和存储数TB数据,如网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件。

25、 Hadoop

一个开源框架,适合运行在通用硬件,支持用简单程序模型分布式处理跨集群大数据集,支持从单一服务器到上千服务器的水平scale up。Apache的Hadoop项目已几乎与大数据划上了等号,它不断壮大起来,已成为一个完整的生态系统,拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。

26、Spark Streaming

实现微批处理,目标是很方便的建立可扩展、容错的流应用,支持Java、Scala和Python,和Spark无缝集成。Spark Streaming可以读取数据HDFS,Flume,Kafka,Twitter和ZeroMQ,也可以读取自定义数据。

27、Trident

是對Storm的更高一層的抽象,除了提供一套簡單易用的流數據處理API之外,它以batch(一組tuples)爲單位進行處理,這樣一來,可以使得一些處理更簡單和高效。

28、Flink

于今年跻身Apache頂級開源項目,與HDFS完全兼容。Flink提供了基于Java和Scala的API,是一個高效、分布式的通用大數據分析引擎。更主要的是,Flink支持增量叠代計算,使得系統可以快速地處理數據密集型、叠代的任務。

29、Samza

出自于LinkedIn,构建在Kafka之上的分布式流计算框架,是Apache顶级开源项目。可直接利用Kafka和Hadoop YARN提供容错、进程隔离以及安全、资源管理。

30、Storm

Storm是Twitter開源的一個類似于Hadoop的實時數據處理框架。編程模型簡單,顯著地降低了實時處理的難度,也是當下最人氣的流計算框架之一。與其他計算框架相比,Storm最大的優點是毫秒級低延時。

31、Yahoo S4 (Simple Scalable Streaming System)

是一个分布式流计算平台,具备通用、分布式、可扩展的、容错、可插拔等特点,程序员可以很容易地开发处理连续无边界数据流(continuous unbounded streams of data)的应用。它的目标是填补复杂专有系统和面向批处理开源产品之间的空白,并提供高性能计算平台来解决并发处理系统的复杂度。

32、HaLoop

是一个Hadoop MapReduce框架的修改版本,其目标是为了高效支持 迭代,递归数据 分析任务,如PageRank,HITs,K-means,sssp等。

33、Presto

是一個開源的分布式SQL查詢引擎,適用于交互式分析查詢,可對250PB以上的數據進行快速地交互式分析。Presto的設計和編寫是爲了解決像Facebook這樣規模的商業數據倉庫的交互式分析和處理速度的問題。Facebook稱Presto的性能比諸如Hive和MapReduce要好上10倍有多。

34、 Drill

于2012年8月份由Apache推出,让用户可以使用基于SQL的查询,查询Hadoop、NoSQL数据库和云存储服务。它能够运行在上千个节点的服务器集群上,且能在几秒内处理PB级或者万亿条的数据记录。它可用于数据挖掘和即席查询,支持一系列广泛的数据库,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。

35、Phoenix

是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。

36、Pig

是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、转换数据以及存储最终结果。Pig最大的作用就是为MapReduce框架实现了一套shell脚本 ,类似我们通常熟悉的SQL语句。

37、Hive

是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

38、SparkSQL

前身是Shark,SparkSQL抛弃原有Shark的代码并汲取了一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等。由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。

39、Stinger

原來叫Tez,是下一代Hive,由Hortonworks主導開發,運行在YARN上的DAG計算框架。某些測試下,Stinger能提升10倍左右的性能,同時會讓Hive支持更多的SQL。

40、Tajo

目的是在HDFS之上構建一個可靠的、支持關系型數據的分布式數據倉庫系統,它的重點是提供低延遲、可擴展的ad-hoc查詢和在線數據聚集,以及爲更傳統的ETL提供工具。

41、Impala

Cloudera 声称,基于SQL的Impala数据库是“面向Apache Hadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载,又是Cloudera的商业大数据产品的一部分。Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。

42、 Elasticsearch

是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索、稳定、可靠、快速、安装使用方便。

43、Solr

基于Apache Lucene,是一种高度可靠、高度扩展的企业搜索平台。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity。

44、Shark

即Hive on Spark,本质上是通过Hive的HQL解析,把HQL翻译成Spark上的RDD操作,然后通过Hive的metadata获取数据库里的表信息,实际HDFS上的数据和文件,会由Shark获取并放到Spark上运算。Shark的特点就是快,完全兼容Hive,且可以在shell模式下使用rdd2sql()这样的API,把HQL得到的结果集,继续在scala环境下运算,支持自己编写简单的机器学习或简单分析处理函数,对HQL结果进一步分析计算。

45、Lucene

基于Java的Lucene可以非常迅速地執行全文搜索。據官方網站聲稱,它在現代硬件上每小時能夠檢索超過150GB的數據,它擁有強大而高效的搜索算法。

46、Terracotta

聲稱其BigMemory技術是“世界上首屈一指的內存中數據管理平台”,支持簡單、可擴展、實時消息,聲稱在190個國家擁有210萬開發人員,全球1000家企業部署了其軟件。

47、 Ignite

是一種高性能、整合式、分布式的內存中平台,可用于對大規模數據集執行實時計算和處理,速度比傳統的基于磁盤的技術或閃存技術高出好幾個數量級。該平台包括數據網格、計算網格、服務網格、流媒體、Hadoop加速、高級集群、文件系統、消息傳遞、事件和數據結構等功能。

48、GemFire

Pivotal宣布它將開放其大數據套件關鍵組件的源代碼,其中包括GemFire內存中NoSQL數據庫。它已向Apache軟件基金會遞交了一項提案,以便在“Geode”的名下管理GemFire數據庫的核心引擎。

49、 GridGain

由Apache Ignite驱动的GridGrain提供内存中数据结构,用于迅速处理大数据,还提供基于同一技术的Hadoop加速器。

50、MongoDB

是一個基于分布式文件存儲的數據庫。由C++語言編寫。旨在爲web應用提供可擴展的高性能數據存儲解決方案。介于關系數據庫和非關系數據庫之間的開源産品,是非關系數據庫當中功能最豐富、最像關系數據庫的産品。

[打印文章] [添加收藏]
更多