首页 自媒自媒体灯塔大数据正文

译文 ▏你应该知道的18个大数据工具

   随着大数据市场的稳步发展,越来越多的公司开始部署大数据驱动战略。

  Apache Hadoop是目前最成熟的大数据分析工具,但是市场上也不乏其他优秀的大数据工具。目前市场上有数千种工具能够帮你节约时间和成本,带你从全新的角度洞察你所在的行业。

  以下介绍18种功能实用的大数据工具:

  Avro:由Doug Cutting公司研发,可用于编码Hadoop文件模式的数据序列化。

  Cassandra:一种分布式的开源数据库。可用于处理商品服务器在提供高可用性服务时产生的大量分布式数据。这是一种非关系型数据库(NoSQL)解决方案,最初由Facebook主导研发。

  目前很多公司组织都在使用这一数据库,如Netflix,Cisco,Twitter。

  Drill:一种开源分布式系统,用于大规模数据集的交互分析。Drill与谷歌的Dremel系统类似,由Apache公司管理运行。

  Elasticsearch:Apache Lucene开发的开源搜索引擎。Elasticsearch是基于Java的系统,可以实现高速搜索,支持你的数据搜索工作。

  Flume:使用网络服务器、应用服务器和移动服务器的数据来填充Hadoop的大数据应用框架,是数据源和Hadoop之间的一种连接纽带。

  HCatalog:是针对Apache Hadoop的集中元数据管理和分享服务。可以通过它集中查看Hadoop集群中的所有数据,并可以在不知道数据在集群中存储位置的情况下,通过Pig和 Hive等多种工具处理所有数据元素。

  Impala: 使用与Apache Hive相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(HueBeeswax),直接帮助您对存储在HDFS或HBase中的Apache Hadoop数据进行快速的交互式SQL查询。

  它为批量导向或实时查询提供了一个方便操作的统一平台。

  JSON:今天的许多非关系型数据库(NoSQL)都以JSON(JavaScript对象符号)格式存储数据,这些格式在Web开发人员中很受欢迎。

  Kafka:这是种分布式“发布——订阅”的消息传送系统,它能够提供一种解决方案,帮助处理所有数据流活动,并在消费者网站上处理这些数据。

  这种类型的数据(包括页面查看数据,搜索数据和其他用户操作数据)是当前社交网络的关键组成部分。

  MongoDB:是一个在开源概念指导下开发出来的面向文档的非关系型数据库(NoSQL)。它具有完整的索引支持,同时可以灵活地对任何属性进行索引,并在不影响功能的情况下进行横向扩容。

  Neo4j:是一个图形数据库,与关系数据库相比,性能提升高达1000多倍或更高。

  Oozie:一种工作流程处理系统,可以让用户自定义不同语言编写的一系列工作,如Map Reduce,Pig 和 Hive。它还可以实现不同工作项目之间的智能连接,Oozie还支持用户指定依赖关系。

  Pig:是由雅虎开发的基于Hadoop的一种语言,对于用户来说,学习起来相对简单,且Pig擅长处理非常深入且非常长的数据管道(data pipeline)。

  Storm:是一种免费的进行实时分布式计算的开源系统。通过Storm,用户可以非常轻松的在能够进行实时处理操作的范围内,对非结构化数据流进行可靠处理。

  系统具有容错特性,支持几乎所有编程语言,当然最常用的语言还是Java。Storm最初是Apache家族的一个分支,现在已被Twitter收购。

  Tableau:是一种主要关注商业智能的数据可视化工具。用户无需编程,就可以利用Tableau创建地图,条形图,散点图等可视化图像。

  他们最近发布了一个Web连接器,允许用户直接连接数据库或应用程序界面(API),从而使用户能够在进行可视化项目时获取实时数据。

  ZooKeeper:为大型分布式系统提供集中配置和开放代码名称注册的服务。

  每天大数据技术领域都会涌现出大量新的大数据相关工具,要想学会使用每个工具是非常困难且没有意义的。挑选几个你能够熟练使用的工具,并不断学习技术知识,才是最好的方式。

  英文原文

  18 Big Data Tools You Need To Know About

  Use these tools to get ahead

  In today’s digital transformation, big datahas given organizations an edge to analyze customer behavior &hyper-personalize every interaction which results into cross-sell, improvedcustomer experience, and obviously more revenue.

  The market for Big Data has grown upsteadily as more and more enterprises have implemented a data-driven strategy.

  While Apache Hadoop is the most well-established tool for analyzing big data,there are thousands of big data tools out there.

  All of them promising to saveyou time, money, and help you uncover never-before-seen business insights.

  I have selected few to get you going….

  Avro: It was developed by Doug Cutting& used for data serialization for encoding the schema of Hadoop files.

  Cassandra: is a distributed and Open Sourcedatabase. Designed to handle large amounts of distributed data across commodityservers while providing a highly available service.

  It is a NoSQL solution thatwas initially developed by Facebook. It is used by many organizations likeNetflix, Cisco, Twitter.

  Drill: An open source distributed systemfor performing interactive analysis on large-scale datasets. It is similar toGoogle’s Dremel, and is managed by Apache.

  Elasticsearch: An open source search enginebuilt on Apache Lucene. It is developed on Java, can power extremely fastsearches that support your data discovery applications.

  Flume: is a framework for populating Hadoopwith data from web servers, application servers and mobile devices. It is theplumbing between sources and Hadoop.

  HCatalog: is a centralized metadatamanagement and sharing service for Apache Hadoop.

  It allows for a unified viewof all data in Hadoop clusters and allows diverse tools, including Pig andHive, to process any data elements without needing to know physically where inthe cluster the data is stored.

  Impala: provides fast, interactive SQLqueries directly on your Apache Hadoop data stored in HDFS or HBase using thesame metadata, SQL syntax (Hive SQL), ODBC driver and user interface (HueBeeswax) as Apache Hive.

  This provides a familiar and unified platform forbatch-oriented or real-time queries.

  JSON: Many of today’s NoSQL databases storedata in the JSON (JavaScript Object Notation) format that’s become popular withWeb developers

  Kafka: is a distributed publish-subscribemessaging system that offers a solution capable of handling all data flowactivity and processing these data on a consumer website.

  This type of data(page views, searches, and other user actions) are a key ingredient in thecurrent social web.

  MongoDB: is a NoSQL database oriented todocuments, developed under the open source concept. This comes with full indexsupport and the flexibility to index any attribute and scale horizontallywithout affecting functionality.

责任编辑:陈近梅

分享: