hadoop技术验证文档

hadoop技术验证文档

ID:22755806

大小:176.27 KB

页数:48页

时间:2018-10-31

hadoop技术验证文档_第1页
hadoop技术验证文档_第2页
hadoop技术验证文档_第3页
hadoop技术验证文档_第4页
hadoop技术验证文档_第5页
资源描述:

《hadoop技术验证文档》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、预研规划联通系统集成有限公司中国联通Hadoop技术沉淀联通集团系统集成有限公司2012-12-31预研规划联通系统集成有限公司修订历史记录版本日期AMD修订者说明1.02012-12-24A于滨创建1.012012-12-31M吴朋、刘玉修订1.12013-1-6M于滨修订(A-添加,M-修改,D-删除)预研规划联通系统集成有限公司目录1前言42环境配置62.1环境简介62.2网络主机名配置72.3SSH互信配置(无密码验证)72.4安装文件列表93应用安装93.1JAVA环境安装93.2MYSQL安装103.3Hadoop安装与部署123.4Hive的安装与部署153.5Hbas

2、e的安装与部署173.6Hive与Hbase的对比204数据入库214.1数据来源格式简介214.2原始入库方式及命令234.3入库代码介绍245HIVE的SQL执行245.1Sql执行方式及命令24预研规划联通系统集成有限公司5.2JAVA执行sql代码265.3多表关联275.4GroupByOrderBy276MASTER单点故障解决方式296.1Master单点原因296.2解决方式297HADOOP的压缩格式307.1Hadoop可以使用的压缩方式307.2压缩对比318HADOOP出库方式328.1概述328.2出库命令328.3Java调用出库代码339功能验证349.

3、1功能测试概述349.2测试结果一览表3510性能验证3910.1验证环境3910.2性能测试执行过程以及结果4110.2.1hive压缩文件导入测试41预研规划联通系统集成有限公司10.2.2hive文件导出测试4110.2.3hive更新操作测试4210.2.4hive删除操作测试4310.2.5hive插入操作测试4310.2.6hive查询操作测试44预研规划联通系统集成有限公司1前言Hadoop简介:Hadoop是由apache基金会开发的一个分布式系统的基础架构。使用它,用户可以在不了解分布式底层细节的情况下,充分的利用集群的威力,高速的查询和计算。相比其他分布式大数据处

4、理框架,Hadoop具有如下的优势:²可靠性充分考虑到了数据丢失存储失败的情况,因此会在多个机架的多个server上,维护多个副本,以确保能够在数据失效的情况下及时还原。²高效性Hadoop以并行的方式处理任务,一个任务可以视情况拆分成数百个甚至上千个任务同时处理。²低成本Hadoop所依赖的节点server是普通的社区服务器,成本非常低,任何人都可以使用。²高扩展性Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。名词解释:Hive:Hive是基于Hadoop的一款数据仓库工具,提供比较完整的SQL查询功能。预研规划联通系统集成有

5、限公司可将大数据量的查询操作,拆分转换成多个由MapReduce执行的子任务并发运行。Hbase:Hbase即HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。Hdfs:即HadoopDistributedFileSystem,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset

6、)的应用程序。目的:²掌握Hadoop分布式系统的架构及工作原理²能够搭建Hadoop集成环境。²能够上手开发hadoop应用。适用范围:适用于海量数据处理分析,适合Hadoop研发者阅读使用。预研规划联通系统集成有限公司1环境配置1.1环境简介当前环境使用的是结算机器,使用了132.42.49.212-132.42.49.215,共4台机器。机器信息如下表所示:IP地址主机名hadoop中的作用132.42.49.215js2test16master结点132.42.49.214js2test15slave结点132.42.49.213js2test14slave结点132.42.

7、49.212js2test13备用结点1.2网络主机名配置网络主机名配置需要修改/etc/hosts文件,在/etc/hosts文件中追加如下内容:132.42.49.212js2test13132.42.49.213js2test14132.42.49.214js2test15132.42.49.215js2test16预研规划联通系统集成有限公司1.1SSH互信配置(无密码验证)Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。