【长沙大数据面试宝典（分析题）】-供应-黄页88网

商品详情

更新：2020-07-13
地区：上海
名称：Web开发,JavaEE,大数据,Python

金三银四，正值求职的黄金季节，求职大数据的小伙伴们，看过来了，千锋教育小编给你送福利了，千锋教育大数据面试宝典已经为你备好，请各位小主儿过目。

一、hive的使用，内外部表的区别，分区作用，UDF和Hive优化

(1)hive使用：仓库、工具

(2)hive内外部表：内部表数据删除，外部表数据删除后、其他人依然可以访问

(3)分区作用：防止数据倾斜

(4)UDF函数：用户自定义的函数(主要解决格式，计算问题)，需要继承UDF类

java代码实现

class TestUDFHive extends UDF {

public String evalute(String str){

try{

return "hello"+str

}catch(Exception e){

return str+"error"

(5)Hive优化：看做mapreduce处理

a\排序优化：sort by 效率 order by

b\分区：使用静态分区 (statu_date="20160516",location="beijin")，每个分区对应hdfs上的一个目录

c\减少job和task数量：使用表链接操作

d\解决groupby数据倾斜问题：设置hive.groupby.skewindata=true ，那么hive会自动负载均衡

e\小文件合并成大文件：表连接操作

f\使用UDF或UDAF函数：

二、简要描述如何安装配置一个apache开原本hadoop，只描述即可，无需列出完整步骤，能列出步骤更好。

流程：

1.创建hadoop用户

2.修改IP

3.安装JDK，并配置环境变量

4.修改host文件映射

5.安装SSH，配置无秘钥通信

6.上传解压hadoop安装包

7.配置conf文件夹下的hadoop-env.sh、core-site.xlmapre-site.xml、hdfs-site.xml

8.配置hadoop的环境变量

9.Hadoop namenode -format

10.start-all

三、MapReduce优化

1. 任务调度

I/O 方面：Hadoop 会尽量将 Map 任务分配给 InputSplit 所在的机器，以减少网

络 I/O 的消耗。

2.数据预处理与 InputSplit 的大小

合理地设置 block块大小是很重要的调节方式。除此之外，也可以依靠合理地设置 Map 任务的数量来调节 Map 任务的数据输入。

3. Map 和 Reduce 任务的数量

当 Reduce 任务的数量是任务槽的 1.75 倍时，执行速度快的机器可以获得更多

的 Reduce 任务，因此可以使负载更加均衡，以提高任务的处理速度。

以上大数据的经典面试题，各位小主先用着，待小编深度挖掘千锋教育讲师的满满大数据技术干货库，为大家谋福利！

千锋教育：http://www.mobiletrain.org/

千锋长沙校区：http://cs.mobiletrain.org/

长沙校区地址：湖南省长沙市岳麓区麓谷企业广场A2栋三单元306号

培训咨询专线：/85513210

咨询 : 1660794050

面授课程：全栈Web开发+培训、全链路设计培训、PHP全栈+服务器集群培训、JavaEE+分布式开发培训、大数据+人工智能培训、 Unity游戏开发培训、Python培训、云计算+Python运维培训、全栈软件测试培训、Android培训、iOS培训

长沙大数据面试宝典（分析题）

商品详情

热门搜索

大数据信息