会员卡
稳拿计划
APP下载
注册
登录
首页
在线实习
课程
考点刷题
专栏
改简历
校招信息
冲刺一线
基础就业
冲刺一线
Java开发
产品经理
前端开发
测试开发
UI/交互
运营
java语言
占笔面试15%
数据结构
占笔面试30%
算法
占笔面试20%
专业课
占笔面试15%
项目框架
占笔面试15%
数据库
占笔面试10%
设计模式
占笔面试10%
开放问题
占笔面试5%
开源框架
占笔面试5%
算法
链表算法
链表算法
字符串算法
字符串算法
排序算法
简单算法(冒泡、简单选择等)
高级排序(快排、堆排等)
动态规划算法
动态规划算法
大数据相关算法
大数据相关算法
智力分析问题
智力分析题
大数据相关算法(共9题)
点击右边按钮,记录本次看题进度~~
精选
全部
01
现有一个安装 2.6.5 版本的 Hadoop 集群,在不修改默认配置的情况下,存储 200 个每个 200M 的文本文件,请问最终会在集群
正确答案是D【解析】在默认情况下,HDFS集群默认存储文件3份,并且大文件会按照128M的数据块大小进行切割分散存储。所以题目中每个文件分为两块,总数据块有(200*2)=400个。再加上会存储三份,所以400*3=1200。
来自:大数据相关算法-大数据相关算法
02
关于Hadoop常用命令中,touchz和Linux系统的touch命令的描述正确的是()
正确答案是C【解析】A.错误B.touchz也可用于新建文件C.正确D.错误,touch可以
来自:大数据相关算法-大数据相关算法
03
Hadoop解决数据倾斜方法
1、提前在map进行combine,减少传输的数据量在Mapper加上combiner相当于提前进行reduce,即把一个Mapper中的相同key进行了聚合,减少shuffle过程中传输的数据量,以及Reducer端的计算量。如果导致数据倾斜的key大量分布在不同的mapper的时候,这种方法就不是很有效了。2、导致数据倾斜的key大量分布在不同的mapper(1)局部聚合加全局聚合第一次在map阶段对那些导致了数据倾斜的key加上1到n的随机前缀,这样本来相同的key也会被分到多个Reducer中进行局部聚合,数量就会大大降低。第二次mapreduce,去掉key的随机前缀,进行全局聚合。思想:二次mr,第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀,按原key进行reduce处理。这个方法进行两次mapreduce,性能稍差。(2)增加Reducer,提升并行度JobConf.setNumReduceTasks(int)(3)实现自定义分区根据数据分布情况,自定义散列函数,将key均匀分配到不同Reducer
来自:大数据相关算法-大数据相关算法
04
.hdfs写文件的步骤
(1)client向NameNode申请上传…/xxx.txt文件(2)NN向client响应可以上传文件(3)Client向NameNode申请DataNode(4)NN向Client返回DN1,DN2,DN3(5)Client向DN1,DN2,DN3申请建立文件传输通道(6)DN3,DN2,DN1依次响应连接(7)Client向DN1上传一个block,DN1向DN2,DN3冗余文件
来自:大数据相关算法-大数据相关算法
05
要从1000个数据元素中选五个最小的,下面排序算法中,那个算法最快?()
正确答案是C简单选择排序,每轮选出最小的一个元素,那么5轮就完成了任务,比较次数为1000+999+998+997+996=5000-10=4990次。而C选项,堆排序,首先需要建堆,建堆时间复杂度是O(n),根据《算法导论》上chap6的公式推导,建堆时间的上界是O(2n),那么需要2000次比较。接下来依次挑选最小的元素,每次挑选完一个元素,都需要重新调整堆,调整堆的时间复杂度为O(logn)。根据《算法导论》的推导是T(n)<=T(2n/3)+O(1),把n=1024带入,发现对调整时间大约为10次,并且推导中的O(1)时间是用于调整根节点、左儿子、右儿子这3个节点的时间,显然时间开销小于10次,那么5次取最小元素的时间开销就小于5*10*10=500,所以总时间开销不足2500次。
来自:大数据相关算法-大数据相关算法
06
一个分布式系统的海量数据分布在100台服务器中,怎么统计出这些数据的TOP10
思路:先对每台服务器的数据求得各自的TOP10,然后把100*10=1000个数据求得TOP10即可。对每台服务器,按例一的方法切分成小文件
来自:大数据相关算法-大数据相关算法
07
从2.5亿个整数中找出不重复的整数,内存不足以容纳这2.5亿个整数
思路:思路一:使用例一的思路,切分成小文件,后面对每个小文件逐一比较思路二:对整数,可以考虑用位图法,因为本题需要辨别不存在、出现一次和出现
来自:大数据相关算法-大数据相关算法
08
给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,找出a、b文件共同的url
思路:先计算总的数据大小,看能不能一次性放到内存里 ·50亿=5,000,000,000≈5G, 
来自:大数据相关算法-大数据相关算法
09
从2.5亿个整数中找出不重复的整数,内存不足以容纳这2.5亿个整数
对整数,可以考虑用位图法,因为本题需要辨别不存在、出现一次和出现多次三个状态,一个二进位制0和1满足不了需求,所以一个数用两个二进制位表示,
来自:大数据相关算法-大数据相关算法
记录刷题进度
手机刷题更方便