微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

大数据云计算——2021大数据云计算岗面经面试问题

阿里:时间: 2020年3月26日

一面

阿里一面的时候,刚刚开始复习。Python Java等等都还没看。只看了下大数据相关的知识。凉的明明白白。

  1. 写一道算法题,旋转数组求最小值(剑指offer面试题11)。当时只记得是二分查找,没写出来。

  2. 问下Java GC (不会)

  3. 问下Python GIL(不会)

非常感谢这位老师,面试之后就不再觉得自己很厉害了。我知道自己还有太多要复习的了。自己还是把面试想得太简单,周围牛人太多了。

360

一面 43min:

2020年4月8日

  1. 自我介绍

  2. 问了两个项目, 问了下项目中如何实现的MysqL和hdfs数据同步

  3. 讲一下对Hadoop的了解
    讲了下HDFS原理、MapReduce的过程,想讲HDFS检查点机制没让讲。

  4. Spark和MapReduce的区别?是不是用了Spark就不需要MapReduce了?(答得不太好)

  5. 问对Hive的了解? 自己提了下数据倾斜

  6. 如果有海量数据,如何求Top10?(说错了一块,后来又改过来了)

  7. Linux平常用的指令?说了 ls 、 ll 、 df 、 nohup & 、ps 、 kill 等等
    Hadoop用到的指令 Hadoop fs -ls 、 mkdir、 hdfs fsck(查看块信息)

  8. 用什么语言比较多? (我用的py比较多) Python常用的数据类型? list 和 tuple的区别?
    回答了下 不可变对象和可变对象

  9. 常用的python库(requests 、bs4 、keras 等等)如何安装包

  10. 算法题:数组去重 上台阶、动态规划和递归的区别

  11. 还有什么问题要问我吗?(问了下缺不缺hc、主要工作内容

二面 23min

2020年4月15日
全程问项目,同时问了很多有没有看过Spark 源码 ES源码 Flask源码(都没看过)。
各个项目问的比较深,算法模型等等。

HR面 30min

2020年4月20日

  1. 可以实习多久

  2. 如何解决做项目和社团和日常生活的平衡问题

  3. 简单介绍下流计算的spark streaming storm flink的优缺点

  4. 未来发展等等

腾讯

腾讯是找了内推,后台开发,但是与大数据相关。面试都在腾讯会议,一面手撕代码是屏幕共享,二面手撕代码在腾讯文档。

一面

2020年4月23日

  1. 自我介绍。

  2. Spark和Hadoop的区别

  3. MR流程、RDD流程

  4. new malloc区别 epoll原理看过吗? 讲一下多态

  5. 写到算法题吧:二分查找,写一下旋转数组最小值(又是这道题。我说这道题之前做过,面试官没再让我写)。

二面

2020年4月28日

  1. 自我介绍、在家里?没开学?

  2. 学过Hadoop,讲一下MR流程。说一下Partition分区的优化是怎么做的(Partition没答出来)
    MR会有数据倾斜,讲一下如何解决(说了一些方法,被要求说的更详细一些。比如为什么增加Reduce数量就可以提高效率,如何自定义分区,如何重新设计key)

  3. 然后问的是Hadoop Streaming (没听说过,讲了下spark streaming)

  4. 看简历上有个socket项目,问如何讲一下流程,问如何从socket中提取数据(时间太长,完全记不清了)

  5. 写个算法题。 给一个树,每个节点的val都有取或不取两种状态。限定条件是,直接连接的节点不能同时取或者不取(比如父子节点) 想的是分成四次递归。问如何剪枝。没答出来

  6. 上面那个题没想法了。那咱们换个,给一个二叉树和两个节点 a ,b 找出二叉树的最近公共祖先。(剑指offer原题 最后一题)

平时大部分都是Py Java Scala开发,很少用C++,就很难受。还需要多学习啊。

字节跳动

一面

  1. 自我介绍

  2. 介绍项目:详细项目中介绍下深度协同过滤算法,和MysqL与hdfs同步的策略

  3. 写两个MysqL
    ① 给出两个表,计算left join的结果
    一个广告的表,包含广告的id,广告的开始时间,广告的结束时间,给出一个时间(比如2020-03-02 —— 2020-04-02)。所有与这个日期有交集的广告id.

  4. 写两个算法题
    ①写个层次遍历
    ②写个排序数组中查找k这个数出现的个数 (我用了二分查找,然后向前向后搜索

  5. Spark会吧。介绍下宽窄依赖。(从action 讲到 shuffle ,讲了Aggregator,讲了下DAG解析的阶段划分)

  6. Hive会用吧。讲一下内表和外表的区别

  7. 学过MysqL,讲一下索引的数据结构吧(自己说了下聚集索引和非聚集索引)

  8. 还有 sql 各种join之间的不同

    二面

  9. 自我介绍

  10. 写个题目吧 把一个数字转换成汉字 比如1001 “一千零一" 用了递归但是写的太复杂,有点拉分

  11. 讲一下你觉得最难的两个项目

  12. Spark cache和 persite的区别(讲了下广播机制,没回答好)

  13. 你未来想学些什么(简单说了下Flink 、 Spark源码和参数服务器)

  14. 还有什么问我吗

    HR面

自我介绍

想实习多久

未来读研吗

来北京租房吗

父母对来北京的意见

你觉得自己有什么缺点 (最后说了个自己熬夜多 )

总结

感觉自己的技术还是有很大不足啊。自己的复习的路线是:

语言: Python、Java、scala面试题

计算机基础:计算机网络、操作系统和数据库(索引是重点)

大数据相关:Hadoop、Spark、hive、hbase、flume、kakfa、storm等

算法:主要是刷了一下剑指offer。

快手大数据平台研发面试经验

牛客平台,视频面试,50分钟。

  1. JVM比较了解是吧?哪些阶段会有STW,举例说明。

  2. 什么情况下会有full GC,举例说明。

  3. 并发编程了解么?什么是可重入锁?具体例子说明,底层原理。

  4. volatile的几个作用?详细聊一聊。

  5. 事务的隔离级别?怎么解决脏读,幻读?

  6. Linux中的epoll、select这些了解么?聊一聊。

  7. 什么叫TCP/IP 的粘包、黏包?如何解决

  8. 如何实现零拷贝?具体方式和原理。

  9. MapReduce全排序的实现?详细说一下。

  10. mapjoin的作用是什么?为什么会有mapjoin?

  11. 算法题:30亿long型整数且都是唯一的,最大值不超过70亿,只有2个G内存,实现30亿个整数的全排序。

  12. 一个线程安全的单例模式。

  13. static内部类和非static内部类有什么区别?

  14. 反问,大佬气场很足,从这个岗位的前世今生给我整个讲了一遍,受益匪浅,十分感谢面试官!

这次面试收获不少,大佬一次次深挖也暴露了不少不足。凉凉了。

阿里菜鸟网络数开二面面经

一如既往,电话突击面试,大概持续一个小时。

1.自我介绍

2.大数据项目

3.spark和mapreduce比较(spark有弹性,高度利用内存,简化代码,DAG写起来可以绕地球两圈,不像mapreduce一次reduce提交一次)

4.传统关系型数据库和hdfs比较(前者轻量级,侧重实时操作;后者重量级,分布式,分而治之化整为零,横向扩展性好)

5.map join实现?应用场景?两张大表怎么选?(通过广播大变量;一般用在大表join小表,可容忍小表数据冗余的场景;两张大表就分而治之,再sort merge)

6.输入网址到返回网页的过程(域名解析,tcp连接建立,数据传输,数据回传,渲染,显示

7.sql这块如何(没有注重语法的掌握,表示日后工作用到会熟能生巧,重点学习了理论,索引原理,并发这一块儿)

8.hashmap深挖,和treemap比较,put,get,扩容,并发问题,rehash?

9.非科班吗?自学方式说一下?

10.最近读的一本计算机方面的书?(操作系统原理)

11.聊聊操作系统原理,线程,进程?操作系统内存管理(这块儿初学,招架不住,就举了白旗:您刚说是最近读的,所以我才看了一小部分,还没有深入理解)

12.你在原专业学了这么多年(本+硕),选择转行不可惜吗?

13.实习地点选择。

14.未来学习方向规划。

15.最后问一个比较尖锐的问题。你学了这么多年土木工程,最后选择转行计算机。你怎么保证你进了计算机行业以后不会又转行?(...总算圆了过去)

16.会和一面面试官交流你的情况,等通知把。

面试官前辈人还是很好的,我发言的时候很尊重,说偏了也不会打断。他很好奇我非科班转行的历程,所以这一块儿和我多交流了一下。期待能有下一面,祝好运。

1、数据仓库的理解以及数据的架构

2、一道sql

3、Spark原理

4、数据结构

5、数据倾斜

6、幂等操作

7、网络七层模型在5G中的变化

8、介绍HDFS

9、一道算法题

10、hive创建表使用的什么分隔符

头条大数据一面面经

自我介绍 项目介绍 kmeans聚类数据量小的时候会出现什么问题

项目用到了spark的哪些组件

是否熟悉Linux

list下都有哪些类 arrayList和LinkedList的区别

HashMap是怎样散列的,怎么解决冲突

http协议 客户端是怎样与服务器建立连接的 响应码

编程题判断括号是否匹配,如"{[]()]}"

字节大数据开发岗面经

一面 3.30 50min

1. 编程题:二叉树层序遍历,按层换行输出

2. 线程的状态及状态之间的装换

3. 有哪些树结构

4. B+树的特点

5. HTTPS的工作流程

6. Kafka如何保证生产者不丢失数据,消费端不丢失数据

7. Zookeeper的功能, 详细介绍一下zookeeper的消息的发布订阅功能

8. 场景题:如何从百亿条IP信息中得出访问量前10的IP地址

9. Redis支持的数据结构

10. Redis为什么性能

11. Redis为什么是单线程

二面 3.30 47min

1. Spark源码中的任务调度

2. 场景设计题:你自己如何设计一个分布式系统,实现对百亿条数据进行分组并求和

3. Spark shuffle机制

4. spark中有哪些算子会进行数据shuffle

5. 编程题:一个数组有正数有负数,调整数组中的数使得正负交替

例:[-3, 6, 7, -4] ->[6, -3, 7, -4]

三面 4.3 25min

1. 编程题

2. 当前面试流程中(牛客网)涉及到了哪些协议

3. 学习中遇到的难点,如果以后同样有人遇到了这些你会怎么快速地教她解决

字节跳动data部门三面

字节

一面(60min)

自我介绍

一个自己做的项目

spark和hadoop的不同之处

spark为什么快?

说说自己对spark和hadoop的理解

hadoop里的namenode和datanode

spark的lazy体现在哪里

Yarn相对于hadooop的不同在哪里

hdfs数据存储

二叉树层次遍历

子序列的最大和

valitile关键字

c++里棱形继承

描述堆排序

基数排序过程

二面(50min)时间太久有点忘了

自我介绍

pagerank算法

spark与hadoop对比

hadoop的特性 特性对应在hadoop里的发挥

hadoop恢复如何恢复

yarn的改进在哪里

spark的stage划分

spark相比mapreduce的优点

最小逆序对

三面(30min)

自我介绍

介绍一下mapreduce

mapreduce和spark区别

进程和线程的区别

进程通信方式

网络结构以及每层应用

打开一个网页的过程都经历了什么

栈的push和pop的时间复杂度

栈的最小值操作

期望地点是上海吗

有什么要问我的

作者:❄狂乱贵公子✴
链接https://www.nowcoder.com/discuss/412494
来源:牛客网
 

字节一面挂:

1、合并两个有序链表
2、二叉树的中序遍历
3、16G处理1T数据
4、操作系统的进程与线程
5、虚拟内存
6、java多线程的锁

蘑菇街一二面挂:

主要是考java,
java内存模型
java对线程
java保证线程同步
java垃圾回收
如果会flink也会详细问

不建议去

小米三面:

图片说明

二面:
1.spark用什么语言开发
2.数仓
3.flume
4. hadoop小文件问题
5.sqoop遇到的问题
6.sqoop如何导入半结构化数据到hbase
7.hbase的rowkey设计原则 散列原则是怎么做到散列的
8.datax和sqoop区别
9.reducebykey 、groupbykey、combinebykey 、agergetbykey
10.数仓的分层
11.有么有数据质量管理
12.合并有序链表,空间复杂度O(1)
13.求连通图

三面:
一道编程题:
模拟退格键:
输入:“acd<e<<”
输出:“a”

字节跳动-抖音/火山-大数据开发实习(一面面经) 

一面:45min  04-02

1、自我介绍

2、介绍项目,yarn的执行流程?Spark中Stage、Executor、Task都是干嘛的?怎么划分的?(这里问的很细)Spark调参数?数据倾斜怎么办?(加大分区,重新计算hash)hashCode计算方法

3、HashMap的实现?为什么要转化为红黑树?为什么大于8才转换?(这个就不知道了,瞎扯了几句)

4、算法题:实现左旋n位的字符数组?(三次翻转)

5、ArrayList和LinkedList的区别?

6、CMS和G1垃圾收集器的区别?

7、HashMap是线程安全吗?为什么?(这里不太清楚,回答不好)

9、Java的IO模型?BIO和NIO的区别?

10、TCP三次握手四次挥手?TIME-WAIT什么时候发生?持续时间?解释最长报文段寿命?在不同的网络环境中MSL一样吗?

11、反问环节(问了对这次面试有什么建议或者意见?面试官说主要通过问问题来考察你实际做了什么东西,面试前你们肯定会在网上看面经答案什么的,每个问题没有固定的答案。确实是这样,没有实际做过它的底层原理理解得确实没有那么深。)

七牛云实习后台开发(大数据)一面

4.15一面(60分钟,面试官是技术大佬)

1 自我介绍
2 项目介绍(20分钟)
3 一些大数据问题(HDFS的优缺点,使用场景,ES的内部结构,Spark处理流程和工作原理,Kafka的工作原理)
4 Java相关内容(JVM内存机制,调优参数,JMM相关,垃圾回收器,垃圾回收算法)
5 编程(走流程)
1)写了一个sql,太简单,分组价格大于平均价格

2)写一个非递归的二叉树长度算法

网易严选大数据开发实习一面面经

自我介绍。

自我介绍完之后是谈一谈项目,在谈项目的过程中会针对项目中的一些点来进行提问。

Spark RDD的原理,怎么使用?任务调度底层如何实现?

Spark中的行动算子和转换算子,具体作用是什么?干了哪些事情?

Spark中的宽依赖和窄依赖。

Kafka如何保证消息的一次精准消费?那么如何保证至少消费一次呢?

Kafka消息队列的底层是如何实现的?底层的存储?如何保证安全性,数据不丢失?

Java Static关键字,修饰的变量存放在JVM哪个地方?

Java泛型的底层实现原理。

TCP/IP三次握手、四次挥手过程详细说一下?为什么有close wait和time wait,为什么是2个TCP包的时长?time wait过多可能导致什么问题?

BIO和NIO聊一下。

一个题,不涉及算法,主要考察Lambda表达式怎么写。

反问环节。
美团实习生一、二面面经--数据开发工程师

一面

面试官人很好

之前看牛客上的大佬一面都是在一个小时左右,但我一共就面了20分钟左右就结束了

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐