百度大数据开发面试题集锦及参考答案（持续更新）

Java GC算法有哪些？

项目中遇到过的有关GC的情况，相关的设置参数

存储引擎、B+树和B树的区别、B+树的结构实现

布隆过滤器

内存的管理方式、虚拟内存和物理内存的区别

TCP、UDP、TCP三次四次握手、如何保证可靠传输

数据仓库主题域及其建设过程

数仓的指标体系构建

Hadoop小文件的危害

Flink里面断流怎么处理

Flink的exactly-once是怎么实现的

Checkpoint的Chandy-Lamport算法

Checkpoint的时候barrier什么时候发送

Sparkstreaming和Flink的区别

Spark任务提交流程

Spark的stage切分原理

Checkpoint的时候Barrier什么时候发送

Checkpoint产生了很多快照，怎么进行处理呢

SparkStreaming和StructuredStreaming的区别

Zookeeper的分布式一致性协议是什么，Raft讲一下，Paxos讲一下

Hive调优怎么调的

数据倾斜怎么处理的

你在做需求的过程中遇到过的最大的难点是什么

常见的排序算法，时间复杂度，空间复杂度

synchronized关键字的使用

volatile关键字，和synchronized的区别

Java的内存回收怎么做的

HashMap和TreeMap的区别

红黑树有什么特点

队列和栈结构

你项目里的熔断器的原理？

SQL调优怎么做的？

MVC架构里用到了什么设计模式？

那你讲讲Java里的设计模式

HDFS的读流程

项目里用到的 hive on spark 和普通的hive有什么区别

数据倾斜的优化，如果group by A的字段倾斜怎么优化

Hadoop的序列化和java的序列化的区别？

Spark的shuffle过程

宽窄依赖是什么

Stage是如何划分的

Spark SQL的调优

Spark SQL怎么实现持久化，缓存

窗口函数中3个rank的区别

T+1生成数据但下午才生成数据，你的排查思路

数据倾斜你如何解决，小文件你如何解决

Hive和Spark区别和优劣势？

Spark有没有什么不好的地方？

Spark参数调优？

HashMap和Map有啥区别？

横向讲一下几个ETL工具的优缺点？

数据共享服务怎么做的？过程中如何做到的安全合规？

Hadoop的Checkpoint流程？

在集群计算的时候，什么是集群的主要瓶颈？

用Java语言编程实现带括号的字符串反转

写题-搜索螺旋排序数组

写非递归二叉树中序遍历

SQL实现求所有学科都及格的学生id，GROUP BY HAVING

SQL实现统计各省男女生人数，行转列

用SQL实现留存率

写SQL，date、dept、name、work_time，四个字段的表，求最近一个月内每个部门的平均工作时长前三的员工

Java GC算法有哪些？

Java的垃圾回收（Garbage Collection, GC）机制是自动管理内存的重要组成部分。它负责释放不再使用的对象所占用的内存，从而避免了内存泄漏。Java的GC算法主要有以下几种：

标记-清除算法 (Mark-Sweep): 这是最基本的GC算法，分为两个阶段：标记和清除。标记阶段标记出所有从根节点可达的对象，清除阶段则回收未被标记的对象所占用的空间。这种算法的主要缺点是在清除阶段会产生大量不连续的内存碎片。
复制算法 (Copying): 该算法将可用内存分为大小相等的两块，每次只使用其中的一块，在垃圾回收时，将正在使用的对象复制到另一块上面，然后清除当前使用的内存区域。这样可以避免内存碎片的问题，但代价是只能使用一半的总可用内存。
标记-整理算法 (Mark-Compact): 这是标记-清除算法的一个改进版本，除了标记和清除之外，还增加了一个整理的过程，使得所有存活的对象都向一端移动，从而达到整理内存的目的，解决了碎片化的问题。
分代收集算法 (Generational): 基于一个观察结果，即大部分对象很快就会死亡。因此ÿ