Kafka的设计和结构

Kafka基本概念

Producer：消息和数据的生产者，向Kafka的一个Topic发布消息的进程/代码/服务
Consumer：消息和数据的消费者，订阅数据(Topic)并且处理其发布的消息的进程/代码/服务
Consumer Group：逻辑概念，对于同一个Topic，会广播给不同的group，一个group中，只有一个Consumer可以消费该消息
Broker：物理概念，Kafka集群中的每个Kafka节点
Topic：逻辑概念，Kafka消息的类别，对数据进行分区、隔离
Partition：物理概念，Kafka下数据存储的基本单元，一个Topic数据，会被分散存储到多个Partition，每一个Partition是有序的
Replication：同一个Partition可能会有多个Replica，多个Replica之间数据是一样的
Replication Leader：一个Partition的多个Replica上，需要一个Leader负责该Partition上与Producer和Consumer交互
Replica Manager：负责管理当前Broker所有分区和副本的信息，处理Kafka Controller发起的一些请求，副本状态的切换、添加/读取消息等

Kafka消费架构

Kafka消息结构

事务保证
- 内部重试问题：Procedure幂等处理
- 多分区原子写入
事务保证 — 避免僵尸实例
- 每个事务Producer分配一个transactional.id，在进程重新启动时能够识别相同的Producer实例
- Kafka增加了一个与transactional.id相关的epoch，存储每个transaction.id内部元数据
- 一旦epoch被触发，任何具有相同的transactional.id和更旧的epoch的Producer被视为僵尸，Kafka会拒绝来自这些Producer的后续事务性写入

文件传输网络的公共数据路径

零拷贝过程