Preguntes D'entrevista

Les 65 millors preguntes i respostes de l'entrevista d'Apache Kafka

30 d'octubre de 2021

Apache Kafka s'ha convertit en una opció popular entre els professionals que treballen a la recerca d'oportunitats laborals en el processament de dades.

Aquest article ha reunit les preguntes i respostes d'entrevistes d'Apache Kafka més famoses tant per a més novells com amb experiència per ajudar-vos a superar les preguntes de l'entrevista d'Apache Kafka.

Taula de continguts

P.1 Què és Apache Kafka?

Kafka és una aplicació d'agent de missatges de codi obert desenvolupada pel programari Apache. Està escrit en Scala i és un sistema de missatgeria distribuït de publicació i subscripció. Kafka es comunica entre el client i el servidor mitjançant un protocol TCP d'alt rendiment, senzill i independent de l'idioma.

P. 2 Reclutar els diversos components a Kafka.

Kafka té quatre components principals:

1. Tema - mateix tipus de flux o col·lecció de missatges

2. Productor - que publiquen missatges

3. Corredors - el servidor Kafka on s'emmagatzemen els missatges publicats

4. Consumidors - que es subscriuen a temes i obtenen dades dels corredors.

P. 3 Què és una compensació?

Un nombre enter sense complicacions assignat per preservar la posició actual del consumidor és un desplaçament. L'últim registre enviat a un consumidor per Kafka en l'enquesta més recent és el desplaçament actual.

Vegeu també Les 100 principals preguntes i respostes de l'entrevista de JavaScript

P. 4 En quin idioma està escrit el programari Kafka Apache?

Kafka està escrit en dos llenguatges de programació: Scala i Java.

P. 5 Explica el paper de l'offset.

L'offset es defineix com el número d'identificació seqüencial donat als missatges que ajuden a la seva identificació única dins de la partició.

P. 6 Què és un grup de consumidors?

Un grup de consumidors de Kafka és un grup de consumidors específic de consumidors de Kafka que s'han subscrit als mateixos temes. Aquest concepte és exclusiu d'Apache Kafka.

P. 7 És possible utilitzar Kafka sense Zookeeper?

No. No podem obviar Zookeeper per connectar-nos directament amb Apache Kafka.

P. 8 Què fa el servidor Zookeeper a Kafka?

El servidor zookeeper és responsable de crear la coordinació entre diversos nodes dins d'un clúster i de recuperar la compensació compromesa prèviament quan falla algun node.

P. 9 Què saps sobre la partició a Kafka?

El corredor de Kafka té unes quantes particions, cadascuna de les quals pot ser una rèplica o un líder d'un tema.

P. 10 Quina diferència hi ha entre la partició i la rèplica d'un tema al clúster de Kafka?

Una partició és una única peça del tema de Kafka que ajuda en el paral·lelisme quan llegim dels problemes. Determinen el nombre de consumidors dels quals està format el grup de consumidors de Kafka, la producció de dades i la taxa de consum.

Una rèplica és una còpia de la partició que no es pot escriure ni llegir. Creen redundància de dades, cosa que significa que, per a n rèpliques d'un tema, n-1 corredors poden fallar abans de qualsevol pèrdua de dades.

Les principals preguntes i respostes de l'entrevista d'Apache Kafka

P. 11 Per què és important utilitzar la tecnologia de Kafka?

Els avantatges de Kafka són:

  • Alt rendiment de manera que no calgui un maquinari gran,
  • Escalabilitat que va reduir el temps d'inactivitat permetent l'addició sobre la marxa de nodes,
  • Durabilitat gràcies al suport de la replicació de missatges,
  • Tolerància a errors, ja que els nodes Kafka són resistents a la fallada dins d'un clúster i
  • Latència baixa per gestionar missatges amb mil·lisegons de latència.

P. 12 Què és una partició d'un tema a Kafka Cluster?

Una sola peça del tema Kafka és una partició i el nombre de particions es configura en funció de cada tema.

P. 13 Quin és un tema a Kafka?

Un nom de font o una categoria per publicar registres s'anomena tema i cada tema es manté en registres particionats de Kafka. Els temes poden tenir zero, un o molts subscriptors en funció dels consumidors.

P. 14 Quines són les principals API de Kafka?

Kafka té quatre API bàsiques: Kafka Producer API, Connector API, Streams API i Consumer API.

P. 15 Què són els consumidors o usuaris?

Qualsevol subscriptor d'un tema de Kafka és un consumidor que pot llegir i processar missatges. Es publicarà un registre i es lliurarà al grup de consumidors específic que s'hi subscrigui per a totes les instàncies de consumidors.

P. 16 Explica el concepte de líder i seguidor.

El concepte de líder i seguidor és bastant simple. El servidor central de Kafka actua com a líder i altres servidors són els seguidors.

P. 17 Què garanteix l'equilibri de càrrega del servidor a Kafka?

En cas que un líder no realitzi sol·licituds de lectura i escriptura de dades, un dels seguidors es fa càrrec i realitza l'equilibri de càrrega dels servidors.

P. 18 Llista alguns casos d'ús d'Apache Kafka?

Apache Kafka té els casos d'ús següents:

  • Seguiment i registre
  • Transmissions d'esdeveniments
  • Cua de missatges

P.19 Quins papers juguen les rèpliques i l'ISR?

Les rèpliques són una llista de nodes que repliquen el registre d'una partició concreta, independentment de si són líders o no. Al mateix temps, les rèpliques ISR o In-Sync són un conjunt de rèpliques de missatges sincronitzades amb els líders.

P. 20 Per què les rèpliques són crítiques a Kafka?

La replicació garanteix que els missatges publicats no es perdin i es poden utilitzar en cas de qualsevol error, actualitzacions freqüents de programari, error de programa o error de màquina.

Les principals preguntes i respostes de l'entrevista d'Apache Kafka

P. 21 Si una rèplica roman fora de l'ISR durant molt de temps, què significa?

Vol dir que el líder té dades acumulades més ràpidament que la taxa de recuperació de dades del seguidor.

P. 22 Quin és el procés per iniciar un servidor Kafka?

Primer hem d'iniciar Zookeeper des de bin/zookeeper-server-start.sh config/zookeeper.properties.

Ara s'inicia el servidor Kafka des de bin/Kafka-server-start.sh config/server.properties.

P. 23 Expliqueu què és una clau de partició?

La clau de partició s'utilitza per validar la partició de missatges i dirigir-la a la destinació accedint a l'identificador de partició mitjançant un particionador basat en hash.

P. 24 A l'API del productor, quan es produeix QueueFullException?

Quan els intermediaris de missatges no poden gestionar el desbordament de missatges del productor, es produeix QueFullException. Per garantir que l'excepció no es produeixi, cal utilitzar diversos corredors, ja que els productors no tenen cap limitació.

P. 25 Expliqueu el paper de l'API Kafka Producer.

S'utilitza per dur a terme la funcionalitat de productor mitjançant una trucada d'API a la sol·licitud del client combinant els esforços de Kafka.producer.async.Async Producer i Kafka.producer.SyncProducer.

Vegeu també Les 100 millors preguntes i respostes d'entrevista Ansible

P. 26 Quina és la diferència principal entre Kafka i Flume?

Tot i que tots dos són programari de processament en temps real, la principal diferència entre Kafka i Flume és que Kafka és més escalable i durador quan es tracta de missatgeria.

P. 27 Apache Kafka és una plataforma de transmissió distribuïda? En cas afirmatiu, què en pots fer?

Kafka és una plataforma de transmissió distribuïda que ens permet emmagatzemar molts registres sense problemes d'emmagatzematge, enviar registres ràpidament i processar registres en temps real.

P. 28 Què pots fer amb Kafka?

Amb Kafka, podem realitzar la transmissió de dades entre dos sistemes mitjançant un flux de canalitzacions de dades en temps real i crear una plataforma de transmissió en temps real.

P. 29 Explica l'arquitectura de Kafka?

Kafka és un sistema distribuït que conté diversos corredors i temes, cadascun dels quals conté diverses particions. Amb això, productors i consumidors poden intercanviar missatges al mateix temps i permetre una execució perfecta.

P. 30 Quin és l'objectiu del període de retenció al clúster de Kafka?

Els clústers de Kafka venen al detall tots els registres publicats, independentment de si s'han consumit o no. El període de retenció de la configuració de gestió de la configuració s'utilitza per descartar aquests missatges i crear espai lliure al clúster.

Les principals preguntes i respostes de l'entrevista d'Apache Kafka

P. 31 Quins són els components principals on les dades es processen sense problemes a Kafka?

Les dades de Kafka es processen perfectament a Productors i Consumidors.

P. 32 Expliqueu com podeu rebre missatges exactament una vegada de Kafka durant la producció de dades?

En evitar els duplicats durant el consum i la producció de dades, podeu rebre missatges exactament una vegada de Kafka. En la producció de dades, si utilitzeu un únic escriptor per partició i incloeu una clau primària al missatge, podeu assegurar-vos precisament una semàntica.

P. 33 Què és un missatge de Kafka?

Les matrius de bytes que fan servir els desenvolupadors per emmagatzemar objectes en formats Avro, String o JSON s'anomenen missatges Kafka.

P.34 Expliqueu la mida màxima d'un missatge que pot rebre Kafka?

Kafka pot rebre una mida màxima de 1.000.000 de bytes de missatges.

P. 35 Quins són els tipus de mètode tradicional de transferència de missatges?

La tècnica tradicional de missatgeria és de dos tipus:

Cua: En aquest mètode, un grup d'un o més consumidors llegeix un missatge del servidor, cadascun dels quals s'envia a un d'ells.

Publicar-subscriure: Els missatges s'emeten a tots els consumidors.

P. 36 Què significa ISR en l'entorn de Kafka?

Les rèpliques In Sync o ISR són un conjunt de rèpliques de missatges que es sincronitzen per convertir-se en líders.

P. 37 Apache Kafka és una plataforma de processament de fluxos de codi obert?

Sí, Kafka d'Apache és una plataforma de processament de fluxos de codi obert.

P. 38 Què és la geo-replicació a Kafka?

Kafka utilitza MirrorMaker per crear rèpliques de missatges a diversos centres de dades i regions del núvol per utilitzar-les com a còpies de seguretat actives/passives, donar suport als requisits de localitat de dades i col·locar les dades més a prop dels usuaris.

P. 39 Què és l'agent de missatges?

És un servidor que emmagatzema missatges de l'editor.

P. 40 Aspectes destacats del sistema Kafka?

Kafka ofereix:

  • Gran actuació
  • Latència baixa
  • Emmagatzematge escalable

Les principals preguntes i respostes de l'entrevista d'Apache Kafka

P. 41 Expliqueu l'arrendament múltiple?

L'arrendament múltiple és una solució de Kafka que pot configurar temes per produir i consumir dades i proporcionar suport de quotes.

P. 42 Quin és el paper de l'API del consumidor?

Les API de consum permeten que les aplicacions es subscriguin a un o més temes i processin el flux de registres produïts.

P. 43 Què vol dir serDes a Apache kafka?

SerDes o serialitzador deserialitzador es proporciona per als registres de cada flux de Kafka i materialitza les dades dels valors registrats sempre que sigui necessari.

P. 44 Expliqueu el paper de l'API Streams?

L'API de fluxos permet que les aplicacions actuïn com a processador de fluxos i consumeixin fluxos d'entrada d'un o més temes per produir un flux de sortida.

P. 45 Quina és la funció de l'API del connector?

Connector API ajuda a crear productors i consumidors reutilitzables i els executa per connectar-se amb temes de Kafka amb sistemes de dades o aplicacions existents.

P. 46 Explica el productor?

Els productors publiquen les dades dels temes escollits i seleccionen els registres dels temes per assignar-los a les particions.

P. 47 Com podeu enviar missatges grans amb Kafka (més de 15 MB)?

Per enviar missatges grans, és a dir, més de 15 MB, cal ajustar tres o quatre propietats:

    Càrrec del corredor– message.max.bytes i replica.fetch.max.bytesCàrrec del corredor per tema– màxim.missatge.bytes.La part del consumidor– obtenir.missatge.max.bytes

P. 48 Compara: RabbitMQ vs Apache Kafka

RabbitMQ és el programari alternatiu de Kafka que ofereix una taxa de rendiment de 20.000 missatges/segon. Tanmateix, a diferència de RabbitMQ, Kafka és més durador, d'alta disponibilitat i distribuït, cosa que permet compartir i replicar dades. A més, Kafka té una taxa de rendiment de 100.000 missatges/segon.

P. 49 Compareu: sistemes de cua tradicionals amb Apache Kafka

Els sistemes de cua tradicionals suprimeixen els missatges del final de la cua un cop finalitza el processament. No permeten el processament lògic basat en missatges o esdeveniments similars.

Vegeu també Les 100 principals preguntes i respostes de l'entrevista de JavaScript

D'altra banda, Apache Kafka no elimina els missatges un cop el consumidor els rep i permet que els missatges persisteixin. Permet processar la lògica a partir d'esdeveniments o missatges similars.

P. 50 Per què hem d'utilitzar Apache Kafka Cluster?

Apache Kafka té els següents avantatges:

  • Pot superar els reptes de recopilar i analitzar grans volums de dades.
  • Pot generar alertes i informar de mètriques operatives.
  • Permet el processament continu de dades de streaming per temes.
  • Pot convertir dades al format estàndard.
  • Fa un seguiment de les activitats web emmagatzemant o enviant esdeveniments per a processos en temps real.

Les principals preguntes i respostes de l'entrevista d'Apache Kafka

P. 51 Què és el clúster de Kafka?

Tots els registres publicats, independentment de si es consumeixen o no, són útils en un clúster amb un període de retenció configurable.

P. 52 Explica el terme Log Anatomy.

Preguntes de l'entrevista d'Apache Kafka

Els registres són particions en què la font de dades escriu missatges. En qualsevol moment, un o més consumidors poden llegir els registres.

El diagrama anterior mostra que un registre està escrit per una font de dades i que els consumidors llegeixen amb diferents desplaçaments.

P. 53 Quines són algunes alternatives a Apache Kafka?

Kafka és la millor i àmpliament utilitzada de totes les seves alternatives com RabbitMQ, Active MQ, ZeroMQ, etc.

P. 54 Expliqueu com ajustar Kafka per obtenir un rendiment òptim.

Kafka es pot ajustar ajustant els seus diferents components, com ara:

  • Tuning consumidors de Kafka
  • Afinació dels corredors Kafka
  • Tuning productors de Kafka

P. 55 Desavantatges estatals d'Apache Kafka.

Alguns dels desavantatges d'Apache Kafka són:

  • Problemes amb l'ajustament del missatge
  • Falta de ritme
  • No hi ha un conjunt complet d'eines de seguiment
  • No hi ha suport per a la selecció de temes amb comodins

P. 56 Quins són els avantatges de la tecnologia Kafka?

Alguns dels avantatges de Kafka són:

  • Kafka és ràpid i inclou corredors, cadascun dels quals pot gestionar megabytes de dades.
  • És robust
  • Té un disseny distribuït
  • És escalable i durador
  • Tenir un conjunt de dades gran pot ajudar a analitzar millor.

P. 57 Reclutar totes les operacions d'Apache Kafka.

Apache Kafka realitza les operacions següents:

  • Desviació distingida
  • Retirada de servidors i centres de dades
  • Replica de dades entre clústers
  • Addició i supressió de temes de Kafka
  • Trobar la posició del consumidor
  • Migració automàtica de dades

P. 58 Explicar els casos d'ús d'Apache Kafka?

Preguntes de l'entrevista d'Apache Kafka

A partir del cas d'ús anterior, podem veure que Kafka té principalment tres casos d'ús:

Mètriques de Kafka: Permet l'ús de Kafka per al seguiment de dades operatives i per produir fonts centralitzades utilitzant les dades operatives.

Agregació de registres de Kafka: Reuneix registres de diversos sistemes i serveis d'una organització.

Processament del flux: Kafka és durador i, per tant, és útil en el processament de fluxos.

P. 59 Algunes de les aplicacions més destacades de Kafka.

Netflix, Oracle i Mozilla són algunes de les aplicacions més destacades de Kafka.

Les principals preguntes i respostes de l'entrevista d'Apache Kafka

P. 60 Característiques de Kafka Stream.

Kafka té les següents característiques:

  • Els fluxos són tolerants a errors i altament escalables i són igualment viables per a casos d'ús petits, mitjans i grans.
  • Podeu escriure aplicacions Java estàndard.
  • Kafka es pot desplegar al núvol, VMs, contenidors i metall nu.
  • Només té una sola semàntica de processament.
  • Està totalment integrat amb la seguretat de Kafka.

P. 61 Quina és la importància de Java a Apache Kafka?

El llenguatge Java s'utilitza a Kafka per proporcionar altes taxes de processament i un bon suport de la comunitat.

P. 62 Indiqueu una de les millors característiques de Kafka.

Tenir una varietat de casos d'ús és la millor característica de Kafka. Kafka gestiona una varietat de casos d'ús que són habituals per a un llac de dades.

P. 63 Explica el terme Factor de replicació del tema.

Les rèpliques de temes són un aspecte essencial que s'ha de tenir en compte a l'hora de dissenyar un sistema Kafka. Així, si per algun motiu un corredor cau, altres rèpliques el poden substituir.

P. 64 Expliqueu alguns casos d'ús de Kafka Streams en temps real.

Alguns dels casos d'ús en temps real són:

LÍNIA: L'aplicació LINE utilitza un centre de dades central per al servei.

The New York Times: Kafka està acostumat a emmagatzemar i distribuir dades en temps real.

Descàrregues: Utilitza un bus de servei empresarial (ESB) per mantenir els minoristes de moda en línia.

P. 65 Què són les garanties que ofereix Kafka?

Algunes de les garanties de Kafka són:

  • El consumidor pot veure els registres en el mateix ordre que els registres emmagatzemats al registre.
  • Kafka pot tolerar errors del servidor fins a N-1 sense perdre cap registre compromès al registre.
  • L'ordre dels missatges enviats per un productor FOC serà el mateix per a una partició de tema concreta.

Conclusió

Esperem que el nostre article sobre Apatxe Kafka Les preguntes de l'entrevista us poden ajudar a superar les vostres entrevistes a Kafka.

També podeu veure el tutorial de Kafka per entendre millor el programari Kafka desenvolupat per la fundació de programari Apache.