Preguntes D'entrevista

Les 70 principals preguntes i respostes de l'entrevista d'enginyer de dades

2 de gener de 2022

La tasca principal de l'enginyer de dades és trobar tendències en els conjunts de dades i desenvolupar algorismes per fer que les dades en brut siguin més útils per a l'empresa. Els enginyers de dades són els responsables de crear els algorismes que ajudin a facilitar l'accés a les dades en brut, però per fer-ho, han d'entendre els objectius de l'empresa o del client.

Si teniu programada una entrevista d'enginyer de dades a prop, haureu de preparar-vos definitivament per a l'entrevista. Preparar una entrevista no és una tasca senzilla. Per tant, abans d'assistir a l'entrevista, assegureu-vos de revisar les preguntes i respostes de l'entrevista de l'enginyer de dades perquè pugueu resoldre l'entrevista fàcilment.

Taula de continguts

Preguntes i respostes de l'entrevista TOP Data Engineer

1. Explicar l'enginyeria de dades en termes senzills?

L'enginyeria de dades fa ús d'eines com ara SQL i Python per preparar les dades per als científics de dades. L'enginyeria de dades treballa principalment amb els científics de dades per entendre les seves necessitats específiques per al treball. Construiran canalitzacions de dades que obtenen i transformen les dades en les estructures desitjades que es necessiten per a l'anàlisi.

2. De quina manera Python ajuda els enginyers de dades?

Els enginyers de dades utilitzen Python per crear canalitzacions de dades, escriure els scripts ETL i configurar models estadístics i realitzar l'anàlisi com R, que és un llenguatge important per a la ciència de dades i l'enginyeria de dades. És important per a ETL, aplicacions d'aprenentatge automàtic i anàlisi de dades.

3. Diferenciar entre el magatzem de dades i la base de dades operativa?

Base de dades operativa Magatzem de dades
Estan dissenyats per donar suport al processament de transaccions de gran volum.Normalment estan dissenyats per suportar processaments analítics de gran volum com OLAP.
Es preocupen per les dades actuals.Es preocupen de les dades històriques.
Les dades aquí s'actualitzen principalment periòdicament segons les necessitats.No volàtil, s'afegiran noves dades regularment. Un cop afegit, rarament es canviarà.
Estan dissenyats per a processos i negocis en temps real.Estan dissenyats per a l'anàlisi de mesures empresarials per àrea temàtica, atributs i categories.
S'accedeix a un nombre menor de dades.S'accedeix a un gran nombre de dades.

4. Definir el modelatge de dades?

El modelatge de dades es pot definir com una tècnica utilitzada per definir i analitzar els requisits de dades que es necessiten per donar suport als processos de negoci dins de l'àmbit dels sistemes d'informació corresponents a les organitzacions. El modelatge de dades no només defineix els elements de dades sinó també les seves estructures i les relacions entre ells.

Vegeu també Les 100 principals preguntes i respostes de l'entrevista de JavaScript

5. Diferenciar entre bases de dades relacionals i no relacionals?

Base de dades relacional Base de dades no relacional
També s'anomenen sistemes de gestió de bases de dades relacionals ( RDBMS ) o bases de dades SQL.També s'anomenen bases de dades NoSQL.
Les bases de dades relacionals populars són Microsoft SQL Server, Oracle Database, IBM DB2 i MySQL .Les bases de dades no relacionals més populars són MongoDB, DocumentDB, Cassandra, HBase, Redis i Coachbase.
Els RDBMS s'utilitzen normalment en escenaris de grans empreses, que s'utilitzen principalment per emmagatzemar dades per a aplicacions web.Emmagatzemen grans volums de dades sense cap estructura.

6. Definiu Do *args i **kwargs?

* args i **kwargs són paraules clau especials que permeten que la funció prengui els arguments de longitud variable. **Quargs s'utilitzen per passar el nombre variable d'arguments de paraula clau diccionari a la funció sobre la qual es realitza l'operació d'un diccionari. * args i **kwargs solen flexibilitzar la funció.

7. Esmenta els diferents tipus d'esquemes de disseny en Data Modeling?

Hi ha dos tipus d'esquemes en el modelatge de dades:

  1. horari estrella
  2. Esquema del floc de neu.

8. Quines són les habilitats tècniques necessàries per ser enginyer de dades?

  1. Sistemes de bases de dades (SQL i NoSQL)
  2. Solucions d'emmagatzematge de dades
  3. Eines ETL
  4. Aprenentatge automàtic
  5. API de dades.
  6. Llenguatges de programació Python, Java i Scala
  7. Comprensió dels fonaments bàsics dels sistemes distribuïts
  8. Coneixement d'algorismes i estructures de dades

9. Diferenciar entre dades estructurades i no estructurades?

Dades estructurades Dades no estructurades
És un tipus de dades clarament definit i cercableAquí, les dades s'emmagatzemen normalment en el seu format natiu.
Les dades estructurades són quantitatives.Les dades no estructurades són qualitatives.
Les dades estructurades s'emmagatzemen en magatzems de dades.Les dades no estructurades s'emmagatzemen en data llacs.
És fàcil de buscar i analitzar.Requereix més treball per processar i entendre.

10. Anomena els marcs i les aplicacions essencials per als enginyers de dades?

  1. Espurna
  2. Considerable
  3. Kafka
  4. Cerca elàstica
  5. PostgreSQL/Redshift
  6. Flux d'aire

Preguntes i respostes de l'entrevista d'enginyer de dades

11. Expliqueu els components d'una aplicació Hadoop?

  1. Hadoop Common: es pot definir com un conjunt d'utilitats i biblioteques que utilitza Hadoop.
  2. HDFS: l'aplicació Hadoop fa referència al sistema de fitxers on s'emmagatzemen les dades de Hadoop. És un sistema de fitxers distribuït que té un gran ample de banda.
  3. Hadoop MapReduce: es basa en l'algorisme per a la prestació de processament de dades a gran escala.
  4. Hadoop YARN: s'utilitza principalment per a la gestió de recursos dins del clúster Hadoop. També s'utilitza per a la programació de tasques per als usuaris.

12. Diferenciar entre un enginyer de dades i un científic de dades?

Enginyer de dades Científic de dades
Es centren principalment en la construcció d'infraestructura i arquitectura per a la generació de dades.Se centren en matemàtiques avançades i anàlisi estadística de les dades generades.
Donen suport als científics i analistes de dades proporcionant infraestructura i eines que s'utilitzen per oferir solucions d'extrem a extrem als problemes empresarials.Es dediquen a la interacció amb la infraestructura de dades que construeixen i mantenen els enginyers de dades.

13. Definiu NameNode?

Namenode es pot definir com el node mestre que s'executarà en un node separat del clúster. Gestiona l'espai de noms del sistema de fitxers que és l'arbre del sistema de fitxers dels fitxers i directoris. Emmagatzema informació com ara els propietaris dels fitxers, els permisos dels fitxers, etc., dels fitxers.

14. Quines són les responsabilitats diàries d'un enginyer de dades?

Les responsabilitats de l'enginyer de dades són:

  1. Desenvolupen, construeixen, proveen i mantenen arquitectures.
  2. Adquisició de dades
  3. Desenvolupar processos de conjunt de dades
  4. Alinear l'arquitectura amb els requisits empresarials
  5. Realitzen investigacions per a qüestions industrials i empresarials
  6. Preparar les dades per al modelatge predictiu i prescriptiu
  7. Utilitzen dades per descobrir tasques que es poden automatitzar
  8. Fan ús de grans conjunts de dades per resoldre problemes empresarials.
  9. Troben patrons ocults utilitzant dades.

15. Què és Hadoop streaming?

Hadoop streaming és una utilitat que normalment ve amb la distribució Hadoop. Aquesta utilitat ens permet crear i executar Map o Reduce els treballs amb qualsevol executable o script com el mapeador o el reductor.

16. Pots explicar els esquemes de disseny en Data Modeling?

L'esquema es pot definir com la descripció lògica de tota la base de dades.

Alguns dels esquemes del modelatge de dades són:

Horari estrella : Cada dimensió de l'esquema estrella es defineix amb una sola taula de dimensions. Aquesta taula de dimensions consta d'un conjunt d'atributs.

Esquema del floc de neu : Les taules de dimensions de l'esquema Snowflake estan normalitzades. Aquesta normalització divideix les dades en taules addicionals. A diferència de l'esquema Star, la taula de dimensions de l'esquema del floc de neu està normalitzada.

Esquema de constel·lacions de fets : una constel·lació de fets sol tenir múltiples taules de fets. També s'anomena esquema de galàxia.

17. Quina és la forma completa de HDFS?

El sistema de fitxers distribuïts Hadoop és un sistema de fitxers distribuït dissenyat per funcionar amb maquinari bàsic.

18. Expliqueu els conceptes de Block i Block Scanner a HDFS?

Bloc : Es defineix com la quantitat mínima de dades que es llegeixen o s'escriuen.

La mida predeterminada del bloc a HDFS és de 64 MB.

Escàner de blocs : Fa un seguiment de la llista de tots els blocs presents al DataNode i els verifica per esbrinar qualsevol tipus d'error de suma de verificació.

19. Anomena els dos missatges que el NameNode rep de DataNode?

NameNodes obté informació sobre les dades de DataNodes, generalment en forma de missatges o senyals. Ells són:

    Bloqueja els senyals d'informe: Aquesta és la llista de blocs de dades que s'emmagatzemen a DataNode i el seu funcionament.Senyals de batecs del cor: És un informe periòdic que estableix si s'utilitza o no NameNode. Si no s'envia aquest senyal, vol dir que el DataNode ha deixat de funcionar.

20. Definiu els passos que es produeixen quan Block Scanner detecta un bloc de dades danyat?

Els passos següents es produiran quan un escàner de blocs detecti un bloc de dades danyat:

  1. El DataNode informarà del bloc danyat al NameNode.
  2. A continuació, NameNode iniciarà el procés de creació de la nova rèplica utilitzant una rèplica correcta d'un bloc danyat present en altres DataNodes.
  3. El bloc de dades danyat no s'elimina fins que el recompte de rèpliques de les rèpliques correctes coincideix amb el factor de rèplica.
  4. Tot aquest procés permet que l'HDFS mantingui la integritat de les dades quan el client realitza l'operació de lectura.
Vegeu també Les 100 millors preguntes i respostes d'entrevista Ansible

Preguntes i respostes de l'entrevista d'enginyer de dades

21. Expliqueu les fases del reductor i els seus mètodes bàsics?

Hadoop Reducer processa la sortida de dades del mapeador i produeix la sortida final emmagatzemada a HDFS.

El reductor té principalment 3 fases:

    Barrejar: Aquí, la sortida dels mappers es barreja i actua com a entrada per al reductor.Classificacióes fa mentre es remena i, al mateix temps, s'ordena la sortida de diferents mapeadors.Reduir: Aquí, Reduces agrega el parell clau-valor i dóna la sortida, que després s'emmagatzema a HDFS i no s'ordena més.

Hi ha mètodes bàsics a Reducer:

    Configuració:Això configura diversos paràmetres, com ara la mida de les dades d'entrada.Reduir: Es defineix com l'operació principal del Reductor. Aquí, es defineix una tasca per a la clau associada.Netejar:Aquest mètode neteja els fitxers temporals al final de la tasca.

22. Esmenta els diferents fitxers de configuració XML a Hadoop?

Els fitxers de configuració XML a Hadoop:

  1. Lloc de mapred
  2. Lloc central
  3. Lloc HDFS
  4. Lloc del fil

23. Expliqueu com implementar una solució de big data?

Els tres passos significatius utilitzats per implementar la solució de big data són:

    Integració/Ingesta de dades: Aquí es fa l'extracció de dades mitjançant fonts de dades com RDBMS, Salesforce, SAP, MySQL.Emmagatzematge de dades: Aquí, les dades extretes s'emmagatzemen a la base de dades HDFS o NoSQL.Tractament de dades: aquest és l'últim pas que hauria de ser desplegar la solució mitjançant els marcs de processament com ara MapReduce, Pig i Spark.

24. Esmenta les quatre V del big data?

Les quatre V són:

  1. Velocitat
  2. Varietat
  3. Volum
  4. Veracitat

25. Enumereu els avantatges i els contres de treballar en Cloud Computing?

Avantatges:

  1. Sense molèsties administratives o de gestió
  2. Fàcil accessibilitat
  3. Pagament per ús
  4. Fiabilitat
  5. Enorme Emmagatzematge al núvol
  6. Actualitzacions automàtiques de programari

Contres:

  1. Control limitat de la infraestructura
  2. Flexibilitat restringida o limitada
  3. Costos en curs
  4. Seguretat
  5. Problemes tècnics

26. Explica algunes de les característiques de Hadoop?

Algunes de les característiques importants d'Hadoop són:

  1. Hadoop és un codi obert Marc de programació basat en Java. El codi obert indica que està disponible gratuïtament i es pot canviar el seu codi font segons les vostres necessitats.
  2. Falta de tolerància: Hadoop controla les falles mitjançant la tècnica de creació de rèpliques. Quan el client emmagatzema un fitxer a HDFS, el marc Hadoop divideix el fitxer en blocs.Procés distribuït: Emmagatzema una gran quantitat de dades de manera distribuïda a l'HDFS. Processa les dades en paral·lel al clúster de nodes.Escalabilitat: Com ja s'ha dit, Hadoop és una plataforma de codi obert. El que la converteix en una plataforma extremadament escalableFiabilitat: Les dades aquí s'emmagatzemen de manera fiable al clúster de màquines malgrat la fallada de la màquina a causa de la replicació de dades. Per tant, en cas que algun dels nodes falla, també podeu emmagatzemar dades de manera fiable.Alta disponibilitat: a causa de les seves múltiples còpies de dades, les dades aquí són altament disponibles i accessibles malgrat la fallada del maquinari.Econòmic: No és molt car perquè funciona amb un clúster de maquinari bàsic.

27. Anomena les biblioteques de Python que utilitzaríeu per a un processament de dades competent?

  1. NumPy
  2. SciPy
  3. Pandes
  4. Dur
  5. SciKit-Learn
  6. PyTorch
  7. TensorFlow

28. Quina és la forma completa de COSHH?

COSHH significa Programació basada en classificació i optimització per a sistemes Hadoop heterogenis.

29. Diferenciar entre llista i tuples?

Llista Tuples
Són mutables.Són immutables.
La llista és preferida per realitzar operacions, com ara la inserció i la supressió.El tipus de dades Tuple és adequat per accedir als elements.
Tenen diversos mètodes integrats.No tenen molts mètodes integrats.
Consumeix més memòria.Consumeixen menys memòria en comparació amb les llistes.

30. Definiu l'esquema d'estrelles?

L'esquema estrella es pot definir com l'esquema fonamental entre l'esquema de data mart, i és el més senzill. Aquest esquema s'utilitza principalment per desenvolupar o construir els data marts dimensionals i els magatzems de dades; Inclou una o diverses taules de fets que indexen qualsevol nombre de taules dimensionals.

Preguntes i respostes de l'entrevista d'enginyer de dades

31. Com tractar els punts de dades duplicats en una consulta SQL?

  1. Utilitzem la funció SQL RANK per eliminar les files duplicades. La funció SQL RANK proporciona un ID de fila únic per a cada fila sense tenir en compte la fila duplicada.
  2. Utilitzem l'operador d'ordenació en un paquet SSIS per eliminar les files duplicades.
  3. SQL elimina les files duplicades mitjançant les expressions de taula comuns (CTE)
  4. SQL elimina les files duplicades utilitzant Group By i havent clàusula

32. Definiu l'esquema del floc de neu?

L'esquema de floc de neu en un magatzem de dades es pot definir com la disposició lògica de les taules a la base de dades multidimensional de tal manera que el diagrama ER sembli una forma de floc de neu. És l'extensió de l'esquema estrella i afegeix dimensions addicionals. Les taules de dimensions es normalitzen, que després divideixen les dades en taules addicionals.

33. Com l'anàlisi de dades ajuda les empreses a créixer i augmentar els ingressos?

  1. T'ajuda a establir objectius realistes.
  2. Dona suport a la presa de decisions.
  3. T'ajuda a trobar el teu grup demogràfic ideal.
  4. Podeu segmentar el vostre públic.
  5. T'ajuda a crear una personalització massiva.
  6. Ajuda a augmentar els vostres ingressos i reduir els vostres costos.
  7. Pots augmentar els teus membres.
  8. T'ajuda a controlar les xarxes socials.

34. Definiu FSCK?

La comprovació de la coherència del sistema de fitxers de la utilitat del sistema ( fsck ) és una eina que s'utilitza per comprovar la coherència del sistema de fitxers en Unix i els sistemes operatius semblants a Unix, com Linux, macOS i FreeBSD.

35. Diferenciar entre OLTP i OLAP?

OLTP OLAP
OLTP és processament transaccional.OLAP es pot definir com un sistema en línia que informa a les consultes analítiques multidimensionals com ara informes financers, previsions, etc.
És un sistema que pot gestionar aplicacions orientades a transaccions a Internet com ATM.La solució OLAP millora el magatzem de dades amb dades agregades i càlculs empresarials.
És un sistema de modificació de bases de dades en línia.És un sistema de resposta a consultes de bases de dades en línia.
OLTP té transaccions curtes.OLAP té transaccions llargues.
Les taules de la base de dades OLTP estan normalitzades (3NF).Les taules de la base de dades OLAP no estan normalitzades.

36. Distingeix entre l'esquema d'estrelles i l'esquema de floc de neu?

Horari estrella Esquema del floc de neu
Aquí, només una única unió crea la relació entre la taula de fets i les taules de dimensions.Requereix moltes unions per obtenir les dades.
Alt nivell de redundància de dadesRedundància de dades de molt baix nivell
Disseny de base de dades senzill.Disseny de base de dades molt complex
Una única taula de dimensions conté dades agregades.Aquí, les dades es divideixen en taules de dimensions diferents.

37. Quina és l'abreviatura de YARN?

La forma completa de YARN: Yet Another Resource Negotiator

Vegeu també Les 100 principals preguntes i respostes de l'entrevista de JavaScript

38. Quin és el concepte principal darrere del Framework d'Apache Hadoop?

Es basa principalment en l'algorisme MapReduce. Aquí, en aquest algorisme, per processar un conjunt de dades gran, fem ús de les operacions Mapa i Reducció. Mapeja, filtra i ordena les dades mentre Reduce resumeix les dades. L'escalabilitat i la tolerància a errors són els punts importants d'aquest concepte. Aconseguim aquestes funcions a Apache Hadoop implementant MapReduce i Multi-threading de manera eficient.

39. Anomena els diferents modes d'ús d'Hadoop?

Els tres modes diferents utilitzats per Hadoop són:

  1. Mode autònom
  2. Mode pseudo-distribuït
  3. Mode totalment distribuït

40. Com podem aconseguir seguretat a Hadoop?

  1. En el primer pas, hem d'assegurar el canal d'autenticació del client al servidor. Heu de proporcionar el segell de temps al client.
  2. A continuació, el client utilitza el segell de temps rebut per sol·licitar el TGS del tiquet de servei.
  3. Finalment, el client fa ús d'un tiquet de servei per a l'autoautenticació al servidor específic.

Preguntes i respostes de l'entrevista d'enginyer de dades

41. Quins són els passos a seguir per desplegar una solució de Big Data?

Els passos que cal seguir durant el desplegament d'una solució de Big Data:

    Ingestió de dades: és la tècnica de recopilar o transmetre informació de diferents fonts, com ara fitxers de registre, bases de dades SQL i social mitjana Fitxers. S'enfronta a tres reptes importants: ingesta Canvis d'esquema, ingestió de taules grans a la font i Canvia captura de dades. Emmagatzematge de dades-: Després de la ingestió de dades, les dades extretes s'han d'emmagatzemar en algun lloc. S'ha d'emmagatzemar a les bases de dades HDFS o NoSQL. HDFS funciona millor per a l'accés seqüencial a través de l'HBase per a l'accés aleatori de lectura o escriptura. Tractament de dades: Aquest és l'últim pas per implementar una solució de Big Data. Després de l'emmagatzematge de les dades, les dades es processen mitjançant un dels marcs principals com Pig o MapReduce.

42. Anomeneu els números de port predeterminats per a Port Tracker, NameNode i Task Tracker a Hadoop?

  1. Task Tracker té el port predeterminat: 50060
  2. NameNode té el port predeterminat: 50070
  3. Job Tracker té el port predeterminat: 50030

43. Diferenciar entre NAS i DAS a Hadoop?

EN EL AIXÒ
Transmet dades mitjançant Ethernet o TCP/IP.Transmet dades mitjançant IDE/SCSI.
El seu cost de gestió per GB és moderat.El seu cost de gestió per GB és elevat.

44. Definiu les dades emmagatzemades al NameNode?

El NameNode consta principalment de tota la informació de metadades necessària per a HDFS, com ara els detalls de l'espai de noms i la informació del bloc individual.

45. Què passa si el NameNode es bloqueja al clúster HDFS?

El clúster HDFS sol tenir un sol NameNode i s'utilitza per mantenir les metadades de DataNode. Tenir només un NameNode proporciona als clústers HDFS un únic punt de fallada.

Si el NameNode falla, els sistemes no estaran disponibles. Per evitar-ho, hauríeu d'especificar un NameNode secundari que pugui prendre els punts de control periòdics als sistemes de fitxers HDFS, però no és una còpia de seguretat del NameNode. Però l'utilitzem per recrear el NameNode i reiniciar-lo.

46. ​​Definiu la consciència del bastidor?

Rack Awareness permet a Hadoop maximitzar l'ample de banda de la xarxa afavorint les transferències de blocs dins dels bastidors sobre la transferència entre els bastidors. Amb la consciència del bastidor, el YARN optimitzarà el rendiment laboral de MapReduce. Assignarà tasques als nodes propers a les dades en termes de topologia de xarxa.

47. Anomena els idiomes importants que fan servir els enginyers de dades?

Alguns camps utilitzats per l'enginyer de dades són:

  1. Aprenentatge automàtic
  2. Anàlisi de tendències i regressió
  3. Probabilitat i àlgebra lineal
  4. Hive QL i bases de dades SQL

48. Què és un missatge Heartbeat?

El node Hadoop Name i el node de dades es comuniquen mitjançant Heartbeat. Per tant, Heartbeat és un senyal enviat pel node de dades a namenode després d'un interval de temps regular per indicar la seva presència (per indicar que està viu).

49. Definir Big Data?

Big data és un terme que s'utilitza per descriure el gran volum de dades (tant estructurades com no estructurades) que sobrepassen un negoci en el dia a dia. El que importa és el que fan les organitzacions amb les dades. Les dades massives s'analitzen per obtenir informació que condueixi a moviments empresarials estratègics i millors decisions.

50. Definiu l'objecte de context a Hadoop?

L'objecte Context permet que el Mapper o Reducer es comuniqui amb la resta del sistema Hadoop. Inclou dades de configuració del treball i interfícies que li permeten emetre la sortida. Les aplicacions utilitzen el context: per informar del progrés.

Preguntes i respostes de l'entrevista d'enginyer de dades

51. Definiu la programació FIFO?

Preguntes de l'entrevista de l'enginyer de dades - Programació FIFO

L'algoritme de programació de treballs Hadoop original que es va integrar dins del JobTracker és el FIFO. Com a procés, el JobTracker va treure treballs de la cua de treball, que diu primer el treball més antic. Això es coneix com a programació Hadoop FIFO.

52. Què fem servir Hive a l'ecosistema Hadoop?

Hive és una mica de l'ecosistema Hadoop i proporciona la interfície semblant a SQL a Hadoop. És el sistema de magatzem de dades per a Hadoop que pot facilitar consultes ad-hoc, un resum de dades fàcil i l'anàlisi de grans conjunts de dades que s'emmagatzemen en sistemes de fitxers compatibles amb Hadoop.

53. Com es defineix la distància entre dos nodes a Hadoop?

La distància es defineix com a igual a la suma de la distància als nodes més propers. Utilitzem el mètode getDistance() per calcular la distància entre dos nodes.

54. Què fem servir Metastore a Hive?

Metastore es pot definir com el dipòsit central de les metadades d'Apache Hive. S'utilitza per emmagatzemar metadades per a les taules i particions Hive en una base de dades relacional. Els clients poden accedir a aquesta informació mitjançant l'API del servei metastore.

55. Definiu el maquinari bàsic a Hadoop?

És un maquinari informàtic assequible i fàcil d'aconseguir. Bàsicament, és un sistema de baix rendiment i és compatible amb IBM PC, i és capaç de funcionar Linux , Microsoft Windows o MS-DOS sense cap dispositiu o equip especial.

Preguntes i respostes de l'entrevista d'enginyer de dades

56. Anomena els components disponibles al model de dades Hive?

Els components de Hive:

  1. Cubells
  2. Taules
  3. Particions

57. Què és un factor de replicació en HDFS?

El factor de replicació és bàsicament el nombre de vegades que el marc Hadoop replica cada bloc de dades. El bloc es replica per tal de proporcionar tolerància a errors. El factor de replicació predeterminat serà de tres, que després es poden configurar segons el requisit; es pot canviar a 2 o augmentar-lo.

58. És possible crear més d'una taula per a un fitxer de dades individual?

Sí, es pot crear més d'una taula per a un fitxer de dades. A Hive, els esquemes s'emmagatzemen a metastore. Per tant, és fàcil obtenir el resultat de les dades corresponents.

59. Pots explicar el treball diari d'un enginyer de dades?

  1. Tractament de dades dins de l'organització.
  2. Manteniment de sistemes font de dades i àrees d'escenificació.
  3. Fent ETL i transformació de dades.
  4. Simplificant la neteja de dades i millorant la desduplicació i la creació de dades.
  5. Han de fer la creació i extracció de consultes de dades ad-hoc.

60. Enumereu les col·leccions que hi ha a Hive?

Hive té les col·leccions o tipus de dades esmentats a continuació:

  1. Matriu
  2. Mapa
  3. Estructura
  4. Unió

61. Què és un combinador a Hadoop?

Un combinador, també anomenat semi-reductor, és una classe opcional que s'opera acceptant les entrades de la classe Map, i després passa els parells clau-valor de sortida a la classe Reducer. La funció d'un combinador és resumir els registres de sortida del mapa amb una clau similar.

62. Què són les taules esbiaixades a Hive?

Quan hi ha una taula amb les dades de desviació a la columna d'unió, utilitzem la funció d'unió desviada. És una taula que té valors presents en gran nombre a la taula en comparació amb altres dades.

63. Definiu el mode segur a HDFS?

El mode segur per a NameNode és un mode de només lectura per al clúster HDFS, on no permet cap altra modificació al sistema de fitxers o als blocs.

64. Anomena les funcions de creació de taules presents a Hive?

A continuació s'esmenten algunes de les funcions de creació de taules Rusc:

  1. Explota (matriu)
  2. Explota (mapa)
  3. JSON_tuple()
  4. Stack()

A part de qüestions tècniques , l'entrevistador us farà algunes preguntes basades en escenaris que haureu de respondre en funció de la vostra experiència i de l'adherència que teniu a l'enginyeria de dades. He enumerat algunes preguntes generals i basades en escenaris a les quals us podeu enfrontar a la vostra entrevista, assegureu-vos que també us prepareu amb les preguntes esmentades a continuació.

65. Has format algú en el teu camp? Quins reptes t'has enfrontat?

66. Has treballat amb Hadoop Framework?

67. Amb quines eines ETL coneixeu?

68. Expliqueu-nos un escenari en què se suposava que hauríeu de reunir dades de diferents fonts però heu tingut problemes inesperats i com ho heu resolt?

69. Segons tu, què és el més difícil de ser enginyer de dades?

70. Per què vas estudiar enginyeria de dades?

Molta sort amb la vostra entrevista d'enginyer de dades, i esperem que les nostres preguntes i respostes de l'entrevista d'enginyer de dades us hagin estat d'ajuda. També podeu consultar el nostre Preguntes i respostes de l'entrevista d'analista de dades , que et pot ser d'alguna ajuda.