Preguntes D'entrevista

Les 60 principals preguntes i respostes d'entrevistes d'analista de dades

2 de gener de 2022

L'anàlisi de dades es defineix com un procés d'inspecció, transformació, neteja i modelització de les dades amb l'objectiu de descobrir informació útil i donar suport a la presa de decisions.

Qui és un analista de dades? L'analista de dades actua com a guardià de les dades o la informació de l'organització perquè les parts interessades puguin entendre les dades i utilitzar-les per prendre decisions estratègiques de negoci. És una mena de funció tècnica que requereix un grau o un màster en analítica, modelització informàtica, matemàtiques o ciències.

Les eines d'anàlisi de dades s'utilitzen principalment per extreure informació útil de les dades empresarials i ajudar els analistes de dades a facilitar el procés d'anàlisi de dades.

Hem assenyalat les preguntes i respostes més freqüents dels analistes de dades al nostre bloc. Assegureu-vos de revisar les nostres 60 principals preguntes i respostes d'entrevistes d'analista de dades.

Taula de continguts

TOP Preguntes i respostes de l'entrevista d'analista de dades

1. Ens pots explicar alguns problemes que solen trobar els analistes de dades mentre fan l'anàlisi?

A continuació s'enumeren alguns dels reptes als quals s'enfronten els analistes de dades:

    La quantitat de dades que es recullen: L'organització o empresa rep informació sobre tots i cadascun dels incidents i interaccions diàriament, deixant als analistes amb milers de conjunts de dades entrellaçats.Recollida de dades significatives i en temps real: Amb moltes dades disponibles, és difícil que els analistes desenvolupin totes les dades i accedeixin a les estadístiques que més es necessiten.Representació visual de dades: els sistemes de dades forts han d'habilitar la creació d'informes amb un clic. Els empleats i els responsables de la presa de decisions tindran accés a la informació en temps real que necessiten en un format atractiu i educatiu.Dades de diverses fonts: A continuació, un problema que tenim és intentar analitzar les dades a través de fonts diverses, múltiples i inconnexes. Aquí, sovint s'allotgen diferents peces de dades en sistemes diferents.Dades inaccessibles: moure les dades a un sistema centralitzat té un impacte si no estan fàcilment disponibles per als usuaris que ho necessiten.Dades de mala qualitat:Sense una bona entrada, la sortida no serà fiable. Així que el que recullen ha de ser exacte.Falta de suport: L'anàlisi de dades no pot ser eficaç sense el suport de l'organització, tant dels empleats de nivell superior com de nivell inferior.

2. Pots explicar l'agregació i desagregació de dades?

Dades agregades fa referència a la informació numèrica o no numèrica que es recull de múltiples fonts o sobre múltiples mesures, variables o individus i que es recopila en els resums de dades o els informes resums, principalment amb finalitats d'informació pública o anàlisi estadística.

Dades desagregades són les dades que s'han desglossat per les subcategories detallades, per exemple, per grup marginat, regió, gènere o nivell d'educació. Les dades desagregades poden revelar les privacions i les desigualtats que potser no es reflecteixen completament a les dades agregades.

3. Pots explicar els passos a seguir per gestionar llibres de treball lents d'Excel?

A continuació es mostren els passos que s'han seguit per gestionar els llibres de treball d'Excel lents:

  1. Utilitzeu taules d'Excel i rangs amb nom.
  2. Utilitzeu el mode de càlcul manual sempre que sigui possible.
  3. Eviteu les funcions volàtils.
  4. Eviteu les fórmules de matriu.
  5. Eviteu utilitzar una fila o una columna sencera a les referències.
  6. Converteix fórmules no utilitzades en valors.
  7. Feu ús de tècniques de fórmula més ràpides.
  8. Assegureu-vos de mantenir totes les dades de referència en un sol full.
Vegeu també Les 100 millors preguntes i respostes d'entrevista Ansible

4. Pots explicar com funciona PROC SQL?

PROC SQL es defineix com un potent procediment SAS7 base que combina la funcionalitat dels passos PROC i DATA en un sol pas. PROC SQL s'utilitza per ordenar, resumir, subconjunt, unir i concatenar els conjunts de dades, crear noves variables i també imprimeix els resultats o crea una taula nova o visualitza-ho tot en un sol pas.

5. Em pots explicar com crear històries a Tableau?

Utilitzem històries per fer el nostre cas més convincent mostrant com es connecten els fets i com es relacionen les decisions amb els resultats. Aleshores podem publicar La història a la xarxa o presentar-la al públic.

Aquí, cada punt de la història pot relacionar-se amb una vista o tauler de control diferent, o tota la història es pot relacionar amb la mateixa visualització que es veu en diferents etapes, amb diferents anotacions i filtres.

Per crear una història, seguiu els passos que s'indiquen a continuació:

  1. Feu clic a la pestanya Nova història. Llavors, Gràfic obre una nova història per a tu com a punt de partida.
  2. A la cantonada inferior esquerra de la pantalla, heu de triar una mida per a la vostra història. A continuació, trieu una de les mides predefinides o del conjunt d'una mida personalitzada en píxels.
  3. La vostra història obté el nom del títol a partir del nom del full predeterminat. Per editar el nom, heu de fer clic amb el botó dret a la pestanya del full i després triar Canvia el nom del full.
  4. Per començar a construir la vostra història, heu de fer doble clic en un full del costat esquerre per afegir-lo al vostre punt de la història.
  5. Ara, heu de fer clic a afegir un títol per resumir el punt de la història.
  6. Per ressaltar encara més la idea principal d'aquest punt de la història, podeu canviar el filtre o ordenar al camp de la vista. A continuació, podeu desar els vostres canvis fent clic a Actualitzar a la barra d'eines de la història que hi ha a sobre del quadre del navegador.

Fes una ullada al nostre Preguntes i respostes de l'entrevista de Tableau per obtenir més informació sobre Tableau.

Preguntes i respostes de l'entrevista d'analista de dades

6. Anomena els diferents tipus de prova d'hipòtesi?

A continuació s'enumeren alguns dels tipus de prova d'hipòtesis:

    Prova de normalitat:Aquesta prova s'utilitza per a la distribució normal en una mostra de població.Test de chi quadrat per a la independència:S'utilitza per a l'associació de significació entre les dues variables categòriques en una mostra de població determinada.Prova T:S'utilitza en una població de distribució normal on es desconeix la desviació estàndard i la mida de la mostra és comparativament més petita.Prova T de Welch:S'utilitza per comprovar la igualtat de mitjanes entre les dues mostres de població. També s'anomena prova t de variàncies desiguals de Welch.

7. Què entens per àrea d'impressió i com pots configurar-la a Excel?

L'àrea d'impressió a Excel és l'interval de cel·les que voleu imprimir sempre que imprimiu aquest full de treball en particular.

Per configurar l'àrea d'impressió a Excel, seguiu els passos següents:

  1. Heu de seleccionar les cel·les per a les quals voleu configurar l'àrea d'impressió.
  2. Aleshores, heu de fer clic a la pestanya Disseny de pàgina.
  3. A continuació, feu clic a l'àrea d'impressió.
  4. Feu clic a Establir àrea d'impressió.

8. Ens pots dir quins són els criteris per dir si un model de dades desenvolupat és bo o no?

A continuació s'esmenten els criteris per dir sobre el model, si és bo o dolent (Nota: la resposta a aquesta pregunta pot variar d'una persona a una altra).

  1. Les dades d'un bon model s'han de consumir fàcilment.
  2. Les dades han de ser escalables per a un bon model de dades.
  3. Un bon model de dades ha de proporcionar un rendiment previsible.
  4. S'ha d'adaptar fàcilment als canvis en els requisits.

9. Ens pots dir com seleccionar totes les cel·les en blanc a Excel?

Heu de seguir els passos indicats per seleccionar cel·les en blanc a Excel:

  1. Primer, heu de seleccionar tot el conjunt de dades i després premeu F5. Això obrirà un quadre de diàleg Anar a.
  2. Ara, feu clic al botó Especial, que obrirà el quadre de diàleg especial Anar a.
  3. Allà, heu de seleccionar els espais en blanc i fer clic a D'acord.

10. Quins són els diferents tipus d'unions?

A continuació es detallen els diferents tipus d'unions:

    Combinació interna: Aquesta unió retorna els registres que tenen valors coincidents a les dues taules.EXTERIOR JOIN ESQUERRA: Aquesta unió retorna tots els registres de la taula de l'esquerra i els registres coincidents de la taula de la dretaDRET EXTERIOR JOIN: Aquesta unió retorna tots els registres de la taula de la dreta i els registres coincidents de la taula de l'esquerraUNIR-SE EXTERIOR COMPLET: Aquesta unió retorna tots els registres quan hi ha una coincidència a la taula esquerra o dreta.
Preguntes d'entrevista de l'analista de dades - SQL Joins

Preguntes i respostes de l'entrevista d'analista de dades

11. Pots explicar la funció ANYDIGIT a SAS?

La funció ANYDIGIT a SAS s'utilitza per cercar en una cadena la primera ocurrència de qualsevol caràcter, que és un dígit. Si es troba algun d'aquests caràcters, ANYDIGIT retornarà la posició a la cadena d'aquest caràcter especificat. Si no es troba aquest tipus de caràcter, ANYDIGIT retornarà un valor de 0.

12. Explica la taula dinàmica i quines són les diferents seccions d'una taula dinàmica?

Una taula dinàmica és una característica de Microsoft Excel que ens permet resumir ràpidament grans conjunts de dades. És fàcil d'utilitzar, ja que requereix arrossegar i deixar anar files o capçaleres de columnes per crear informes.

Tenim quatre seccions en una taula dinàmica, és a dir,

  1. Zona de fila
  2. Zona de columna
  3. Zona de filtració
  4. Àrea de valors

13. Explica el terme Normalització i els diferents tipus de Normalització?

Normalització es pot definir com una tècnica de disseny de bases de dades que té com a objectiu reduir la redundància de dades i elimina qualsevol característica no desitjada com les anomalies d'inserció, actualització i supressió. Les regles de normalització divideixen una taula més gran en taules més petites i les enllacen mitjançant les relacions.

A continuació es detallen els tipus de normalització:

    1NF (primera forma normal): Aquí, cada cel·la de la taula ha de contenir un sol valor i cada registre ha de ser únic.2NF (segona forma normal): hauria d'estar en 1NF i hauria de tenir una clau primària d'una sola columna.3NF (tercera forma normal):No té dependències funcionals transitives.BCNF (Forma normal de Boyce-Codd):Una taula està en BCNF si és 3NF, i per a cada X ->Y, la relació X sempre hauria de ser la superclau de la taula.4NF (quarta forma normal): Si cap instància de taula de base de dades consta de dues o més dades independents i multivalor que especifiquen l'entitat rellevant, diem que està en la quarta forma normal.5NF (cinquena forma normal):Una taula només es troba a la 5a forma normal si està en 4NF i no es pot dividir en cap nombre de taules més petites sense perdre dades.6NF (Sisena forma normal): Encara està en discussió per experts en bases de dades.
Vegeu també Les 100 principals preguntes i respostes de l'entrevista de JavaScript

14. Què és la hipòtesi alternativa? Explicar?

Una hipòtesi alternativa s'enuncia com una diferència entre dues o més variables que prediuen els investigadors; és a dir, el patró observat de les dades no es deu a l'ocurrència casual.

15. Què és la hipòtesi nul·la?

Una hipòtesi nul·la es defineix com un tipus de conjectura que s'utilitza en les estadístiques que proposa que no hi ha cap diferència entre les característiques específiques d'una població o un procés de generació de dades.

Preguntes i respostes de l'entrevista d'analista de dades

16. Què és una col·lisió de taula hash?

Una situació en què els hash resultants de dos o més elements de dades del conjunt de dades U es mapegen a una ubicació similar a la taula hash es coneix com a col·lisió hash. Això vol dir que no permetrà emmagatzemar dues dades diferents a la mateixa ranura.

17. Pots explicar les diferències clau entre l'anàlisi de dades i la mineria de dades?

Anàlisi de dades Mineria de dades
Ofereix coneixements o prova la hipòtesi o el model d'un conjunt de dades.Identifica i descobreix un patró ocult en grans conjunts de dades.
Es fa amb dades estructurades, semiestructurades o no estructuradesEl seu Els estudis es basen majoritàriament en dades estructurades.
El principal és millorar hipòtesis o prendre decisions empresarials.La mineria de dades té com a objectiu fer que les dades siguin més utilitzables.
L'anàlisi de dades fa ús de models d'anàlisi i intel·ligència empresarial.La mineria de dades es basa principalment en mètodes matemàtics i científics per identificar patrons o tendències.

18. Pots explicar la neteja de dades en breu?

La neteja de dades es defineix com el procés de preparar les dades per a l'anàlisi eliminant o modificant les dades que són incorrectes, duplicades, incompletes, irrellevants o amb un format inadequat.

A continuació es mostren algunes maneres de netejar les dades:

  1. Elimina les observacions duplicades o irrellevants
  2. Corregir errors estructurals
  3. Filtreu els valors atípics no desitjats
  4. Gestionar les dades que falten
  5. Valida i control de qualitat

19. Què és el perfil de dades?

L'elaboració de perfils de dades és el mecanisme per examinar les dades disponibles a partir d'una font d'informació existent com una base de dades o un fitxer i recopilar les estadístiques o resums informatius sobre aquestes dades específiques.

20. Què és la validació de dades?

La validació de dades és un procés per comprovar l'exactitud i la qualitat de les nostres dades, realitzat principalment abans de la importació i el processament. També es considera una forma de neteja de dades. Ens assegura que quan realitzeu una anàlisi, els vostres resultats seran precisos.

Preguntes i respostes de l'entrevista d'analista de dades

21. Pots anomenar alguns dels eines principals que s'utilitzen per realitzar l'anàlisi de dades?

Algunes de les eines principals que s'utilitzen per dur a terme l'anàlisi de dades s'enumeren a continuació:

  1. Python
  2. R
  3. SAS
  4. Excel
  5. Power BI
  6. Gràfic
  7. Apache Spark

22. Pots anomenar els passos a seguir quan es treballa amb un projecte d'anàlisi de dades?

A continuació es detallen alguns dels passos importants:

  1. Plantejament del problema
  2. Neteja/preprocessament de dades
  3. Exploració de dades
  4. Modelatge
  5. Validació de dades
  6. Implementació
  7. Verificació

23. Pots anomenar algunes de les eines populars que s'utilitzen al Big Data?

Hi ha moltes eines disponibles per a Big Data. N'hem enumerat uns quants:

  1. HPCC
  2. Qubole
  3. Estadística
  4. pentaho
  5. Hadoop

24. Què és l'anàlisi de sèries temporals i on la fem servir?

L'anàlisi de sèries temporals es defineix com una tècnica estadística que tracta principalment amb dades de sèries temporals o anàlisi de tendències. En termes simples, les dades de sèrie temporal són les dades que es troben en una sèrie de períodes o intervals de temps específics.

L'anàlisi de sèries temporals s'utilitza en:

  1. Econòmic
  2. Previsió
  3. Previsió de vendes.
  4. Anàlisi pressupostària.

25. Pots anomenar algunes de les propietats dels algorismes de clustering?

Les propietats dels algorismes de clúster són les següents:

  1. Iteratiu
  2. Disjuntiva
  3. Dur i suau
  4. Plana o jeràrquica

Preguntes i respostes de l'entrevista d'analista de dades

26. Ens pots dir què són els valors atípics i com es detecten?

Un valor atípic en l'anàlisi de dades es defineix com una observació que es troba a una distància irregular d'altres valors diferents en una mostra aleatòria d'una població determinada.

L'examen de les dades per a les observacions inusuals que s'eliminen de la massa de dades, aquests punts sovint es coneixen com a valors atípics.

Algunes de les metodologies que s'utilitzen per detectar valors atípics són les següents:

  1. Mètode de desviació estàndard
  2. Mètode de box plot

27. Pots explicar els inconvenients de Data Analytics?

Els desavantatges de Data Analytics es mostren a continuació:

  1. La informació que s'obté mitjançant l'anàlisi de dades es pot fer un mal ús.
  2. Una de les feines més difícils de l'anàlisi de dades és seleccionar l'eina d'anàlisi correcta.
  3. El preu de les eines normalment depèn de les funcions i aplicacions que admeten. Poques eines són complexes i requereixen una formació adequada.

28. Explica el filtratge col·laboratiu?

El filtratge col·laboratiu té la capacitat de generar recomanacions més personalitzades mitjançant l'anàlisi de la informació de l'activitat passada d'un usuari determinat o l'historial d'altres usuaris que sigui de gust similar al d'un usuari determinat.

29. Pots anomenar algunes metodologies estadístiques utilitzades pels analistes de dades?

A continuació es mostren algunes de les metodologies estadístiques utilitzades pels analistes de dades:

  1. Anàlisi de clústers
  2. Assignació tècnica
  3. Estadística de classificació
  4. Metodologies bayesianes
  5. procés de Markov

30. Expliqueu l'algorisme K-means?

K-Means Clustering es defineix com un algorisme d'aprenentatge no supervisat que agrupa el conjunt de dades sense etiquetar en diversos clústers. Es pot definir com un algorisme iteratiu que divideix el conjunt de dades sense etiquetar en k grups diferents de manera que cada conjunt de dades només pertanyi a un grup que tingui les mateixes propietats.

Preguntes i respostes de l'entrevista d'analista de dades

31. Explica el mètode d'imputació KNN?

Amb l'ajuda del mètode KNN, es pot imputar (assignar) un valor perdut categòric amb la majoria entre els seus k veïns més propers. El valor mitjà dels k veïns més propers es considera com la predicció d'un valor numèric perdut, conegut com la regla de la majoria de la mitjana.

32. Què és un N-gram?

Un n-grama es defineix com una seqüència connectada de n elements en el text o el discurs donat. Un N-grama és un model de llenguatge probabilístic que s'utilitza per predir el següent ítem en una seqüència determinada, com en (n-1).

33. Pots anomenar algunes de les metodologies de validació de dades utilitzades en l'anàlisi de dades?

A continuació es mostren algunes de les metodologies de validació de dades utilitzades en l'anàlisi de dades:

  1. Validació a nivell de formulari
  2. Validació a nivell de camp
  3. Validació de criteris de cerca
  4. Validació de l'estalvi de dades

34. Explica la distribució normal?

La distribució normal, també anomenada distribució gaussiana, és una distribució de probabilitat que és simètrica respecte a la mitjana, mostrant que les dades properes a la mitjana són més freqüents que les dades que estan lluny de la mitjana. La distribució normal, quan es representa en un gràfic, apareix com una corba de campana.

Vegeu també Les 100 millors preguntes i respostes d'entrevista Ansible

35. Pots explicar el avantatges del control de versions?

El control de versions ens permet identificar diferències, comparar fitxers i combinar els canvis abans de comprometre qualsevol codi.

A continuació s'enumeren alguns avantatges del control de versions:

  1. Ens ajuda a fer un seguiment de les compilacions d'aplicacions perquè podrem identificar quina versió s'utilitza en desenvolupament, control de qualitat i producció.
  2. Ens ajuda a mantenir un historial complet dels fitxers del projecte perquè sigui útil quan hi hagi una avaria del servidor central.
  3. Ens permet veure els canvis realitzats en el contingut de diversos fitxers.
  4. És excel·lent quan es tracta d'emmagatzemar i mantenir de manera segura diverses versions i variants dels fitxers de codi.

36. Pots diferenciar entre variància i covariància?

Desacord Covariància
Es defineix com la propagació d'un conjunt de dades al voltant del seu valor mitjà.És la mesura de la relació direccional entre les dues variables aleatòries.
S'utilitza per mesurar la volatilitat d'un actiu.Especifica els rendiments de dues inversions diferents durant el període de temps quan es compara amb diferents variables.

37. Ens pots dir com? per abordar problemes de fonts múltiples?

  1. Cal saber quines dades combinar
  2. Fer ús de la visualització de dades
  3. Aneu a les eines de combinació de dades.
  4. Crear serveis de bases de dades virtuals mitjançant l'abstracció

38. Pots distingir entre el perfil de dades i la mineria de dades?

Elaboració de perfils de dades Mineria de dades
Es fa en diferents etapes de desenvolupament del magatzem de dades.És un procés d'identificació dels patrons a la base de dades preconstruïda.
L'objectiu principal del perfil de dades és identificar les dades corruptes en l'etapa inicial de les dades per poder corregir-les en el moment adequat.És el mecanisme per avaluar la base de dades existent i convertir les dades en brut en informació útil.

39. Ens pots explicar algunes responsabilitats importants d'un analista de dades?

  1. Haurien de recollir i interpretar les dades.
  2. Cal analitzar els resultats.
  3. Han d'informar dels resultats als membres rellevants de l'empresa.
  4. Han d'identificar patrons i tendències en conjunts de dades.
  5. Han de definir nous processos de recollida i anàlisi de dades.

40. Pots explicar el Diagrama d'afinitat?

El diagrama d'afinitat organitza un gran nombre d'idees en les seves relacions naturals. És una sortida organitzada d'una sessió de pluja d'idees. L'utilitzem principalment per generar, consolidar i organitzar informació relacionada amb un producte, tema complex o problema.

Preguntes i respostes de l'entrevista d'analista de dades

41. Ens pots parlar de la visualització de dades?

La visualització de dades es defineix com el procés de posar les dades en forma de gràfic, gràfic o altres formats visuals que ajuden a l'anàlisi i interpretació de la informació. Els visuals de dades ajuden a presentar les dades analitzades de manera que siguin accessibles i comprometin les diferents parts interessades.

42. Què és un pla de recollida de dades?

Un pla de recollida de dades ens garanteix que les dades que es recullen durant l'anàlisi o el projecte de millora són útils i es recullen adequadament.

43. Pots explicar-ho Ecosistema Hadoop?

Hadoop Ecosystem és una plataforma que ofereix diversos serveis per resoldre problemes de big data. Inclou els projectes Apache i diferents eines i solucions comercials.

Tenim quatre elements principals de Hadoop, és a dir,

  1. HDFS
  2. MapReduce
  3. FILAT
  4. Hadoop Comú

44. Explica el terme Imputat?

La imputación és la tècnica de substitució de les dades que falten per valors substituïts. Durant l'anàlisi de les dades, les dades que falten poden causar un problema.

Els mètodes d'imputació habituals són:

  1. Imputación única
  2. Mitjana d'imputació
  3. Imputació de coberta freda
  4. Imputació de regressió
  5. Imputació de regressió estocàstica
  6. Substitució
  7. Imputació de coberta freda

45. Ens pots dir el estil de sintaxi bàsica per escriure codi en SAS?

  1. Utilitzeu l'espai adequat per separar components en una instrucció de programa SAS.
  2. Assegureu-vos d'acabar totes les afirmacions amb un punt i coma.
  3. Escriviu una instrucció DATA per anomenar el conjunt de dades.
  4. Escriviu una instrucció INPUT per anomenar les variables del conjunt de dades donat.
  5. Finalitzeu el programa SAS amb una instrucció RUN.

46. Què és intercalar a SAS?

L'entrellaçat a SAS es defineix com la combinació dels conjunts de dades SAS ordenats individualment en un conjunt de dades ordenat gran. Els conjunts de dades es poden intercalar utilitzant la instrucció SET i la instrucció BY.

47. Explica el terme agrupació?

Agrupació

L'agrupament és el mecanisme de dividir la població o els punts de dades en una sèrie de conjunts de manera que els punts de dades dels mateixos grups siguin similars als d'altres punts de dades del mateix grup.

48. Quina és la condició per utilitzar la prova T o la prova Z?

La prova T s'utilitza quan tenim una mida de mostra inferior a 30, i la prova Z s'utilitza quan tenim una prova de mostra superior a 30.

49. Què és la Taula de la Veritat?

La Taula de Veritat és una col·lecció de fets que determina la veritat o la falsedat d'una proposició.

Tenim tres tipus, és a dir,

  1. Fotografia taula de la veritat
  2. Taula de fets sense veritat
  3. Taula de veritat acumulada

50. Què és la desviació estàndard?

La desviació estàndard s'utilitza per mesurar qualsevol grau de variació en un conjunt de dades. Mesura amb precisió la dispersió mitjana de les dades al voltant de la mitjana.

Preguntes i respostes de l'entrevista d'analista de dades

51. Què són les col·lisions a les taules hash?

Es diu que es produeix una col·lisió quan una funció hash s'assigna a dues claus diferents a la mateixa adreça de taula. Es tracta d'un esquema de repetició simple on es verifica la següent ranura de la taula en cas de col·lisió.

52. Per què el 'naïf Bayes' és ingenu?

És ingenu perquè suposa que tots els conjunts de dades són igualment importants i independents, cosa que no és el cas en l'escenari del món real.

53. Explica el terme Data Wrangling?

La disputa de dades es pot definir com el procés de neteja i unificació de conjunts de dades complexos i desordenats per a un fàcil accés i anàlisi.

54. Explica el terme Data blending?

La combinació de dades és la tècnica de combinar dades de diverses fonts en un conjunt de dades que funcioni.

55. Explica el terme Data joining?

La unió de dades es realitza quan les dades provenen de la mateixa font.

56. Explica l'anàlisi descriptiva?

L'anàlisi descriptiva es defineix com la interpretació de dades històriques per entendre millor els canvis que s'han produït en una empresa. Descriu l'ús d'una sèrie de dades històriques per fer comparacions.

Et dóna una idea de la distribució de les dades. Us ajuda a detectar errors ortogràfics i atípics i us permet identificar associacions entre variables, de manera que us prepareu per dur a terme més anàlisis estadístiques.

57. Explica l'anàlisi predictiva?

L'anàlisi predictiva es defineix com l'ús de dades, algorismes estadístics i tècniques d'aprenentatge automàtic per identificar la probabilitat de resultats futurs basats en dades històriques.

58. Explica l'anàlisi prescriptiva?

L'anàlisi prescriptiva fa ús aprenentatge automàtic per ajudar les empreses a decidir el curs d'acció basant-se en les prediccions del programa informàtic. Això treballa amb anàlisi predictiva, que utilitza les dades per determinar resultats a curt termini.

59. Anomena els diferents tipus de tècniques de mostreig?

A continuació es detallen els diferents tipus de tècniques de mostreig.

  1. Mostreig aleatori simple
  2. Mostreig sistemàtic
  3. Mostreig per conglomerats
  4. Mostreig estratificat
  5. Mostreig amb criteri o amb finalitat

60. Explica el terme Sobreajustament?

El sobreajust es refereix al model que modela molt bé les dades d'entrenament. Vol dir que el soroll o les fluctuacions aleatòries de les dades d'entrenament es recullen i s'aprenen com a conceptes pel model. El problema aquí és que aquests conceptes no s'apliquen a les dades noves i té un impacte negatiu en la capacitat de generalització del model.

Molta sort amb la teva entrevista amb l'analista de dades. Esperem que les nostres preguntes i respostes de l'entrevista d'anàlisi de dades us siguin d'ajuda. També podeu consultar Analista de negoci Preguntes i respostes de l'entrevista , que et pot ser d'alguna ajuda.