option
Cuestiones
ayuda
daypo
buscar.php

IPMD

COMENTARIOS ESTADÍSTICAS RÉCORDS
REALIZAR TEST
Título del Test:
IPMD

Descripción:
Ingeniería del Procesado masivo de datos

Fecha de Creación: 2024/03/04

Categoría: Arte

Número Preguntas: 80

Valoración:(8)
COMPARTE EL TEST
Nuevo ComentarioNuevo Comentario
Comentarios
NO HAY REGISTROS
Temario:

Cuando ejecutamos una acción sobre un DataFrame en Spark... Spark crea un job para llevar a cabo esa acción. Cualquier job siempre tiene como mínimo dos stages puesto que siempre habrá que mover datos. Para que todos los procesadores estén siempre ocupados en alguna tarea, lo idea es que el DataFrame tenga menos particiones que CPUs totales. El job creado por Spark para realizar la acción nunca tiene más de una stage porque Spark nunca mueve datos entre nodos.

¿Cuál de las siguientes afirmaciones NO es cierta respecto a los Estimadores de Spark MLlib?. Siempre son modelos de Machine Learning, antes de ser entrenados. Siempre poseen un método fit. El método fit aplicado sobre ellos devuelve un Transformador. Pueden formar parte de un Pipeline.

Para usar la librería de procesado de flujos de datos de Spark: Se recomienda usar DStreams, basados en RDDs. Se recomienda usar streaming dataframes. Se recomienda usar RDDs con funciones específicas de streaming. Se recomienda usar Pipelines.

Elija la respuesta INCORRECTA sobre Impala: Está orientado a consultas interactivas. Está orientado a consultas en bloque. Realiza las consultas sobre su propia red de demonios. Trabaja principalmente en memoria.

Cuál de las siguientes afirmaciones sobre Impala y Hive NO es cierta?. Ambas herramientas ejecutan sobre Spark. Ambas herramientas son compatibles con un driver ODBC para conectarnos a ellas. Ambas herramientas admiten consultas en lenguaje SQL. Ambas pueden consultar datos almacenados en HDFS.

Seleccione la respuesta INCORRECTA sobre Apache Hive: Permite realizar consultas SQL sobre grandes conjuntos de datos distribuidos. Es una base de datos distribuida en un clúster Hadoop. Está indicado principalmente para pocesado OLAP (en bloque). Es una tecnología de código abierto.

Cuál de los siguientes casos de uso es típico de Kafka?. Una web envía constantemente información sobre clicks a Spark, que calcula resúmenes en tiempo real del comportamiento de los usuarios. Un científico de datos utiliza el histórico de su empresa para entrenar un modelo predictivo. Un analista de negocio lanza consultas SQL sobre datos masivos almacenados en un cluster. Ninguno de los casos anteriores es habitual en Kafka.

Cuando un consumidor lee mensajes de Kafka (seleccione la respuesta correcta): Lee los mensajes en orden dentro de cada partición. Lee los mensajes en orden dentro de cada topic. Lee los mensajes en orden dentro de cada bróker. Kafka no garantiza ningún tipo de orden al consumir los mensajes.

¿Cómo se relacionan Apache Spark y Apache Kafka?. Spark puede leer desde y escribir en Kafka datos en tiempo real. Spark puede guardar los DataFrames como tablas en el almacén de metadatos (metastore) de Kafka. Kafka sólo puede funcionar en un cluster de ordenadores donde ya esté instalado Spark. Spark sólo puede funcionar en un cluster de ordenadores donde ya esté instalado Kafka.

Durante el procesamiento de datos con Spark, si un nodo falla o cae: Spark lo gestiona automáticamente y recalcula los datos necesarios en otra máquina gracias al DAG. El usuario debe hacer el código robusto para detectarlo y recuperarse. No es necesario recalcular porque Spark mantiene cada partición de los RDD replicada en varias máquinas. El usuario debe indicar en su código una función de callback que Spark invocará en caso de caída de algún nodo.

Cómo efectúa Impala las consultas?. Mediante un motor de ejecución configurable que puede ser Spark, MapReduce o Tez. A través de sus propios procesos demonio creados en cada máquina del cluster. A través de Apache Tez al tratarse de consultas SQL interactivas. A través de Apache Spark ya que los cáclulos los efectúa en memoria.

La filosofía que ha motivado los Pipelines de Spark MLlib es... Que los datos con los que se hacen predicciones siempre pasen por las mismas etapas que los datos de entrenamiento. Optimizar el rendimiento de los algoritmos de Machine Learning. Disminuir la cantidad de memoria RAM que consumen los algoritmos. Ninguna de las respuestas anteriores es correcta.

Se quiere utilizar la plataforma Google Cloud para desplegar un clúster en el que se ejecuten trabajos Spark para procesado en bloque de grandes cantidades de datos. Elija la respuesta correcta: Sólo es posible conseguir el objetivo desplegandO un clúster mediante el servicio Dataproc. La única forma de desplegar dicho clúster es usando varias instancias de Google Compute Engine y configurarlas manualmente para crear el clúster Spark. No es posible desplegar un clúster Spark en Google Cloud. Ninguna de las anteriores.

Si nos fijamos en los tres grandes proveedores de servicios de Cloud Computing en la actualidad... A. Cada proveedor permite desplegar exclusivamente instancias de bases de datos relacionales propietarias, de ese proveedor. B. Sólo permiten desplegar bases de datos relacionales que sean open source, como MySQL, PostgreSQL, etc. C. Los proveedores cloud no incluyen entre sus servicios el despliegue de bases de datos relacionales. D. Ninguna de las opciones anteriores es cierta.

Completa la siguiente frase: - Cuando creamos una aplicación en un notebook con Pyspark, el kernel del notebook tiene el rol de .... (1), y el procesamiento distribuido de los datos se lleva a cabo en los ... (2) que se crean en los ... (3) del cluster. A. (1) broker, (2) executors, (3) nodos. B. (1) driver, (2) brokers, (3) nodos. C. (1) broker, (2) nodos, (3) workers. D. (1) driver, (2) executors, (3) nodos.

¿Por qué actualmente no se utilizan los RDDs en Spark?. A. Porque el código es menos intuitivo y más propenso a errores por parte del programador, además de no estar optimizados, a diferencia de los DataFrames. B. Porque los RDDs escriben los resultados en disco el resultado intermedio de los cálculos. C. Porque no están disponibles en Python (pyspark), sino sólo en lenguaje Scala. D. Las respuestas A y B son correctas.

Si la variable datos_df almacena un DataFrame de Spark, ¿qué ocurre cuando hacemos datos_df.cache() ?. A. Spark materializa el DataFrame en ese momento. B. Spark escribe el DataFrame en disco. C. Spark libera el contenido del DataFrame de la memoria. D. Spark marca el DataFrame para que no se libere cuando sea materializado (duda).

Cuál de los siguientes casos de uso es POCO adecuado para HDFS?. A. Almacenar información histórica de las pólizas de una compañía aseguradora desde su creación. B. Migrar distintas bases de datos tradicionales de una empresa de telecomunicaciones para realizar cuadros de mando sobre esos datos. C. Almacenar la información de las pólizas de una compañía aseguradora para ser consultada por las agencias cuando interactúan con los clientes. D. Montar el lago de datos para efectuar la analítica sobre los clientes de una empresa de energía eléctrica.

Hemos montado el Data Lake de una gran cadena de hipermercados de alcance internacional, y queremos empezar a explorarlos y aplicar analítica descriptiva y predictiva con los datos históricos. ¿Cuál de las siguientes tecnologías probablemente NO vamos a necesitar?. A. Apache Spark. B. Apache Kafka. C. Apache Hive. D. Una herramienta de Business Intelligence.

Qué tecnologías se asimilan a Apache Hive?. A. Amazon Redshift, Cloud SQL, Azure SQL Database. B. Amazon EMR, Google Cloud Dataproc, Azure Databricks. C. Amazon S3, Google BigQuery, Azure DataLake Storage. D. Amazon Redshift, Google BigQuery, Azure Synapse.

Qué componente de HDFS puede ser un punto único de fallo (SPOF)?. A. Datanode. B. Namenode. C. Filenode. D. Ninguna de las respuestas anteriores es correcta.

Se precisa hacer un procesado de datos con Spark. Señale la respuesta correcta: A. Es mejor usar la API de RDDs, porque el motor Catalyst puede aplicar optimizaciones a los mismos. B. Es mejor usar la API estructurada, porque sin tener en cuenta el motor Catalyst, el plan de ejecución que crea Spark para la API estructurada es el óptimo. C. Los desarrolladores de Spark recomiendan usar la API estructurada porque permiten optimizar operaciones con el motor Catalyst. D. Es mejor usar consultas SQL desde la función sql de la SparkSession, porque el plan de ejecución resultante es más eficiente que usando las funciones de la API estructurada (filter, where, alias...).

Elija la respuesta INCORRECTA sobre Impala: A. Está orientado a consultas interactivas. B. Está orientado a consultas en bloque. C. Realiza las consultas sobre su propia red de demonios. D. Trabaja principalmente en memoria.

En Spark, si no cacheamos un DataFrame que utilizaremos en varias operaciones independientes ... A. Podríamos tardar más tiempo del estrictamente necesario. B. Podríamos obtener resultados incorrectos. C. Sería imposible reconstruir las particiones perdidas si falla un nodo. D. Todas las opciones anteriores son ciertas.

¿Cómo efectúa Impala las consultas?. A. Mediante un motor de ejecución configurable que puede ser Spark, MapReduce o Tez. B. A través de sus propios procesos demonio creados en cada máquina del cluster. C. A través de Apache Tez al tratarse de consultas SQL interactivas. D. A través de Apache Spark ya que los cáclulos los efectúa en memoria.

¿Cuál de las siguientes afirmaciones acerca de Hive y BigQuery NO es cierta?. A. Ambos son sistemas de Data Warehouse. B. Ambos poseen su propio motor de ejecución y no necesitan una herramienta externa para ejecutar consultas. C. Ambas son herramientas open-source. D. Las opciones B y C son falsas.

Para comunicar los servicios contratados (almacenamiento, computación, base de datos...) en una plataforma de cloud computing (elija la respuesta correcta): A. Todos los servicios existentes en una plataforma de cloud computing para todos los usuarios de la misma están comunicados entre sí automáticamente. B. No es posible comunicar servicios entre sí dentro de la plataforma de cloud computing, sino que es necesario crear una red externa para comunicarlos. C. Cada usuario de la plataforma de cloud computing puede crear únicamente una red virtual dentro de la plataforma para conectar todos los servicios que contrate. D. Ninguna de las anteriores.

Cómo consigue Kafka la escalabilidad?. A. Gracias a que está soportado por HDFS el cual es intrínsecamente escalable. B. Gracias a que utiliza Spark como motor de procesamiento, y Spark es escalable al distribuir el cómputo automáticamente. C. Gracias a que las particiones de un topic están replicadas en varios brokers y esto permite adaptarnos a un incremento de productores o de consumidores. D. Todas las respuestas anteriores son correctas.

Cuál de las siguientes afirmaciones es correcta?. A. Spark nunca requiere movimiento de datos entre nodos, a diferencia de MapReduce. B. Spark resulta más intuitivo y fácil de aprender que el paradigma MapReduce. C. Spark no permite procesar datos en tiempo real, a diferencia de MapReduce. D. Ninguna de las respuestas anteriores es correcta.

Cuál de las siguientes afirmaciones sobre Impala y Hive NO es cierta?. A. Ambas herramientas ejecutan sobre Spark. B. Ambas herramientas son compatibles con un driver ODBC para conectarnos a ellas. C. Ambas herramientas admiten consultas en lenguaje SQL. D. Ambas pueden consultar datos almacenados en HDFS.

Cuál de las siguientes afirmaciones sobre los servicios de cloud computing es cierta: A. Están diseñadas explícitamente para resolver problemas de big data y machine learning. B. No son una buena elección para desarrollar aplicaciones móviles. C. Entre las aplicaciones que más usan servicios de cloud computing están las aplicaciones IoT (Internet of Things). D. Ninguna de las anteriores.

Si nos fijamos en los tres grandes proveedores de servicios de Cloud Computing en la actualidad... A. Cada proveedor permite desplegar exclusivamente instancias de bases de datos relacionales propietarias, de ese proveedor. B. Sólo permiten desplegar bases de datos relacionales que sean open source, como MySQL, PostgreSQL, etc. C. Los proveedores cloud no incluyen entre sus servicios el despliegue de bases de datos relacionales. D. Ninguna de las opciones anteriores es cierta.

Cuando utilizamos herramientas de cloud computing de un proveedor, ... A. Los desarrolladores no pueden instalar tecnologías open-source si usan la infraestructura de ese proveedor. B. Los desarrolladores pueden usar herramientas open-source para cualquier tarea. C. Los desarrolladores tienen que usar los servicios PaaS de ese proveedor. D. El desarrollo debe llevarlo a cabo un equipo de desarrolladores del proveedor.

En una tabla manejada de Hive ... A. El borrado de la tabla implica el borrado de los datos. B. El borrado de la tabla no afecta a los datos, que permanecerán en la misma ubicación. C. Al ser manejada por Hive, las herramientas de BI no pueden acceder a esos datos. D. Ninguna de las opciones anteriores es correcta.

Se quiere ajustar un modelo predictivo de análisis de sentimiento a un conjunto masivo de textos, usando Spark MLlib. Antes de entrenar el algoritmo predictivo, es necesario pre-procesarlos (dividir en palabras, quitar palabras sin significado, y codificarlas como números). Algunas de estas operaciones son estimadores y otras son transformadores. ¿Cuál sería la manera correcta de proceder?. A. Crear estimadores y transformadores independientes, haciendo fit o transform sobre cada uno según corresponda. B. Crear un pipeline sólo con los estimadores, ejecutar fit sobre el pipeline y después ejecutar transform sobre los transformadores,. C. Crear un pipeline con todos los estimadores y transformadores necesarios, y ejecutar fit sobre el pipeline. D. Crear un pipeline sólo con los transformadores, ejecutar fit sobre el pipeline y después usar transform sobre los estimadores.

¿Cómo utilizaría Kafka un programador de Java?. A. Importando la dependencia de Kafka para Java en su programa. B. Necesita primero instalar Spark e invocarlo desde Java. C. Para utilizar Kafka es necesario hacerlo desde el lenguaje Python. D. El programador no puede utilizar Kafka directamente sino que son las herramientas cloud quienes lo invocan.

¿Qué sucede si en una línea de código utilizamos una acción, por ejemplo n = df.write("/mifichero.csv"), y en la siguiente línea hacemos df.cache()?. A. Obtenemos un error porque el DataFrame ya no existe cuando llegamos a cache(). B. El efecto beneficioso de cache no lo veremos hasta que hagamos una nueva acción sobre df. C. Gracias a write(), el DataFrame se ha materializado, y como hemos indicado cache, permanece en memoria. D. Ninguna de las respuestas anteriores es cierta.

Hemos montado el Data Lake de una gran cadena de hipermercados de alcance internacional, y queremos empezar a explorarlos y aplicar analítica descriptiva y predictiva con los datos históricos. ¿Cuál de las siguientes tecnologías probablemente NO vamos a necesitar?. A. Apache Spark. B. Apache Kafka. C. Apache Hive. D. Una herramienta de Business Intelligence.

Se quiere desplegar un producto big data en una plataforma de cloud computing. Por requisitos del producto, se requiere tener el mayor control posible del servidor o servidores donde se despliegue dicho producto. ¿Qué solución de las disponibles elegiría?. A. IaaS. B. PaaS. C. FaaS. D. SaaS.

Cuál de las siguientes situaciones no es habitual en Spark Structured Streaming?. A. Entrenar un modelo predictivo en tiempo real. B. Refrescar una agregación que estamos guardando en una tabla. C. Comprobar y consolidar datos recibidos en tiempo real antes de guardarlos. D. Todas las respuestas anteriores son habituales con Spark Structured Streaming.

En el sistema de ficheros HDFS, cuando se solicita la escritura de un fichero: A. El namenode accede a los datanodes para escribir los bloques. B. El namenode envía el contenido de los bloques del fichero a los datanodes. C. El cliente envía el contenido de los bloques del fichero a namenode. D. El cliente envía el contenido de los bloques del fichero a los datanodes.

La redundancia en HDFS se consigue: A. Usando discos de almacenamiento externos al clúster. B. Copiando varias réplicas de los bloques de un fichero en el mismo nodo. C. Copiando varias réplicas de los bloques de un fichero en diferentes nodos. D. Copiando una réplica de los bloques de un fichero en el namenode, y otras de backup en los datanodes.

Para cargar datos en un dataframe de Spark, podemos: k pueda cargar los datos. A. Pedir a Spark que infiera el esquema para que asigne tipos más específicos que String, si procede. B. No especificar esquema ni pedir a Spark que lo infiera, para obtener el tipo más adecuado para cada campo. C. No especificar esquema porque la inferencia de esquema que hace el propio Spark asigna el tipo correcto automáticamente sin coste de eficiencia. D. Especificar explícitamente y obligatoriamente el esquema para que Spark pueda cargar los datos.

.En Impala, el proceso que lleva a cabo las consultas (las planifica, las distribuye a otras máquinas, lee y escribe datos, etc) es. A. statestored. B. stated. C. catalogd. D. Impalad.

Los mensajes que una aplicación productora envía a Kafka (seleccione la respuesta correcta): A. Se almacenan en el clúster de Kafka de forma indefinida y sólo se pueden borrar de forma manual. B. Se almacenan en memoria del clúster de Kakfa hasta que los lee el primer consumidor, y una vez leído se borran de memoria. C. Se almacenan en almacenamiento persistente del clúster de Kafka hasta que los lee el primer consumidor, y una vez leído se eliminan. D. Se almacenan en el clúster de Kafka y se eliminan tras cierto tiempo en el clúster o cuando el volumen de mensajes alcanza cierto umbral, según configuración.

Cuál de las siguientes afirmaciones sobre Kafka es cierta?. A. Kafka utiliza Spark como motor de ejecución. B. Un grupo de mensajes con la misma estructura se denomina broker. C. Es una cola distribuida para paso de mensajes de la que las aplicaciones pueden leer o escribir. D. Las opciones B y C son correctas.

Qué afirmación sobre los metadatos de HDFS es cierta?. A. Se almacenan en el metastore de Hive. B. Se almacenan en el datanode federado. C. Son datos acerca de la ubicación física de los bloques que forman cada fichero. D. Sólo se consultan en caso de fallo del namenode.

HDFS está optimizado para ficheros. A. modificados frecuentemente. B. de tamaño grande. C. de tamaño mediano. D. de tamaño pequeño.

Cuál de los siguientes casos de uso es típico de Kafka?. A. Una web envía constantemente información sobre clicks a Spark, que calcula resúmenes en tiempo real del comportamiento de los usuarios. B. Un científico de datos utiliza el histórico de su empresa para entrenar un modelo predictivo. C. Un analista de negocio lanza consultas SQL sobre datos masivos almacenados en un cluster. D. Ninguno de los casos anteriores es habitual en Kafka.

Cuando un consumidor lee mensajes de Kafka (seleccione la respuesta correcta): A. Lee los mensajes en orden dentro de cada partición. B. Lee los mensajes en orden dentro de cada topic. C. Lee los mensajes en orden dentro de cada bróker. D. Kafka no garantiza ningún tipo de orden al consumir los mensajes.

En el sistema de ficheros HDFS, cuando se solicita la lectura de un fichero: A. Es el cliente quien proporciona los metadatos al namenode. B. Es el namenode quien proporciona los metadatos al cliente. C. Es el namenode quien proporciona los bloques del fichero al cliente. D. Es el datanode quien proporciona los metadatos al cliente.

Una desventaja importante de HDFS es que ... A. No permite almacenar un archivo de tamaño superior al de cualquier disco duro del cluster. B. No permite recuperar los datos que hubiese en un datanode si ese nodo se quemase. C. Es volátil, es decir, lo que almacenan los datanodes se pierde pasado un tiempo. D. No permite operaciones de modificación de ficheros existentes.

Seleccione la respuesta correcta sobre los dataframes de Spark: A. Son una estructura de datos que envuelve un RDD de objetos tipo Row. B.Una ventaja sobre los RDD es que los dataframes no son inmutables. C.No es posible acceder al RDD envuelto por un dataframe. D. Al igual que los RDD, los dataframes están distribuidos en almacenamiento persistente de los nodos worker.

Cuál de las siguientes opciones no es correcta acerca del módulo Spark Streaming?. A.La forma de procesar los datos es en microbatches. B. Solo tiene API para RDDs que todavía no ha sido migrada a DataFrames. C.Gracias a Structured Streaming se puede utilizar la API estructurada definida en Spark SQL. D.La fuente de datos más habitual cuando usamos Spark Streaming es Kafka.

Seleccione la respuesta INCORRECTA sobre Apache Hive: A.Permite realizar consultas SQL sobre grandes conjuntos de datos distribuidos. B.Es una base de datos distribuida en un clúster Hadoop. C. Está indicado principalmente para pocesado OLAP (en bloque). D.Es una tecnología de código abierto.

Qué es lo que está replicado en Kafka?. A.Cada topic está replicado en varios productores. B.Cada broker está replicado en varios consumidores. C. Cada partición está replicada en varios brokers. D.Cada productor está replicado dentro de varios topics.

Las transformaciones de Spark. A.No devuelven nada. B. Devuelven otras transformaciones. C.Devuelven un RDD. D.Devuelven un valor.

Se quiere desplegar una base de datos SQL en una plataforma de cloud computing. El equipo de desarrolladores es experto en diseño y gestión de bases de datos SQL, pero no es experto en administración de sistemas. ¿Qué opción de las disponibles sería la más adecuada?. A. Usar un servicios IaaS. B. Usar un servicio PaaS. C. Usar un servicio SaaS. D. Usar un servicio on-premises.

Cuál de los siguientes servicios de seguridad NO ofrecen las plataformas de cloud computing estudiadas: A. Responsabilidad sobre los datos de la aplicación. B. Gestión de identidad. C. Control de acceso. D. Autenticación y autorización.

Cuál de las siguientes NO es una ventaja de los servicios de cloud computing: A. Acceso físico a las máquinas que proporcionan el servicio. B. Elasticidad. C .Alta disponibilidad del servicio. D. Robustez ante fallos.

El proceso que se crea en cada nodo del cluster al arrancar una aplicación con Spark se denomina... A.Worker. B.Datanode. C. Executor. D.Broker.

Cuando tenemos un DataFrame de Spark en la variable mi_df y ejecutamos mi_df.write.parquet("/tmp/datos.parquet") ... A. Spark crea en la carpeta /tmp de HDFS tantos ficheros Parquet como particiones tenga el DataFrame. B. Spark crea en la carpeta /tmp de HDFS un fichero Parquet llamado datos.parquet cuyo tamaño es igual al total del DataFrame. C. Spark crea una nueva carpeta llamada /tmp/datos.parquet y dentro de ella se crean tantos ficheros distintos como particiones tenga el DataFrame. D. Spark crea en la carpeta /tmp de HDFS un único fichero Parquet llamado datos.parquet formado por tantos bloques de HDFS como particiones tuviera el DataFrame.

Completa la terna: Dataproc, Azure HD Insight, ... A.Amazon SageMaker. B.Amazon S3. C. Elastic Map Reduce. D.Ninguna de las opciones anteriores es correcta.

La pieza VectorAssembler de MLlib: A. Es un estimador para entrenar modelos vectoriales como RandomForest. B .Es un estimador genérico de algoritmos distribuidos. C. Es un transformador que crea una nueva columna de tipo vector fusionando columnas existentes. D. Es un transformador que codifica los valores de una variable categórica.

En cualquiera de las plataformas de cloud computing estudiadas, los recursos de computación se distribuyen a lo largo de todo el mundo. Elija la respuesta correcta: A. Cualquiera de los servicios disponibles se ejecutan siempre en los recursos de computación más cercanos al desarrollador. B. Se deben escoger los recursos de computación más cercanos a la ubicación del desarrollador, ya que sólo son accesibles desde localizaciones cercanas. C. Es recomendable elegir recursos de computación cercanos al desarrollador de la aplicación desplegada. D. Es aconsejable elegir recursos de computación cercanos a los usuarios finales de la aplicación desplegada.

La herramienta Dataproc de Google Cloud... A. Permite desplegar al vuelo un cluster que trae instaladas herramientas big data como Spark, HDFS y Kafka. B. Permite desplegar al vuelo una base de datos relacional de Google. C. Permite descargar HDFS y Spark para instalarlos y usarlos en nuestro ordenador portátil doméstico. D. Ninguna de las respuestas anteriores es cierta.

Para utilizar una cola de Kafka desde el lenguaje de programación Java ... A. Basta descargar e importar la librería de Kafka para Java, y tener previamente Kafka instalado y corriendo en un cluster. B. Es necesario tener instalado Spark en el mismo cluster además de Kafka. C. Es necesario tener instalado HDFS en el mismo cluster además de Kafka. D. No es posible utilizar Kafka desde Java; es necesario hacerlo desde Python.

¿Cuál de las siguientes tecnologías es más similar a BigQuery?. A.X. B.Apache Kafka. C.Apache Spark. D.HDFS.

Cuál es la mejor opción si queremos consultar mediante SQL un fichero masivo que ya existe y está almacenado en HDFS?. A. Crear un transformer de MLlib para transformar la consulta SQL en trabajos distribuidos de Spark. B. Crear una tabla manejada de Hive para poder consultar el fichero de forma optimizada. C. Crear un cluster de Kafka para consultar los datos del fichero en tiempo real mediante SQL. D. Crear una tabla externa de Hive apuntando a la ubicación del fichero.

Cómo se relacionan Spark y Kafka?. A. Kafka puede escribir en Spark para procesar en tiempo real. B. Spark puede escribir en Kafka datos calculados en tiempo real. C. Spark puede leer de Kafka datos que transporta en tiempo real. D. Las opciones B y C son correctas.

Seleccione la respuesta INCORRECTA sobre los dataframes de Spark: A. Una estructura de datos que encpasula dentro un RDD de objetos tipo Row. B. Una tabla de datos imilar a la de una base de datos relacional pero distribuida en la memoria RAM de los executors. C. Un tipo especial de fichero manejado por Spark. D. Las respuestas A y B son correctas.

Cuál de estas afirmaciones sobre Apache Hive es cierta?. A. Existen versiones libres y de pago. B. Permite consultar archivos almacenados en HDFS utilizando lenguaje SQL. C. Requiere poseer una base de datos relacional funcionando como respaldo. D. Las opciones a y c son correctas.

Un topic de Kafka es... A. La unidad mínima que está replicada en todos los brokers. B. Un grupo de mensajes que siguen la misma estructura y pueden interpretarse igual. C. Una replicación de los mensajes en HDFS. D. Ninguna de las respuestas anteriores es correcta.

Qué fallo en HDFS es menos problemático?. A. La caída de un namenode (Más problemático). B. La caída de un datanode (Menos problemático). C. La caída de un datanode federado. D. La caída de un executor.

Seleccione la respuesta correcta sobre Spark: A. Utiliza unas transformaciones y acciones que son exactamente lo mismo que los mappers y reducers, respectivamente, de MapReduce. B. Es más flexible que MapReduce gracias a las transformaciones y acciones de que dispone. C. Es menos flexible que MapReduce por las limitaciones en el uso de transformaciones y acciones. D. Ninguna de las respuestas anteriores es correcta.

Un DataFrame en Spark es... A. Una estructura de datos que encapsula dentro un RDD de objetos Row. B. Una tabla de datos similar a la de una BD relacional pero distribuida en la memoria RAM de los executors. C. Un tipo especial de fichero manejado por Spark. D. Las respuestas A y B son ciertas.

Las tecnologías de cloud computing permiten a un usuario: A. Especificar el servidor (máquina física) concreto donde se ejecutará su software. B. Especificar la configuración necesaria del servidor donde se ejecutará su software. C. Ejecutar su software en la configuración de servidor que obligatoriamente le asigne la plataforma. D. Ninguna de las anteriores.

En una plataforma de Cloud Computing podemos... A. Utilizar herramientas de desarrollo de software ya instaladas, y esto se conoce como IaaS. B. Utilizar directamente las máquinas, sin nada instalado, a lo cual se le llama PaaS. C. Utilizar software para usuarios finales ya instalado y listo para usar, y esto se conoce como SaaS. D. Ninguna de las respuestas anteriores es correcta.

Cuál de los siguientes servicios de Cloud Computing NO proporciona una base de datos relacional?. A. Azure SQL Database. B. Amazon Relational Database Service (RDS). C. Azure Databricks. D. Google Cloud SQL.

¿Cuál de estos servicios cloud cumple la misma función que el servicio Dataproc de Google Cloud que has utilizado para desplegar un cluster de Spark?. A. Amazon Aurora. B. Amazon EMR (Elastic Map Reduce). C. Azure Cognitive Services. D. Azure SQL Database.

Denunciar Test