Ingeniería para el Procesado Masivo de Datos

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

Ingeniería para el Procesado Masivo de Datos

Descripción:
TEST todas las unidades

Autor:

Josué Acuña

OTROS TESTS DEL AUTOR

Fecha de Creación: 2023/03/13

Categoría: Otros

Número Preguntas: 100

Valoración:

(2)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

En la sociedad actual, la mayoría de los datos que se generan a diario son…. Datos no estructurados generados por las personas. Datos estructurados generados por máquinas. Datos estructurados generados por las personas.

¿Qué retos presentan los datos generados por personas en una red social?. Son datos no estructurados (imágenes, vídeos) más difíciles de procesar. Son datos masivos. Las dos respuestas anteriores son correctas.

El término commodity hardware se refiere a…. Máquinas remotas que se alquilan a un proveedor de cloud como Amazon. Máquinas muy potentes que suelen adquirir las grandes empresas. Máquinas de potencia y coste normales conectadas entre sí formando un clúster más potente.

Un proyecto se denomina big data cuando…. Solo se puede resolver gracias a las tecnologías big data. La forma más eficaz y directa de abordarlo implica tecnologías big data. El problema que resuelve contiene simultáneamente las tres «v».

Las tres «v» del big data se refieren a: Volumen, velocidad y variedad. Voracidad, volumen y velocidad. Ninguna de las respuestas anteriores es correcta.

Lo mejor si necesitamos más potencia de cómputo en un clúster big data es…. Reemplazar algunas máquinas del clúster por otras más potentes. Aumentar el ancho de banda de la red. Añadir más máquinas al clúster, aprovechando todas las que ya había.

El sistema de ficheros precursor de HDFS fue…. GFS. Apache Hadoop. Apache MapReduce.

Una distribución de Hadoop es…. Un software con licencia comercial para clústers difundido por Microsoft. Un conjunto de aplicaciones del ecosistema Hadoop con versiones interoperables entre sí y listas para usarse. Ninguna de las opciones anteriores es correcta.

¿Qué compañías fueron precursoras de HDFS y MapReduce?. Google y Microsoft, respectivamente. Google en los dos casos. Google y Apache, respectivamente.

Definimos big data como…. Todos aquellos algoritmos que se pueden ejecutar sobre un clúster de ordenadores. Las tecnologías distribuidas de Internet que posibilitan una sociedad interconectada por las redes sociales. Las tecnologías que permiten almacenar, mover, procesar y analizar cantidades inmensas de datos heterogéneos.

¿Cuánto ocupa en total un archivo de 500 MB almacenado en HDFS, sin replicación, si se asume el tamaño de bloque por defecto?. Ocupará 500 MB. Ocupará 512 MB que son 4 bloques de 128 MB, y hay 12 MB desperdiciados. Ocupará 500 MB multiplicado por el número de datanodes del clúster.

¿Cuál de las siguientes afirmaciones respecto a HDFS es cierta?. El tamaño de bloque debe ser siempre pequeño para no desperdiciar espacio. El factor de replicación es configurable por fichero, y su valor por defecto es 3. Las dos respuestas anteriores son correctas.

¿Qué afirmación es cierta sobre el proceso de escritura en HDFS?. El cliente manda al namenode el fichero, que a su vez se encarga de escribirlo en los diferentes datanodes. El cliente escribe los bloques en todos los datanodes que le ha especificado el namenode. El cliente escribe los bloques en un datanode y este datanode envía la orden de escritura a los demás.

En un clúster de varios nodos donde no hemos configurado la topología…. Es imposible que dos réplicas del mismo bloque caigan en el mismo nodo. Es imposible que dos réplicas del mismo bloque caigan en el mismo rack. Las dos respuestas anteriores son falsas.

Cuando usamos namenodes federados…. Cada datanode puede albergar datos de uno de los subárboles. La caída de un namenode no tiene ningún efecto en el clúster. Ninguna de las respuestas anteriores es correcta.

¿Por qué se dice que HDFS es un sistema escalable?. Porque reemplazar un nodo por otro más potente no afecta a los namenodes. Porque un clúster es capaz de almacenar datos a gran escala. Porque se puede aumentar la capacidad del clúster añadiendo más nodos.

¿Qué tipo de uso suele darse a los ficheros de HDFS?. Ficheros de cualquier tamaño que se almacenan temporalmente. Ficheros de gran tamaño que se crean, no se modifican, y sobre los que se realizan frecuentes lecturas. Ficheros de gran tamaño que suelen modificarse constantemente.

La alta disponibilidad de los namenodes de HDFS implica que…. La caída de un namenode apenas deja sin servicio al sistema de ficheros durante un minuto antes de que otro namenode entre en acción. Es posible escalar los namenodes añadiendo más nodos. La caída de un datanode deja sin servicio al sistema durante pocos segundos hasta que sea sustituido.

El comando de HDFS para moverse a la carpeta /mydata es…. hdfs dfs –cd /mydata. hdfs dfs –ls /mydata. No existe ningún comando equivalente en HDFS.

¿Qué inconveniente presenta MapReduce?. No es capaz de procesar datos distribuidos cuando son demasiado grandes. Entre las fases map y reduce siempre lleva a cabo escrituras a disco y movimiento de datos entre máquinas. Es una tecnología propietaria y no es código abierto.

¿Cuál es la principal fortaleza de Spark?. Opera en memoria principal, lo que hace los cálculos mucho más rápidos. Nunca da lugar a movimiento de datos entre máquinas (shuffle). Las respuestas A y B son correctas. Las respuestas A y B son incorrectas.

¿Qué tipo de procesos se benefician especialmente de Spark?. Los procesos en modo batch como por ejemplo una consulta SQL. Los proceso aplicados a datos no demasiado grandes. Los algoritmos de aprendizaje automático que dan varias pasadas sobre los mismos datos. Las respuestas A, B y C son correctas.

¿Cuál es la estructura de datos fundamental en Spark?. RDD. Dataframe. SparkSession. SparkContext.

En una operación de Spark en la que sea necesario movimiento de datos…. Siempre es necesario escribirlos primero en el disco local del nodo emisor. No hay acceso al disco local puesto que Spark opera siempre en memoria. Spark nunca provoca movimiento de datos, a diferencia de MapReduce. Las respuestas A, B y C son incorrectas.

Elige la respuesta correcta: Cuando se ejecuta una transformación en Spark sobre un RDD…. Se crea inmediatamente un RDD con el resultado de la transformación. Se modifica inmediatamente el RDD con el resultado de la transformación. Se añade la transformación al DAG, que creará un RDD con el resultado de la transformación cuando se materialice el RDD resultante. Se añade la transformación al DAG, que modificará el RDD original con el resultado de la transformación cuando se materialice el RDD resultante.

Elige la respuesta correcta: La acción collect de Spark…. No existe como acción; es una transformación. Aplica una función a cada fila del RDD de entrada y devuelve otro RDD. Lleva todo el contenido del RDD al driver y podría provocar una excepción. Lleva algunos registros del RDD al driver.

Elige la respuesta incorrecta: Un PairRDD…. Es un tipo de RDD que permite realizar tareas de agregación y joins. Es un tipo de RDD que contiene una tupla con un número variable de componentes. Es un tipo de RDD cuyo primer componente se considera la clave y el segundo, el valor. Se define como cualquier otro RDD, pero con un formato concreto.

¿Qué es un executor de Spark?. Cada uno de los nodos del clúster de Spark. Un proceso creado en los nodos del clúster, preparado para recibir trabajos de Spark. Un nodo concreto del clúster que orquesta los trabajos ejecutados en él. Ninguna de las definiciones anteriores es correcta.

La acción map de Spark…. No existe como acción; es una transformación. Aplica una función a cada fila del RDD de entrada y devuelve otro RDD. Lleva todo el contenido del dataframe al driver y podría provocar una excepción. Lleva ciertos registros del RDD al driver.

Cuando Spark ejecuta una acción…. Se materializan en la memoria RAM de los workers todos los RDD intermedios necesarios para calcular el resultado de la acción, y después se liberan todos. Se añade la acción al DAG y no hace nada en ese momento. Se materializan los RDD intermedios necesarios que no estuviesen ya materializados, se calcula el resultado de la acción y se liberan los no cacheados. Ninguna de las respuestas anteriores es correcta.

Elige la respuesta correcta respecto a los DataFrames de Spark: Un RDD es una envoltura de un DataFrame de objetos de tipo Row. Un DataFrame es una envoltura de un RDD de objetos de tipo Row. Un DataFrame es una envoltura de un objeto de tipo Row que contiene RDD. Ninguna de las respuestas anteriores es correcta.

Elige la respuesta correcta sobre los DataFrames de Spark: Puesto que representan una estructura de datos más compleja que un RDD, no es posible distribuirlos en memoria. Puesto que son un envoltorio de un RDD, suponen una estructura de datos que sigue estando distribuida en memoria. Son una estructura de datos distribuida en disco.

¿Qué mecanismo ofrece la API estructurada de DataFrames para leer datos?. Método read de la Spark Session. Método read del Spark Context. No ofrece ningún método, sino que se utiliza la API de RDD para leer datos. Método ingest de la Spark Session.

¿Es obligatorio especificar explícitamente el esquema del DataFrame cuando se leen datos de fichero?. No, porque solo se pueden leer ficheros estructurados como Parquet, que ya contienen información sobre su esquema. Sí, porque, si no se indica el esquema, Spark no es capaz de leer ficheros CSV, ya que no sabe con qué tipo almacenar cada campo. No, porque, si no se indica el esquema, Spark guardará todos los campos de los que no sepa su tipo como strings. No, porque, si no se indica el esquema y se intenta leer ficheros sin esquema implícito, Spark lanzará un error.

Selecciona la respuesta incorrecta: ¿Por qué es aconsejable utilizar DataFrames en Spark en lugar de RDD?. Porque son más intuitivos y fáciles de manejar a alto nivel. Porque son más rápidos, debido a optimizaciones realizadas por Catalyst. Porque los DataFrames ocupan menos en disco. Las respuestas A y B son correctas.

Tras ejecutar la operación b = df.withColumn(“nueva”, 2*col(“calif”)): El DataFrame contenido en df tendrá una nueva columna, llamada nueva. Llevaremos al driver el resultado de multiplicar 2 por la columna calif. El DataFrame contenido en b tendrá una columna más que df. El DataFrame contenido en b tendrá una única columna llamada nueva.

¿Cuál es la operación con la que nos quedamos con el subconjunto de filas de un DataFrame que cumplen una determinada condición?. sample. filter. map. show.

Las API estructuradas de DataFrames y Spark SQL…. Son API que no se pueden combinar: una vez que se empieza a usar una de ellas, se tienen que hacer todas las tareas con la misma API. Se pueden aplicar funciones de la API de DataFrames sobre el resultado de consultas de Spark SQL. Se pueden aplicar el método sql para lanzar consultas SQL sobre DataFrames sin registrar. Ninguna de las opciones anteriores es correcta.

La transformación map de Spark…. No se puede aplicar a un DataFrame porque pertenece a la API de RDD. Se puede aplicar a un DataFrame porque pertenece a la API estructurada de DataFrames. Se puede aplicar a un DataFrame porque envuelve un RDD al que se puede acceder mediante el atributo rdd. No existe en Spark; map es una acción.

Para utilizar Spark SQL, es necesario…. Utilizar la función sql del objeto SparkContext. Utilizar la función sql del objeto SparkSession, a fin de ejecutar la consulta SQL sobre el DataFrame directamente. Registrar el DataFrame sobre el que se quieran ejecutar las consultas SQL como tabla o vista, antes de ejecutar cualquier consulta. Ninguna de las respuestas anteriores es correcta.

¿Qué diferencia Spark MLlib de Spark ML?. Spark MLlib ofrece interfaz para DataFrames en todos sus componentes, mientras que Spark ML sigue utilizando RDD y ha quedado obsoleta. Spark MLlib no permite cachear los resultados de los modelos, mientras que Spark ML sí. Spark MLlib es más rápida entrenando modelos que Spark ML. Ninguna de las respuestas anteriores es correcta.

¿Qué tipo de componentes ofrece Spark ML?. Estimadores y transformadores para ingeniería de variables y para normalizar datos. Estimadores y transformadores para preparar los datos para el formato requerido por los algoritmos de aprendizaje automático de Spark. Solo pipelines que no dan acceso a los estimadores internos. Las respuestas A y B anteriores son correctas.

¿Cuál es el método principal de un estimator de Spark ML?. El método fit. El método transform. El método estimate. El método describe.

¿A qué interfaz pertenecen los algoritmos de machine learning de Spark cuando aún no han sido entrenados?. Transformer. Estimator. Pipeline. DataFrame.

¿A qué interfaz pertenecen los modelos de Spark ML cuando ya han sido entrenados con datos?. Transformer. Estimator. Pipeline. DataFrame.

¿Qué ocurre si creamos un StringIndexer para codificar las etiquetas de una variable en el dataset de entrenamiento y después creamos otro StringIndexer para codificar los datos de test en el momento de elaborar predicciones?. Obtendremos la misma codificación en los dos. Da un error, porque un mismo StringIndexer no puede añadirse a dos pipelines. Podríamos obtener codificaciones distintas de la misma etiqueta en los datos de entrenamiento y en los de test, lo que falsearía los resultados de las predicciones. Ninguna de las respuestas anteriores es correcta.

¿Cuál es la estructura principal que maneja Spark Structured Streaming?. DStreams. DStreams DataFrames. Streaming DataFrames. Streaming RDD.

Spark Streaming permite leer flujos de datos: . Solo desde tecnologías de ingesta de datos como Apache Kafka. Desde cualquier fuente de datos, siempre que contenga un esquema, como, por ejemplo, una base de datos. Desde fuentes como Apache Kafka y HDFS, si activamos la inferencia de esquema. Las respuestas A, B y C son incorrectas.

En Spark Streaming, una vez se ejecuta la acción start: El driver espera automáticamente a que concluya la recepción de flujo para finalizar su ejecución. Hay que ejecutar un método para indicar al driver que no finalice automáticamente y espere que a que concluya la recepción del flujo. Un flujo de datos no tiene fin y, por tanto, el driver nunca puede finalizar. Ninguna de las opciones anteriores es correcta.

¿Qué acciones pueden realizarse en Spark Structured Streaming?. take. show. start. collect.

¿Qué es Apache Kafka?. Un sistema de mensajería que utiliza Spark para funcionar. Un bus de datos distribuido, en el que varias aplicaciones pueden leer y escribir. Un sistema de colas basado en MapReduce. Un sistema de data warehousing.

Cuando usamos Kafka…. Cada aplicación elige el tipo de mensajes que desea leer. Todas las aplicaciones reciben todos los mensajes. Solo las aplicaciones registradas en Spark pueden acceder al bus. Cada aplicación puede leer solo un tipo de mensajes.

¿Cuál de estas funciones es típica de Kafka?. Transmitir mensajes generados por una aplicación a otras que los utilizan. Almacenar información accesible para distintas aplicaciones, tal como lo hace una base de datos. Realizar procesados de flujos de información. Ninguna de las opciones anteriores es correcta.

Un topic de Kafka… . Es una partición de los datos subyacentes. Es un conjunto de mensajes que comparten la misma estructura. Es equivalente a una base de datos. Es una máquina que almacena cierto tipo de datos.

Si en un grupo de consumidores hay más consumidores suscritos a un topic que particiones tiene dicho topic: Kafka reparte los mensajes entre todos consumidores de una misma partición. Kafka no permite que esto ocurra y denegará la suscripción al consumidor. Uno o más consumidores quedarán ociosos, sin poder consumir mensajes. Todos los consumidores reciben mensajes de todas las particiones.

Cuando un proceso productor de Kafka utiliza envío asíncrono: Se bloquea en espera de la respuesta que confirme que todo ha ido bien. Prosigue su ejecución, ya que, al ser asíncrono, no espera respuesta alguna. Prosigue su ejecución y Kafka invocará el método que el productor indicó cuando tenga disponible la respuesta. Ninguna de las respuestas anteriores es correcta.

¿Qué implica que un bróker contenga la partición líder de un topic?. Que será quien reciba y procese las peticiones de lectura y escritura a esa partición. Que decidirá si un consumidor está autorizado para suscribirse al topic. Que será quien centralice las peticiones de escritura que reciben todos los brókeres que contengan dicha partición. Las tres opciones anteriores son correctas.

¿Cuál de las siguientes afirmaciones sobre Kafka es correcta? . Un mensaje en Kafka se elimina según el primer consumidor lo lee. Un mensaje en Kafka se elimina siempre tras pasar una semana en el bróker. Un mensaje en Kafka se elimina cuando lo han leído el número configurado de consumidores. Un mensaje en Kafka se elimina cuando se cumple el tiempo o tamaño configurados.

El bróker encargado de supervisar qué brókeres se unen y cuáles dejan el clúster es: El bróker líder. El bróker controlador. El bróker sincronizado (in-sync). Se encarga Zookeeper.

Un clúster Kafka está compuesto: Por uno o varios brókeres, y siempre incluye Zookeeper para gestionar metadatos. Por, al menos, dos o más brókeres, y se complementa a veces con Zookeeper para facilitar la gestión de metadatos. Por uno o varios brókeres, y se complementa a veces con Zookeeper para facilitar la gestión de metadatos. Ninguna de las opciones es correcta.

Un ejemplo ideal de alguien que puede utilizar Hive es: Un analista con conocimientos de SQL que quiere consultar datos estructurados almacenados en HDFS. Un programador con conocimientos de MapReduce que quiere consultar imágenes y vídeos. Una persona de negocios, con alto conocimiento de Excel, que quiere consultar rápidamente datos masivos guardados en una base de datos relacional como MySQL. Los tres casos anteriores son buenos casos de uso.

Sobre Apache Hive: Existen versiones libres y de pago. Permite consultar archivos almacenados en HDFS utilizando lenguaje SQL. Requiere poseer una base de datos relacional que funcione como respaldo. Solo se puede usar como parte de la distribución de Cloudera.

Hive se define como: Una base de datos SQL distribuida. Un motor de ejecución distribuido para consultas SQL. Una base de datos NoSQL distribuida. Un traductor de consultas SQL a trabajos de procesado distribuidos.

Para usar Hive: Solo se puede utilizar a través de un intérprete de línea de comandos. Se puede usar únicamente a través de una conexión JDBC. Es posible usarlo desde herramientas de BI que dispongan de conector ODBC. Ninguna de las respuestas anteriores es correcta.

¿Cuál de las siguientes afirmaciones sobre Hive es correcta?. Cuando se ejecuta la sentencia DROP sobre una tabla, Hive siempre borra los metadatos relacionados con dicha tabla. Cuando se ejecuta la sentencia DROP sobre una tabla, Hive siempre borra los datos relacionados con esta tabla. Cuando se ejecuta la sentencia DROP sobre una tabla, Hive nunca borra ningún dato ni metadato. Cuando se ejecuta la sentencia DROP sobre una tabla, Hive siempre borra los datos y metadatos.

¿Cuál de las siguientes afirmaciones sobre Hive es correcta?. Hive siempre utiliza como motor de ejecución Apache Spark. MySQL puede funcionar como metastore de Hive. Un fichero de texto plano puede funcionar como metastore de Hive. Ninguna de las opciones anteriores es correcta.

Señala la respuesta correcta: Impala está pensado para procesados en bloque (batch), mientras que Hive está dirigido a peticiones interactivas. Impala está dirigido a peticiones interactivas, mientras que Hive está pensado para procesados en bloque (batch). Tanto Impala como Hive están pensados para peticiones interactivas. Tanto Impala como Hive están pensados para procesados en bloque.

¿Cuál de las siguientes afirmaciones sobre Impala es correcta?. Impala utiliza como motor de ejecución Apache Spark. Impala utiliza como motor de ejecución Apache tez. El motor de ejecución de Impala es configurable, igual que en Hive. Ninguna de las opciones anteriores es correcta.

El proceso de Impala que se encarga de ejecutar las consultas del usuario es: El proceso statestored. El proceso impalad. El proceso initd. El proceso catalogd.

La manera de ejecutar Impala en un clúster de ordenadores es: Mediante un proceso que está corriendo en cada máquina y accede directamente a los datos de HDFS de ese nodo. Mediante el motor de ejecución de Apache Spark que se ejecuta en el clúster y sobre el cual nos proporciona una abstracción SQL. Mediante las consultas SQL traducidas por Impala al metastore de Hive. Ninguna de las anteriores es correcta.

¿Cómo se puede definir cloud computing?. Es la interconexión de una serie de ordenadores. Es el proceso de planificar y ejecutar una serie de tareas. Son una serie de servicios de computación ofrecidos a través de Internet. Ninguna de las respuestas anteriores son correctas.

¿Qué modelos de servicio cloud existen?. Público, privado e híbrido. IaaS, PaaS y SaaS. Microsoft Azure, Google Cloud Platform y Amazon Web Services. Servidores de cómputo, almacenamiento y bases de datos.

¿Cuál de las siguientes propiedades no es una ventaja de cloud computing?. Coste menor de infraestructura por economías de escala. Control total de la infraestructura que soporta los servicios. Flexibilidad a la hora de escalar la infraestructura necesaria. Alta disponibilidad de los servicios gracias a la replicación.

¿Cuál de las siguientes opciones no es un tipo de nube?. Nube pública. Nube privada. Nube secundaria. Nube híbrida.

¿Qué tipo de servicio no es habitual entre los servicios en la nube?. Máquina virtual. Máquina física. Almacenamiento virtual. Interconexión de servicios.

¿Qué dos conceptos hacen posible los servicios de computación en la nube?. Virtualización y disminución de costes. Disminución de costes y abstracción. Disminución de costes y flexibilidad. Abstracción y virtualización.

¿Qué tarea reemplaza el uso de servicios en la nube?. Compra e instalación de servidores. Actualización y mantenimiento de servidores. Dimensionamiento previo y adquisición de servidores para aumentar la capacidad según los requisitos de las aplicaciones. Todas las anteriores.

Relaciona los servicios de Microsoft Azure con su temática correspondiente. Almacenamiento. Computación. Bases de datos. Big data.

Para ejecutar un clúster Hadoop en Microsoft Azure: Solo se puede usar el servicio HDInsight. Es obligatorio contratar una o varias instancias VM e instalar el clúster en ellas. Microsoft Azure no permite ejecutar clústeres Hadoop. Se puede usar el servicio HDInsight u optar por una alternativa IaaS.

Si se quieren utilizar servicios relacionados con machine learning en Microsoft Azure: Es necesario disponer de un equipo de expertos en machine learning que entiendan y puedan usar los servicios que provee Microsoft Azure. Microsoft Azure no proporciona ningún servicio de machine learning. Es necesario contratar un servicio de cómputo sobre el que instalar todo el entorno necesario para desarrollar modelos. Existen tanto opciones para conocedores de machine learning, que disponen de mayor flexibilidad para construir sus modelos, como servicios de inteligencia artificial que no requieren conocimientos de machine learning. Microsoft Azure no está diseñado ni orientado a ofrecer servicios de machine learning de ninguna forma.

¿Cómo se distribuyen los recursos de la infraestructura de AWS?. Se dividen en zonas, que, a su vez, tienen dos o más subzonas. Se dividen en regiones, que, a su vez, engloban dos o más zonas de disponibilidad. Se dividen en zonas de disponibilidad, que, a su vez, contienen dos o más centros de datos. No existe ninguna división, todos los recursos son globales e indistinguibles.

Una empresa quiere utilizar los servicios de AWS para almacenar datos personales y sensibles de sus clientes. ¿Cuál es el elemento más limitante a la hora de determinar dónde almacenar dichos datos?. El coste, ya que, dependiendo de dónde se almacenen dichos datos, este puede ser mayor o menor. La latencia, ya que se tardaría mucho en obtener los datos si están almacenados lejos de donde se realiza la consulta. La legislación, porque, al ser información sensible, solo se pueden almacenar en lugares muy concretos para no incurrir en delitos. Todos los elementos anteriores tienen la misma importancia y hay que tenerlos en cuenta por igual.

Una de las mayores ventajas de usar AWS como proveedor de servicios cloud es: Que tiene responsabilidad sobre toda la infraestructura, los servicios y los datos necesarios para desplegar nuestras aplicaciones. Que tiene responsabilidad sobre toda la seguridad concerniente a nuestra aplicación, desde el firewall al control de acceso. Que tiene la responsabilidad sobre la infraestructura y garantiza ciertos niveles de servicio al respecto. Todas las afirmaciones previas son correctas.

¿Qué afirmación sobre las instancias de cómputo EC2 es incorrecta?. Permiten elegir la imagen (AMI) que instalar en ellas de entre una colección predefinida o una proporcionada por el usuario. Poseen un conjunto predeterminado de configuraciones de cómputo, memoria y red, de donde escoger obligatoriamente la configuración predefinida que se desee. Se pueden contratar tantas instancias EC2 como se desee. Cada instancia EC2 está ligada a un servicio EBS para almacenamiento persistente.

¿Cómo se interconectan los servicios AWS que contrata un usuario?. Mediante una red global que comparten todos los servicios contratados por todos los usuarios en AWS. Mediante una red propia del usuario que conecta las direcciones IP de los servicios contratados. Los distintos servicios contratados son independientes y autocontenidos, por lo que no necesitan ni pueden comunicarse con otros. Mediante el servicio de interconexión AWS VPC.

Indica qué caso de uso no es propio de S3: Sistema de arranque de una instancia EC2. Almacenamiento de ficheros accesibles desde instancias EC2. Almacenamiento de ficheros accesibles desde un navegador web. Almacenamiento de archivo de ficheros de escaso acceso.

Se quiere desplegar una base de datos relacional de forma rápida y que no suponga una carga de mantenimiento para el departamento de IT, más allá de la gestión de los datos contenidos. ¿Qué servicio AWS escogerías?. Instancia EC2 e instalación de MySQL. AWS RDS. AWS DynamoDB. AWS ECS e instalación de MySQL.

¿Cuál de las siguientes opciones es la mejor para desplegar un servicio de almacenamiento distribuido en AWS?. Varias instancias EC2 sobre las que el usuario instala un clúster Hadoop, que incluye HDFS. Varios contenedores ECS sobre los que el usuario instala un clúster Hadoop, que incluye HDFS. Un clúster EMR, con su propio sistema de almacenamiento distribuido. Un clúster EMR, con el sistema de almacenamiento HDFS.

Amazon SageMaker es un servicio de AWS destinado a: Construir y entrenar modelos de machine learning desde cero. Utilizar modelos de machine learning preconstruidos. Realizar consultas interactivas sobre grandes conjuntos de datos. Catalogar todos los datos existentes en los diferentes servicios AWS.

Si se quieren manejar flujos de datos en tiempo real, ¿qué servicio AWS no sería adecuado?. Amazon Kinesis Streams. Amazon MSK. Amazon Redshift. Instancias EC2 con Kafka instalado.

¿Cómo se organizan los recursos, los servicios y las políticas de seguridad que contrata y configura un usuario u organización en Google Cloud?. En folders, que contienen proyectos. En proyectos, que contienen folders. En proyectos y zonas. En zonas, que contienen diferentes folders.

Si queremos aumentar la disponibilidad de un servicio GCP, ¿qué debemos hacer?. Desplegarlo en la región más cercana a su uso. Desplegarlo en una región que no presente problemas legales con la información que gestiona. Desplegarlo como recurso regional o multirregional. Desplegar una instancia VM que esté siempre ejecutándose.

Elige la respuesta incorrecta: GCP proporciona una serie de servicios de AI bajo AI Platform, para usuarios no expertos en el dominio, los cuales quieran usar AI en sus aplicaciones sin desarrollar ningún modelo. GCP proporciona una serie de servicios de AI bajo AI Platform, para usuarios expertos en el dominio que quieran usar AI en sus aplicaciones desarrollando sus propios modelos. GCP proporciona una serie de servicios de AI bajo Cloud AI Building Blocks, para usuarios no expertos en el dominio, los cuales quieran usar AI en sus aplicaciones sin desarrollar ningún modelo. Entre los servicios AI para uso directo, se pueden encontrar herramientas de clasificación de imágenes o vídeo, o traductores entre diferentes idiomas.

En cuanto a la seguridad, ¿qué esquema sigue GCP?. Un esquema de seguridad compartida, donde GCP se hace siempre cargo de todos los niveles, excepto de los datos. Un esquema de seguridad compartida, donde GCP se hace cargo de ciertos niveles, que dependen del servicio desplegado. El usuario debe hacerse cargo de la seguridad de todo el sistema, que sigue un modelo de cuatro capas. Un esquema de seguridad compartida de cuatro capas, donde el usuario solo se hace cargo de la capa a más alto nivel y Google Cloud, de todos los aspectos de las otras tres.

¿Qué opción es más interesante para ejecutar tareas cortas y no críticas, que se podrían repetir si fuera necesario?. Instancias VM normales. Preemptible instances VM. Sole-tenant VM instances. One use VM instances.

Una empresa quiere almacenar los datos históricos de las nóminas de los empleados, con el único objetivo de hacer frente a una posible auditoría en los cinco años siguientes al pago de cada nómina ¿Qué opción de almacenamiento de GCP es la más adecuada en cuanto a acceso y coste?. Cloud Storage Coldline. BigTable. Cloud Storage Archive. Cloud Persistent Disks.

Cuando se crea un proyecto en Google Cloud, ¿cómo se interconectan los servicios que engloba?. Se crea una VPC, que contiene el rango de direcciones IP que se asignan los servicios. Hay que definir siempre manualmente las subredes de una VPC para tener disponibles direcciones IP que asignar a los servicios. Se crea automáticamente una subred dentro de la VPC, que contiene el rango de direcciones IP disponibles para asignar a los servicios. Un proyecto solo se puede interconectar con otro, pero los servicios dentro de un proyecto no se interconectan y, por tanto, no se necesitan direcciones IP.

Elige la respuesta incorrecta: Si quisiéramos desplegar un clúster Hadoop en GCP, podríamos…. Usar varias instancias VM configuradas manualmente como clúster e instalar las herramientas del ecosistema Hadoop deseadas. Usar el servicio Dataproc. Usar el servicio Dataflow. Usar varios contenedores GKE configurados manualmente como clúster e instalar las herramientas del ecosistema Hadoop deseadas.

¿A qué base de datos de código libre se asemeja BigTable?. Es un motor propietario único de Google, muy diferente a cualquier otra base de datos existente. MongoDB. Cassandra. HBase.

Relaciona cada servicio GCP con el que sería su equivalente en proyectos Apache: Dataproc. Cloud Pub/Sub. Dataflow. BigQuery.

Denunciar Test

▲