repaso para examen final curso Big Data siglo 21
![]() |
![]() |
![]() |
Título del Test:![]() repaso para examen final curso Big Data siglo 21 Descripción: practica Fecha de Creación: 2023/01/27 Categoría: Otros Número Preguntas: 60
|




Comentarios |
---|
NO HAY REGISTROS |
Se necesitan técnicas de Big Data para manipular una base de datos de 100 Mb que tiene archivos de audio, video y documentos. verdadero. falso. ¿Cuál de los siguientes servicios se utiliza para almacenamiento en la nube?. Amazon S3. Azure Blob. Google Storage. Azure S3. Amazon Blob. ¿Si estamos utilizando AWS para crear nuestro Data Lake, a qué se asemeja un bucket?. A una instancia de cómputos virtual en la nube. A un cluster de Hadoop. A una unidad de almacenamiento en la nube. A una base de datos. A una máquina virtual para ejecutar Hadoop. Un Data Lake nos permite evitar silos de datos. Verdadero. Falso. ¿Qué entiende por IOT?. Una terminal de internet. Un lenguaje de programación. Un sistema de Inteligencia Artificial. Una base de datos para cosas. Dispositivos conectados entre sí mediante una red. ¿En Spark, en qué lenguajes puedo programar?. Php. Scala. HTML. Java. Python. ¿Cuáles de los siguientes módulos pueden ser utilizados en Spark?. Visual Fox. RDDs. spark SQL. SparkR. Librerías de Machine Learning o MLIib. ¿Cómo se las llama generalmente a las áreas de un Data Lake, según estadío de los datos?. Ingesta, procesamiento y consumo. Extracción, transformación y carga. Raw, staging y trusted. Transformación. Carga. Indique cuáles de los siguientes considera como archivo no estructurado. paint. PDF. JSON. HTML. XML. ¿Cuál sería la mejor definición para Cloud Computing?. Computación en capas interconectadas. Servicio de almacenamiento privado para grandes volúmenes de datos. Recursos de hardware y software facilitados mediante servicios en una red (Internet). Conjunto de programas instalados en un servidor de big data. Servicios brindados por un proveedor para desplegar proyectos big data. ¿Cuáles de las siguientes opciones no corresponden a una base de datos?. Java. Sql Server. Python. Redis. DynamoDB. ¿En Spark, para qué utilizaría la función MAP?. Para utilizar Hadoop mapeando registros de memoria con datos. Para borrar registros. Para mostrar los registros. Para dibujar un mapa. Para crear pares de Claves-Valor. Data Lake es lo mismo que un DW. Falso. Verdadero. Spark es un lenguaje de Programación. Verdadero. Falso. ¿Cuáles de estos conceptos forman parte una arquitectura en Spark?. Transformadores (transformers). Drivers (controladores). Acciones (actions). Ejecutores (executors). IOT. ¿Cuál de las siguientes opciones sería la mejor elección como base de datos en tiempo real y datos crudos en caché?. Word. Google BigQuery. SQL Server. AWS Redshift. Redis. ¿Cuáles de estos conceptos forman parte de un modelo de datos dimensional?. Dimensiones. Punteros. Hechos. Objetos. Claves combinadas de tablas. En Hive ¿Cuáles de las siguientes afirmaciones son correctas?. Las tablas internas poseen sus datos en el data warehouse (o base de datos) de Hive, mientras que las tablas externas conservan sus datos en el sistema de archivos externo. Las tablas externas hacen referencia a un motor de base de datos fuera del ecosistema, en cambio las tablas internas hacen referencia a bases de datos dentro del mismo. Hive es un lenguaje de programación y además las tablas externas hacen referencia a un motor de base de datos por fuera del ecosistema. Hive es un lenguaje de programación. Aunque elimine una tabla externa (con el comando Drop table) los datos a los que hacía referencia (archivos) no son eliminados del almacenamiento. El modelo semántico me permite crear la secuencia lógica de las tablas que conforman el modelo de datos. Verdadero. Falso. Si mi empresa quiere migrar a la nube contratando un proveedor externo ¿cuál de estos proveedores podría elegir?. Amazon. Wikipedia. Google. Azure. Netflix. Puedo desplegar mi proyecto de Big Data completamente en la nube. Verdadero. Falso. ¿En Spark, en qué lenguajes puedo programar?. Python. Php. HTML. Java. Scala. "El análisis predictivo es aquel que recomienda distintas alternativas o rutas de acción y que cuantifica el efecto de cada una de ellas.". Falso. Verdadero. Para añadir una condición alternativa a una declaración condicional if se utiliza: Elseif. Then. Elif. Elsif. Eise if. El Clustering es cuando se busca realizar un agrupamiento de individuos de una población por su similitud en clusters (grupos) previamente establecidos y definidos por el científico de datos. Verdadero. Falso. ¿Con qué herramienta se pueden elegir los mejores parámetros de un modelo para optimizar sus resultados?. Recall. Grid Search. Acccuracy score. Cross Val Score. Los arreglos de Numpy son similares a las tuplas en el sentido que puede modificarse su contenido. Verdadero. Falso. Un ciclo while especifica una condición y un bloque de código que se ejecutará hasta que la condición se evalúe como falsa o el ciclo finalice explícitamente con break. Verdadero. Falso. La serie es un objeto que se corresponde con una matriz unidimensional etiquetada. Verdadero. Falso. ¿Cuál de los siguientes comandos mágicos permite calcular el tiempo medio de una ejecución en Python?. %timet. %reset. %run. %timed. ¿Cuál de las siguientes características no es propia de la librería de NumPy?. Operaciones con arrays. Algebra lineal. Funciones matemáticas. Crear matrices aleatorias. Importar archivos csv. Dentro de los conceptos de la matriz de confusión, ¿cuáles son los Verdaderos Negativos?. La observación es negativa, pero la predicción es positiva. La observación es negativa, y la predicción negativa. Tanto la observación real y la predicción son ambas positivas. La observación es positiva, pero la predicción es negativa. ¿Qué símbolo se utiliza para comentar en una linea de código de Python en Jupyter Notebook?. #. $. &. Supongamos que llamamos Ml a nuestro ambiente de trabajo, ¿con qué comando activamos nuestro ambiente de trabajo en Anaconda?. Conda activate ML. Anaconda —activate ML. Activate ML for Python. Conda create —name ML. ¿Cuál es el valor que asume la métrica Gini cuando se alcanza el nivel máximo de pureza en un nodo de un árbol de decisión?. NaN. 0. 1. -1. ¿Cuál de las siguientes operaciones corresponde a la creación de una tupla?. Arr = np.random.randn(2,3). Arr = np.arange(3, 9). Arr =(1,4,8,9,1). Arr = np.array([6, 1, 3, 5, 1]). Arr = np.zeros(6). Entre las disciplinas complementarias a la ciencia de datos, podemos mencionar: Deep learning. Machine learning. Gestión de base de datos. Data Governance. Calidad de datos. Un Data Frame es una estructura de filas y columnas que se encuentra indexada por ambas entradas. Verdadero. Falso. Si un ecommerce te pide realizar un modelo de recomendación de productos para clientes que se loguean en su tienda online, y cuentas con información histórica de todos los clientes que ya compraron en la tienda, e información general de clientes de toda tu cartera. ¿Qué modelo sugerirías hacer para recomendar un producto a aquellos clientes que todavía nunca compraron?. Similarity matching. Regresión lineal. Reducción de dimensionalidad. Clustering. SciPy es una colección de paquetes que abordan un gran número de problemas relacionados con la visualización de los datos. Verdadero. Falso. ¿Cuáles son las características de la computación cognitiva?. Percibir. InvestigarInvestigar. Comprender. Actuar. Pensar. ¿Cuál es el elemento utilizado para obtener información de base de datos?. Map Reduce. File System. HDFS. Hive. Sqoop. ¿Cómo se denomina la segunda tarea de analytics que se debe realizar?. Recolección de datos. Exploración de datos. Implementación. Modelado. Estadística descriptiva. ¿Cuál es la última capa de una red neuronal?. Entrada. Salida. Red neuronal. Sigmoide. Oculta. Al realizar la exploración de datos, ¿cómo deben quedar los datos resultantes?. Incompletos. Sin nulos. Sin outliers. Con la predicción. Consistentes. Hive es el componente de Hadoop que permite importar y extraer información de una base de datos relacional. Verdadero. Falso. La regresión lineal cuenta con dos tipos de variables: una dependiente y otra independiente. En el caso que sea solo una variable independiente, ¿Cómo se llamaría a ese tipo de regresión?. Regresión multivariante. Regresión lineal. Regresión univariante. Regresión variante. ¿Cuáles son los tipos de algoritmos machine learning supervisado?. Clustering. K-means. Redes neuronales. Clasificación. Regresión. ¿Cuál es el elemento del ecosistema Hadoop que consiste en realizar las tareas sobre los archivos en los distintos nodos para aprovechar la computación distribuida?. Zookeeper. Map Reduce. Flume. Sqoop. HDFS. Un diagrama de cajas está compuesto principalmente por dos elementos: una caja y un par de bigotes. Verdadero. Falso. Los nodos reciben el nombre de Name Node y Data Node, ¿Según cuál arquitectura?. Sqoop. Zookeeper. Map reduce. HDFS. ¿Cuáles son las características de una correlación de variables?. Variables con media similar. Variables con extremos iguales. Valores entre -1 y 1. Puede existir correlación positiva. Puede existir correlación negativa. Existe una neurona digital que recibe valores entre 0 y 1 de sus variables de entrada, ¿Cuál es el nombre de esa neurona?. Binaria. Lineal. Neurona artificial. Perceptrón. Sigmoide. El aprendizaje profundo sólo puede tener una capa de entrada en la red neuronal. Verdadero. Falso. ¿Cuál es la definición de un histograma sesgado a la derecha?. Si un histograma demuestra que sólo existen datos del lado derecho y no izquierdo del gráfico de distribución. Si un histograma contiene una concentración de los datos sobre el lado derecho y deja una cola sobre el lado izquierdo. Si un histograma contiene una concentración de los datos sobre el lado izquierdo y deja una cola sobre el lado derecho. Si un histograma contiene una concentración central y a ambos lados deja una cola equilibrado. Si un histograma contiene una concentración central y a ambos lados deja una cola equilibrado. Para realizar predicciones de clasificación según un target conocido ¿Cuáles algoritmos podrían utilizarse?. Regresión logística. Random forest. K-means. Árbol de decisión. Regresión lineal. ¿Cuál de todas estas opciones es una medida de dispersión?. Percentil. Media. Desviación estándar. Mediana. ¿Cuáles son las características que deben tener los bloques de los archivos?. Se debe almacenar solo en un nodo. Deben ser de tamaño grande. Se deben replicar en más de un nodo. Es solo un bloque por archivo. Deben ser de tamaño pequeño. ¿Cuál es el tamaño de los bloques de los archivos almacenados en HDFS?. De 64 MB a 128 MB. 4 KB. De 64 KB a 128 KB. 10 MB. ¿Cuál es el aspecto de inteligencia artificial que intenta simular el aprendizaje humano por medio de algoritmo de redes neuronales?. Neurona. Deep learning. Aprendizaje supervisado. Inteligencia artificial. Red neuronal. |