MIND
![]() |
![]() |
![]() |
Título del Test:![]() MIND Descripción: Minería de datos |




Comentarios |
---|
NO HAY REGISTROS |
¿Qué quiere el algoritmo de Ward?. Que la suma de la heterogeneidad relativa sea mínima. Que la suma de la heterogeneidad absoluta sea mínima. Que la suma de la heterogeneidad absoluta sea máxima. Que la suma de la heterogeneidad relativa sea máxima. ¿Qué significa que un clasificador en la "taxonomía de Rorschach" sea entrenable?. no se necesitan datos extra. se entrena un clasificador de nivel uno en la construcción del ensemble. hacen falta muchos datos extra. se entrenan dos clasificadores para su construcción. ¿Se pueden clasificar secuencias con una red estática en lugar de una recurrente?. Si, si se clasifican secuencias. Respuestas con errores ortográficos de Teo. ¿Cómo se determina el radio de vecindad del som (mapa auto organizado)?. "Algo sobre dividir entre dos y que no se repitan neuronas". pipo el perro. ¿Qué tipo de análisis es el som (mapas auto organizados)?. Clúster. Clústering como noseque. noseque. ninguna. ¿Es posible el procesamiento por lotes en el aprendizaje de una red neuronal recurrente?. No tendría sentido, porque el lote ya está implícito en el conjunto de muestras formado por cada secuencia. Perfectamente. Se obtendría la función de coste acumulada tras el procesamiento de la ultima secuencia del lote y a continuación se aplicaría el optimizador escogido al efecto. No, debido a que los optimizadores basado en el gradiente, en general, no admiten procesamiento de lotes. Sí siempre que se normalice las entradas tras cada procesamiento del lote. ¿Por qué el método de Ward es uno de los métodos jerárquicos más utilizados?. Porque es una mezcla del mínimo y del máximo. Porque es el que más se parece al de las k-medias, que tan ampliamente es usado en la práctica. Porque es claramente el método aglomerativo que más complejidad conlleva en su cálculo y por tanto en su cómputo. Porque la definición de la heterogeneidad va buscando los clústeres más compactos (conexos y convexos) y lo suficientemente distanciados unos de otros. ¿Cómo hay que aplicar el método de discretización de atributos basado en la entropía?. Discretizando el conjunto de entrenamiento y aplicando esa discretización al conjunto de test. Discretizando todo el conjunto de datos. Discretizando por separado el conjunto de entrenamiento y el conjunto de test. Discretizando el conjunto de test y aplicando esa discretización al conjunto de entrenamiento. ¿Cuál es el efecto de la corrección que se introduce en el test de Student pareado corregido, empleado para la comparación de dos métodos de aprendizaje sobre el mismo problema??. Evitar que la varianza disminuya con el aumento de las repeticiones sobre los conjuntos de prueba que no son independientes. Evitar que la varianza disminuya con el aumento de las repeticiones sobre los conjuntos de prueba que son independientes. Reducir los problemas de redondeo numérico al realizar muchas repeticiones. Evitar que la varianza aumente por utilizar conjuntos de entrenamiento diferentes que no son independientes. Cuando se usa la salida de un mapa auto-organizado como entrada de un perceptrón multicapa: se escoge sólo el valor que ofrece la neurona ganadora de cada muestra. se escoge la componente del vector de entrada más cercana a la media de dicho vector. se fija un radio de vecindad y se recolecta en un vector la salidas d e la neurona ganadora junto con las que caen dentro de dicho radio de vecindad. se forma un vector con la salida de todas las neuronas y se escala por neuronas, es decir, como si cada neurona del mapa auto-organizado fuera un atributo. Las instancias de un conjunto de datos están descritas por 10 atributos. Se emplea un método envolvente con selección hacia adelante para seleccionar el mejor conjunto de 4 atributos. Sabiendo que la tasa de error se estima mediante validación cruzada de 10 particiones, indicar cuántos clasificadores hay que crear para realizar la selección de atributos. 400. 5040. 340. 4000. 40. Dado que distancia y similaridad representan conceptos antagónicos, se podría definir una similaridad a partir de una distancia mediante la inversa (similaridad = 1/distancia). No habría problema porque sabemos que existe una biyección .... Si, porque esta dependencia funcional se traduce perfectamente la definición de una similaridad mediante la distancia. No, porque no cumpliría la propiedad simétrica. No, porque no cumpliría la propiedad reflexiva. El dendograma de un método de clustering aglomerativo precisa de una estructura de datos que almacene implícita o explícitamente. la jerarquía indexada de cada agrupación. solamente las muestras que conforman los clústers finales. la jerarquía indexada de cada agrupación y los clústers involucrados en ello. al tratarse de un árbol, con una estructura de lista recurrente como en Prolog, valdría. En el algoritmo de aprendizaje de un mapa auto-organizado, ¿Cómo se implementan las fases de ajuste de grano grueso y las de más fino?. sólo a través del decremento del factor de aprendizaje conforme crece el número de iteraciones. sólo a través de la reducción del radio de vecindad al aumentar las épocas. mediante una tabla, en la que se especifica de antemano, lo que va a valer el factor de aprendizaje de toda una época. con dos mecanismos: decremento del radio de vecindad con el paso de cada época y reducción progresiva del factor de aprendizaje en cada iteración. En el mapa auto-organizado, la interacción entre neuronas: se implementa mediante la interacción vecinal, en particular, por la modificación de los pesos de las neuronas topológicamente cercanas a la ganadora. no existe como tal porque sólo la neurona ganadora es la que actualiza sus pesos en cada iteración. se materializa a través de los pesos que las unen todas entre sí. solamente aparece entre las neuronas de la capa de entrada y la de salida. En las redes neuronales recurrentes la aparición de la variable tiempo de manera explícita se traduce: en una variable discreta controlada por la señal de reloj interna del sistema de cómputo. es directamente el número de época en el que se llega el algoritmo correspondiente. en una variable contínua. es una variable que enumera de manera ordenada en el tiempo las entradas que conforman una secuencia de ellas. En un problema de predicción de series temporales, tratado con redes neuronales recurrentes frente a uno de clasificación: las funciones perdida/ coste no varían. como las funciones de pérdida / coste ya no son las mismas, su optimización también debería abandonar los métodos de optimización basados en el gradiente. supondría formular funciones de pérdida/coste diferentes, pero su optimización podría hacerse aplicando los mismos métodos basado en el gradiente. las funciones de pérdida / coste son idénticas. En una red convolutiva empleada para la clasificación de imágenes, las formas más simples de cada imagen son atribuibles a: es una tarea que lleva a cabo por igual en todas las capas de la red. en las intermedias ya que todavía no se ha dejado de notar el efecto de la evanescencia del gradiente. las capas más profundas. al procesamiento llevado a cabo en la capa de salida. El método de estimación de la tasa de error Bootstrap realiza una media ponderada de la tasa de error del conjunto de prueba y el error de resubstitución. Seleccione la opción correcta: La estimación tiene poco sesgo, pues compensa la ausencia de instancias en el conjunto de entrenamiento con la estimación optimista del error de resubstitución. Realiza una estimación optimista por incluir el error de resubstitución. La estimación tiene poco sesgo pues en ambos errores permiten estimar el error verdadero. Realizar una estimación pesimista, pues el clasificador no se entrena con todas las instancias disponibles. Los métodos de selección de atributos intentan: Eliminar atributos redundantes. Eliminar atributos irrelevantes. Eliminar atributos que tienen menor varianza. Eliminar los atributos que tienen una distribución uniforme. Crea los atributos que se consideran relevantes para identificar la clase. Un conjunto de datos contiene outliers y se ha optado por no eliminarlos. ¿Cuál es la mejor forma de normalizar el conjunto de datos?. Depende de si es un problema de clasificación o de regresión. Lo mejor es no normalizarlos debido a la presencia de outliers. Escalado. Estandarización. En un problema de clasificación binario un clasificador asigna el 40% de las veces la clase mayoritaria con probabilidad 70% y el 60% de las veces la clase mayoritaria con una probabilidad del 80%. Indicar qué punto le representa en el espacio ROC. (0.76,0.76). (0.7,0.2). (0.6,0.6). (0.3,0.8). (0.4,0.6). ¿Cómo se calculan los intervalos de confianza de la tasa de error de un clasificador si el conjunto de prueba tiene 20 muestras?. Asumiendo una distribución binomial. Asumiendo una distribución normal. No se pueden calcular porque el conjunto de prueba tiene menos de 30 instancias. Suponiendo una distribución t-student. En el contexto de comparar varios clasificadores sobre varios métodos, el test de Bonferroni-Dunn. Tiene validez si el test de Iman y Davenport no rechaza la hipótesis nula. Permite comparar todos los métodos entre sí. Discrimina más que el test de Nemenyi. Permite comparar un método frente a los demás. Tiene validez si el test de Iman y Davenport rechaza la hipótesis nula. Se realiza después del test de Nemenyi. El algoritmo de las k-medias, a pesar de su antigüedad, sigue siendo uno de los métodos de clustering más populares, ¿por qué?: por su robustez al ruido y a los puntos aislados. por su complejidad (lineal) y su eficiencia. por ser capaz de formar clusters no convexos. por su complejidad (polinómica de grado 2). ¿Por qué se utilizan los rankings o los test de vitorias para comparar algoritmos sobre varios conjuntos de datos?. Porque el algoritmo que mejor se comporta siempre obtiene la menor tasa de error. Porque los errores cometidos por los algoritmos en distintos conjuntos de datos no son directamente comparables. Porque ningún algoritmo obtiene siempre la menor tasa de error. Porque los signos y los rankings no dependen del error sobre cada conjunto de datos. En el algoritmo AC de Clustering, comparando el criterio del mínimo, máximo y media, en cuál se calculan más distancias: Igual para todos ellos: hay que calcular la distancia de todas las muestras de un cluster con todas las del otro que se quiere agrupar. en el máximo. usando la media. en el mínimo. En una red recurrente implementada a base de celdas LSTM, GRU o SimpleNN, ¿tendría sentido emplear la entropía cruzada como una función de coste o de pérdida?. No, debido a siempre lleva a cabo una predicción y salida tiene que ser un valor continuo. Sí, si lo que se está llevando a cabo es una clasificación de secuencias. No, porque lo que hay a la salida es siempre un escalar. Sí, pero sólo admitiría como optimizador el SGD (Descenso del Gradiente Estocástico) en su versión más simple, es decir, sin término momento y sin posibilidad del procesamiento por lotes de secuencias. En un mlp, se puede intercambiar el orden de dos atributos, pero ¿en una convolutiva?: Sí, porque la convolución es una transformación isométrica. No, ya que la convolución no es el producto escalar de todo el vector de entrada, sino a trozos, según un núcleo. Sí, porque de lo contrario, la solución dependería del orden de los atributos y esto no es admisible. No, porque el escalado de los atributos ha de hacerse teniendo en cuenta todos los valores dentro de en una misma muestra. Una imagen almacenada en canales RGB, tras pasar por una capa convolutiva de 16 neuronas, ¿en cuántos canales pasará a la siguiente capa? Nota: considérese, por ejemplo, que el almacenamiento es WHCS (width, high, channel, Sample). En uno. En 16. En 3. En 16x3=48. Las instancias de un conjunto de datos están descritas por 10 atributos. Se emplea un método de filtro con selección hacia adelante para seleccionar el mejor conjunto de 3 atributos. Indicar cuántos subconjuntos de atributos hay que evaluar. 100. 30. 720. 27. ¿Qué sucede en el borde, cuando la imagen tiene un número impar de pixel en, al menos, una dimensión, y el Polling es de 2x2?. Se rellenan de unos hasta completar una cuadrícula 2x2. Se reduce a un único pixel igual a cero. Depende de la operación,es decir, si corresponde con el máximo, mínimo o media. Se lleva acabo la operación, sólo que con menos celdas. Se dice que un test de hipótesis es muy exigente cuando: El error de tipo II es muy bajo. El error de tipo I es muy alto. El error de tipo II es muy alto. El error de tipo I es muy bajo. Dentro de los diferentes paradigmas de aprendizaje, el Clustering o Análisis de Grupos, en general, dónde lo encuadraría: Con refuerzo. Competitivo. Supervisado. No supervisado. Desde el punto de vista tensorial, el procesamiento de imágenes, respecto al vídeo, qué implica: Nada, se trata como una colección de imágenes estáticas. Normalmente, en el vídeo se reducen los canales a uno, con lo que el tensor resultante, tendría la misma dimensionalidad que una imagen. Una dimensión más para las imágenes. Una dimensión más para el vídeo. En un dendograma, la altura en la que aparece un nodo no terminal dentro de la jerarquía: tiene su importancia, porque determina el número de muestras que finalmente va a tener esa rama del árbol. marca de manera cronológica, cuándo se debe agrupar o dividir esa rama y, por tanto, cuando se corte por un número prefijado de clusters, determinará si el nodo correspondiente se incluirá, o no, en la agrupación final. es un parámetro que depende de la distribución de probabilidad asociada al espacio muestral. es un dato irrelevante, sirve sólo para organizar el dibujo de tal manera, que no se pisen las diferentes ramas del árbol. ¿Es posible que un clasificador tenga una tasa de error de 0.99 y el área bajo la curva ROC sea 0.5, sabiendo que, como es habitual, la clase positiva es minoritaria?. Solo si la distribución de clases es muy desequilibrada y el clasificador predice siempre la clase negativa. Solo si la distribución de clases es muy desequilibrada y el clasificador predice siempre la clase positiva. Solo si el clasificador es aleatorio. No. Sea a(i, j) el elemento de la fila “i”, columna “j” de la matriz de confusión de un clasificador binario. Sea la siguiente matriz de confusión: a(1, 1)=80, a(1, 2)=20, a(2, 1)=30 y a(2, 2)=170. La tasa de falsos positivos del clasificador es: 0.72. 0.27. 0.15. 0.80. El número de clusters que surjan de aplicar un algoritmo concreto ¿se fija de antemano?. Depende del algoritmo. Sólo se hace en el caso de las k-medias, en el resto de los vistos en clase, se obtiene de manera automática. Siempre. A posteriori se comprobará si esta hipótesis es correcta o no. Nunca, son los algoritmos los que conducen a un número óptimo. Indicar que características son ciertas del método de Bagging: Introduce diversidad usando particiones del conjunto de entrenamiento. El tamaño del ensamble se fija de antemano. Es un método Universal, aplicable a cualquier clasificador base. Construcción del ensamble: entrenamiento independiente. La estrategia de combinación es “Entrenable”. Al comparar una GRU y una LSTM, qué es lo que justifica que la primera sea más rápida que la segunda: La GRU no admite entradas vectoriales, pero sí la LSTM. La GRU dispone de menos entradas. Las GRU no se pueden distribuir más que en una capa, mientras que las LSTM sí pueden disponerse en varias. La GRU internamente presenta menos puertas. La aparición explícita de la variable tiempo en las redes neuronales se debe a: La necesidad de medir tiempos para obtener las prestaciones del sistema. El procesamiento de secuencias, lo que conlleva a que en un mismo canal de entrada, aparezcan valores diferentes en distintos instantes de tiempo. El ahorro de canales de entrada, ya que por uno sólo, se admite multitud de entradas. Que es una variable básica de la Física. De los siguientes métodos de discretización, indicar cuál de ellos es local y basado en la entropía: Discretización mediante un árbol de decisión sobre el atributo a discretizar y criterio de parada MDL. Discretización por frecuencias. Discretización mediante un árbol de decisión. Discretización por intervalos. El uso del test de Student para comparar dos algoritmos sobre un mismo problema de aprendizaje en base a la tasa de error requiere estimar la misma mediante validación cruzada. Indicar por qué. Porque la estimación de la tasa de error es más precisa. Porque los conjuntos de prueba no se solapan. Porque los conjuntos de entrenamiento se solapan. Porque permite realizar test pareados. Indicar que características son ciertas del método de Boosting: Introduce diversidad usando particiones del conjunto de entrenamiento. Construcción del ensamble: entrenamiento independiente. El tamaño del ensamble se fija de antemano. Es un método Universal, aplicable a cualquier clasificador base. La estrategia de combinación es “Entrenable”. La estrategia de combinación es “No-entrenable”. Construcción del ensamble: entrenamiento dependiente. ¿Qué distingue una red neuronal parcialmente recurrente, de una totalmente recurrente?. En la parcial hay neuronas aisladas. Las parcialmente recurrentes se emplean para predicción y, las totalmente recurrentes, para clasificación. No hay diferencia en la arquitectura, sino que su diferencia está en el algoritmo de aprendizaje. En la total, todas las neuronas están conectadas con todas, mientras que en la parcial algunos nodos pueden no estar conectados con todos. Indicar qué algoritmos de aprendizaje son sensibles a la normalización de los datos: K-vecinos más próximos. SVM. Naive Bayes. Regresión logística. Inducción de reglas de clasificación. Inducción de árboles de decisión. Indicar qué características son ciertas del método de Rotation Forest: Introduce diversidad usando particiones del espacio de características. El tamaño del ensamble se fija de antemano. La estrategia de combinación es “Entrenable”. Es un método Universal, aplicable a cualquier clasificador base. Construcción del ensamble: entrenamiento independiente. La estrategia de combinación es "No-entrenable". Construcción del ensamble: entrenamiento dependiente. ¿Por qué razón los métodos de clustering divisivos apenas se usan?. No se puede usar con muestras categóricas. Dan lugar a agrupamientos que raramente satisfacen los requerimientos del problema. Su lentitud: el número de posibilidades que hay que analizar antes de pasar al siguiente nivel, crece de manera exponencial. Dado que el número prefijado de clusters obliga a cortar por abajo, resulta poco eficiente empezar por arriba. Los métodos de selección de atributos intentan: Eliminar atributos redundantes. Eliminar atributos que siguen una distribución uniforme. Eliminar atributos irrelevantes. Eliminar atributos con ruido. Eliminar los atributos que se consideran relevantes para identificar la clase. Eliminar los atributos que tienen menor varianza. Crear los atributos que se consideran relevantes para identificar la clase. Los métodos de selección de atributos de la familia de envoltorio se caracterizan por: Realizar la selección de atributos con el algoritmo de aprendizaje con el que se crea el modelo final. Realizar la selección de atributos con un algoritmo de aprendizaje. Realizar la selección de atributos en base a la tasa de error del modelo final. Realizar la selección de atributos mediante selección hacia adelante. En el algoritmo de k-medias por lotes: La elección de las muestras se hace de manera aleatoria. Las n más cercanas al baricentro del experimento. Se pueden emplear las n-primeras, si éstas están ordenadas por algún atributo. Se escoge siempre de manera estratificada. Se dispone de 5 instancias para crear la curva ROC de un clasificador para la clase +. La información de cada instancia, con el formato <número de instancia, clase real, clase predicha, puntuación de la clase +>, se incluye en la lista: (<1, +, +, 0.9>, <2, +, +, 0.7>, < 3, +, +, 0.6>, < 4, +, -, 0.4>, < 5, -, -, 0.2>). Determinar el área bajo la curva ROC del clasificador: 0.9. 0.8. 0.6. Ninguna de las anteriores. Las LSTM aparecen: para la clasificación de secuencias que, con las redes precedentes, no era posible. para que la magnitud del gradiente fuese aún más pequeña en las "capas" más profundas. para tratar con secuencias de gran tamaño, que desembocaban en un aprendizaje tan profundo que, con las anteriores redes, la evanescencia del gradiente llevaba a que las primeras "capas", prácticamente, no actualizaran sus pesos. para realzar más el recuerdo más cercano. ¿Es posible que un clasificador tenga una tasa de error de 0.5 y el área bajo la curva ROC sea 1?. Solo si la distribución de clases es muy desequilibrada y el clasificador predice siempre la clase negativa. No, sea cual sea el umbral. Sí, con una mala elección del umbral. Solo si la distribución de clases es muy desequilibrada y el clasificador predice siempre la clase positiva. A pesar de que el Clustering o Análisis de Grupos, a priori, no es un aprendizaje supervisado, por qué sigue manteniendo su interés, en general, y en Inteligencia Artificial, en particular: Su complejidad computacional es sensiblemente menor a la de cualquier otro algoritmo de Aprendizaje Automático. Normalmente requiere de menos atributos que un problema con supervisión. Son algoritmos muy probados y, por lo tanto, muy robustos. Son capaces de detectar parecidos y diferencias que, a veces, escapan al proceso supervisor. ¿Por qué el algoritmo de Ward resulta ser el más usado dentro de los jerárquicos?. A que es capaz de hallar y aislar los puntos aislados de manera inmediata. Es debido a que se concibe como un método iterativo que va buscando, en cada paso, los clusters más densos y más distantes entre sí. A que la heterogeneidad entre clusters es mucho más fácilmente calculable que cualquier distancia. A que su complejidad computacional es sensiblemente menor que cualquier otro algoritmo de los expuestos en clase. Indicar en qué algoritmos de aprendizaje las normalizaciones por escalado y estandarización pueden producir resultados diferentes: Inducción de reglas de clasificación. K-vecinos más próximos. Naive Bayes. SVM. Regresión logística. Inducción de árboles de decisión. Con una o varias capas convolucionales únicamente, ¿se podría hacer una clasificación de imágenes?. No, se obtendría sólo un tensor, que difícilmente se podría clasificar de manera inmediata. Sí, si tuvieran más canales que clases. No, porque suele un número de canales menor que el de clases. Sí, sólo habría que aplicar un etiquetado correcto de la neurona ganadora. El algoritmo DBSCAN: es el método visto en clase con mejores resultados para detectar puntos aislados. es imprescindible que el espacio sea ultramétrico. aunque sea de clustering, precisa de salidas deseadas. sólo funciona bien con clusters con pocos puntos. El radio de vecindad en un SOM rectangular (no cuadrado): se obtiene para que cubra totalmente la dimensión mayor. puede ser tan grande como se quiera, porque no influye en el resultado final. se calcula para que abarque por completo la dimensión más pequeña. es el mínimo que más neuronas cubre en la dimensión menor, sin que se cuente un nodo dos veces. Las operaciones de data-aumentation (aumento artificial de imágenes), batch normalization (normalización de imágenes por lotes) o drop-out (actualización de una parte de las neuronas de una capa cada vez), ¿usadas conjuntamente para qué sirven?. Para soslayar el sobre-entrenamiento. (over-training/fitting). Para tratar de paliar tanto el intra como el sobre entrenamiento. Son técnicas muy refinadas de escalado/normalización. Para evitar el infra-entrenamiento (under-training/fitting). En una red neuronal recurrente, qué diferencia el aprendizaje por épocas del de en tiempo real: por épocas consume más recursos en comparación con el de tiempo real. por épocas está reservado sólo a la clasificación de secuencias y el de tiempo real a la predicción de series temporales. por épocas, la salida deseada aparece una vez procesada toda una secuencia mientras que, en tiempo real, hay una salida deseada para cada muestra de dicha secuencia. por épocas, no se puede paralelizar, mientras que el de tiempos real, sí. Los métodos envolventes de selección de atributos permiten: Realizar una selección de atributos independiente del algoritmo de aprendizaje con el que se crea el modelo final. Seleccionar los atributos de forma individual en base a su valor intrínseco. Adaptar la selección de atributos al algoritmo de aprendizaje con el que se crea el modelo final. Utilizar la entropía para como métrica para la selección de atributos. La distancia de Mahanalobis, usada en algoritmos de clustering, ¿resulta beneficiosa o no?. Es beneficiosa, ya que da más preponderancia a los atributos más independientes, en detrimento de los más correlacionados, resultando un sistema más robusto frente al ruido que puedan inducir las redundancias. Es indiferente; con tal de que sea una distancia, ya se encargarán los algoritmos de clustering de obtener buenos resultados. No, porque introduce una sobrecarga innecesaria en el cómputo. Es siempre aconsejable, porque sugiere creación nuevos atributos basándose en combinación lineal de los anteriores. En el contexto de comparar varios clasificadores sobre varios métodos, el test de Nemenyi : Tiene validez si el test de Iman y Davenport no rechaza la hipótesis nula. Discrimina más que el test de Bonferroni-Dunn. Tiene validez si el test de Iman y Davenport rechaza la hipótesis nula. Permite comparar todos los métodos entre si. Se realiza después del test de Bonferroni-Dunn. Permite comparar un método frente a los demás. Se dispone de 5 instancias para crear la curva ROC de un clasificador para la clase +. La información de cada instancia, con el formato <número de instancia, clase real, clase predicha, puntuación>, se incluye en la lista: (<1, -, +, 0.9>, <2, +, +, 0.8>, < 3, +, +, 0.7>, < 4, +, +, 0.6>, < 5, - -, 0.2>). Determinar el área bajo la curva ROC del clasificador: 0.5. 0.8. 0.9. Ninguna de las anteriores. ¿Por qué se utilizan los rankings o los test de victorias para comparar varios algoritmos sobre varios conjuntos de datos?. Porque ningún algoritmo obtiene siempre la menor tasa de error. Porque los rankings no dependen del error sobre cada conjunto de datos. Porque los rankings evitan comparar directamente las tasas de error. Porque el algoritmo que mejor se comporta siempre obtiene el mejor ranking en cada conjunto. Las instancias de un conjunto de datos están descritas por 10 atributos. Se emplea un método de filtro con selección hacia adelante para seleccionar el mejor conjunto de 4 atributos. Indicar cuántos subconjuntos de atributos hay que evaluar. 5040. 340. 34. 40. En un algoritmo particional de clustering, ¿tendría sentido el dendograma?. Podría hacerse, pero sólo importa el resultado final, por eso nunca se suele obtener. Depende de si resulta de interés, no sólo el resultado, sino la evolución del algoritmo hasta alcanzarlo. Sólo tendría sentido, si las muestras van acompañadas de una salida deseada, información que se usaría en una fase posterior a la del clustering propiamente dicho. Ninguno, porque en los particionales, el proceso de conformación de los clusters sigue una evolución, donde se pueden mezclar agregaciones y disgregaciones, totales o parciales, indistintamente, en una determinada iteración del algoritmo. En un SOM, un etiquetado por neuronas: hay siempre porcentaje de neuronas etiquetadas con la marca "error". a veces, produce neuronas sin etiquetar. nunca hay neuronas sin etiquetar. es muy probable que se pueda producir conflicto de etiquetas, al haber dos muestras con idéntica salida y distinta salida deseada. ¿Es posible que un método de discretización de atributos genere dos intervalos consecutivos con la misma clase?: Los métodos basados en el error pueden hacerlo. Los métodos basados en entropía pueden hacerlo. Solo si son métodos no supervisados. Cualquier método puede hacerlo. Solo si son métodos supervisados. Sea a(i, j) el elemento de la fila "i", columna "j" de la matriz de confusión de un clasificador binario. Sea la siguiente matriz de confusión: a(1, 1)=150, a(1, 2)=50, a(2, 1)=40 y a(2, 2)=60. La tasa de falsos positivos del clasificador es: 0.50. 0.40. 20. 0.25. El número de clusters finales se fija: al azar y, a medida que evoluciona el algoritmo, este parámetro se va autoajustando. de antemano. depende de cada algoritmo: los hay que precisan establecerlo de antemano y, otros, que surge de su propia ejecución. es función del número de iteraciones máximas del algoritmo. Como paradigma, el SOM es ¿un clustering o una clasificación?. Ninguno de los dos, realmente lo que lleva a cabo es una regresión polinómica. Una clasificación, porque la salida deseada es preceptiva. Un clustering, dado que no precisa de salidas deseadas. En realidad es un método de selección de atributos concretos, para ser usado en otros paradigmas. Se dice que un test de hipótesis es poco exigente cuando: El error de tipo l es muy alto. El error de tipo Il es muy alto. El error de tipo Il es muy bajo. El error de tipo I es muy bajo. El llamado "down-sampling", o submuestreo, en el procesamiento de imágenes por una red basada en redes convolucionales, ¿dónde se lleva a cabo?. En el aplanado de dicha imagen. En el pooling, en cualquiera de sus variantes: maxpooling o meanpooling. Al aplicar el algoritmo de retropropagación. En cualquier capa convolucional, aunque se ponga un "padding", o relleno, para evitar los efectos de borde. El test de Student no se debe utilizar para comparar dos algoritmos sobre un mismo problema de aprendizaje en base a la tasa de error estimada mediante un proceso de hold-out repetido. Indicar por qué. Porque las tasas de error no son directamente comparables. Porque los conjuntos de entrenamiento y prueba se solapan. Porque los conjuntos de entrenamiento y prueba son diferentes. Porque la estimación de la tasa de error tiene una varianza elevada. En el contexto de los multiclasificadores, ¿cuándo se dice que la estrategia de combinación es entrenable?. Cuando el clasificador de nivel uno se entrena en el proceso de construcción del ensemble. Cuando la clasificación de nivel uno se realiza por voto mayoritario. Cuando el clasificador de nivel uno se entrena sin requerir datos adicionales. Cuando el clasificador de nivel uno se entrena con nuevos datos. En un problema de clasificación de secuencias ¿se podría hacer con una red neuronal estática, en vez de usar una recurrente?. No, pues daría lugar a un número infinito de entradas. Sí, siempre que todas las secuencias sean de la misma longitud. No, ya que la variable tiempo se perdería. Sí, sólo se precisa que las muestras estén escaladas en el mismo intervalo. |