Articles of neural network

¿Por qué deberían inicializarse los pesos de las Redes Neuronales a números aleatorios?

Estoy tratando de construir una neural network desde cero. En toda la literatura de AI existe consenso en que los pesos deben inicializarse en números aleatorios para que la red converja más rápido. Pero, ¿por qué se inicializan las ponderaciones iniciales de las redes neuronales como números aleatorios? Había leído en alguna parte que esto […]

¿Por qué debe usarse una función de activación no lineal en una neural network de retropropagación?

He estado leyendo algunas cosas sobre redes neuronales y entiendo el principio general de una neural network de una sola capa. Entiendo la necesidad de capas adicionales, pero ¿por qué se usan las funciones de activación no lineal? A esta pregunta sigue esta: ¿Qué es una derivada de la función de activación utilizada en la […]

Keras binary_crossentropy vs categórico_crossentropy rendimiento?

Estoy tratando de entrenar a una CNN para categorizar texto por tema. Cuando uso binary_crossentropy obtengo ~ 80% acc, con categorical_crossentrop obtengo ~ 50% acc. No entiendo por qué es esto. Es un problema multiclase, ¿eso significa que tengo que usar categórico y los resultados binarios no tienen sentido? model.add(embedding_layer) model.add(Dropout(0.25)) # convolution layers model.add(Conv1D(nb_filter=32, […]

Caffe | solver.prototxt values ​​setting strategy strategy

En Caffe, estoy tratando de implementar una red Fully Convolution para la segmentación semántica. Me preguntaba si existe una estrategia específica para configurar ‘solver.prototxt’ valores de ‘solver.prototxt’ para los siguientes ‘solver.prototxt’ : test_iter test_interval iter_size max_iter ¿Depende de la cantidad de imágenes que tienes para tu conjunto de entrenamiento? ¿Si es así, cómo?

Pérdida y precisión: ¿son estas curvas de aprendizaje razonables?

Estoy aprendiendo redes neuronales y construí una simple en Keras para la clasificación del conjunto de datos del iris del repository de aprendizaje automático UCI. Usé una red de capa oculta con 8 nodos ocultos. El optimizador de Adam se usa con una tasa de aprendizaje de 0.0005 y se ejecuta para 200 Epochs. Softmax […]

Abordar el desequilibrio de clase: contribución de escala a la pérdida y sgd

(Se ha agregado una actualización a esta pregunta). Soy un estudiante graduado en la universidad de Ghent, Bélgica; mi investigación trata del reconocimiento de emociones con redes neuronales convolucionales profundas. Estoy usando el marco de Caffe para implementar las CNN. Recientemente me encontré con un problema relacionado con el desequilibrio de clase. Estoy usando 9216 […]

¿Cuál es la diferencia entre sparse_softmax_cross_entropy_with_logits y softmax_cross_entropy_with_logits?

Recientemente me encontré con tf.nn.sparse_softmax_cross_entropy_with_logits y no puedo entender cuál es la diferencia en comparación con tf.nn.softmax_cross_entropy_with_logits . ¿Es la única diferencia que los vectores de entrenamiento tienen que estar codificados en caliente cuando se usa sparse_softmax_cross_entropy_with_logits ? Al leer la API, no pude encontrar ninguna otra diferencia en comparación con softmax_cross_entropy_with_logits . Pero, ¿por […]

¿Por qué tenemos que normalizar la entrada de una neural network artificial?

Es una pregunta principal, con respecto a la teoría de redes neuronales: ¿Por qué tenemos que normalizar la entrada de una neural network? Entiendo que a veces, cuando, por ejemplo, los valores de entrada no son numéricos, debe realizarse una determinada transformación, pero ¿cuándo tenemos una entrada numérica? ¿Por qué los números deben estar en […]

: la comprobación falla: comprobación fallida: hdf_blobs_ -> shape (0) == num (200 contra 6000)

Tengo los datos del tren y la etiqueta como data.mat. (Tengo 200 datos de entrenamiento con 6000 características y las tags son (-1, +1) que se han guardado en data.mat). Estoy tratando de convertir mis datos en hdf5 y ejecutar Caffe usando: load data.mat hdf5write(‘my_data.h5’, ‘/new_train_x’, single( reshape(new_train_x,[200, 6000, 1, 1]) ) ); hdf5write(‘my_data.h5’, ‘/label_train’, […]

¿Cómo entrenar / probar mi propio conjunto de datos en caffe?

Empecé con Caffe y el ejemplo de mnist funcionó bien. Tengo los datos del tren y la etiqueta como data.mat . (Tengo 300 datos de entrenamiento con 30 características y las tags son (-1, +1) que se han guardado en data.mat ). Sin embargo, no entiendo muy bien cómo puedo usar caffe para implementar mi […]