Articles of profundo

Época frente a iteración al entrenar redes neuronales

¿Cuál es la diferencia entre época e iteración cuando se entrena un perceptrón multicapa?

¿Por qué debe usarse una función de activación no lineal en una neural network de retropropagación?

He estado leyendo algunas cosas sobre redes neuronales y entiendo el principio general de una neural network de una sola capa. Entiendo la necesidad de capas adicionales, pero ¿por qué se usan las funciones de activación no lineal? A esta pregunta sigue esta: ¿Qué es una derivada de la función de activación utilizada en la […]

¿Qué es el meta parámetro `weight_decay` en Caffe?

Mirando un ejemplo ‘solver.prototxt’ , publicado en BVLC / caffe git, hay un meta parámetro de entrenamiento weight_decay: 0.04 ¿Qué significa este metaparámetro? ¿Y qué valor debería asignarle?

Caffe | solver.prototxt values ​​setting strategy strategy

En Caffe, estoy tratando de implementar una red Fully Convolution para la segmentación semántica. Me preguntaba si existe una estrategia específica para configurar ‘solver.prototxt’ valores de ‘solver.prototxt’ para los siguientes ‘solver.prototxt’ : test_iter test_interval iter_size max_iter ¿Depende de la cantidad de imágenes que tienes para tu conjunto de entrenamiento? ¿Si es así, cómo?

¿Cómo interpretar el registro de caffe con debug_info?

Cuando se enfrentan dificultades durante el entrenamiento ( nan , la pérdida no converge , etc.) a veces es útil buscar un registro de entrenamiento más detallado configurando debug_info: true en el archivo ‘solver.prototxt’ . El registro de entrenamiento se ve más o menos así: I1109 …] [Forward] Layer data, top blob data data: 0.343971 […]

Causas comunes de nans durante el entrenamiento

Me he dado cuenta de que una ocurrencia frecuente durante el entrenamiento es la introducción de NAN . Muchas veces parece ser introducido por pesas en capas de producto interno / totalmente conectadas o de convolución que explotan. ¿Esto ocurre porque el cálculo del gradiente está explotando? ¿O se debe a la inicialización del peso […]