Mirando un ejemplo ‘solver.prototxt’ , publicado en BVLC / caffe git, hay un meta parámetro de entrenamiento weight_decay: 0.04 ¿Qué significa este metaparámetro? ¿Y qué valor debería asignarle?
Cuando se enfrentan dificultades durante el entrenamiento ( nan , la pérdida no converge , etc.) a veces es útil buscar un registro de entrenamiento más detallado configurando debug_info: true en el archivo ‘solver.prototxt’ . El registro de entrenamiento se ve más o menos así: I1109 …] [Forward] Layer data, top blob data data: 0.343971 […]
Me he dado cuenta de que una ocurrencia frecuente durante el entrenamiento es la introducción de NAN . Muchas veces parece ser introducido por pesas en capas de producto interno / totalmente conectadas o de convolución que explotan. ¿Esto ocurre porque el cálculo del gradiente está explotando? ¿O se debe a la inicialización del peso […]