Articles of aprendizaje automático de

Época frente a iteración al entrenar redes neuronales

¿Cuál es la diferencia entre época e iteración cuando se entrena un perceptrón multicapa?

¿Qué es el meta parámetro `weight_decay` en Caffe?

Mirando un ejemplo ‘solver.prototxt’ , publicado en BVLC / caffe git, hay un meta parámetro de entrenamiento weight_decay: 0.04 ¿Qué significa este metaparámetro? ¿Y qué valor debería asignarle?

Pérdida y precisión: ¿son estas curvas de aprendizaje razonables?

Estoy aprendiendo redes neuronales y construí una simple en Keras para la clasificación del conjunto de datos del iris del repository de aprendizaje automático UCI. Usé una red de capa oculta con 8 nodos ocultos. El optimizador de Adam se usa con una tasa de aprendizaje de 0.0005 y se ejecuta para 200 Epochs. Softmax […]

¿Cómo interpretar el registro de caffe con debug_info?

Cuando se enfrentan dificultades durante el entrenamiento ( nan , la pérdida no converge , etc.) a veces es útil buscar un registro de entrenamiento más detallado configurando debug_info: true en el archivo ‘solver.prototxt’ . El registro de entrenamiento se ve más o menos así: I1109 …] [Forward] Layer data, top blob data data: 0.343971 […]

Causas comunes de nans durante el entrenamiento

Me he dado cuenta de que una ocurrencia frecuente durante el entrenamiento es la introducción de NAN . Muchas veces parece ser introducido por pesas en capas de producto interno / totalmente conectadas o de convolución que explotan. ¿Esto ocurre porque el cálculo del gradiente está explotando? ¿O se debe a la inicialización del peso […]

Papel del sesgo en las redes neuronales

Soy consciente del Descenso de gradiente y del Teorema de propagación de retroceso. Lo que no entiendo es: ¿Cuándo es importante usar un sesgo y cómo lo usa? Por ejemplo, cuando mapeo la función AND , cuando uso 2 entradas y 1 salida, no da los pesos correctos, sin embargo, cuando uso 3 entradas (1 […]