У дома звуков Защо изкуствените повтарящи се невронни мрежи често се обучават трудно?

Защо изкуствените повтарящи се невронни мрежи често се обучават трудно?

Anonim

Q:

Защо изкуствените повтарящи се невронни мрежи често се обучават трудно?

A:

Трудността при обучението на изкуствени повтарящи се невронни мрежи е свързана с тяхната сложност.

Един от най-простите начини да се обясни защо повтарящите се невронни мрежи са трудно обучими е, че те не са непрекъснати невронни мрежи.

Във възходящите невронни мрежи сигналите се движат само по един път. Сигналът се премества от входния слой към различни скрити слоеве и напред към изходния слой на системата.

За разлика от тях, повтарящите се невронни мрежи и други различни видове невронни мрежи имат по-сложни сигнални движения. Класифицирани като мрежи за „обратна връзка“, повтарящите се невронни мрежи могат да имат сигнали, пътуващи напред и назад, и могат да съдържат различни „контури“ в мрежата, където числата или стойностите се връщат обратно в мрежата. Експертите свързват това с аспекта на повтарящите се невронни мрежи, който е свързан с тяхната памет.

В допълнение има и друг вид сложност, засягащ повтарящите се невронни мрежи. Един отличен пример за това е в областта на обработката на естествен език.

При сложна обработка на естествен език, невронната мрежа трябва да може да запомня нещата. Той също трябва да приема данни в контекста. Да предположим, че има програма, която иска да анализира или предскаже дума в изречение от други думи. Може да има например фиксирана дължина от пет думи, която системата да оцени. Това означава, че невронната мрежа трябва да има входове за всяка от тези думи, заедно със способността да „запомня“ или да тренира в контекста на тези думи. По тези и други подобни причини, повтарящите се невронни мрежи обикновено имат тези малки скрити бримки и обратни връзки в системата.

Експертите оплакват, че тези усложнения затрудняват обучението на мрежите. Един от най-често срещаните начини за обяснение на това е чрез цитиране на избухналия и изчезващ градиент. По същество тежестите на мрежата ще доведат до експлодиране или изчезване на стойности с голям брой проходи.

Пионерът на невронната мрежа Джеф Хинтън обяснява това явление в мрежата, като казва, че назад линейните проходи ще доведат до намаляване на експозицията на по-малки тежести и по-големи тежести.

Проблемът, той продължава, се влошава с дълги последователности и по-многобройни стъпки във времето, в които сигналите растат или угасват. Инициализирането на теглото може да помогне, но тези предизвикателства са вградени в повтарящия се модел на невронната мрежа. Винаги ще има този проблем, прикрепен към техния конкретен дизайн и конструкция. По същество някои от по-сложните видове невронни мрежи наистина опровергават способността ни лесно да ги управляваме. Можем да създадем практически безкрайно количество сложност, но често виждаме, че предизвикателствата за предсказуемост и мащабируемост нарастват.

Защо изкуствените повтарящи се невронни мрежи често се обучават трудно?