(RNN рдореЗрдВ рд╡рд┐рд▓реБрдкреНрдд рд╣реЛрддрд╛ рдЧреНрд░реЗрдбрд┐рдПрдВрдЯ тАФ рдХрд╛рд░рдг рдФрд░ рд╕рдорд╛рдзрд╛рди)
рдЕрдм рд╣рдо RNN рдХреА рд╕рдмрд╕реЗ рдмрдбрд╝реА рд╕рдорд╕реНрдпрд╛ рдХреЛ рд╕рдордЭреЗрдВрдЧреЗ тАФрдЬрд┐рд╕рдХреЗ рдХрд╛рд░рдг deep RNNs рдХреЛ train рдХрд░рдирд╛ рдХрдард┐рди рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ:
ЁЯзи Vanishing Gradient Problem
ЁЯФ╢ 1. What is the Vanishing Gradient Problem?
рдЬрдм neural network рдХреЛ train рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рддреЛ рд╣рдо backpropagation through time (BPTT) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ рддрд╛рдХрд┐ рд╣рд░ time step рдкрд░ gradient calculate рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗред
рд▓реЗрдХрд┐рди рдЬреИрд╕реЗ-рдЬреИрд╕реЗ sequence рд▓рдВрдмрд╛ рд╣реЛрддрд╛ рд╣реИ рдФрд░ рд╣рдо рдкреАрдЫреЗ рдХреА рдУрд░ gradients propagate рдХрд░рддреЗ рд╣реИрдВ тАФ
gradient рдХрд╛ рдорд╛рди рдмрд╣реБрдд рдЫреЛрдЯрд╛ (near zero) рд╣реЛрддрд╛ рдЬрд╛рддрд╛ рд╣реИред
ЁЯСЙ рдЗрд╕реЗ рд╣реА vanishing gradient рдХрд╣рддреЗ рд╣реИрдВред
ЁЯзо 2. Technical Explanation
RNN рдореЗрдВ hidden state update рд╣реЛрддрд╛ рд╣реИ:

тЪая╕П 3. Effects of Vanishing Gradient
| Effect | Description |
|---|---|
| No learning | рдкреБрд░рд╛рдиреЗ inputs рд╕реЗ рдХреЛрдИ рд╕реАрдЦ рдирд╣реАрдВ рд╣реЛрддрд╛ |
| Short memory | RNN рдХреЗрд╡рд▓ recent inputs рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддрд╛ рд╣реИ |
| Shallow reasoning | Long-term dependencies рд╕рдордЭ рдирд╣реАрдВ рдкрд╛рддрд╛ |
| Poor performance | Especially in long sequences (e.g. paragraph-level text) |
ЁЯУЙ 4. Visualization
Imagine a gradient value like 0.8
тЖТ Backprop through 50 steps:

Gradient тЖТ 0 рдХреЗ рдмрд╣реБрдд рдХрд░реАрдм рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ
тЖТ Model рдкреБрд░рд╛рдиреЗ рд╢рдмреНрджреЛрдВ/steps рдХреЛ рднреВрд▓ рдЬрд╛рддрд╛ рд╣реИред
ЁЯзк 5. Real-life Example
Suppose рдЖрдкрдиреЗ рдпреЗ рд╡рд╛рдХреНрдп рджрд┐рдпрд╛:
“The movie was long, but in the end, it was incredibly good.”
Prediction рдЪрд╛рд╣рд┐рдП “good” рд╢рдмреНрдж рдХреЗ рд▓рд┐рдПред
Vanilla RNN рдореЗрдВ model рд╢рд╛рдпрдж “long” рдпрд╛ “but” рдХреЛ рджреЗрдЦ рдХрд░ negative guess рдХрд░ рд▓реЗ тАФ
рдХреНрдпреЛрдВрдХрд┐ beginning рдореЗрдВ рдореМрдЬреВрдж words рдХреА рдЬрд╛рдирдХрд╛рд░реА gradient vanish рд╣реЛрдиреЗ рдХреА рд╡рдЬрд╣ рд╕реЗ рдЦреЛ рдЬрд╛рддреА рд╣реИред
ЁЯзп 6. How to Solve Vanishing Gradient?
| Solution | Description |
|---|---|
| тЬЕ LSTM (Long Short-Term Memory) | Introduces gates to control memory |
| тЬЕ GRU (Gated Recurrent Unit) | Simpler than LSTM, effective |
| ЁЯФБ Gradient Clipping | Gradient рдХреЛ limit рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ |
| тПл ReLU Activations | Vanishing рдХрдо рд╣реЛрддреА рд╣реИ (compared to tanh) |
| ЁЯза Better Initialization | Xavier/He initialization |
| ЁЯз▒ Skip Connections | рдЬреИрд╕реЗ ResNet рдореЗрдВ рд╣реЛрддрд╛ рд╣реИ |
ЁЯза 7. Summary Table
| Feature | Normal RNN | LSTM/GRU |
|---|---|---|
| Memory | Short-term only | Long + short term |
| Gradient stability | Poor | Better |
| Sequence length handling | Weak | Strong |
| Complexity | Low | Medium to High |
ЁЯФз PyTorch: Gradient Clipping Example
from torch.nn.utils import clip_grad_norm_
clip_grad_norm_(model.parameters(), max_norm=1.0)
ЁЯУЭ Practice Questions:
- Vanishing gradient рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?
- рдпрд╣ рд╕рдорд╕реНрдпрд╛ RNN рдореЗрдВ рдХреНрдпреЛрдВ рд╣реЛрддреА рд╣реИ?
- рдЗрд╕рдХрд╛ рдХреНрдпрд╛ рдЕрд╕рд░ рдкрдбрд╝рддрд╛ рд╣реИ model рдХреА memory рдкрд░?
- рдЗрд╕ рд╕рдорд╕реНрдпрд╛ рдХреЛ рдХреИрд╕реЗ рд╣рд▓ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ?
- LSTM рдФрд░ GRU рдЗрд╕ рд╕рдорд╕реНрдпрд╛ рд╕реЗ рдХреИрд╕реЗ рд▓рдбрд╝рддреЗ рд╣реИрдВ?
ЁЯОп Summary
| Concept | Explanation |
|---|---|
| Vanishing Gradient | Gradient рдмрд╣реБрдд рдЫреЛрдЯрд╛ рд╣реЛ рдЬрд╛рддрд╛ рд╣реИ |
| Result | Model рдкреБрд░рд╛рдиреА рдЬрд╛рдирдХрд╛рд░реА рднреВрд▓ рдЬрд╛рддрд╛ рд╣реИ |
| Main Cause | Long multiplication of small numbers |
| Solutions | LSTM, GRU, Clipping, ReLU |






