(рд╕рдХреНрд░рд┐рдпрдг рдлрд▓рди: Sigmoid, Tanh, ReLU)
ЁЯФ╖ 1. рдкрд░рд┐рдЪрдп (Introduction)
Neural Network рдореЗрдВ Activation Function рдпрд╣ рддрдп рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдХреЛрдИ neuron “active” рд╣реЛрдЧрд╛ рдпрд╛ рдирд╣реАрдВред
рдпрд╣ non-linearity рд▓рд╛рддрд╛ рд╣реИ, рддрд╛рдХрд┐ рдореЙрдбрд▓ complex patterns рдХреЛ рд╕реАрдЦ рд╕рдХреЗред
ЁЯФ╣ 2. рдЖрд╡рд╢реНрдпрдХрддрд╛ рдХреНрдпреЛрдВ? (Why Needed?)
рдмрд┐рдирд╛ Activation Function рдХреЗ neural network рдПрдХ simple linear model рдмрди рдЬрд╛рдПрдЧрд╛ред
ЁЯУМ With Activation Function тЖТ Deep, non-linear models
ЁЯУМ Without Activation тЖТ рд╕рд┐рд░реНрдл linear transformation
ЁЯФ╢ 3. рдореБрдЦреНрдп Activation Functions
ЁЯФ╕ A. Sigmoid Function

ЁЯУМ Output Range: (0, 1)
ЁЯУМ рдЙрдкрдпреЛрдЧ: Binary classification, Logistic regression
тЬЕ рд▓рд╛рдн:
- Probability рдХреА рддрд░рд╣ рдЖрдЙрдЯрдкреБрдЯ рджреЗрддрд╛ рд╣реИ
- Smooth gradient
тЭМ рдХрдореА:
- Gradient vanishing problem
- Output range рдЫреЛрдЯрд╛ рд╣реИ
ЁЯУИ рдЧреНрд░рд╛рдл: S-shaped (S-curve)

ЁЯФ╕ B. Tanh (Hyperbolic Tangent)

ЁЯУМ Output Range: (-1, 1)
ЁЯУМ рдЙрдкрдпреЛрдЧ: рдЬрдм input data zero-centered рд╣реЛ
тЬЕ рд▓рд╛рдн:
- Stronger gradients than sigmoid
- Centered at 0 тЖТ better learning
тЭМ рдХрдореА:
- Still suffers from vanishing gradient (large input рдкрд░ gradient тЖТ 0)
ЁЯУИ рдЧреНрд░рд╛рдл: S-shaped but centered at 0

ЁЯФ╕ C. ReLU (Rectified Linear Unit)

ЁЯУМ Output Range: [0, тИЮ)
ЁЯУМ рдЙрдкрдпреЛрдЧ: Deep Networks рдореЗрдВ рд╕рдмрд╕реЗ рдЖрдо activation
тЬЕ рд▓рд╛рдн:
- Fast computation
- Sparse activation (only positive values pass)
- No vanishing gradient for positive inputs
тЭМ рдХрдореА:
- Dying ReLU Problem: negative input тЖТ always zero gradient
ЁЯУИ рдЧреНрд░рд╛рдл: 0 for x < 0, linear for x > 0

ЁЯФБ рддреБрд▓рдирд╛ рддрд╛рд▓рд┐рдХрд╛ (Comparison Table)
| Feature | Sigmoid | Tanh | ReLU |
|---|---|---|---|
| Output Range | (0, 1) | (-1, 1) | [0, тИЮ) |
| Non-linearity | тЬЕ | тЬЕ | тЬЕ |
| Vanishing Gradient | Yes | Yes | No (partial) |
| Speed | Slow | Slow | Fast |
| Usage | Binary outputs | Hidden layers (earlier) | Deep models (most common) |
ЁЯТ╗ PyTorch Code: Activation Functions
import torch
import torch.nn.functional as F
x = torch.tensor([-2.0, 0.0, 2.0])
print("Sigmoid:", torch.sigmoid(x))
print("Tanh:", torch.tanh(x))
print("ReLU:", F.relu(x))
ЁЯОп Learning Summary (рд╕рд╛рд░рд╛рдВрд╢)
- Sigmoid рдФрд░ Tanh smooth functions рд╣реИрдВ рд▓реЗрдХрд┐рди saturation (vanishing gradient) рд╕реЗ рдЧреНрд░рд╕реНрдд рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВ
- ReLU simple, fast, рдФрд░ deep networks рдореЗрдВ рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рдЙрдкрдпреЛрдЧреА рд╣реИ
- Hidden layers рдореЗрдВ ReLU рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп choice рд╣реИ
ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)
- Sigmoid рдФрд░ Tanh рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
- ReLU рдХрд╛ рдЧрдгрд┐рддреАрдп рдлреЙрд░реНрдореВрд▓рд╛ рдХреНрдпрд╛ рд╣реИ?
- Dying ReLU problem рдХреНрдпрд╛ рд╣реИ?
- рдпрджрд┐ input -3 рд╣реЛ рддреЛ ReLU рдХрд╛ output рдХреНрдпрд╛ рд╣реЛрдЧрд╛?
- рдиреАрдЪреЗ рджрд┐рдП рдЧрдП PyTorch рдХреЛрдб рдХрд╛ рдЖрдЙрдЯрдкреБрдЯ рдмрддрд╛рдЗрдП:
x = torch.tensor([-1.0, 0.0, 1.0]) print(torch.tanh(x))










