Activation Functions

(рд╕рдХреНрд░рд┐рдпрдг рдлрд▓рди: Sigmoid, Tanh, ReLU)


ЁЯФ╖ 1. рдкрд░рд┐рдЪрдп (Introduction)

Neural Network рдореЗрдВ Activation Function рдпрд╣ рддрдп рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдХреЛрдИ neuron “active” рд╣реЛрдЧрд╛ рдпрд╛ рдирд╣реАрдВред
рдпрд╣ non-linearity рд▓рд╛рддрд╛ рд╣реИ, рддрд╛рдХрд┐ рдореЙрдбрд▓ complex patterns рдХреЛ рд╕реАрдЦ рд╕рдХреЗред


ЁЯФ╣ 2. рдЖрд╡рд╢реНрдпрдХрддрд╛ рдХреНрдпреЛрдВ? (Why Needed?)

рдмрд┐рдирд╛ Activation Function рдХреЗ neural network рдПрдХ simple linear model рдмрди рдЬрд╛рдПрдЧрд╛ред

ЁЯУМ With Activation Function тЖТ Deep, non-linear models
ЁЯУМ Without Activation тЖТ рд╕рд┐рд░реНрдл linear transformation


ЁЯФ╢ 3. рдореБрдЦреНрдп Activation Functions


ЁЯФ╕ A. Sigmoid Function

ЁЯУМ Output Range: (0, 1)
ЁЯУМ рдЙрдкрдпреЛрдЧ: Binary classification, Logistic regression

тЬЕ рд▓рд╛рдн:

  • Probability рдХреА рддрд░рд╣ рдЖрдЙрдЯрдкреБрдЯ рджреЗрддрд╛ рд╣реИ
  • Smooth gradient

тЭМ рдХрдореА:

  • Gradient vanishing problem
  • Output range рдЫреЛрдЯрд╛ рд╣реИ

ЁЯУИ рдЧреНрд░рд╛рдл: S-shaped (S-curve)


ЁЯФ╕ B. Tanh (Hyperbolic Tangent)

ЁЯУМ Output Range: (-1, 1)
ЁЯУМ рдЙрдкрдпреЛрдЧ: рдЬрдм input data zero-centered рд╣реЛ

тЬЕ рд▓рд╛рдн:

  • Stronger gradients than sigmoid
  • Centered at 0 тЖТ better learning

тЭМ рдХрдореА:

  • Still suffers from vanishing gradient (large input рдкрд░ gradient тЖТ 0)

ЁЯУИ рдЧреНрд░рд╛рдл: S-shaped but centered at 0


ЁЯФ╕ C. ReLU (Rectified Linear Unit)

ЁЯУМ Output Range: [0, тИЮ)
ЁЯУМ рдЙрдкрдпреЛрдЧ: Deep Networks рдореЗрдВ рд╕рдмрд╕реЗ рдЖрдо activation

тЬЕ рд▓рд╛рдн:

  • Fast computation
  • Sparse activation (only positive values pass)
  • No vanishing gradient for positive inputs

тЭМ рдХрдореА:

  • Dying ReLU Problem: negative input тЖТ always zero gradient

ЁЯУИ рдЧреНрд░рд╛рдл: 0 for x < 0, linear for x > 0


ЁЯФБ рддреБрд▓рдирд╛ рддрд╛рд▓рд┐рдХрд╛ (Comparison Table)

FeatureSigmoidTanhReLU
Output Range(0, 1)(-1, 1)[0, тИЮ)
Non-linearityтЬЕтЬЕтЬЕ
Vanishing GradientYesYesNo (partial)
SpeedSlowSlowFast
UsageBinary outputsHidden layers (earlier)Deep models (most common)

ЁЯТ╗ PyTorch Code: Activation Functions

import torch
import torch.nn.functional as F

x = torch.tensor([-2.0, 0.0, 2.0])

print("Sigmoid:", torch.sigmoid(x))
print("Tanh:", torch.tanh(x))
print("ReLU:", F.relu(x))

ЁЯОп Learning Summary (рд╕рд╛рд░рд╛рдВрд╢)

  • Sigmoid рдФрд░ Tanh smooth functions рд╣реИрдВ рд▓реЗрдХрд┐рди saturation (vanishing gradient) рд╕реЗ рдЧреНрд░рд╕реНрдд рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВ
  • ReLU simple, fast, рдФрд░ deep networks рдореЗрдВ рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рдЙрдкрдпреЛрдЧреА рд╣реИ
  • Hidden layers рдореЗрдВ ReLU рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп choice рд╣реИ

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Sigmoid рдФрд░ Tanh рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  2. ReLU рдХрд╛ рдЧрдгрд┐рддреАрдп рдлреЙрд░реНрдореВрд▓рд╛ рдХреНрдпрд╛ рд╣реИ?
  3. Dying ReLU problem рдХреНрдпрд╛ рд╣реИ?
  4. рдпрджрд┐ input -3 рд╣реЛ рддреЛ ReLU рдХрд╛ output рдХреНрдпрд╛ рд╣реЛрдЧрд╛?
  5. рдиреАрдЪреЗ рджрд┐рдП рдЧрдП PyTorch рдХреЛрдб рдХрд╛ рдЖрдЙрдЯрдкреБрдЯ рдмрддрд╛рдЗрдП:

x = torch.tensor([-1.0, 0.0, 1.0]) print(torch.tanh(x))

Perceptron and Multi-layer Perceptron (MLP)

(рдкрд░рд╕реЗрдкреНрдЯреНрд░реЙрди рдФрд░ рдорд▓реНрдЯреА-рд▓реЗрдпрд░ рдкрд░рд╕реЗрдкреНрдЯреНрд░реЙрди)


ЁЯФ╖ 1. Perceptron: Single-layer Neural Unit

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

Perceptron рдПрдХ single-layer feedforward neural network рд╣реИ рдЬреЛ binary classification рдХрд░рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реЛрддрд╛ рд╣реИред

ЁЯзо рдЧрдгрд┐рддреАрдп рд░реВрдк:


ЁЯУМ рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдБ:

рдЧреБрдгрд╡рд┐рд╡рд░рдг
StructureрдПрдХ рд╣реА layer (input рд╕реЗ output)
UseLinear binary classification
LimitationNon-linear problems (рдЬреИрд╕реЗ XOR) solve рдирд╣реАрдВ рдХрд░ рд╕рдХрддрд╛

ЁЯФБ Simple Diagram:


ЁЯФ╢ 2. MLP: Multi-layer Perceptron

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

MLP рдПрдХ feedforward artificial neural network рд╣реИ рдЬрд┐рд╕рдореЗрдВ рдПрдХ рдпрд╛ рдЕрдзрд┐рдХ hidden layers рд╣реЛрддреЗ рд╣реИрдВред

ЁЯПЧя╕П рд╕рдВрд░рдЪрдирд╛:

Input тЖТ Hidden Layer(s) тЖТ Output
(рд╣рд░ layer рдореЗрдВ neurons рд╣реЛрддреЗ рд╣реИрдВ, рдФрд░ рд╣рд░ neuron activation function apply рдХрд░рддрд╛ рд╣реИ)


ЁЯУМ рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдБ:

рдЧреБрдгрд╡рд┐рд╡рд░рдг
Structure2+ layers (input, hidden, output)
UseComplex, non-linear problems
TrainingBackpropagation + Gradient Descent
ActivationReLU, sigmoid, tanh, softmax

ЁЯФБ MLP Diagram (Structure):


ЁЯТ╗ PyTorch рдореЗрдВ рдПрдХ рд╕рд░рд▓ MLP рдХреЛрдб:

import torch.nn as nn

class MLP(nn.Module):
def __init__(self):
super(MLP, self).__init__()
self.net = nn.Sequential(
nn.Linear(3, 5), # Input layer тЖТ Hidden
nn.ReLU(),
nn.Linear(5, 1), # Hidden тЖТ Output
nn.Sigmoid()
)

def forward(self, x):
return self.net(x)

ЁЯФД рддреБрд▓рдирд╛ рддрд╛рд▓рд┐рдХрд╛: Perceptron vs MLP

рд╡рд┐рд╢реЗрд╖рддрд╛PerceptronMLP
LayersSingleMultiple (hidden included)
ActivationStep/SigmoidReLU, Sigmoid, Tanh, Softmax
Data HandlingрдХреЗрд╡рд▓ linearly separableComplex, non-linear data
LearningSimple weight updateBackpropagation algorithm

ЁЯОп Learning Summary:

  • Perceptron рдПрдХ рд╕рдмрд╕реЗ рд╕рд░рд▓ Neural Network рд╣реИред
  • MLP рдореЗрдВ Hidden layers рд╣реЛрдиреЗ рд╕реЗ рдпрд╣ complex pattern рд╕реАрдЦ рд╕рдХрддрд╛ рд╣реИред
  • Deep Learning рдореЗрдВ MLP рд╕рдмрд╕реЗ рдмреБрдирд┐рдпрд╛рджреА рдФрд░ рдЖрдзрд╛рд░рднреВрдд рд╕рдВрд░рдЪрдирд╛ рд╣реИред

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions):

  1. Perceptron рдХрд╛ рдЧрдгрд┐рддреАрдп рдлрд╝реЙрд░реНрдореВрд▓рд╛ рдХреНрдпрд╛ рд╣реИ?
  2. Perceptron рдФрд░ MLP рдореЗрдВ рдореБрдЦреНрдп рдЕрдВрддрд░ рдХреНрдпрд╛ рд╣реИ?
  3. MLP рдореЗрдВ activation functions рдХреНрдпреЛрдВ рдЬрд╝рд░реВрд░реА рд╣реЛрддреЗ рд╣реИрдВ?
  4. Perceptron XOR problem рдХреНрдпреЛрдВ solve рдирд╣реАрдВ рдХрд░ рд╕рдХрддрд╛?
  5. рдПрдХ рд╕рд░рд▓ MLP рдореЗрдВ рдХрд┐рддрдиреА layers рд╣реЛрддреА рд╣реИрдВ?

Biological Neuron vs Artificial Neuron

(рдЬреИрд╡рд┐рдХ рдиреНрдпреВрд░реЙрди рдмрдирд╛рдо рдХреГрддреНрд░рд┐рдо рдиреНрдпреВрд░реЙрди)


ЁЯФ╣ 1. Biological Neuron (рдЬреИрд╡рд┐рдХ рдиреНрдпреВрд░реЙрди) рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?

рдпрд╣ рдорд╛рдирд╡ рдорд╕реНрддрд┐рд╖реНрдХ рдХреА рдореВрд▓ рдЗрдХрд╛рдИ рд╣реИ рдЬреЛ рд╕рдВрдХреЗрддреЛрдВ (signals) рдХреЛ рд▓реЗрддреА рд╣реИ, рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХрд░рддреА рд╣реИ рдФрд░ рдЕрдиреНрдп рдиреНрдпреВрд░реЙрдиреЛрдВ рдХреЛ рднреЗрдЬрддреА рд╣реИред

ЁЯФм рд╕рдВрд░рдЪрдирд╛ (Structure):

рднрд╛рдЧрдХрд╛рд░реНрдп
DendritesInput signal рд▓реЗрддреЗ рд╣реИрдВ
Cell Body (Soma)Input рдХреЛ process рдХрд░рддрд╛ рд╣реИ
AxonOutput signal рдХреЛ рднреЗрдЬрддрд╛ рд╣реИ
SynapseрджреЛ neurons рдХреЗ рдмреАрдЪ signal рдкрд╛рд╕ рдХрд░рддрд╛ рд╣реИ

ЁЯза рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА:

  • рдЬрдм рдХреБрд▓ Input signal рдПрдХ Threshold рд╕реЗ рдКрдкрд░ рдЬрд╛рддрд╛ рд╣реИ, рддрдм neuron “Fire” рдХрд░рддрд╛ рд╣реИ (Signal рднреЗрдЬрддрд╛ рд╣реИ)ред

ЁЯФ╣ 2. Artificial Neuron (рдХреГрддреНрд░рд┐рдо рдиреНрдпреВрд░реЙрди)

Deep Learning рдореЗрдВ Artificial Neuron рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬреЛ Biological neuron рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИ рд▓реЗрдХрд┐рди рдЧрдгрд┐рддреАрдп рд╣реЛрддрд╛ рд╣реИред

ЁЯФв рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА:

  • xiтАЛ: Inputs
  • wi: Weights
  • b: Bias
  • f: Activation function
  • y: Output

ЁЯФБ рддреБрд▓рдирд╛рддреНрдордХ рддрд╛рд▓рд┐рдХрд╛ (Comparison Table)

рд╡рд┐рд╢реЗрд╖рддрд╛рдЬреИрд╡рд┐рдХ рдиреНрдпреВрд░реЙрдирдХреГрддреНрд░рд┐рдо рдиреНрдпреВрд░реЙрди
рд╕рдВрд░рдЪрдирд╛Dendrites, Axon, SynapseInputs, Weights, Activation
рд╕рдВрдХреЗрдд (Signal)ElectrochemicalNumerical (рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдВрдЦреНрдпрд╛)
рдкреНрд░рд╕рдВрд╕реНрдХрд░рдгThreshold based firingWeighted sum + Activation
рд╕реАрдЦрдирд╛Synapse рдХреЗ рдмрджрд▓рд╛рд╡ рд╕реЗWeights update (Gradient Descent)
рдиреЗрдЯрд╡рд░реНрдХBiological Neural NetworkArtificial Neural Network (ANN)

ЁЯза рд╡рд┐рдЬрд╝реБрдЕрд▓ рддреБрд▓рдирд╛ (Diagram)

Biological Neuron:                        Artificial Neuron:

Input (Dendrites) x1, x2, x3 тЖТ
тЖУ тЖУ
Cell Body (Summation) w1x1 + w2x2 + w3x3 + b
тЖУ тЖУ
Axon тЖТ Output Activation Function тЖТ Output

ЁЯФН рдирд┐рд╖реНрдХрд░реНрд╖ (Conclusion):

  • Artificial Neurons inspired рд╣реИрдВ Biological Neurons рд╕реЗ, рдкрд░рдВрддреБ рд╡реЗ рд╕рд░рд▓ рдЧрдгрд┐рддреАрдп рдореЙрдбрд▓ рд╣реИрдВред
  • рдПрдХ Artificial Neuron рд╕рд┐рд░реНрдл рдПрдХ рдЫреЛрдЯрд╛ рд╕рд╛ рднрд╛рдЧ рд╣реИ Deep Learning рдиреЗрдЯрд╡рд░реНрдХ рдХрд╛, рд▓реЗрдХрд┐рди рдЙрд╕рдХрд╛ inspiration рдорд╛рдирд╡ рдорд╕реНрддрд┐рд╖реНрдХ рд╕реЗ рдЖрдпрд╛ рд╣реИред
  • рдЬреИрд╕рд╛ рдорд╛рдирд╡ рдорд╕реНрддрд┐рд╖реНрдХ рд╕рд┐рдЦрддрд╛ рд╣реИ рдЕрдиреБрднрд╡ рд╕реЗ, рд╡реИрд╕реЗ рд╣реА ANN рд╕рд┐рдЦрддрд╛ рд╣реИ рдбреЗрдЯрд╛ рд╕реЗред

ЁЯОп рдЙрджреНрджреЗрд╢реНрдп (Objective Summary)

  • рдЬреИрд╡рд┐рдХ рдиреНрдпреВрд░реЙрди рдХреА рд╕рдВрд░рдЪрдирд╛ рдФрд░ рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА рд╕рдордЭрдирд╛
  • рдХреГрддреНрд░рд┐рдо рдиреНрдпреВрд░реЙрди рдХрд╛ рдЧрдгрд┐рддреАрдп рд╕реНрд╡рд░реВрдк рдЬрд╛рдирдирд╛
  • рджреЛрдиреЛрдВ рдХреЗ рдмреАрдЪ рдХреА рд╕рдорд╛рдирддрд╛ рдФрд░ рднрд┐рдиреНрдирддрд╛ рдкрд╣рдЪрд╛рдирдирд╛
  • Deep Learning рдореЗрдВ рдЗрд╕ рд╕рдВрдмрдВрдз рдХрд╛ рдорд╣рддреНрд╡ рд╕рдордЭрдирд╛

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Dendrites рдФрд░ Axon рдХрд╛ рдХрд╛рд░реНрдп рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?
  2. Artificial Neuron рдХрд┐рд╕ рдкреНрд░рдХрд╛рд░ рдХрд╛ Input рд▓реЗрддрд╛ рд╣реИ?
  3. рджреЛрдиреЛрдВ рдкреНрд░рдХрд╛рд░ рдХреЗ рдиреНрдпреВрд░реЙрди рдореЗрдВ signal рдХреИрд╕рд╛ рд╣реЛрддрд╛ рд╣реИ?
  4. рдПрдХ Artificial Neuron рдХрд╛ рдЧрдгрд┐рддреАрдп formula рд▓рд┐рдЦрд┐рдПред
  5. рдХреГрддреНрд░рд┐рдо рдиреНрдпреВрд░реЙрди рдЬреИрд╡рд┐рдХ рдиреНрдпреВрд░реЙрди рд╕реЗ рдХреИрд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИ?

Neural Networks Fundamentals

(рдиреНрдпреВрд░рд▓ рдиреЗрдЯрд╡рд░реНрдХ рдХреА рдореВрд▓ рдмрд╛рддреЗрдВ)


ЁЯФ╖ 1. рдкрд░рд┐рдЪрдп (Introduction)

Neural Network рдПрдХ рдРрд╕рд╛ рдЧрдгрд┐рддреАрдп рдореЙрдбрд▓ рд╣реИ рдЬреЛ рдЗрдВрд╕рд╛рдиреА рдорд╕реНрддрд┐рд╖реНрдХ рдХреА рддрд░рд╣ рд╕реАрдЦрдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд░рддрд╛ рд╣реИред рдпрд╣ рдЗрдирдкреБрдЯ рдХреЛ рд▓реЗрддрд╛ рд╣реИ, layers рдХреЗ рдЬрд╝рд░рд┐рдП рдкреНрд░реЛрд╕реЗрд╕ рдХрд░рддрд╛ рд╣реИ рдФрд░ рдлрд┐рд░ рдЖрдЙрдЯрдкреБрдЯ рджреЗрддрд╛ рд╣реИред

Deep Learning = рдХрдИ layers рд╡рд╛рд▓реЗ Neural Network


ЁЯз▒ 2. Basic Structure of a Neural Network

рдПрдХ Neural Network рдореЗрдВ рдореБрдЦреНрдпрддрдГ рддреАрди рдкреНрд░рдХрд╛рд░ рдХреА layers рд╣реЛрддреА рд╣реИрдВ:

Layer NameрдХрд╛рд░реНрдп
Input Layerрдмрд╛рд╣рд░реА рдбреЗрдЯрд╛ рдХреЛ рд▓реЗрддреА рд╣реИ
Hidden LayersрдбреЗрдЯрд╛ рдХреЛ рдкреНрд░реЛрд╕реЗрд╕ рдХрд░рддреА рд╣реИрдВ
Output LayerрдЕрдВрддрд┐рдо рдирд┐рд░реНрдгрдп рдпрд╛ рдЕрдиреБрдорд╛рди рджреЗрддреА рд╣реИ

ЁЯФБ Working Flow:

Input тЖТ Weights ├Ч Input + Bias тЖТ Activation тЖТ Output

ЁЯза 3. Perceptron тАУ рд╕рдмрд╕реЗ рд╕рд░рд▓ Neural Unit

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

Perceptron рдПрдХ single-layer neural network рд╣реИ, рдЬреЛ binary classification рдХрд░ рд╕рдХрддрд╛ рд╣реИред

Perceptron Formula:

рдЬрд╣рд╛рдБ:

  • xiтАЛ: Input
  • wi: Weights
  • b: Bias
  • f: Activation Function (рдЬреИрд╕реЗ: Step Function)

ЁЯТб 4. Activation Functions

Activation function рдпрд╣ рддрдп рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдХреЛрдИ neuron activate рд╣реЛрдЧрд╛ рдпрд╛ рдирд╣реАрдВред рдпрд╣ non-linearity introduce рдХрд░рддрд╛ рд╣реИред


ЁЯФВ 5. Forward Pass & Backpropagation

ЁЯФД Forward Pass:

Input тЖТ Output рддрдХ рдХреА рдЧрдгрдирд╛
(Weights, Biases, Activation рдХреЗ рд╕рд╛рде)

ЁЯФБ Backpropagation:

Loss рдХреЛ Output рд╕реЗ Input рдХреА рддрд░рдл propagate рдХрд░рдирд╛
тЖТ Gradient рдирд┐рдХрд╛рд▓рдирд╛ (Chain Rule)
тЖТ Weights update рдХрд░рдирд╛ (Gradient Descent)


ЁЯТ╗ рдЖрд╡рд╢реНрдпрдХ рдХреЛрдб: рдПрдХ рд╕рд┐рдВрдкрд▓ Neural Network (PyTorch)

import torch
import torch.nn as nn

# Simple feedforward network
class SimpleNN(nn.Module):
def __init__(self):
super().__init__()
self.fc1 = nn.Linear(2, 4) # Input layer to hidden
self.relu = nn.ReLU()
self.fc2 = nn.Linear(4, 1) # Hidden to output

def forward(self, x):
x = self.fc1(x)
x = self.relu(x)
return self.fc2(x)

model = SimpleNN()
print(model)

ЁЯУМ Visualization: Neural Network Structure

Input Layer: x1, x2
тЖУ
Hidden Layer (Neurons)
тЖУ
Activation (ReLU)
тЖУ
Output Layer: ┼╖

ЁЯОп Chapter Objectives (рд▓рдХреНрд╖реНрдп)

  • Neural Network рдХреА рдореВрд▓ рд╕рдВрд░рдЪрдирд╛ рдХреЛ рд╕рдордЭрдирд╛
  • Perceptron рдХреА рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА рдХреЛ рдЬрд╛рдирдирд╛
  • Activation Functions рдХрд╛ рдорд╣рддреНрд╡ рдЬрд╛рдирдирд╛
  • Forward рдФрд░ Backpropagation рдХреЗ рдмреАрдЪ рдХрд╛ рд╕рдВрдмрдВрдз рд╕рдордЭрдирд╛
  • PyTorch рдореЗрдВ рдПрдХ рд╕рд░рд▓ рдореЙрдбрд▓ рдмрдирд╛рдирд╛

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Neural Network рдореЗрдВ рддреАрди рдореБрдЦреНрдп layers рдХреМрди-рд╕реА рд╣реЛрддреА рд╣реИрдВ?
  2. Perceptron рдХрд╛ рдЧрдгрд┐рддреАрдп рдлрд╝реЙрд░реНрдореВрд▓рд╛ рд▓рд┐рдЦрд┐рдП рдФрд░ рд╕рдордЭрд╛рдЗрдПред
  3. ReLU рдФрд░ Sigmoid рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  4. Forward Pass рдФрд░ Backpropagation рдХреНрдпрд╛ рд╣реЛрддреЗ рд╣реИрдВ?
  5. рдиреАрдЪреЗ рджрд┐рдП рдЧрдП рдХреЛрдб рдореЗрдВ рдХрд┐рддрдиреЗ neurons hidden layer рдореЗрдВ рд╣реИрдВ?

self.fc1 = nn.Linear(3, 5)


Chain Rule and Partial Derivatives

(рдЪреЗрди рд░реВрд▓ рдФрд░ рдЖрдВрд╢рд┐рдХ рдЕрд╡рдХрд▓рдЬ тАУ рдорд▓реНрдЯреАрд▓реЗрдпрд░ рдиреЗрдЯрд╡рд░реНрдХ рдореЗрдВ Gradient рдХреА рдХреБрдВрдЬреА)

ЁЯФ╖ 1. рдкрд░рд┐рдЪрдп (Introduction)

Deep Learning рдореЗрдВ рд╣рд░ layer interconnected рд╣реЛрддреА рд╣реИ, рдФрд░ output рдкрд░ effect рдбрд╛рд▓рддреА рд╣реИредGradient рдХреЛ backward propagate рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╣рдо рджреЛ concepts рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддреЗ рд╣реИрдВ:

  • Partial Derivatives (тИВ)
  • Chain Rule

рдпрд╣ рдЕрдзреНрдпрд╛рдп Neural Networks рдХреА training рдХреЛ рд╕рдордЭрдиреЗ рдореЗрдВ рдХреЗрдВрджреНрд░реАрдп рднреВрдорд┐рдХрд╛ рдирд┐рднрд╛рддрд╛ рд╣реИред

ЁЯФ╣ 2. Partial Derivatives (рдЖрдВрд╢рд┐рдХ рдЕрд╡рдХрд▓рдЬ)

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

рдЬрдм рдХрд┐рд╕реА рдлрдВрдХреНрд╢рди рдореЗрдВ рдПрдХ рд╕реЗ рдЕрдзрд┐рдХ variable рд╣реЛрдВ (multivariable function), рддрдм рдХрд┐рд╕реА рдПрдХ variable рдХреЗ respect рдореЗрдВ рдирд┐рдХрд╛рд▓реЗ рдЧрдП derivative рдХреЛ Partial Derivative рдХрд╣рддреЗ рд╣реИрдВред

ЁЯУМ Deep Learning рдореЗрдВ рдЙрдкрдпреЛрдЧ:

  • Loss Function рдХрдИ weights рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддрд╛ рд╣реИ
  • рд╣рд░ weight рдХрд╛ gradient рдЖрдВрд╢рд┐рдХ рдЕрд╡рдХрд▓рдЬ рд╕реЗ рдирд┐рдХрд╛рд▓рд╛ рдЬрд╛рддрд╛ рд╣реИ
  • Vector form рдореЗрдВ рдпреЗ gradients рдмрдирд╛рддреЗ рд╣реИрдВ: Gradient Vector

ЁЯФ╣ 3. Chain Rule (рд╢реНрд░реГрдВрдЦрд▓рд┐рдд рдирд┐рдпрдо)

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

рдЬрдм рдПрдХ function рджреВрд╕рд░реЗ function рдХреЗ рдЕрдВрджрд░ рд╣реЛрддрд╛ рд╣реИ (nested function), рддрдм derivative рдирд┐рдХрд╛рд▓рдиреЗ рдХреЗ рд▓рд┐рдП рд╣рдо Chain Rule рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред

тЮд Deep Learning Analogy:

рдорд╛рди рд▓реАрдЬрд┐рдП:

ЁЯСЙ рдпрд╣реА Backpropagation рдореЗрдВ рд╣реЛрддрд╛ рд╣реИ тАФ gradients рд╣рд░ layer рд╕реЗ рдкреАрдЫреЗ propagate рд╣реЛрддреЗ рд╣реИрдВред

ЁЯУЙ 4. Multivariable Chain Rule Example

рдорд╛рди рд▓реАрдЬрд┐рдП:

ЁЯТб Visualization Idea:

Loss L
тЖС
Activation a = f(w┬╖x + b)
тЖС
Weight w

We want:

PyTorch рдореЗрдВ Automatic Chain Rule

import torch

x = torch.tensor(2.0, requires_grad=True)
y = x**2 + 3 * x + 1

y.backward()
print("dy/dx:", x.grad) # Output: dy/dx = 2x + 3 = 7

ЁЯОп Chapter Objectives (рд▓рдХреНрд╖реНрдп)

  • Partial Derivative рдХреА рдкрд░рд┐рднрд╛рд╖рд╛ рдФрд░ рдЧрдгрдирд╛ рд╕рдордЭрдирд╛
  • Chain Rule рдХреЗ рдкреАрдЫреЗ рдХрд╛ рд╕рд┐рджреНрдзрд╛рдВрдд рдЬрд╛рдирдирд╛
  • Deep Learning рдореЗрдВ gradient propagation рдХреИрд╕реЗ рд╣реЛрддрд╛ рд╣реИ, рдЗрд╕реЗ рд╕рдордЭрдирд╛
  • Real model рдореЗрдВ gradients рдХреИрд╕реЗ рдЬреБрдбрд╝рддреЗ рд╣реИрдВ, рдпрд╣ рджреЗрдЦрдирд╛

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Partial Derivative рдХрд┐рд╕реЗ рдХрд╣рддреЗ рд╣реИрдВ? рдЙрджрд╛рд╣рд░рдг рд╕рд╣рд┐рдд рд╕рдордЭрд╛рдЗрдПред
  2. Chain Rule рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд╣рд╛рдБ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ?
  3. Deep Learning рдореЗрдВ Chain Rule рдХрд╛ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЙрдкрдпреЛрдЧ рдХрд┐рд╕ рдЪрд░рдг рдореЗрдВ рд╣реЛрддрд╛ рд╣реИ?
  4. рдиреАрдЪреЗ рджрд┐рдП рдЧрдП рдХреЛрдб рдХрд╛ рдЖрдЙрдЯрдкреБрдЯ рдХреНрдпрд╛ рд╣реЛрдЧрд╛?
x = torch.tensor(3.0, requires_grad=True)
y = (2*x + 1)**2
y.backward()
print(x.grad)