Loss Functions and Optimization

(рд╣рд╛рдирд┐ рдлрд▓рди рдФрд░ рдЕрдиреБрдХреВрд▓рди рд╡рд┐рдзрд┐рдпрд╛рдБ)


ЁЯФ╖ 1. Loss Function (рд╣рд╛рдирд┐ рдлрд▓рди) рдХреНрдпрд╛ рд╣реИ?

Loss function рдпрд╣ рдорд╛рдкрддрд╛ рд╣реИ рдХрд┐ рдЖрдкрдХреЗ рдореЙрдбрд▓ рдХреА prediction рдЕрд╕рд▓реА output рд╕реЗ рдХрд┐рддрдиреА рджреВрд░ рд╣реИред

ЁЯФБ Role in Training:

  • Prediction тЖТ Loss Function тЖТ Error тЖТ Backpropagation тЖТ Weight Update

ЁЯУМ рдХрд╛рд░реНрдп:

StepрдХрд╛рд░реНрдп
PredictionOutput generate рдХрд░рдирд╛
LossрдЧрд▓рддреА рдорд╛рдкрдирд╛
BackpropagationGradient рдирд┐рдХрд╛рд▓рдирд╛
OptimizerWeights update рдХрд░рдирд╛

ЁЯФ╣ 2. Loss Function рдХреЗ рдкреНрд░рдХрд╛рд░

ЁЯФ╕ A. Regression Problems рдХреЗ рд▓рд┐рдП:

тЬЕ Mean Squared Error (MSE):

  • Continuous values рдХреЗ рд▓рд┐рдП
  • Output рдХреЛ penalize рдХрд░рддрд╛ рд╣реИ рдЕрдЧрд░ prediction рдФрд░ label рдХрд╛ рдЕрдВрддрд░ рдмрдбрд╝рд╛ рд╣реЛ

тЬЕ Mean Absolute Error (MAE):

  • Outliers рд╕реЗ рдХрдо рдкреНрд░рднрд╛рд╡рд┐рдд

ЁЯФ╕ B. Classification Problems рдХреЗ рд▓рд┐рдП:

тЬЕ Binary Cross Entropy:

L=тИТ[ylogтБб(p)+(1тИТy)logтБб(1тИТp)]

  • Binary classification рдХреЗ рд▓рд┐рдП
  • Sigmoid + BCELoss

тЬЕ Categorical Cross Entropy:

  • Multi-class classification
  • Softmax + CrossEntropyLoss

ЁЯТ╗ PyTorch Examples:

import torch
import torch.nn as nn

# MSE Loss
mse_loss = nn.MSELoss()
pred = torch.tensor([2.5])
target = torch.tensor([3.0])
print("MSE:", mse_loss(pred, target).item())

# Binary Cross Entropy
bce_loss = nn.BCELoss()
pred = torch.tensor([0.9])
target = torch.tensor([1.0])
print("BCE:", bce_loss(pred, target).item())

ЁЯФз 3. Optimization (рдЕрдиреБрдХреВрд▓рди)

Optimizer рд╡рд╣ algorithm рд╣реИ рдЬреЛ model рдХреЗ weights рдХреЛ loss minimize рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП update рдХрд░рддрд╛ рд╣реИред


ЁЯФ╕ 4. Common Optimization Algorithms

OptimizerDescription
SGDSimple gradient descent
MomentumAdds momentum to SGD updates
RMSPropAdaptive learning rate, good for RNN
AdamAdaptive + Momentum = Most widely used

ЁЯФБ Gradient Descent Update Rule:

рдЬрд╣рд╛рдБ:

  • ╬╖: Learning rate
  • тИВL/тИВw: Gradient of loss w.r.t. weights

тЪая╕П Learning Rate рдХреА рднреВрдорд┐рдХрд╛:

Learning Rateрдкрд░рд┐рдгрд╛рдо
рдмрд╣реБрдд рдЫреЛрдЯрд╛Slow training
рдмрд╣реБрдд рдмрдбрд╝рд╛Overshooting, unstable
рд╕рд╣реАFast & stable convergence

ЁЯТ╗ PyTorch рдореЗрдВ Optimizer:

import torch.optim as optim

model = torch.nn.Linear(1, 1)
optimizer = optim.Adam(model.parameters(), lr=0.01)

# Example training step:
loss = torch.tensor(0.5, requires_grad=True)
loss.backward()
optimizer.step()
optimizer.zero_grad()

ЁЯОп Objectives Summary

  • Loss function prediction error рдХреЛ рдорд╛рдкрддрд╛ рд╣реИ
  • Optimizers gradients рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ weights рдХреЛ update рдХрд░рддреЗ рд╣реИрдВ
  • PyTorch рдореЗрдВ loss + optimizer combo рд╕рдмрд╕реЗ рдЬрд░реВрд░реА рд╕реЗрдЯрдЕрдк рд╣реИ

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Loss Function рдФрд░ Optimizer рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  2. MSE рдФрд░ MAE рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  3. Binary Cross-Entropy рдХрд╛ рдлреЙрд░реНрдореВрд▓рд╛ рд▓рд┐рдЦрд┐рдП
  4. Adam Optimizer рдХреИрд╕реЗ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ?
  5. рдиреАрдЪреЗ рджрд┐рдП рдЧрдП рдХреЛрдб рдХрд╛ output рдХреНрдпрд╛ рд╣реЛрдЧрд╛?

loss = torch.tensor(1.0, requires_grad=True) loss.backward() print(loss.grad)

Activation Functions

(рд╕рдХреНрд░рд┐рдпрдг рдлрд▓рди: Sigmoid, Tanh, ReLU)


ЁЯФ╖ 1. рдкрд░рд┐рдЪрдп (Introduction)

Neural Network рдореЗрдВ Activation Function рдпрд╣ рддрдп рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдХреЛрдИ neuron “active” рд╣реЛрдЧрд╛ рдпрд╛ рдирд╣реАрдВред
рдпрд╣ non-linearity рд▓рд╛рддрд╛ рд╣реИ, рддрд╛рдХрд┐ рдореЙрдбрд▓ complex patterns рдХреЛ рд╕реАрдЦ рд╕рдХреЗред


ЁЯФ╣ 2. рдЖрд╡рд╢реНрдпрдХрддрд╛ рдХреНрдпреЛрдВ? (Why Needed?)

рдмрд┐рдирд╛ Activation Function рдХреЗ neural network рдПрдХ simple linear model рдмрди рдЬрд╛рдПрдЧрд╛ред

ЁЯУМ With Activation Function тЖТ Deep, non-linear models
ЁЯУМ Without Activation тЖТ рд╕рд┐рд░реНрдл linear transformation


ЁЯФ╢ 3. рдореБрдЦреНрдп Activation Functions


ЁЯФ╕ A. Sigmoid Function

ЁЯУМ Output Range: (0, 1)
ЁЯУМ рдЙрдкрдпреЛрдЧ: Binary classification, Logistic regression

тЬЕ рд▓рд╛рдн:

  • Probability рдХреА рддрд░рд╣ рдЖрдЙрдЯрдкреБрдЯ рджреЗрддрд╛ рд╣реИ
  • Smooth gradient

тЭМ рдХрдореА:

  • Gradient vanishing problem
  • Output range рдЫреЛрдЯрд╛ рд╣реИ

ЁЯУИ рдЧреНрд░рд╛рдл: S-shaped (S-curve)


ЁЯФ╕ B. Tanh (Hyperbolic Tangent)

ЁЯУМ Output Range: (-1, 1)
ЁЯУМ рдЙрдкрдпреЛрдЧ: рдЬрдм input data zero-centered рд╣реЛ

тЬЕ рд▓рд╛рдн:

  • Stronger gradients than sigmoid
  • Centered at 0 тЖТ better learning

тЭМ рдХрдореА:

  • Still suffers from vanishing gradient (large input рдкрд░ gradient тЖТ 0)

ЁЯУИ рдЧреНрд░рд╛рдл: S-shaped but centered at 0


ЁЯФ╕ C. ReLU (Rectified Linear Unit)

ЁЯУМ Output Range: [0, тИЮ)
ЁЯУМ рдЙрдкрдпреЛрдЧ: Deep Networks рдореЗрдВ рд╕рдмрд╕реЗ рдЖрдо activation

тЬЕ рд▓рд╛рдн:

  • Fast computation
  • Sparse activation (only positive values pass)
  • No vanishing gradient for positive inputs

тЭМ рдХрдореА:

  • Dying ReLU Problem: negative input тЖТ always zero gradient

ЁЯУИ рдЧреНрд░рд╛рдл: 0 for x < 0, linear for x > 0


ЁЯФБ рддреБрд▓рдирд╛ рддрд╛рд▓рд┐рдХрд╛ (Comparison Table)

FeatureSigmoidTanhReLU
Output Range(0, 1)(-1, 1)[0, тИЮ)
Non-linearityтЬЕтЬЕтЬЕ
Vanishing GradientYesYesNo (partial)
SpeedSlowSlowFast
UsageBinary outputsHidden layers (earlier)Deep models (most common)

ЁЯТ╗ PyTorch Code: Activation Functions

import torch
import torch.nn.functional as F

x = torch.tensor([-2.0, 0.0, 2.0])

print("Sigmoid:", torch.sigmoid(x))
print("Tanh:", torch.tanh(x))
print("ReLU:", F.relu(x))

ЁЯОп Learning Summary (рд╕рд╛рд░рд╛рдВрд╢)

  • Sigmoid рдФрд░ Tanh smooth functions рд╣реИрдВ рд▓реЗрдХрд┐рди saturation (vanishing gradient) рд╕реЗ рдЧреНрд░рд╕реНрдд рд╣реЛ рд╕рдХрддреЗ рд╣реИрдВ
  • ReLU simple, fast, рдФрд░ deep networks рдореЗрдВ рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рдЙрдкрдпреЛрдЧреА рд╣реИ
  • Hidden layers рдореЗрдВ ReLU рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп choice рд╣реИ

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Sigmoid рдФрд░ Tanh рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  2. ReLU рдХрд╛ рдЧрдгрд┐рддреАрдп рдлреЙрд░реНрдореВрд▓рд╛ рдХреНрдпрд╛ рд╣реИ?
  3. Dying ReLU problem рдХреНрдпрд╛ рд╣реИ?
  4. рдпрджрд┐ input -3 рд╣реЛ рддреЛ ReLU рдХрд╛ output рдХреНрдпрд╛ рд╣реЛрдЧрд╛?
  5. рдиреАрдЪреЗ рджрд┐рдП рдЧрдП PyTorch рдХреЛрдб рдХрд╛ рдЖрдЙрдЯрдкреБрдЯ рдмрддрд╛рдЗрдП:

x = torch.tensor([-1.0, 0.0, 1.0]) print(torch.tanh(x))

Perceptron and Multi-layer Perceptron (MLP)

(рдкрд░рд╕реЗрдкреНрдЯреНрд░реЙрди рдФрд░ рдорд▓реНрдЯреА-рд▓реЗрдпрд░ рдкрд░рд╕реЗрдкреНрдЯреНрд░реЙрди)


ЁЯФ╖ 1. Perceptron: Single-layer Neural Unit

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

Perceptron рдПрдХ single-layer feedforward neural network рд╣реИ рдЬреЛ binary classification рдХрд░рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реЛрддрд╛ рд╣реИред

ЁЯзо рдЧрдгрд┐рддреАрдп рд░реВрдк:


ЁЯУМ рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдБ:

рдЧреБрдгрд╡рд┐рд╡рд░рдг
StructureрдПрдХ рд╣реА layer (input рд╕реЗ output)
UseLinear binary classification
LimitationNon-linear problems (рдЬреИрд╕реЗ XOR) solve рдирд╣реАрдВ рдХрд░ рд╕рдХрддрд╛

ЁЯФБ Simple Diagram:


ЁЯФ╢ 2. MLP: Multi-layer Perceptron

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

MLP рдПрдХ feedforward artificial neural network рд╣реИ рдЬрд┐рд╕рдореЗрдВ рдПрдХ рдпрд╛ рдЕрдзрд┐рдХ hidden layers рд╣реЛрддреЗ рд╣реИрдВред

ЁЯПЧя╕П рд╕рдВрд░рдЪрдирд╛:

Input тЖТ Hidden Layer(s) тЖТ Output
(рд╣рд░ layer рдореЗрдВ neurons рд╣реЛрддреЗ рд╣реИрдВ, рдФрд░ рд╣рд░ neuron activation function apply рдХрд░рддрд╛ рд╣реИ)


ЁЯУМ рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдБ:

рдЧреБрдгрд╡рд┐рд╡рд░рдг
Structure2+ layers (input, hidden, output)
UseComplex, non-linear problems
TrainingBackpropagation + Gradient Descent
ActivationReLU, sigmoid, tanh, softmax

ЁЯФБ MLP Diagram (Structure):


ЁЯТ╗ PyTorch рдореЗрдВ рдПрдХ рд╕рд░рд▓ MLP рдХреЛрдб:

import torch.nn as nn

class MLP(nn.Module):
def __init__(self):
super(MLP, self).__init__()
self.net = nn.Sequential(
nn.Linear(3, 5), # Input layer тЖТ Hidden
nn.ReLU(),
nn.Linear(5, 1), # Hidden тЖТ Output
nn.Sigmoid()
)

def forward(self, x):
return self.net(x)

ЁЯФД рддреБрд▓рдирд╛ рддрд╛рд▓рд┐рдХрд╛: Perceptron vs MLP

рд╡рд┐рд╢реЗрд╖рддрд╛PerceptronMLP
LayersSingleMultiple (hidden included)
ActivationStep/SigmoidReLU, Sigmoid, Tanh, Softmax
Data HandlingрдХреЗрд╡рд▓ linearly separableComplex, non-linear data
LearningSimple weight updateBackpropagation algorithm

ЁЯОп Learning Summary:

  • Perceptron рдПрдХ рд╕рдмрд╕реЗ рд╕рд░рд▓ Neural Network рд╣реИред
  • MLP рдореЗрдВ Hidden layers рд╣реЛрдиреЗ рд╕реЗ рдпрд╣ complex pattern рд╕реАрдЦ рд╕рдХрддрд╛ рд╣реИред
  • Deep Learning рдореЗрдВ MLP рд╕рдмрд╕реЗ рдмреБрдирд┐рдпрд╛рджреА рдФрд░ рдЖрдзрд╛рд░рднреВрдд рд╕рдВрд░рдЪрдирд╛ рд╣реИред

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions):

  1. Perceptron рдХрд╛ рдЧрдгрд┐рддреАрдп рдлрд╝реЙрд░реНрдореВрд▓рд╛ рдХреНрдпрд╛ рд╣реИ?
  2. Perceptron рдФрд░ MLP рдореЗрдВ рдореБрдЦреНрдп рдЕрдВрддрд░ рдХреНрдпрд╛ рд╣реИ?
  3. MLP рдореЗрдВ activation functions рдХреНрдпреЛрдВ рдЬрд╝рд░реВрд░реА рд╣реЛрддреЗ рд╣реИрдВ?
  4. Perceptron XOR problem рдХреНрдпреЛрдВ solve рдирд╣реАрдВ рдХрд░ рд╕рдХрддрд╛?
  5. рдПрдХ рд╕рд░рд▓ MLP рдореЗрдВ рдХрд┐рддрдиреА layers рд╣реЛрддреА рд╣реИрдВ?

Biological Neuron vs Artificial Neuron

(рдЬреИрд╡рд┐рдХ рдиреНрдпреВрд░реЙрди рдмрдирд╛рдо рдХреГрддреНрд░рд┐рдо рдиреНрдпреВрд░реЙрди)


ЁЯФ╣ 1. Biological Neuron (рдЬреИрд╡рд┐рдХ рдиреНрдпреВрд░реЙрди) рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?

рдпрд╣ рдорд╛рдирд╡ рдорд╕реНрддрд┐рд╖реНрдХ рдХреА рдореВрд▓ рдЗрдХрд╛рдИ рд╣реИ рдЬреЛ рд╕рдВрдХреЗрддреЛрдВ (signals) рдХреЛ рд▓реЗрддреА рд╣реИ, рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХрд░рддреА рд╣реИ рдФрд░ рдЕрдиреНрдп рдиреНрдпреВрд░реЙрдиреЛрдВ рдХреЛ рднреЗрдЬрддреА рд╣реИред

ЁЯФм рд╕рдВрд░рдЪрдирд╛ (Structure):

рднрд╛рдЧрдХрд╛рд░реНрдп
DendritesInput signal рд▓реЗрддреЗ рд╣реИрдВ
Cell Body (Soma)Input рдХреЛ process рдХрд░рддрд╛ рд╣реИ
AxonOutput signal рдХреЛ рднреЗрдЬрддрд╛ рд╣реИ
SynapseрджреЛ neurons рдХреЗ рдмреАрдЪ signal рдкрд╛рд╕ рдХрд░рддрд╛ рд╣реИ

ЁЯза рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА:

  • рдЬрдм рдХреБрд▓ Input signal рдПрдХ Threshold рд╕реЗ рдКрдкрд░ рдЬрд╛рддрд╛ рд╣реИ, рддрдм neuron “Fire” рдХрд░рддрд╛ рд╣реИ (Signal рднреЗрдЬрддрд╛ рд╣реИ)ред

ЁЯФ╣ 2. Artificial Neuron (рдХреГрддреНрд░рд┐рдо рдиреНрдпреВрд░реЙрди)

Deep Learning рдореЗрдВ Artificial Neuron рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬреЛ Biological neuron рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИ рд▓реЗрдХрд┐рди рдЧрдгрд┐рддреАрдп рд╣реЛрддрд╛ рд╣реИред

ЁЯФв рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА:

  • xiтАЛ: Inputs
  • wi: Weights
  • b: Bias
  • f: Activation function
  • y: Output

ЁЯФБ рддреБрд▓рдирд╛рддреНрдордХ рддрд╛рд▓рд┐рдХрд╛ (Comparison Table)

рд╡рд┐рд╢реЗрд╖рддрд╛рдЬреИрд╡рд┐рдХ рдиреНрдпреВрд░реЙрдирдХреГрддреНрд░рд┐рдо рдиреНрдпреВрд░реЙрди
рд╕рдВрд░рдЪрдирд╛Dendrites, Axon, SynapseInputs, Weights, Activation
рд╕рдВрдХреЗрдд (Signal)ElectrochemicalNumerical (рд╡рд╛рд╕реНрддрд╡рд┐рдХ рд╕рдВрдЦреНрдпрд╛)
рдкреНрд░рд╕рдВрд╕реНрдХрд░рдгThreshold based firingWeighted sum + Activation
рд╕реАрдЦрдирд╛Synapse рдХреЗ рдмрджрд▓рд╛рд╡ рд╕реЗWeights update (Gradient Descent)
рдиреЗрдЯрд╡рд░реНрдХBiological Neural NetworkArtificial Neural Network (ANN)

ЁЯза рд╡рд┐рдЬрд╝реБрдЕрд▓ рддреБрд▓рдирд╛ (Diagram)

Biological Neuron:                        Artificial Neuron:

Input (Dendrites) x1, x2, x3 тЖТ
тЖУ тЖУ
Cell Body (Summation) w1x1 + w2x2 + w3x3 + b
тЖУ тЖУ
Axon тЖТ Output Activation Function тЖТ Output

ЁЯФН рдирд┐рд╖реНрдХрд░реНрд╖ (Conclusion):

  • Artificial Neurons inspired рд╣реИрдВ Biological Neurons рд╕реЗ, рдкрд░рдВрддреБ рд╡реЗ рд╕рд░рд▓ рдЧрдгрд┐рддреАрдп рдореЙрдбрд▓ рд╣реИрдВред
  • рдПрдХ Artificial Neuron рд╕рд┐рд░реНрдл рдПрдХ рдЫреЛрдЯрд╛ рд╕рд╛ рднрд╛рдЧ рд╣реИ Deep Learning рдиреЗрдЯрд╡рд░реНрдХ рдХрд╛, рд▓реЗрдХрд┐рди рдЙрд╕рдХрд╛ inspiration рдорд╛рдирд╡ рдорд╕реНрддрд┐рд╖реНрдХ рд╕реЗ рдЖрдпрд╛ рд╣реИред
  • рдЬреИрд╕рд╛ рдорд╛рдирд╡ рдорд╕реНрддрд┐рд╖реНрдХ рд╕рд┐рдЦрддрд╛ рд╣реИ рдЕрдиреБрднрд╡ рд╕реЗ, рд╡реИрд╕реЗ рд╣реА ANN рд╕рд┐рдЦрддрд╛ рд╣реИ рдбреЗрдЯрд╛ рд╕реЗред

ЁЯОп рдЙрджреНрджреЗрд╢реНрдп (Objective Summary)

  • рдЬреИрд╡рд┐рдХ рдиреНрдпреВрд░реЙрди рдХреА рд╕рдВрд░рдЪрдирд╛ рдФрд░ рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА рд╕рдордЭрдирд╛
  • рдХреГрддреНрд░рд┐рдо рдиреНрдпреВрд░реЙрди рдХрд╛ рдЧрдгрд┐рддреАрдп рд╕реНрд╡рд░реВрдк рдЬрд╛рдирдирд╛
  • рджреЛрдиреЛрдВ рдХреЗ рдмреАрдЪ рдХреА рд╕рдорд╛рдирддрд╛ рдФрд░ рднрд┐рдиреНрдирддрд╛ рдкрд╣рдЪрд╛рдирдирд╛
  • Deep Learning рдореЗрдВ рдЗрд╕ рд╕рдВрдмрдВрдз рдХрд╛ рдорд╣рддреНрд╡ рд╕рдордЭрдирд╛

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Dendrites рдФрд░ Axon рдХрд╛ рдХрд╛рд░реНрдп рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?
  2. Artificial Neuron рдХрд┐рд╕ рдкреНрд░рдХрд╛рд░ рдХрд╛ Input рд▓реЗрддрд╛ рд╣реИ?
  3. рджреЛрдиреЛрдВ рдкреНрд░рдХрд╛рд░ рдХреЗ рдиреНрдпреВрд░реЙрди рдореЗрдВ signal рдХреИрд╕рд╛ рд╣реЛрддрд╛ рд╣реИ?
  4. рдПрдХ Artificial Neuron рдХрд╛ рдЧрдгрд┐рддреАрдп formula рд▓рд┐рдЦрд┐рдПред
  5. рдХреГрддреНрд░рд┐рдо рдиреНрдпреВрд░реЙрди рдЬреИрд╡рд┐рдХ рдиреНрдпреВрд░реЙрди рд╕реЗ рдХреИрд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИ?

Neural Networks Fundamentals

(рдиреНрдпреВрд░рд▓ рдиреЗрдЯрд╡рд░реНрдХ рдХреА рдореВрд▓ рдмрд╛рддреЗрдВ)


ЁЯФ╖ 1. рдкрд░рд┐рдЪрдп (Introduction)

Neural Network рдПрдХ рдРрд╕рд╛ рдЧрдгрд┐рддреАрдп рдореЙрдбрд▓ рд╣реИ рдЬреЛ рдЗрдВрд╕рд╛рдиреА рдорд╕реНрддрд┐рд╖реНрдХ рдХреА рддрд░рд╣ рд╕реАрдЦрдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд░рддрд╛ рд╣реИред рдпрд╣ рдЗрдирдкреБрдЯ рдХреЛ рд▓реЗрддрд╛ рд╣реИ, layers рдХреЗ рдЬрд╝рд░рд┐рдП рдкреНрд░реЛрд╕реЗрд╕ рдХрд░рддрд╛ рд╣реИ рдФрд░ рдлрд┐рд░ рдЖрдЙрдЯрдкреБрдЯ рджреЗрддрд╛ рд╣реИред

Deep Learning = рдХрдИ layers рд╡рд╛рд▓реЗ Neural Network


ЁЯз▒ 2. Basic Structure of a Neural Network

рдПрдХ Neural Network рдореЗрдВ рдореБрдЦреНрдпрддрдГ рддреАрди рдкреНрд░рдХрд╛рд░ рдХреА layers рд╣реЛрддреА рд╣реИрдВ:

Layer NameрдХрд╛рд░реНрдп
Input Layerрдмрд╛рд╣рд░реА рдбреЗрдЯрд╛ рдХреЛ рд▓реЗрддреА рд╣реИ
Hidden LayersрдбреЗрдЯрд╛ рдХреЛ рдкреНрд░реЛрд╕реЗрд╕ рдХрд░рддреА рд╣реИрдВ
Output LayerрдЕрдВрддрд┐рдо рдирд┐рд░реНрдгрдп рдпрд╛ рдЕрдиреБрдорд╛рди рджреЗрддреА рд╣реИ

ЁЯФБ Working Flow:

Input тЖТ Weights ├Ч Input + Bias тЖТ Activation тЖТ Output

ЁЯза 3. Perceptron тАУ рд╕рдмрд╕реЗ рд╕рд░рд▓ Neural Unit

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

Perceptron рдПрдХ single-layer neural network рд╣реИ, рдЬреЛ binary classification рдХрд░ рд╕рдХрддрд╛ рд╣реИред

Perceptron Formula:

рдЬрд╣рд╛рдБ:

  • xiтАЛ: Input
  • wi: Weights
  • b: Bias
  • f: Activation Function (рдЬреИрд╕реЗ: Step Function)

ЁЯТб 4. Activation Functions

Activation function рдпрд╣ рддрдп рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдХреЛрдИ neuron activate рд╣реЛрдЧрд╛ рдпрд╛ рдирд╣реАрдВред рдпрд╣ non-linearity introduce рдХрд░рддрд╛ рд╣реИред


ЁЯФВ 5. Forward Pass & Backpropagation

ЁЯФД Forward Pass:

Input тЖТ Output рддрдХ рдХреА рдЧрдгрдирд╛
(Weights, Biases, Activation рдХреЗ рд╕рд╛рде)

ЁЯФБ Backpropagation:

Loss рдХреЛ Output рд╕реЗ Input рдХреА рддрд░рдл propagate рдХрд░рдирд╛
тЖТ Gradient рдирд┐рдХрд╛рд▓рдирд╛ (Chain Rule)
тЖТ Weights update рдХрд░рдирд╛ (Gradient Descent)


ЁЯТ╗ рдЖрд╡рд╢реНрдпрдХ рдХреЛрдб: рдПрдХ рд╕рд┐рдВрдкрд▓ Neural Network (PyTorch)

import torch
import torch.nn as nn

# Simple feedforward network
class SimpleNN(nn.Module):
def __init__(self):
super().__init__()
self.fc1 = nn.Linear(2, 4) # Input layer to hidden
self.relu = nn.ReLU()
self.fc2 = nn.Linear(4, 1) # Hidden to output

def forward(self, x):
x = self.fc1(x)
x = self.relu(x)
return self.fc2(x)

model = SimpleNN()
print(model)

ЁЯУМ Visualization: Neural Network Structure

Input Layer: x1, x2
тЖУ
Hidden Layer (Neurons)
тЖУ
Activation (ReLU)
тЖУ
Output Layer: ┼╖

ЁЯОп Chapter Objectives (рд▓рдХреНрд╖реНрдп)

  • Neural Network рдХреА рдореВрд▓ рд╕рдВрд░рдЪрдирд╛ рдХреЛ рд╕рдордЭрдирд╛
  • Perceptron рдХреА рдХрд╛рд░реНрдпрдкреНрд░рдгрд╛рд▓реА рдХреЛ рдЬрд╛рдирдирд╛
  • Activation Functions рдХрд╛ рдорд╣рддреНрд╡ рдЬрд╛рдирдирд╛
  • Forward рдФрд░ Backpropagation рдХреЗ рдмреАрдЪ рдХрд╛ рд╕рдВрдмрдВрдз рд╕рдордЭрдирд╛
  • PyTorch рдореЗрдВ рдПрдХ рд╕рд░рд▓ рдореЙрдбрд▓ рдмрдирд╛рдирд╛

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Neural Network рдореЗрдВ рддреАрди рдореБрдЦреНрдп layers рдХреМрди-рд╕реА рд╣реЛрддреА рд╣реИрдВ?
  2. Perceptron рдХрд╛ рдЧрдгрд┐рддреАрдп рдлрд╝реЙрд░реНрдореВрд▓рд╛ рд▓рд┐рдЦрд┐рдП рдФрд░ рд╕рдордЭрд╛рдЗрдПред
  3. ReLU рдФрд░ Sigmoid рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  4. Forward Pass рдФрд░ Backpropagation рдХреНрдпрд╛ рд╣реЛрддреЗ рд╣реИрдВ?
  5. рдиреАрдЪреЗ рджрд┐рдП рдЧрдП рдХреЛрдб рдореЗрдВ рдХрд┐рддрдиреЗ neurons hidden layer рдореЗрдВ рд╣реИрдВ?

self.fc1 = nn.Linear(3, 5)