Chain Rule and Partial Derivatives

(рдЪреЗрди рд░реВрд▓ рдФрд░ рдЖрдВрд╢рд┐рдХ рдЕрд╡рдХрд▓рдЬ тАУ рдорд▓реНрдЯреАрд▓реЗрдпрд░ рдиреЗрдЯрд╡рд░реНрдХ рдореЗрдВ Gradient рдХреА рдХреБрдВрдЬреА)

ЁЯФ╖ 1. рдкрд░рд┐рдЪрдп (Introduction)

Deep Learning рдореЗрдВ рд╣рд░ layer interconnected рд╣реЛрддреА рд╣реИ, рдФрд░ output рдкрд░ effect рдбрд╛рд▓рддреА рд╣реИредGradient рдХреЛ backward propagate рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╣рдо рджреЛ concepts рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддреЗ рд╣реИрдВ:

  • Partial Derivatives (тИВ)
  • Chain Rule

рдпрд╣ рдЕрдзреНрдпрд╛рдп Neural Networks рдХреА training рдХреЛ рд╕рдордЭрдиреЗ рдореЗрдВ рдХреЗрдВрджреНрд░реАрдп рднреВрдорд┐рдХрд╛ рдирд┐рднрд╛рддрд╛ рд╣реИред

ЁЯФ╣ 2. Partial Derivatives (рдЖрдВрд╢рд┐рдХ рдЕрд╡рдХрд▓рдЬ)

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

рдЬрдм рдХрд┐рд╕реА рдлрдВрдХреНрд╢рди рдореЗрдВ рдПрдХ рд╕реЗ рдЕрдзрд┐рдХ variable рд╣реЛрдВ (multivariable function), рддрдм рдХрд┐рд╕реА рдПрдХ variable рдХреЗ respect рдореЗрдВ рдирд┐рдХрд╛рд▓реЗ рдЧрдП derivative рдХреЛ Partial Derivative рдХрд╣рддреЗ рд╣реИрдВред

ЁЯУМ Deep Learning рдореЗрдВ рдЙрдкрдпреЛрдЧ:

  • Loss Function рдХрдИ weights рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддрд╛ рд╣реИ
  • рд╣рд░ weight рдХрд╛ gradient рдЖрдВрд╢рд┐рдХ рдЕрд╡рдХрд▓рдЬ рд╕реЗ рдирд┐рдХрд╛рд▓рд╛ рдЬрд╛рддрд╛ рд╣реИ
  • Vector form рдореЗрдВ рдпреЗ gradients рдмрдирд╛рддреЗ рд╣реИрдВ: Gradient Vector

ЁЯФ╣ 3. Chain Rule (рд╢реНрд░реГрдВрдЦрд▓рд┐рдд рдирд┐рдпрдо)

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

рдЬрдм рдПрдХ function рджреВрд╕рд░реЗ function рдХреЗ рдЕрдВрджрд░ рд╣реЛрддрд╛ рд╣реИ (nested function), рддрдм derivative рдирд┐рдХрд╛рд▓рдиреЗ рдХреЗ рд▓рд┐рдП рд╣рдо Chain Rule рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред

тЮд Deep Learning Analogy:

рдорд╛рди рд▓реАрдЬрд┐рдП:

ЁЯСЙ рдпрд╣реА Backpropagation рдореЗрдВ рд╣реЛрддрд╛ рд╣реИ тАФ gradients рд╣рд░ layer рд╕реЗ рдкреАрдЫреЗ propagate рд╣реЛрддреЗ рд╣реИрдВред

ЁЯУЙ 4. Multivariable Chain Rule Example

рдорд╛рди рд▓реАрдЬрд┐рдП:

ЁЯТб Visualization Idea:

Loss L
тЖС
Activation a = f(w┬╖x + b)
тЖС
Weight w

We want:

PyTorch рдореЗрдВ Automatic Chain Rule

import torch

x = torch.tensor(2.0, requires_grad=True)
y = x**2 + 3 * x + 1

y.backward()
print("dy/dx:", x.grad) # Output: dy/dx = 2x + 3 = 7

ЁЯОп Chapter Objectives (рд▓рдХреНрд╖реНрдп)

  • Partial Derivative рдХреА рдкрд░рд┐рднрд╛рд╖рд╛ рдФрд░ рдЧрдгрдирд╛ рд╕рдордЭрдирд╛
  • Chain Rule рдХреЗ рдкреАрдЫреЗ рдХрд╛ рд╕рд┐рджреНрдзрд╛рдВрдд рдЬрд╛рдирдирд╛
  • Deep Learning рдореЗрдВ gradient propagation рдХреИрд╕реЗ рд╣реЛрддрд╛ рд╣реИ, рдЗрд╕реЗ рд╕рдордЭрдирд╛
  • Real model рдореЗрдВ gradients рдХреИрд╕реЗ рдЬреБрдбрд╝рддреЗ рд╣реИрдВ, рдпрд╣ рджреЗрдЦрдирд╛

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Partial Derivative рдХрд┐рд╕реЗ рдХрд╣рддреЗ рд╣реИрдВ? рдЙрджрд╛рд╣рд░рдг рд╕рд╣рд┐рдд рд╕рдордЭрд╛рдЗрдПред
  2. Chain Rule рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд╣рд╛рдБ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ?
  3. Deep Learning рдореЗрдВ Chain Rule рдХрд╛ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЙрдкрдпреЛрдЧ рдХрд┐рд╕ рдЪрд░рдг рдореЗрдВ рд╣реЛрддрд╛ рд╣реИ?
  4. рдиреАрдЪреЗ рджрд┐рдП рдЧрдП рдХреЛрдб рдХрд╛ рдЖрдЙрдЯрдкреБрдЯ рдХреНрдпрд╛ рд╣реЛрдЧрд╛?
x = torch.tensor(3.0, requires_grad=True)
y = (2*x + 1)**2
y.backward()
print(x.grad)

Deep learning :Probability and Statistics

(рдкреНрд░рд╛рдпрд┐рдХрддрд╛ рдФрд░ рд╕рд╛рдВрдЦреНрдпрд┐рдХреА тАУ Deep Learning рдХреА рдЧрдгрд┐рддреАрдп рдиреАрдВрд╡)


ЁЯФ╖ 1. рдкрд░рд┐рдЪрдп (Introduction)

Probability рдФрд░ Statistics, Deep Learning рдХреА рдЕрдирд┐рд╢реНрдЪрд┐рддрддрд╛рдУрдВ рд╕реЗ рдирд┐рдкрдЯрдиреЗ рдХреА рдХреНрд╖рдорддрд╛ рдХрд╛ рдЖрдзрд╛рд░ рд╣реИрдВред
Neural Networks noisy data, uncertain predictions, рдФрд░ stochastic optimization рдкрд░ рдЖрдзрд╛рд░рд┐рдд рд╣реЛрддреЗ рд╣реИрдВ, рдЗрд╕рд▓рд┐рдП рдЗрди рджреЛрдиреЛрдВ рд╢рд╛рдЦрд╛рдУрдВ рдХреА рд╕рдордЭ рдЕрддреНрдпрдВрдд рдЖрд╡рд╢реНрдпрдХ рд╣реИред


ЁЯФв 2. Probability (рдкреНрд░рд╛рдпрд┐рдХрддрд╛)

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

Probability рдХрд┐рд╕реА рдШрдЯрдирд╛ рдХреЗ рдШрдЯрдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЛ рдорд╛рдкрддреА рд╣реИред

рдЙрджрд╛рд╣рд░рдг:

рдЙрджрд╛рд╣рд░рдг: рд╕рд┐рдХреНрдХрд╛ рдЙрдЫрд╛рд▓рдиреЗ рдкрд░ Head рдЖрдиреЗ рдХреА рдкреНрд░рд╛рдпрд┐рдХрддрд╛: P(Head)=1/2


ЁЯУМ Deep Learning рдореЗрдВ рдЙрдкрдпреЛрдЧ:

рдЙрдкрдпреЛрдЧ рдХреНрд╖реЗрддреНрд░рднреВрдорд┐рдХрд╛
DropoutRandomly neurons рдХреЛ рд╣рдЯрд╛рдирд╛ (probability рдЖрдзрд╛рд░рд┐рдд)
Bayesian Neural NetsUncertainty modeling
ClassificationProbabilities рдореЗрдВ output (Softmax)
SamplingRandom initialization, augmentation

ЁЯУК 3. Statistics (рд╕рд╛рдВрдЦреНрдпрд┐рдХреА)

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

Statistics рдХрд╛ рдХрд╛рд░реНрдп рд╣реИ рдбреЗрдЯрд╛ рдХреЛ рд╕рдВрдЧрдард┐рдд рдХрд░рдирд╛, рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░рдирд╛ рдФрд░ рд╕рд╛рд░рд╛рдВрд╢ рдирд┐рдХрд╛рд▓рдирд╛ред


ЁЯУМ рдореБрдЦреНрдп рд╕рд╛рдВрдЦреНрдпрд┐рдХреАрдп рдорд╛рдк:

рдорд╛рдкрд╕реВрддреНрд░/рдЙрджрд╛рд╣рд░рдг
Mean (рдФрд╕рдд)x╦Й=1/n тИСxi
Median (рдордзреНрдп)рдордзреНрдп рдорд╛рди (sorted list рдореЗрдВ рдмреАрдЪ рдХрд╛ рдорд╛рди)
Mode (рдореЛрдб)рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рдмрд╛рд░ рдЖрдиреЗ рд╡рд╛рд▓рд╛ рдорд╛рди
Variance (╧Г2)1/ n тИС(xiтИТx╦Й)2
Standard Deviation (╧Г)sqrt Variance

ЁЯУМ Deep Learning рдореЗрдВ Statistics рдХреЗ рдЙрдкрдпреЛрдЧ:

рдХреНрд╖реЗрддреНрд░рдЙрдкрдпреЛрдЧ
Data NormalizationMean & Std рд╕реЗ scaling
BatchNorm LayersRunning Mean рдФрд░ Variance
EvaluationAccuracy, Confusion Matrix
Loss AnalysisDistribution plotting (e.g., Histogram)

ЁЯза 4. Random Variables & Distributions

тЮд Random Variable:

рдРрд╕рд╛ variable рдЬреЛ рдХрд┐рд╕реА рдкреНрд░рдпреЛрдЧ рдХреЗ рдкрд░рд┐рдгрд╛рдо рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддрд╛ рд╣реИред

тЮд Common Distributions:

рдирд╛рдордЙрдкрдпреЛрдЧ
BernoulliBinary classification (0 рдпрд╛ 1)
BinomialRepeated binary trials
Normal (Gaussian)Image, speech data тАУ most natural data
UniformRandom weight initialization
PoissonRare event modeling

ЁЯУЙ Normal Distribution Formula:


(Statistics & Probability in PyTorch)

import torch

# Random Normal Distribution Tensor
data = torch.randn(1000)

mean = torch.mean(data)
std = torch.std(data)

print("Mean:", mean.item())
print("Standard Deviation:", std.item())

ЁЯОп Chapter Objectives (рд▓рдХреНрд╖реНрдп)

  • Probability рдХреА рдореВрд▓ рдЕрд╡рдзрд╛рд░рдгрд╛ рд╕рдордЭрдирд╛
  • Statistics рдХреЗ рдорд╛рдк рдФрд░ рдЙрдирдХрд╛ рдкреНрд░рдпреЛрдЧ рдЬрд╛рдирдирд╛
  • Deep Learning рдореЗрдВ distributions рдХрд╛ рдорд╣рддреНрд╡ рд╕рдордЭрдирд╛
  • Variance, Std Deviation, Mean рдЖрджрд┐ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Probability рдХрд╛ Deep Learning рдореЗрдВ рдХреНрдпрд╛ рдЙрдкрдпреЛрдЧ рд╣реЛрддрд╛ рд╣реИ?
  2. Mean рдФрд░ Median рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  3. Variance рдФрд░ Standard Deviation рдХреНрдпреЛрдВ рдЖрд╡рд╢реНрдпрдХ рд╣реИрдВ?
  4. Gaussian Distribution рдХрд╛ рдПрдХ рдЙрджрд╛рд╣рд░рдг рджреАрдЬрд┐рдПред
  5. рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдХреЛрдб рд╕реЗ рдХреНрдпрд╛ рдкрд░рд┐рдгрд╛рдо рдорд┐рд▓реЗрдЧрд╛? pythonCopyEditdata = torch.tensor([2.0, 4.0, 6.0]) print(torch.mean(data))

Deep Learning : Calculus Basics тАУ Derivatives & Gradients

ЁЯФ╣ 1. рдкрд░рд┐рдЪрдп (Introduction)

Calculus, рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ Differential Calculus, Deep Learning рдореЗрдВ рдЙрд╕ рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХреЛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдЬрд┐рд╕рд╕реЗ рд╣рдо рдпрд╣ рд╕рдордЭрддреЗ рд╣реИрдВ рдХрд┐ рдПрдХ рдлрд╝рдВрдХреНрд╢рди рдХрд╛ рдЖрдЙрдЯрдкреБрдЯ, рдЙрд╕рдХреЗ рдЗрдирдкреБрдЯ рдореЗрдВ рд╣реБрдП рдЫреЛрдЯреЗ рдмрджрд▓рд╛рд╡ рд╕реЗ рдХреИрд╕реЗ рдкреНрд░рднрд╛рд╡рд┐рдд рд╣реЛрддрд╛ рд╣реИред

Deep Learning рдореЗрдВ тАЬGradient DescentтАЭ рдФрд░ тАЬBackpropagationтАЭ рдЗрдиреНрд╣реАрдВ рд╕рд┐рджреНрдзрд╛рдВрддреЛрдВ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рд╣реИрдВред


ЁЯФ╣ 2. Derivative рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

рдХрд┐рд╕реА рдлрд╝рдВрдХреНрд╢рди f(x) рдХрд╛ Derivative рдпрд╣ рдмрддрд╛рддрд╛ рд╣реИ рдХрд┐ x рдореЗрдВ рдПрдХ рдЫреЛрдЯреА-рд╕реА рд╡реГрджреНрдзрд┐ рдХрд░рдиреЗ рдкрд░ f(x) рдореЗрдВ рдХрд┐рддрдирд╛ рдмрджрд▓рд╛рд╡ рдЖрддрд╛ рд╣реИред

рдЙрджрд╛рд╣рд░рдг:


ЁЯФз Deep Learning рдореЗрдВ рдЙрдкрдпреЛрдЧ:

  • Derivative рдмрддрд╛рддрд╛ рд╣реИ рдХрд┐ Loss Function рдХрд┐рддрдиреА рддреЗрдЬрд╝реА рд╕реЗ рдмрджрд▓ рд░рд╣рд╛ рд╣реИред
  • рдЗрд╕рд╕реЗ рд╣рдо рдЬрд╛рди рдкрд╛рддреЗ рд╣реИрдВ рдХрд┐ weights рдХреЛ рдмрдврд╝рд╛рдирд╛ рдЪрд╛рд╣рд┐рдП рдпрд╛ рдШрдЯрд╛рдирд╛, рддрд╛рдХрд┐ Loss рдХрдо рд╣реЛред

ЁЯФ╣ 3. Chain Rule

рдЬрдм рдПрдХ рдлрд╝рдВрдХреНрд╢рди рджреВрд╕рд░реЗ рдлрд╝рдВрдХреНрд╢рди рдХреЗ рдЕрдВрджрд░ рдЫреБрдкрд╛ рд╣реЛ (nested function), рддрдм Derivative рдирд┐рдХрд╛рд▓рдиреЗ рдХреЗ рд▓рд┐рдП Chain Rule рдХрд╛ рдЙрдкрдпреЛрдЧ рд╣реЛрддрд╛ рд╣реИред

рдЙрджрд╛рд╣рд░рдг:


ЁЯФБ Backpropagation рдЗрд╕реА principle рдкрд░ рдЖрдзрд╛рд░рд┐рдд рд╣реИ тАУ рдпрд╣ рд╣рд░ layer рдХреЗ output рдХрд╛ derivative рдкрд┐рдЫрд▓реЗ layers рддрдХ propagate рдХрд░рддрд╛ рд╣реИред


ЁЯФ╣ 4. Gradient рдХреНрдпрд╛ рд╣реИ?

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

Gradient, рдПрдХ multi-variable function рдХрд╛ vector derivative рд╣реЛрддрд╛ рд╣реИред рдпрд╣ рдЙрд╕ рджрд┐рд╢рд╛ рдХреЛ рджрд┐рдЦрд╛рддрд╛ рд╣реИ рдЬрд┐рд╕рдореЗрдВ function рд╕рдмрд╕реЗ рддреЗрдЬреА рд╕реЗ рдмрдврд╝рддрд╛ рдпрд╛ рдШрдЯрддрд╛ рд╣реИред


тЮд Deep Learning рдореЗрдВ Gradient рдХрд╛ рдЙрдкрдпреЛрдЧ:

  • Model рдХреЗ weights рдФрд░ biases рдХреЛ рдЕрдкрдбреЗрдЯ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП
  • Gradient Descent рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ Loss рдХреЛ minimize рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП

ЁЯТ╗ рдЖрд╡рд╢реНрдпрдХ рдХреЛрдб (PyTorch рдореЗрдВ Gradient рдирд┐рдХрд╛рд▓рдирд╛)

import torch

# Variable with gradient tracking enabled
x = torch.tensor(2.0, requires_grad=True)

# Function: f(x) = x^2
y = x**2

# Compute gradient
y.backward()

print("dy/dx at x=2:", x.grad) # Output: 4.0 (because dy/dx = 2x)

ЁЯУМ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЙрдкрдпреЛрдЧ (Real Use in Deep Learning)

ConceptCalculus рдЙрдкрдпреЛрдЧ
Loss FunctionDerivative рд╕реЗ gradient рдирд┐рдХрд╛рд▓рдирд╛
OptimizersGradient Descent step рдореЗрдВ
BackpropagationChain Rule рд╕реЗ gradient рдХреЛ рдкреАрдЫреЗ propagate рдХрд░рдирд╛
RegularizationCost Function рдореЗрдВ derivative рд╕реЗ рдирд┐рдпрдВрддреНрд░рдг

ЁЯОп Chapter Objectives (рд▓рдХреНрд╖реНрдп)

  • Derivatives рдХреА рдмреБрдирд┐рдпрд╛рджреА рд╕рдордЭ рдкреНрд░рд╛рдкреНрдд рдХрд░рдирд╛
  • Chain Rule рдХреА рдЕрд╡рдзрд╛рд░рдгрд╛ рдХреЛ рдЬрд╛рдирдирд╛
  • Gradient рдХреЗ рдорд╣рддреНрд╡ рдХреЛ рд╕рдордЭрдирд╛
  • Gradient Descent рдФрд░ Backpropagation рдореЗрдВ Calculus рдХреА рднреВрдорд┐рдХрд╛ рдЬрд╛рдирдирд╛

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Derivative рдХрд╛ Deep Learning рдореЗрдВ рдХреНрдпрд╛ рдХрд╛рд░реНрдп рд╣реИ?
  2. Chain Rule рдХрд┐рд╕рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рд╣реЛрддрд╛ рд╣реИ?
  3. Gradient рдХреНрдпрд╛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдФрд░ рдЗрд╕реЗ рдХреНрдпреЛрдВ рдирд┐рдХрд╛рд▓рд╛ рдЬрд╛рддрд╛ рд╣реИ?
  4. рдпрджрд┐ f(x)=x3 рддреЛ fтА▓(x) рдХреНрдпрд╛ рд╣реЛрдЧрд╛?
  5. рдиреАрдЪреЗ рджрд┐рдП рдЧрдП PyTorch рдХреЛрдб рдХрд╛ рдЖрдЙрдЯрдкреБрдЯ рдмрддрд╛рдЗрдП:

6. рдиреАрдЪреЗ рджрд┐рдП рдЧрдП PyTorch рдХреЛрдб рдХрд╛ рдЖрдЙрдЯрдкреБрдЯ рдмрддрд╛рдЗрдП:

x = torch.tensor(3.0, requires_grad=True)
y = x**3
y.backward()
print(x.grad)

ЁЯФ╣Deep Learning рдореЙрдбрд▓ рдХрд╛ рдЙрджреНрджреЗрд╢реНрдп рд╣реЛрддрд╛ рд╣реИ рдХрд┐ рд╡рд╣ рд╕рд╣реА prediction рдХрд░реЗред рдЗрд╕рдХреЗ рд▓рд┐рдП рд╣рдореЗрдВ Loss Function рдХреЛ рдиреНрдпреВрдирддрдо (minimize) рдХрд░рдирд╛ рд╣реЛрддрд╛ рд╣реИред
рдпрд╣ рдХрд╛рд░реНрдп Gradient Descent рдирд╛рдо рдХреА optimization рддрдХрдиреАрдХ рд╕реЗ рд╣реЛрддрд╛ рд╣реИред


ЁЯФ╣ 5. Gradient Descent рдХреНрдпрд╛ рд╣реИ?

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

Gradient Descent рдПрдХ iterative optimization algorithm рд╣реИ рдЬрд┐рд╕рдХрд╛ рдЙрдкрдпреЛрдЧ Loss Function рдХреЛ рдХрдо рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред
рдпрд╣ рд╣рдореЗрд╕рд╛ gradient рдХреА рдЙрд▓реНрдЯреА рджрд┐рд╢рд╛ рдореЗрдВ рдЪрд▓рддрд╛ рд╣реИ тАУ рдЬрд╣рд╛рдБ loss рдХрдо рд╣реЛрддрд╛ рд╣реИред

ЁЯФБ тАЬрдЙрддрд░рддреА рдкрд╣рд╛рдбрд╝реА рдкрд░ рд╕рд╣реА рд░рд╛рд╕реНрддреЗ рд╕реЗ рдиреАрдЪреЗ рдЬрд╛рдирд╛редтАЭ


ЁЯФ╣ 6. Gradient Descent рдХрд╛ рд╕реВрддреНрд░

рдорд╛рди рд▓реАрдЬрд┐рдП рд╣рдорд╛рд░рд╛ рд╡реЗрдЯ w рд╣реИ, рдФрд░ рд╣рдордиреЗ рдЙрд╕рдХрд╛ gradient рдирд┐рдХрд╛рд▓рд╛ рд╣реИ тИВL/тИВw рддреЛ рдирдпрд╛ рд╡реЗрдЯ рд╣реЛрдЧрд╛:

рдЬрд╣рд╛рдБ:

  • ╬╖ = Learning rate (0.001, 0.01 etc.)
  • тИВL/тИВw = Gradient of Loss function

ЁЯФ╣ 7. Learning Rate рдХрд╛ рдорд╣рддреНрд╡

Learning RateрдкреНрд░рднрд╛рд╡
рдмрд╣реБрдд рдЫреЛрдЯрд╛ (╬╖тЙк1)Training рдзреАрдореА рд╣реЛрдЧреА
рдмрд╣реБрдд рдмрдбрд╝рд╛ (╬╖тЙл1)Model рд╕рд╣реА direction рдореЗрдВ рдирд╣реАрдВ рд╕реАрдЦ рдкрд╛рдПрдЧрд╛
рд╕рдВрддреБрд▓рд┐рдд (╬╖ рдареАрдХ)Loss рдзреАрд░реЗ-рдзреАрд░реЗ рдХрдо рд╣реЛрдЧрд╛ рдФрд░ model рд╕рдЯреАрдХ рд╣реЛрдЧрд╛

ЁЯФ╣ 8. Gradient Descent рдХреЗ рдкреНрд░рдХрд╛рд░

рдкреНрд░рдХрд╛рд░рд╡рд┐рд╡рд░рдг
Batch Gradient Descentрд╕рднреА рдбреЗрдЯрд╛ рд╕реЗ gradient рдирд┐рдХрд╛рд▓рддрд╛ рд╣реИ тАУ рдзреАрдорд╛ рдкрд░ рд╕рдЯреАрдХ
Stochastic GD (SGD)рдПрдХ рдЙрджрд╛рд╣рд░рдг рд╕реЗ gradient тАУ рддреЗрдЬрд╝ рдкрд░ рдЕрд╢рд╛рдВрдд
Mini-batch GDрдХреБрдЫ рдЙрджрд╛рд╣рд░рдгреЛрдВ рд╕реЗ gradient тАУ рддреЗрдЬреА рдФрд░ рд╕реНрдерд┐рд░рддрд╛ рдХрд╛ рд╕рдВрддреБрд▓рди

ЁЯФ╣ 9. Optimization Techniques (GD рдХрд╛ рдЙрдиреНрдирдд рд░реВрдк)

ЁЯУМ 1. SGD (Stochastic Gradient Descent)

рд╣рд░ рд╕реИрдВрдкрд▓ рдкрд░ рд╡реЗрдЯ рдЕрдкрдбреЗрдЯ тАУ noisy рдкрд░ рддреЗрдЬрд╝

ЁЯУМ 2. Momentum

Gradient рдХреА рджрд┐рд╢рд╛ рдореЗрдВ тАЬрдЧрддрд┐тАЭ рдЬреЛрдбрд╝рддрд╛ рд╣реИ тАУ рддреЗрдЬрд╝ рдФрд░ smooth convergence

ЁЯУМ 3. RMSProp

рд╣рд░ рд╡реЗрдЯ рдХреЗ рд▓рд┐рдП learning rate adapt рдХрд░рддрд╛ рд╣реИ тАУ рдмреЗрд╣рддрд░ stability

ЁЯУМ 4. Adam (Most Popular)

Momentum + RMSProp рдХрд╛ рдореЗрд▓ тАУ рдХрдо рд╕рдордп рдореЗрдВ рдмреЗрд╣рддрд░ рдкрд░рд┐рдгрд╛рдо


ЁЯТ╗ рдЖрд╡рд╢реНрдпрдХ рдХреЛрдб (PyTorch рдореЗрдВ Optimizer рдХрд╛ рдкреНрд░рдпреЛрдЧ)

import torch
import torch.nn as nn
import torch.optim as optim

model = nn.Linear(1, 1) # рдПрдХ рд╕рд┐рдВрдкрд▓ рдореЙрдбрд▓
criterion = nn.MSELoss() # Loss function
optimizer = optim.SGD(model.parameters(), lr=0.01) # Optimizer

# Forward + Backward + Optimize
for epoch in range(10):
inputs = torch.tensor([[1.0]])
targets = torch.tensor([[2.0]])

outputs = model(inputs)
loss = criterion(outputs, targets)

optimizer.zero_grad()
loss.backward()
optimizer.step()

print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

ЁЯУМ Optimization Diagram (рд╕реИрджреНрдзрд╛рдВрддрд┐рдХ)

Loss
тФВ
тФВ тЧП тЖР Loss рдЕрдзрд┐рдХ рд╣реИ
тФВ /
тФВ тЧП
тФВ /
тФВ тЧП тЖР Gradient Descent Steps
тФВ/
тЧПтФАтФАтФАтФАтФАтФАтФАтФАтФАтФАтФАтФА Weights

ЁЯОп Chapter Objectives (рд▓рдХреНрд╖реНрдп)

  • Gradient Descent рдХрд╛ рдореВрд▓ рд╕рд┐рджреНрдзрд╛рдВрдд рд╕рдордЭрдирд╛
  • Loss рдХреЛ рдХрдо рдХрд░рдиреЗ рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдЬрд╛рдирдирд╛
  • рд╡рд┐рднрд┐рдиреНрди Optimization Techniques рдХреЛ рдкрд╣рдЪрд╛рдирдирд╛
  • Learning Rate рдХреЗ рдкреНрд░рднрд╛рд╡ рдХреЛ рд╕рдордЭрдирд╛

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions)

  1. Gradient Descent рдХреНрдпрд╛ рд╣реИ рдФрд░ Deep Learning рдореЗрдВ рдХреНрдпреЛрдВ рдЖрд╡рд╢реНрдпрдХ рд╣реИ?
  2. Learning Rate рдмрд╣реБрдд рдЕрдзрд┐рдХ рд╣реЛ рддреЛ рдХреНрдпрд╛ рджрд┐рдХреНрдХрдд рд╣реЛ рд╕рдХрддреА рд╣реИ?
  3. Momentum Optimizer рдХрд┐рд╕ concept рдкрд░ рдЖрдзрд╛рд░рд┐рдд рд╣реИ?
  4. Mini-batch Gradient Descent рдХреЗ рдХреНрдпрд╛ рд▓рд╛рдн рд╣реИрдВ?
  5. рдиреАрдЪреЗ рджрд┐рдП рдЧрдП рдХреЛрдб рдХрд╛ рдЙрджреНрджреЗрд╢реНрдп рдмрддрд╛рдЗрдП:

optimizer.zero_grad() loss.backward() optimizer.step()

Transfer Learning рдФрд░ Fine-tuning рдХреНрдпрд╛ рд╣реИ?

ЁЯУе 1. Transfer Learning рдХреНрдпрд╛ рд╣реИ?

Transfer Learning рдПрдХ рдРрд╕реА Deep Learning рддрдХрдиреАрдХ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рд╣рдо рдХрд┐рд╕реА рдкрд╣рд▓реЗ рд╕реЗ trained рдореЙрдбрд▓ (рдЬреИрд╕реЗ GPT, BERT, ResNet, VGG рдЖрджрд┐) рдХреЛ рдирдП рдХрд╛рд░реНрдп (task) рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред

тЬЕ рд╕рд░рд▓ рднрд╛рд╖рд╛ рдореЗрдВ:
“рдХрд┐рд╕реА рдЪреАрдЬрд╝ рдХреЛ рдкрд╣рд▓реЗ рд╕реЗ рд╕реАрдЦрд╛ рд╣реБрдЖ рджрд┐рдорд╛рдЧ (model) рд▓реЗрдХрд░, рдЙрд╕реЗ рдирдпрд╛ рдХрд╛рдо рд╕рд┐рдЦрд╛рдирд╛ред”

ЁЯФз рдЙрджрд╛рд╣рд░рдг:

рдорд╛рди рд▓реАрдЬрд┐рдП Google рдХрд╛ рдореЙрдбрд▓ рдкрд╣рд▓реЗ рд╕реЗ 10 рд▓рд╛рдЦ рдЪрд┐рддреНрд░реЛрдВ рдкрд░ train рд╣реЛ рдЪреБрдХрд╛ рд╣реИ (рдЬреИрд╕реЗ ResNet)ред
рдЕрдм рдЖрдк рдЙрд╕реЗ рдЕрдкрдиреЗ 1000 рдЗрдореЗрдЬ рд╡рд╛рд▓реЗ рдЫреЛрдЯреЗ dataset рдкрд░ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВред рддреЛ рдЖрдк:

  • рдЗрд╕ рдмрдбрд╝реЗ trained рдореЙрдбрд▓ рдХреЛ рд▓реЗрддреЗ рд╣реИрдВ,
  • рдЙрд╕рдХреА рдЖрдЦрд┐рд░реА рдХреБрдЫ layers рд╣рдЯрд╛рддреЗ рд╣реИрдВ,
  • рдФрд░ рдЕрдкрдиреА рдкрд╕рдВрдж рдХреЗ рдХрд╛рдо рдкрд░ train рдХрд░рддреЗ рд╣реИрдВред

ЁЯЫая╕П 2. Fine-tuning рдХреНрдпрд╛ рд╣реИ?

Fine-tuning = Transfer Learning рдХрд╛ рдЕрдЧрд▓рд╛ step

рдЬрдм рдЖрдк рдПрдХ pretrained рдореЙрдбрд▓ рдХреЛ рдЕрдкрдиреЗ рд╡рд┐рд╢реЗрд╖ рдЯрд╛рд╕реНрдХ (рдЬреИрд╕реЗ Cat/Dog classification, Hindi sentiment analysis) рдХреЗ рд▓рд┐рдП рдереЛрдбрд╝реЗ рдмрд╣реБрдд рдмрджрд▓рд╛рд╡ (modification) рдХреЗ рд╕рд╛рде рдлрд┐рд░ рд╕реЗ train рдХрд░рддреЗ рд╣реИрдВ, рддреЛ рдЗрд╕реЗ Fine-tuning рдХрд╣рддреЗ рд╣реИрдВред

тЪЩя╕П Process:

  1. Pretrained model load рдХрд░реЛ (рдЬреИрд╕реЗ GPT, BERT, ResNet)
  2. Top layers рд╣рдЯрд╛рдУ рдпрд╛ freeze рдХрд░реЛ
  3. рдЕрдкрдиреЗ рдирдП dataset рд╕реЗ output layers рдЬреЛрдбрд╝реЛ
  4. рдХреЗрд╡рд▓ рдХреБрдЫ layers рдХреЛ train рдХрд░реЛ (low learning rate)
  5. Model Fine-tune рд╣реЛ рдЧрдпрд╛ тАУ рдЕрдм рдпрд╣ рдирдП рдХрд╛рд░реНрдп рдореЗрдВ рднреА рдЕрдЪреНрдЫрд╛ рдХрд░реЗрдЧрд╛

ЁЯдЦ рдХреНрдпреЛрдВ рдЬрд╝рд░реВрд░реА рд╣реИ рдпреЗ?

рдХрд╛рд░рдгрд▓рд╛рдн
рдХрдо рдбреЗрдЯрд╛рдЦреБрдж рд╕реЗ training рдХрд░рдиреЗ рдХреА рдЬрд╝рд░реВрд░рдд рдирд╣реАрдВ
рддреЗрдЬрд╝ trainingрдореЙрдбрд▓ рдкрд╣рд▓реЗ рд╕реЗ рдмрд╣реБрдд рдХреБрдЫ рд╕реАрдЦ рдЪреБрдХрд╛ рд╣реЛрддрд╛ рд╣реИ
рдХрдо рд▓рд╛рдЧрддGPU рд╕рдордп рдФрд░ рдкреИрд╕реЗ рдХреА рдмрдЪрдд
рдмреЗрд╣рддрд░ AccuracyрдХрдо рдбреЗрдЯрд╛ рдкрд░ рднреА рдЕрдЪреНрдЫрд╛ рдкреНрд░рджрд░реНрд╢рди

ЁЯМН Real-world рдЙрджрд╛рд╣рд░рдг

рдореЙрдбрд▓Transfer Learning рдХрд╛рд░реНрдп
BERTHindi Sentiment Analysis рдореЗрдВ рдЙрдкрдпреЛрдЧ
ResNetMedical X-Ray Images рдкрд░ рд░реЛрдЧ рдкрд╣рдЪрд╛рди
GPTLegal Documents рдХрд╛ рд╕рд╛рд░рд╛рдВрд╢ рдмрдирд╛рдирд╛
CLIPImage+Text Matching in E-commerce

ЁЯОУ рддреБрд▓рдирд╛ рддрд╛рд▓рд┐рдХрд╛

рдмрд┐рдВрджреБTransfer LearningFine-tuning
рдХреНрдпрд╛ рд╣реИ?Pretrained model reuse рдХрд░рдирд╛Pretrained model рдХреЛ рдереЛрдбрд╝рд╛ retrain рдХрд░рдирд╛
Data рдЬрд╝рд░реВрд░рддрдХрдордереЛрдбрд╝рд╛ рдФрд░ рдбреЗрдЯрд╛ рдЪрд╛рд╣рд┐рдП
Training TimeрддреЗрдЬрд╝рдереЛрдбрд╝рд╛ рдЕрдзрд┐рдХ
AccuracyрдЕрдЪреНрдЫреАрдФрд░ рдмреЗрд╣рддрд░ (specific task рдкрд░)

ЁЯза рдПрдХ рдЙрджрд╛рд╣рд░рдг (Human Analogy):

рдЖрдк рдкрд╣рд▓реЗ рд╕реЗ English рдмреЛрд▓рдирд╛ рдЬрд╛рдирддреЗ рд╣реИрдВ (Pretrained),
рдЕрдм рдЖрдкрдХреЛ IELTS exam рдХреА рддреИрдпрд╛рд░реА рдХрд░рдиреА рд╣реИ (Fine-tuning)ред
рдЖрдкрдХрд╛ рджрд┐рдорд╛рдЧ transfer рд╣реБрдЖ, рдЕрдм рдЙрд╕реЗ рдереЛрдбрд╝рд╛ fine-tune рдХрд┐рдпрд╛ рдЧрдпрд╛ред


тЬЕ рдирд┐рд╖реНрдХрд░реНрд╖ (Conclusion)

  • Transfer Learning = рдкреБрд░рд╛рдиреЗ рдЬреНрдЮрд╛рди рдХреЛ рдирдП рдХрд╛рдо рдореЗрдВ рд▓рдЧрд╛рдирд╛
  • Fine-tuning = рдЙрд╕ рдкреБрд░рд╛рдиреЗ рдЬреНрдЮрд╛рди рдХреЛ рд╣рд▓реНрдХрд╛ рд╕рд╛ рдирдпрд╛ рдХрд╛рдо рд╕рд┐рдЦрд╛рдирд╛

рдпрд╣ Deep Learning рдХреА рджреБрдирд┐рдпрд╛ рдореЗрдВ Efficiency рдФрд░ Performance рдХреЛ рдмрдврд╝рд╛рдиреЗ рдХрд╛ рд╕рдмрд╕реЗ рд▓реЛрдХрдкреНрд░рд┐рдп рддрд░реАрдХрд╛ рдмрди рдЪреБрдХрд╛ рд╣реИред

Linear Algebra Basics

(рд░реЗрдЦреАрдп рдмреАрдЬрдЧрдгрд┐рдд рдХреА рдореВрд▓ рдмрд╛рддреЗрдВ: рдореИрдЯреНрд░рд┐рдХреНрд╕, рд╡реЗрдХреНрдЯрд░ рдФрд░ рдЯреЗрдиреНрд╕рд░)


ЁЯФ╖ 2.1 рдкрд░рд┐рдЪрдп (Introduction)

Deep Learning рдореЙрдбрд▓, рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ Neural Networks, рдореБрдЦреНрдп рд░реВрдк рд╕реЗ рд╕рдВрдЦреНрдпрд╛рдУрдВ (numbers) рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░рддреЗ рд╣реИрдВред рдЗрди рд╕рдВрдЦреНрдпрд╛рдУрдВ рдХреЛ рд╕рдВрдЧрдард┐рдд рдФрд░ рдкреНрд░реЛрд╕реЗрд╕ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╣рдо Linear Algebra рдХреА рддрдХрдиреАрдХреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред


ЁЯзо 2.2 рд╡реЗрдХреНрдЯрд░ (Vectors)

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

рд╡реЗрдХреНрдЯрд░ рдПрдХ рдРрд╕реА рд╕реВрдЪреА рд╣реИ рдЬрд┐рд╕рдореЗрдВ рд╕рдВрдЦреНрдпрд╛рдПрдБ рдПрдХ рд╡рд┐рд╢реЗрд╖ рдХреНрд░рдо рдореЗрдВ рд╣реЛрддреА рд╣реИрдВред рдпрд╣ 1D array рд╣реЛрддрд╛ рд╣реИред

рдЙрджрд╛рд╣рд░рдг:

тЬЕ рдЙрдкрдпреЛрдЧ:

  • Neural Network рдХреЗ inputs рдФрд░ weights рдХреЛ рд╡реЗрдХреНрдЯрд░ рдореЗрдВ рд╕рдВрдЧреНрд░рд╣рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред
  • рд╡реЗрдХреНрдЯрд░ dot product рдФрд░ angle measurement рдореЗрдВ рдкреНрд░рдпреЛрдЧ рд╣реЛрддреЗ рд╣реИрдВред

ЁЯЫая╕П рд╡реЗрдХреНрдЯрд░ рдСрдкрд░реЗрд╢рди:

рдХреНрд░рд┐рдпрд╛рдЙрджрд╛рд╣рд░рдг
рдЬреЛрдбрд╝[1,2]+[3,4]=[4,6]
рд╕реНрдХреЗрд▓рд░ рдЧреБрдгрд╛3├Ч[1,2]=[3,6]
рдбреЙрдЯ рдкреНрд░реЛрдбрдХреНрдЯ[1,2]тЛЕ[3,4]=1├Ч3+2├Ч4=11

ЁЯЯж 2.3 рдореИрдЯреНрд░рд┐рдХреНрд╕ (Matrix)

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

Matrix рдПрдХ 2D array рд╣реЛрддрд╛ рд╣реИ рдЬрд┐рд╕рдореЗрдВ rows рдФрд░ columns рд╣реЛрддреЗ рд╣реИрдВред рдпрд╣ рд╡реЗрдХреНрдЯрд░ рдХрд╛ рд╡рд┐рд╕реНрддрд╛рд░ рд╣реИред

рдЙрджрд╛рд╣рд░рдг:

тЬЕ рдЙрдкрдпреЛрдЧ:

  • Neural Networks рдореЗрдВ inputs, weights, рдФрд░ activations рдХреЛ Matrix рдХреЗ рд░реВрдк рдореЗрдВ рд░рдЦрд╛ рдЬрд╛рддрд╛ рд╣реИред
  • Matrix multiplication рджреНрд╡рд╛рд░рд╛ layers рдХреЗ рдмреАрдЪ data forward рд╣реЛрддрд╛ рд╣реИред

ЁЯЫая╕П Matrix Operations:

рдХреНрд░рд┐рдпрд╛рд╡рд┐рд╡рд░рдг
TransposeрдкрдВрдХреНрддрд┐ рдХреЛ рд╕реНрддрдВрдн рдореЗрдВ рдмрджрд▓рдирд╛
Multiplicationm├Чn├Чn├Чp = m├Чp
Identity MatrixI, рдЬрд╣рд╛рдВ AтЛЕI=A
Inverse (AтБ╗┬╣)рдХреЗрд╡рд▓ рдХреБрдЫ matrices рдХреЗ рд▓рд┐рдП рд╕рдВрднрд╡

ЁЯзК 2.4 рдЯреЗрдиреНрд╕рд░ (Tensors)

тЮд рдкрд░рд┐рднрд╛рд╖рд╛:

Tensors рд╡реЗрдХреНрдЯрд░ рдФрд░ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдХрд╛ рд╕рд╛рдорд╛рдиреНрдпреАрдХреГрдд рд░реВрдк рд╣реИред

  • рд╡реЗрдХреНрдЯрд░ = 1D рдЯреЗрдиреНрд╕рд░
  • рдореИрдЯреНрд░рд┐рдХреНрд╕ = 2D рдЯреЗрдиреНрд╕рд░
  • 3D+ arrays = Higher Order Tensors

рдЙрджрд╛рд╣рд░рдг:

import torch
x = torch.rand(2, 3, 4) # 3D Tensor (2├Ч3├Ч4)

тЬЕ рдЙрдкрдпреЛрдЧ:

  • Deep Learning frameworks (рдЬреИрд╕реЗ PyTorch, TensorFlow) рдХрд╛ рдореБрдЦреНрдп рдбреЗрдЯрд╛ structure рдЯреЗрдиреНрд╕рд░ рд╣реИред
  • Multidimensional рдбреЗрдЯрд╛ рдХреЛ efficiently store рдФрд░ process рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдПред

ЁЯФД 2.5 Vector, Matrix, Tensor рддреБрд▓рдирд╛ рддрд╛рд▓рд┐рдХрд╛:

рдЧреБрдгрд╡реЗрдХреНрдЯрд░рдореИрдЯреНрд░рд┐рдХреНрд╕рдЯреЗрдиреНрд╕рд░
рдЖрдпрд╛рдо (Dimensions)1D2DND (3D, 4D…)
рд░реВрдк[x,y,z][[a,b],[c,d]][[[]]]
рдЙрдкрдпреЛрдЧInput, OutputLayer WeightsImages, Sequences

ЁЯФз 2.6 Deep Learning рдореЗрдВ Linear Algebra рдХрд╛ рдкреНрд░рдпреЛрдЧ

рдХреНрд╖реЗрддреНрд░Linear Algebra рдЙрдкрдпреЛрдЧ
Input DataVectors / Tensors
Layer WeightsMatrix Multiplication
Feature ExtractionDot Product
BackpropagationGradient Computation using Matrix derivatives
ImagesTensors of size (Channels ├Ч Height ├Ч Width)

ЁЯза рдЙрджрд╛рд╣рд░рдг:

PyTorch Code Example (Matrix multiplication):

import torch

A = torch.tensor([[1., 2.], [3., 4.]])
B = torch.tensor([[2., 0.], [1., 2.]])
result = torch.matmul(A, B)

print("Matrix A ├Ч B =\n", result)

Output:

Matrix A ├Ч B =
tensor([[ 4., 4.],
[10., 8.]])

ЁЯУЪ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Quiz)

тЭУQ1. рд╡реЗрдХреНрдЯрд░ рдФрд░ рдореИрдЯреНрд░рд┐рдХреНрд╕ рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
тЬЕ рд╡реЗрдХреНрдЯрд░ 1D array рд╣реИ, рдЬрдмрдХрд┐ рдореИрдЯреНрд░рд┐рдХреНрд╕ 2D array рд╣реИред

тЭУQ2. Dot Product рдХрд╛ рдЙрдкрдпреЛрдЧ Neural Network рдореЗрдВ рдХрд╣рд╛рдБ рд╣реЛрддрд╛ рд╣реИ?
тЬЕ Input рдФрд░ Weights рдХреЗ рдмреАрдЪ рдХреЗ рд╕рдВрдмрдВрдз рдХреА рдЧрдгрдирд╛ рдХреЗ рд▓рд┐рдП

тЭУQ3. рдЯреЗрдиреНрд╕рд░ рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?
тЬЕ рдПрдХ ND array рдЬреЛ рд╡реЗрдХреНрдЯрд░ рдФрд░ рдореИрдЯреНрд░рд┐рдХреНрд╕ рджреЛрдиреЛрдВ рдХреЛ generalize рдХрд░рддрд╛ рд╣реИред

тЭУQ4. PyTorch рдпрд╛ TensorFlow рдХрд┐рд╕ рдбреЗрдЯрд╛ structure рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ?
тЬЕ Tensor


тЬЕ рдирд┐рд╖реНрдХрд░реНрд╖ (Conclusion)

Linear Algebra Deep Learning рдХреА рдЧрдгрд┐рддреАрдп рд░реАрдврд╝ рд╣реИред

  • Vectors input/output рдХреЛ рджрд░реНрд╢рд╛рддреЗ рд╣реИрдВ
  • Matrices weights рдФрд░ connections рдХреЛ рд╕рдВрднрд╛рд▓рддреЗ рд╣реИрдВ
  • Tensors complex data (рдЬреИрд╕реЗ images, sequences) рдХреЛ efficiently represent рдХрд░рддреЗ рд╣реИрдВ

рдЗрд╕ рдЕрдзреНрдпрд╛рдп рдХреА рд╕рдордЭ рдЖрдЧреЗ рдХреЗ рдореЙрдбрд▓реНрд╕, training рдФрд░ optimization рдХреЛ рдЧрд╣рд░рд╛рдИ рд╕реЗ рд╕рдордЭрдиреЗ рдореЗрдВ рдорджрдж рдХрд░реЗрдЧреАред