рдЕрдм рд╣рдо Deep Learning рдХреЗ рдПрдХ cutting-edge topic рдХреА рдУрд░ рдмрдврд╝рддреЗ рд╣реИрдВ:
ЁЯФН “Learn from data itself тАУ without explicit labels.”
ЁЯФ╖ 1. What is Self-Supervised Learning?
Self-Supervised Learning (SSL) рдПрдХ рдРрд╕реА approach рд╣реИ рдЬрд┐рд╕рдореЗрдВ model рдХреЛ рдмрд┐рдирд╛ manually labeled data рдХреЗ train рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред
ЁЯСЙ рдпреЗ unlabeled data рд╕реЗ рд╣реА pseudo labels generate рдХрд░рддрд╛ рд╣реИред
Goal: Supervised learning рдЬреИрд╕реА performance, рд▓реЗрдХрд┐рди рдмрд┐рдирд╛ manually labeled dataset рдХреЗред
ЁЯФ╢ 2. SSL рдХреНрдпреЛрдВ рдЬрд╝рд░реВрд░реА рд╣реИ?
рд╕рдорд╕реНрдпрд╛ | рд╕рдорд╛рдзрд╛рди |
---|---|
Labeling data рдорд╣рдВрдЧрд╛ рд╣реИ | SSL human labeling рдХреЛ minimize рдХрд░рддрд╛ рд╣реИ |
рдХрдИ domains рдореЗрдВ unlabeled data abundant рд╣реИ | SSL рдЙрд╕рд╕реЗ рдлрд╛рдпрджрд╛ рдЙрдард╛рддрд╛ рд╣реИ |
Pretraining + Fine-tuning = рдмреЗрд╣рддрд░ generalization | SSL рдореЙрдбрд▓ transferable рдмрдирд╛рддрд╛ рд╣реИ |
ЁЯФ╖ 3. SSL рдХреИрд╕реЗ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ?
тЬЕ Key Idea:
Model рдЦреБрдж рд╣реА input рдХреЗ рдХреБрдЫ рд╣рд┐рд╕реНрд╕реЛрдВ рд╕реЗ рджреВрд╕рд░рд╛ рд╣рд┐рд╕реНрд╕рд╛ predict рдХрд░рдиреЗ рдХрд╛ task рд╕реАрдЦрддрд╛ рд╣реИред
SSL Task Type | рдЙрджрд╛рд╣рд░рдг |
---|---|
Contrastive | Two similar images тЖТ close representations |
Masked modeling | Sentence рдХрд╛ рд╣рд┐рд╕реНрд╕рд╛ рдЫрд┐рдкрд╛ рджреЛ тЖТ predict рдХрд░реЛ |
Pretext tasks | Rotation predict рдХрд░рдирд╛, Colorization, etc. |
ЁЯФ╢ 4. Popular Self-Supervised Tasks
тЬЕ A. Contrastive Learning (Image)
рдПрдХ рд╣реА object рдХреЗ рджреЛ augmentations тЖТ similar representation
рдЕрд▓рдЧ-рдЕрд▓рдЧ object тЖТ рджреВрд░ representation
- Frameworks: SimCLR, MoCo, BYOL
Loss = NT-Xent (Normalized Temperature-scaled Cross Entropy)
тЬЕ B. Masked Language Modeling (NLP)
Input рдореЗрдВ рдХреБрдЫ tokens рдХреЛ mask рдХрд░реЛ, рдлрд┐рд░ рдЙрдиреНрд╣реЗрдВ predict рдХрд░реЛ
рдЬреИрд╕реЗ BERT рдХрд░рддрд╛ рд╣реИ
Input: "I like [MASK] learning."
Target: "deep"
тЬЕ C. Autoencoding
Input рд╕реЗ рдЦреБрдж рдХреЛ reconstruct рдХрд░рдирд╛
- Example: Autoencoders, Variational Autoencoders
тЬЕ D. Predict Context (Next Frame, Next Word, etc.)
- Next Word Prediction: GPT рдЬреИрд╕реЗ models
- Next Frame Prediction: Video prediction tasks
ЁЯФ╖ 5. Examples of SSL in Practice
Model / Method | Domain | Technique |
---|---|---|
BERT | NLP | Masked token prediction |
SimCLR | Vision | Contrastive loss |
BYOL, MoCo | Vision | Momentum encoder |
GPT | NLP | Next token prediction |
MAE (Masked Autoencoders) | Vision | Mask patches, reconstruct |
ЁЯФ╢ 6. Advantages of Self-Supervised Learning
тЬЕ Manual labels рдХреА dependency рдирд╣реАрдВ
тЬЕ Large-scale data рд╕реЗ рдмреЗрд╣рддрд░ generalization
тЬЕ Transfer learning рдХреЗ рд▓рд┐рдП рдмреЗрд╣рддрд░реАрди
тЬЕ Few-shot рдпрд╛ Zero-shot tasks рдореЗрдВ useful
ЁЯФ╢ 7. Self-Supervised vs Unsupervised vs Supervised
Method | Labels Required | Example |
---|---|---|
Supervised | тЬЕ Yes | Classification, Regression |
Unsupervised | тЭМ No | Clustering, PCA |
Self-Supervised | тЭМ Pseudo | BERT, SimCLR, GPT |
ЁЯзк Use Case: SimCLR in Vision (PyTorch)
import torchvision.transforms as T
from PIL import Image
transform = T.Compose([
T.RandomResizedCrop(224),
T.RandomHorizontalFlip(),
T.ColorJitter(),
T.ToTensor()
])
img = Image.open("cat.jpg")
x1 = transform(img) # View 1
x2 = transform(img) # View 2
# Pass x1, x2 to encoder тЖТ project тЖТ NT-Xent loss
ЁЯУЭ Practice Questions
- Self-Supervised learning рдореЗрдВ labels рдХреИрд╕реЗ generate рд╣реЛрддреЗ рд╣реИрдВ?
- Contrastive Learning рдФрд░ Masked Modeling рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
- SimCLR рдХрд┐рд╕ domain рдореЗрдВ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ рдФрд░ рдХреИрд╕реЗ?
- GPT рдФрд░ BERT рдореЗрдВ SSL рдХрд╛ role рдХреНрдпрд╛ рд╣реИ?
- SSL рдХреЗ рдлрд╛рдпрджреЗ рдХреНрдпрд╛ рд╣реИрдВ supervised learning рдХреЗ comparison рдореЗрдВ?
ЁЯФЪ Summary
Concept | Detail |
---|---|
SSL Definition | Data рд╕реЗ рдЦреБрдж labels generate рдХрд░рдХреЗ learning |
Famous Tasks | Masking, Contrastive, Autoencoding |
Popular Models | BERT, GPT, SimCLR, BYOL, MAE |
Advantage | Label-free pretraining, Generalization |
Real Use | NLP, Vision, Robotics, Video |