Word Embeddings (Word2Vec, GloVe)

рдм рд╣рдо Natural Language Processing (NLP) рдХрд╛ рдПрдХ рдмрд╣реБрдд рд╣реА рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╡рд┐рд╖рдп рд╕реАрдЦрддреЗ рд╣реИрдВ тАФ
ЁЯза Word Embeddings, рдЬреЛ deep learning-based NLP рдХреА рдиреАрдВрд╡ рд░рдЦрддреЗ рд╣реИрдВред


ЁЯФ╢ 1. Word Embeddings рдХреНрдпрд╛ рд╣реИрдВ?

Word Embeddings рд╡реЛ рддрдХрдиреАрдХ рд╣реИ рдЬрд┐рд╕рд╕реЗ рд╢рдмреНрджреЛрдВ рдХреЛ рд╕рдВрдЦреНрдпрд╛рдУрдВ (vectors) рдореЗрдВ represent рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ тАФ рдЗрд╕ рддрд░рд╣ рдХрд┐ рдЙрдирдХреЗ semantic (meaningful) рд░рд┐рд╢реНрддреЗ рднреА capture рд╣реЛрдВред

ЁЯОп “Word Embeddings words рдХреЛ mathematical space рдореЗрдВ рдРрд╕реЗ map рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ рдЙрдирдХреЗ рдмреАрдЪ рдХреЗ рдЕрд░реНрде рд╕рдВрдмрдВрдз рднреА рд╕рд╛рдлрд╝ рджрд┐рдЦреЗрдВред”


ЁЯза рдХреНрдпреЛрдВ рдЬрд╝рд░реВрд░реА рд╣реИрдВ?

Traditional NLP methods рдЬреИрд╕реЗ One-Hot Encoding рд╕рд┐рд░реНрдл рдкрд╣рдЪрд╛рдирддреЗ рд╣реИрдВ рдХрд┐ рдХреЛрдИ рд╢рдмреНрдж рд╣реИ рдпрд╛ рдирд╣реАрдВ тАФ рд▓реЗрдХрд┐рди рд╡реЛ рд╢рдмреНрджреЛрдВ рдХреЗ рдЕрд░реНрде рдпрд╛ рд╕рдВрдмрдВрдз рдХреЛ рдирд╣реАрдВ рд╕рдордЭрддреЗред

Techniqueрд╕рдорд╕реНрдпрд╛
One-HotHigh dimensional, sparse, no meaning
EmbeddingDense, low-dimensional, meaningful representation

ЁЯУП 2. Embedding Vector рдХреИрд╕рд╛ рд╣реЛрддрд╛ рд╣реИ?

Word тЖТ Vector (рдЬреИрд╕реЗ 300 dimensions рдХрд╛ dense vector):

WordVector (рдЫреЛрдЯрд╛ version)
king[0.25, 0.67, …, 0.12]
queen[0.23, 0.65, …, 0.14]
banana[0.10, 0.32, …, 0.91]
democracy[0.55, 0.40, …, 0.60]

ЁЯСЙ Words рдЬреЛ рдЕрд░реНрде рдореЗрдВ рдХрд░реАрдм рд╣реЛрддреЗ рд╣реИрдВ, рдЙрдирдХреЗ vectors рднреА рдкрд╛рд╕ рд╣реЛрддреЗ рд╣реИрдВред


ЁЯУК 3. Word2Vec

ЁЯзк Developed By:

Google (2013) тАФ Tomas Mikolov et al.

тЪЩя╕П Idea:

  • рд╢рдмреНрджреЛрдВ рдХреЗ context рдХреЗ рдЖрдзрд╛рд░ рдкрд░ embedding рд╕реАрдЦрдирд╛ред
  • тАЬYou shall know a word by the company it keeps.тАЭ

ЁЯФБ Two Architectures:

ArchitectureрдХрд╛рд░реНрдп
CBOW (Continuous Bag of Words)Nearby words рд╕реЗ center word predict рдХрд░рддрд╛ рд╣реИ
Skip-GramCenter word рд╕реЗ рдЖрд╕рдкрд╛рд╕ рдХреЗ words predict рдХрд░рддрд╛ рд╣реИ

ЁЯФН Word2Vec Diagram:

[The] [king] [of] [Spain] тЖТ [rules]
тЖС context тЖТ target

CBOW: Predict “rules”
Skip-Gram: Predict “The”, “king”, “Spain” тЖР “rules”


ЁЯза 4. GloVe (Global Vectors)

ЁЯзк Developed By:

Stanford (2014) тАФ Jeffrey Pennington et al.

тЪЩя╕П Idea:

  • Word2Vec local context рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддрд╛ рд╣реИ
  • GloVe рдкреВрд░реЗ corpus рдХреЗ co-occurrence matrix рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рд╣реИ

ЁЯз╛ Objective:

Find┬аword┬аvectors┬аso┬аthat:┬а

рдЬрд╣рд╛рдБ PijтАЛ рджреЛ рд╢рдмреНрджреЛрдВ рдХреЗ co-occurrence рдХрд╛ ratio рд╣реИред


ЁЯФН Word2Vec vs GloVe

AspectWord2VecGloVe
ContextLocal windowGlobal corpus statistics
TypePredictiveCount-based
TrainingFasterSlower (matrix-based)
AccuracyHighSlightly better for analogies
Use CaseFast semantic learningFine-grained vector space

ЁЯзк 5. Real Example: Word Analogy

kingтИТman+womanтЙИqueen

Word Embeddings рдореЗрдВ рдпреЗ relation mathematically рдорд┐рд▓ рдЬрд╛рддрд╛ рд╣реИ! ЁЯФе


ЁЯз░ 6. Python Example (Gensim тАУ Word2Vec)

from gensim.models import Word2Vec

sentences = [["I", "love", "deep", "learning"],
["Word2Vec", "captures", "semantic", "meaning"]]

model = Word2Vec(sentences, vector_size=50, window=2, min_count=1, sg=1)
print(model.wv["deep"]) # Embedding vector
print(model.wv.most_similar("learning"))

ЁЯУМ 7. Pretrained Embedding Sources

EmbeddingSource
GloVehttps://nlp.stanford.edu/projects/glove/
Word2Vechttps://code.google.com/archive/p/word2vec/
FastTexthttps://fasttext.cc/
BERT EmbeddingsHuggingFace (transformers library)

ЁЯУИ 8. Applications

Use CaseHow Embeddings Help
ЁЯЧгя╕П ChatbotsWords with similar meanings treated similarly
ЁЯУЭ Sentiment AnalysisтАЬbadтАЭ vs тАЬawfulтАЭ рдХреЛ рдкрд╣рдЪрд╛рдирдирд╛
ЁЯФБ TranslationSemantic similarity across languages
ЁЯТм Q&A SystemsUnderstanding user intent

ЁЯУЭ Practice Questions:

  1. Word Embeddings рдХреНрдпрд╛ рд╣реЛрддреЗ рд╣реИрдВ?
  2. Word2Vec рдХреЗ рджреЛ architecture рдХреМрди-рдХреМрди рд╕реЗ рд╣реИрдВ?
  3. GloVe рдФрд░ Word2Vec рдореЗрдВ рдореБрдЦреНрдп рдЕрдВрддрд░ рдмрддрд╛рдЗрдПред
  4. рдПрдХ embedding vector рдХреА structure рдХреЛ рд╕рдордЭрд╛рдЗрдПред
  5. Word analogy рдХреИрд╕реЗ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ embedding space рдореЗрдВ?

ЁЯза Summary Table

TopicSummary
Word EmbeddingWords тЖТ meaningful vectors
Word2VecLearns from local context (CBOW, Skip-gram)
GloVeLearns from global co-occurrence
AdvantageSemantic similarity capture рдХрд░рдирд╛
ApplicationChatbots, translation, classification

Introduction of Natural Process Language

рдЕрдм рд╣рдо Deep Learning рдХреЗ рдПрдХ рдмреЗрд╣рдж рд▓реЛрдХрдкреНрд░рд┐рдп рдФрд░ рдЙрдкрдпреЛрдЧреА рдХреНрд╖реЗрддреНрд░ рдХреА рдУрд░ рдмрдврд╝рддреЗ рд╣реИрдВ:
ЁЯЧгя╕П Natural Language Processing (NLP) with Deep Learning
рдЬрд╣рд╛рдБ рдорд╢реАрдиреЗрдВ рд╣рдорд╛рд░реА рднрд╛рд╖рд╛ рдХреЛ рд╕рдордЭрдирд╛, рдмреЛрд▓рдирд╛, рдФрд░ рд▓рд┐рдЦрдирд╛ рд╕реАрдЦрддреА рд╣реИрдВред

ЁЯза Natural Language Processing (NLP) рдХреНрдпрд╛ рд╣реИ?

Natural Language Processing (NLP) рдПрдХ рддрдХрдиреАрдХ рд╣реИ рдЬреЛ рдХрдВрдкреНрдпреВрдЯрд░ рдФрд░ рдорд╛рдирд╡ рднрд╛рд╖рд╛ (рдЬреИрд╕реЗ рд╣рд┐рдВрджреА, рдЗрдВрдЧреНрд▓рд┐рд╢, рддрдорд┐рд▓, рдЙрд░реНрджреВ рдЖрджрд┐) рдХреЗ рдмреАрдЪ рд╕рдВрдЪрд╛рд░ (communication) рдХреЛ рд╕рдВрднрд╡ рдмрдирд╛рддреА рд╣реИред рдЗрд╕рдХрд╛ рдЙрджреНрджреЗрд╢реНрдп рд╣реИ тАФ

тАЬрдХрдВрдкреНрдпреВрдЯрд░ рдХреЛ рдорд╛рдирд╡ рднрд╛рд╖рд╛ рд╕рдордЭрдирд╛, рд╡рд┐рд╢реНрд▓реЗрд╖рдг рдХрд░рдирд╛, рдЙрддреНрдкрдиреНрди рдХрд░рдирд╛, рдФрд░ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рджреЗрдирд╛ рд╕рд┐рдЦрд╛рдирд╛редтАЭ


ЁЯОп NLP рдХрд╛ рдореВрд▓ рдЙрджреНрджреЗрд╢реНрдп:

  • рдордиреБрд╖реНрдпреЛрдВ рдХреА рддрд░рд╣ рднрд╛рд╖рд╛ рдХреЛ рд╕рдордЭрдХрд░ рдХрд╛рд░реНрдп рдХрд░рдирд╛
  • рдмреЛрд▓рдЪрд╛рд▓, рд▓реЗрдЦрди, рдФрд░ рдкреНрд░рд╢реНрдиреЛрдВ рдХрд╛ рдкреНрд░рд╛рдХреГрддрд┐рдХ рдЙрддреНрддрд░ рджреЗрдирд╛

ЁЯУЛ рдЙрджрд╛рд╣рд░рдг:

рдЗрдирдкреБрдЯ (User)рдЖрдЙрдЯрдкреБрдЯ (NLP System)
“рдХрд▓ рдореМрд╕рдо рдХреИрд╕рд╛ рд░рд╣реЗрдЧрд╛?”“рдХрд▓ рдмрд╛рд░рд┐рд╢ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рд╣реИред”
“Translate: I love India”“рдореБрдЭреЗ рднрд╛рд░рдд рд╕реЗ рдкреНрдпрд╛рд░ рд╣реИ”
“Summarize this article”“рдпрд╣ рд▓реЗрдЦ AI рдХреЗ рд╡рд┐рдХрд╛рд╕ рдкрд░ рдЖрдзрд╛рд░рд┐рдд рд╣реИред”

ЁЯФН NLP рдХрд┐рди рд╕реНрддрд░реЛрдВ рдкрд░ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ?

  1. Phonology тАФ рдзреНрд╡рдирд┐ рдХреА рдкрд╣рдЪрд╛рди (Speech to Text)
  2. Morphology тАФ рд╢рдмреНрджреЛрдВ рдХреЗ рдЕрдВрджрд░ рдХреЗ parts (un + break + able)
  3. Syntax тАФ рд╡реНрдпрд╛рдХрд░рдгрд┐рдХ рдврд╛рдБрдЪрд╛ (subject-verb-object)
  4. Semantics тАФ рд╢рдмреНрджреЛрдВ рдХрд╛ рдЕрд░реНрде рд╕рдордЭрдирд╛
  5. Pragmatics тАФ рд╕рдВрджрд░реНрдн рдХреЗ рдЕрдиреБрд╕рд╛рд░ рдЕрд░реНрде рдирд┐рдХрд╛рд▓рдирд╛
  6. Discourse тАФ рд╡рд╛рдХреНрдп-рд╕реЗ-рд╡рд╛рдХреНрдп рд╕рдВрдмрдВрдз
  7. World Knowledge тАФ рдЖрдо рдЗрдВрд╕рд╛рдиреА рдЬреНрдЮрд╛рди

ЁЯзй NLP рдХреА рдкреНрд░рдХреНрд░рд┐рдпрд╛ рдХреИрд╕реЗ рдХрд╛рдо рдХрд░рддреА рд╣реИ?

ЁЯСЙ Step-by-step Pipeline:

  1. Text Input: Raw human language
  2. Tokenization: Text рдХреЛ рдЫреЛрдЯреЗ рдЯреБрдХрдбрд╝реЛрдВ (tokens) рдореЗрдВ рддреЛрдбрд╝рдирд╛
  3. Normalization: Lowercase рдХрд░рдирд╛, punctuation рд╣рдЯрд╛рдирд╛
  4. Stop-word Removal: “the”, “is”, “and” рдЬреИрд╕реЗ рд╕рд╛рдорд╛рдиреНрдп рд╢рдмреНрдж рд╣рдЯрд╛рдирд╛
  5. Stemming/Lemmatization: рд╢рдмреНрджреЛрдВ рдХреЛ рдЙрдирдХреА рдореВрд▓ form рдореЗрдВ рд▓рд╛рдирд╛
  6. Vectorization: Text рдХреЛ рд╕рдВрдЦреНрдпрд╛рдУрдВ (vectors) рдореЗрдВ рдмрджрд▓рдирд╛
  7. Model Prediction: Output generate рдХрд░рдирд╛ (translation, classification, etc.)

тЪЩя╕П NLP рдХреЗ рджреЛ рдкреНрд░рдореБрдЦ рд╣рд┐рд╕реНрд╕реЗ

рдХреНрд╖реЗрддреНрд░рд╡рд┐рд╡рд░рдг
Rule-based NLPmanually рдмрдирд╛рдП рдЧрдП grammar рдФрд░ rules рдкрд░ рдЖрдзрд╛рд░рд┐рдд
Statistical/Deep NLPData рдФрд░ models (machine learning, deep learning) рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕реАрдЦрдиреЗ рд╡рд╛рд▓рд╛ NLP

рдЖрдЬрдХрд▓ Deep Learning рдЖрдзрд╛рд░рд┐рдд NLP рд╕рдмрд╕реЗ рдЕрдзрд┐рдХ рдкреНрд░рдпреЛрдЧ рдореЗрдВ рд╣реИред


ЁЯОп NLP рдХрд╛ рдорд╣рддреНрд╡

рдХреНрд╖реЗрддреНрд░рдЙрдкрдпреЛрдЧ
ЁЯЧгя╕П ChatbotsWhatsApp, рд╡реЗрдмрд╕рд╛рдЗрдЯреЛрдВ рдкрд░ рдЬрд╡рд╛рдм рджреЗрдирд╛
ЁЯУЮ Voice AssistantsAlexa, Siri
ЁЯУ░ Text SummarizationрдиреНрдпреВрдЬрд╝ рдХрд╛ рд╕рд╛рд░ рдирд┐рдХрд╛рд▓рдирд╛
ЁЯз╛ Document AnalysisрдореЗрдбрд┐рдХрд▓ рд░рд┐рдкреЛрд░реНрдЯ рдпрд╛ рд▓реАрдЧрд▓ рджрд╕реНрддрд╛рд╡реЗрдЬ рдкрдврд╝рдирд╛
ЁЯУЪ рд╢рд┐рдХреНрд╖рд╛рдСрдЯреЛрдореИрдЯрд┐рдХ рдЙрддреНрддрд░ рдЬрд╛рдБрдЪ (auto-grading)
ЁЯЫТ рдИ-рдХреЙрдорд░реНрд╕рдкреНрд░реЛрдбрдХреНрдЯ рд░рд┐рд╡реНрдпреВ рдХреА рднрд╛рд╡рдирд╛ рд╕рдордЭрдирд╛

ЁЯза NLP рдХреЛ Deep Learning рдХреА рдХреНрдпреЛрдВ рдЬрд╝рд░реВрд░рдд рдкрдбрд╝реА?

Traditional NLP рдХреА рд╕рдорд╕реНрдпрд╛Deep Learning рдХрд╛ рд╕рдорд╛рдзрд╛рди
Language rules complex рд╣реИрдВAutomatically patterns рд╕реАрдЦрддрд╛ рд╣реИ
Context рдХреЛ рд╕рдордЭ рдирд╣реАрдВ рдкрд╛рддрд╛Transformers contextual meaning рдкрдХрдбрд╝рддреЗ рд╣реИрдВ
Sparse featuresDense word embeddings
Manually tuned featuresNeural networks auto-learn features

ЁЯУМ рдЙрджрд╛рд╣рд░рдг рд╕реЗ рд╕рдордЭреЗрдВ:

рдЗрдирдкреБрдЯ: “рдореИрдВрдиреЗ рдмреИрдВрдХ рдореЗрдВ рдЦрд╛рддрд╛ рдЦреЛрд▓рд╛ред”
рдкреНрд░рд╢реНрди: “рдмреИрдВрдХ” рдХрд╛ рдорддрд▓рдм рдХреНрдпрд╛ рд╣реИ?

  • Traditional NLP confusion рдореЗрдВ рдкрдбрд╝ рд╕рдХрддрд╛ рд╣реИ (Bank тАУ рдирджреА рдХрд╛ рдХрд┐рдирд╛рд░рд╛ рдпрд╛ рдмреИрдВрдХ рд╕рдВрд╕реНрдерд╛?)
  • рд▓реЗрдХрд┐рди Deep Learning рдЖрдзрд╛рд░рд┐рдд NLP (рдЬреИрд╕реЗ BERT) sentence рдХреЗ context рд╕реЗ рд╕рд╣реА рдЕрд░реНрде рдкрдХрдбрд╝ рд╕рдХрддрд╛ рд╣реИред

ЁЯУЭ рдЕрднреНрдпрд╛рд╕ рдкреНрд░рд╢реНрди (Practice Questions):

  1. NLP рдХреНрдпрд╛ рд╣реИ рдФрд░ рдЗрд╕рдХрд╛ рдореБрдЦреНрдп рдЙрджреНрджреЗрд╢реНрдп рдХреНрдпрд╛ рд╣реИ?
  2. NLP рдХрд┐рди рд╕реНрддрд░реЛрдВ рдкрд░ рдХрд╛рд░реНрдп рдХрд░рддрд╛ рд╣реИ?
  3. NLP Pipeline рдореЗрдВ tokenization рдФрд░ vectorization рдХреНрдпрд╛ рд╣реИ?
  4. Deep Learning NLP рдореЗрдВ рдХреИрд╕реЗ рдорджрдж рдХрд░рддрд╛ рд╣реИ?
  5. рдХреЛрдИ рджреЛ real-world NLP applications рдмрддрд╛рдЗрдПред

ЁЯза рд╕рд╛рд░рд╛рдВрд╢ (Summary Table)

TopicDetail
NLPрдорд╛рдирд╡ рднрд╛рд╖рд╛ рдХреЛ рдорд╢реАрди рджреНрд╡рд╛рд░рд╛ рд╕рдордЭрдиреЗ рдФрд░ process рдХрд░рдиреЗ рдХреА рддрдХрдиреАрдХ
ProcessTokenization тЖТ Vectorization тЖТ Prediction
TechniquesTraditional rules тЖТ Deep Learning models
ModelsRNN, LSTM, Transformer, BERT, GPT
ApplicationsChatbot, summarizer, translator, sentiment analyzer

Applications in Games and Robotics

рдЕрдм рд╣рдо Reinforcement Learning (RL) рдХреА рджреЛ рд╕рдмрд╕реЗ рд░реЛрдорд╛рдВрдЪрдХ рдФрд░ рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ domains рдореЗрдВ рдЙрдкрдпреЛрдЧ рдХреЛ рд╕рдордЭреЗрдВрдЧреЗ тАФ
ЁЯОо Games рдФрд░ ЁЯдЦ Roboticsред


ЁЯОо 1. Applications of RL in Games

Reinforcement Learning рдХрд╛ рд╕рдмрд╕реЗ рдЬрд╝реНрдпрд╛рджрд╛ рдкреНрд░рд╕рд┐рджреНрдз рдФрд░ рд╕рдлрд▓ рдЗрд╕реНрддреЗрдорд╛рд▓ Games рдореЗрдВ рд╣реБрдЖ рд╣реИ, рдЬрд╣рд╛рдБ agent рдХреЛ complex decision sequences рд╕реАрдЦрдиреЗ рд╣реЛрддреЗ рд╣реИрдВред


ЁЯза Key Use-Cases in Gaming:

Game TypeApplication
ЁЯУ║ Atari GamesBreakout, Pong, Space Invaders, etc.
тЩЯя╕П Board GamesChess, Go тЖТ AlphaZero, AlphaGo
ЁЯза Strategy GamesStarCraft, Dota 2
ЁЯТб Puzzle GamesLearning exploration strategies
ЁЯО▓ Simulation GamesFlight Simulators, Car Racing (CarRacing-v0)

ЁЯФз Example: DQN in Atari

  • Agent sees game screen (pixel input)
  • Chooses action using learned Q-values
  • Learns which actions give maximum score
Input: Frame (state)
тЖТ CNN тЖТ Fully Connected Layers
тЖТ Output: Q-values (actions)

тЬЕ Breakthrough:

DeepMindтАЩs DQN (2015) outperformed humans in many Atari games using only raw pixels as input!


ЁЯУИ Benefits of RL in Games:

AdvantageExplanation
ЁЯза Human-level intelligenceAgents beat world champions (AlphaGo)
ЁЯзк Safe experimentationTry many strategies in simulation
ЁЯЪА GeneralizationSame algorithm can learn many games
ЁЯФБ Real-time learningAgents adapt during gameplay

ЁЯдЦ 2. Applications of RL in Robotics

Reinforcement Learning рдиреЗ robotics рдореЗрдВ autonomy рдФрд░ adaptability рдХреЛ рдирдпрд╛ рдЖрдпрд╛рдо рджрд┐рдпрд╛ рд╣реИред


ЁЯза Key Use-Cases in Robotics:

DomainApplication
ЁЯж┐ MovementWalking, balancing, crawling (e.g., Biped robots)
ЁЯж╛ ManipulationArm movement, grasping objects
ЁЯУж WarehousePath optimization, item picking
ЁЯЪЧ Self-drivingNavigation, obstacle avoidance
ЁЯЫ░я╕П DronesAerial control and target tracking
ЁЯз╜ Cleaning botsEnvironment exploration, coverage optimization

ЁЯФз Example: Proximal Policy Optimization (PPO) for Robot Arm

  • Goal: Learn to grasp objects with correct force and angle
  • State: joint angles, object location
  • Action: motor control
  • Reward: +1 for successful grasp, -1 for dropping

ЁЯза Simulators Used in RL for Robotics:

SimulatorPurpose
ЁЯФз MuJoCoPhysics-based locomotion tasks
ЁЯдЦ PyBulletArm control, object manipulation
ЁЯМР GazeboComplex robot environment simulation
ЁЯОо Unity ML Agents3D agent training

ЁЯУИ Benefits of RL in Robotics:

AdvantageExplanation
ЁЯЪл No hard-codingLearns behavior through trial and error
ЁЯФБ AdaptabilityLearns even with changing environment
ЁЯУж GeneralizationTransfer learning from simulation to real robot
ЁЯзк Safe testingUse simulators before deploying to hardware

ЁЯУК Summary Table

DomainApplicationExample
GamesControl, strategyDQN in Atari, AlphaGo
RoboticsNavigation, manipulationPPO in robot arms, drone pathing

ЁЯУЭ Practice Questions:

  1. Games рдореЗрдВ RL рдХрд╛ рд╕рдмрд╕реЗ рдмрдбрд╝рд╛ breakthrough рдХреНрдпрд╛ рд░рд╣рд╛ рд╣реИ?
  2. RL рдХрд╛ Robotics рдореЗрдВ рдХреНрдпрд╛ role рд╣реИ?
  3. Self-driving cars RL рд╕реЗ рдХреИрд╕реЗ benefit рд╣реЛрддреЗ рд╣реИрдВ?
  4. Robotics рдореЗрдВ simulation рдХреНрдпреЛрдВ рдЬрд░реВрд░реА рд╣реИ?
  5. PPO рдФрд░ DQN рдХрд╛ рдЗрд╕реНрддреЗрдорд╛рд▓ рдХрд╣рд╛рдБ рд╣реЛрддрд╛ рд╣реИ?

Deep Q-Network (DQN)

рдЖрдкрдиреЗ Reinforcement Learning рдХреА core technique Q-Learning рдХреЛ рд╕рдордЭрд╛ тАФ
рдЕрдм рд╣рдо рдЙрд╕реА рдХрд╛ Deep Learning version рд╕реАрдЦреЗрдВрдЧреЗ:
ЁЯза Deep Q-Network (DQN)


ЁЯФ╢ 1. What is DQN?

Deep Q-Network (DQN) рдПрдХ рдРрд╕рд╛ algorithm рд╣реИ рдЬреЛ traditional Q-Learning рдХреЛ Deep Neural Network рд╕реЗ combine рдХрд░рддрд╛ рд╣реИред
рдЬрдм state space рдмрд╣реБрдд рдмрдбрд╝рд╛ рдпрд╛ continuous рд╣реЛрддрд╛ рд╣реИ (рдЬреИрд╕реЗ images, video frames), рд╡рд╣рд╛рдБ Q-table рдмрдирд╛рдирд╛ possible рдирд╣реАрдВ рд╣реЛрддрд╛ тАФ рдЗрд╕рд▓рд┐рдП рд╣рдо use рдХрд░рддреЗ рд╣реИрдВ Neural Network to approximate the Q-function: Q(s,a)тЙИQ╬╕(s,a)

ЁЯОп “DQN maps states to Q-values using a deep neural network.”


ЁЯУИ 2. Why DQN?

Limitation of Q-LearningDQN рдХрд╛ рд╕рдорд╛рдзрд╛рди
Large state-action spaceNeural network approximation
Slow convergenceExperience replay
Instability in trainingTarget networks

ЁЯза 3. Key Concepts in DQN

ЁЯФ╣ a) Q-Network

  • A deep neural network takes state as input
  • Outputs Q-values for each possible action

ЁЯФ╣ b) Experience Replay Buffer

  • Past experiences (s,a,r,sтА▓) store рдХрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВ
  • Random mini-batches рд╕реЗ training рд╣реЛрддреА рд╣реИ тЖТ reduces correlation

ЁЯФ╣ c) Target Network

  • Q-value targets рдПрдХ fixed target network рд╕реЗ рд▓рд┐рдП рдЬрд╛рддреЗ рд╣реИрдВ
  • Target network рдХреЛ рд╣рд░ рдХреБрдЫ steps рдкрд░ update рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ
  • рдЗрд╕рд╕реЗ training stable рд╣реЛрддрд╛ рд╣реИ

ЁЯзк 4. DQN Architecture (High Level)

Input: State (e.g., image pixels)
тЖУ
Convolutional Layers (if image input)
тЖУ
Fully Connected Layers
тЖУ
Output: Q-values for all possible actions

ЁЯФБ 5. DQN Training Loop

Initialize Q-network (Q) and target network (Q_target)
Initialize replay memory D

For each episode:
Initialize state s
For each step in episode:
Choose action a using ╬╡-greedy policy on Q(s)
Execute action a тЖТ observe reward r and next state s'
Store (s, a, r, s') in replay memory D

Sample random mini-batch from D:
For each (s, a, r, s'):
target = r + ╬│ * max_a' Q_target(s', a')
loss = (Q(s, a) - target)^2
Backpropagate and update Q

Every N steps:
Q_target тЖР Q # update target network

ЁЯзо 6. Loss Function

  • Q╬╕: main network
  • Q╬╕: target network (frozen for N steps)

ЁЯХ╣я╕П 7. Applications of DQN

DomainExample
ЁЯОо GamesAtari (Breakout, Space Invaders)
ЁЯдЦ RoboticsNavigation and obstacle avoidance
ЁЯУИ FinanceTrading bots
ЁЯзн NavigationPath finding agents
ЁЯзк SimulationsTraining virtual agents (OpenAI Gym)

ЁЯза DQN Variants

VariantIdea
ЁЯзо Double DQNReduces overestimation of Q-values
ЁЯФД Dueling DQNSplits value and advantage streams
ЁЯУж PERPrioritized Experience Replay
ЁЯМР Rainbow DQNCombines all tricks for best results

ЁЯУЭ Practice Questions

  1. DQN рдореЗрдВ Q-Table рдХреНрдпреЛрдВ рдирд╣реАрдВ рдмрдирддреА?
  2. Experience replay рдХрд╛ рдХреНрдпрд╛ рд▓рд╛рдн рд╣реИ?
  3. Target network рдХреНрдпреЛрдВ рдЬрд╝рд░реВрд░реА рд╣реИ?
  4. DQN рдФрд░ Q-Learning рдореЗрдВ рдореБрдЦреНрдп рдЕрдВрддрд░ рдХреНрдпрд╛ рд╣реИ?
  5. ╬╡-greedy policy рдХреНрдпрд╛ рд╣реИ рдФрд░ рдХреНрдпреЛрдВ use рд╣реЛрддреА рд╣реИ?

ЁЯза Summary Table

ConceptDescription
DQNDeep learning + Q-Learning
Q-NetworkApproximates Q(s, a)
Experience ReplayPast experience store and reuse
Target NetworkStability рдХреЗ рд▓рд┐рдП frozen Q-network
LossSquared Bellman error

Q-Learning

рдЕрдм рд╣рдо Reinforcement Learning рдХреА рд╕рдмрд╕реЗ рдкреНрд░рд╕рд┐рджреНрдз рдФрд░ foundational algorithm рдХреЛ рд╕рдордЭреЗрдВрдЧреЗ тАФ
ЁЯза Q-Learning

рдпрд╣ рдПрдХ model-free reinforcement learning technique рд╣реИ, рдЬрд┐рд╕реЗ рдХрд┐рд╕реА рднреА environment рдореЗрдВ optimal decision-making рдХреЗ рд▓рд┐рдП use рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ тАФ рдмрд┐рдирд╛ рдЙрд╕рдХреЗ рдЕрдВрджрд░ рдХреЗ dynamics рдХреЛ рдЬрд╛рдиреЗред


ЁЯФ╢ 1. Q-Learning рдХреНрдпрд╛ рд╣реИ?

Q-Learning рдПрдХ off-policy, model-free RL algorithm рд╣реИ рдЬреЛ agent рдХреЛ рдпрд╣ рд╕реАрдЦрдиреЗ рдореЗрдВ рдорджрдж рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдХрд┐рд╕реА state рдореЗрдВ рдХреМрди-рд╕рд╛ action рд▓реЗрдиреЗ рд╕реЗ long-term reward рдЬреНрдпрд╛рджрд╛ рдорд┐рд▓реЗрдЧрд╛ред

ЁЯОп “Q-Learning finds the best action for each state тАФ without needing to model the environment.”


ЁЯУК 2. Key Idea: Learn Q-Value

ЁЯУМ Q(s, a):

  • Q-value рдпрд╛ Action-Value Function рдмрддрд╛рддрд╛ рд╣реИ: тАЬрдЕрдЧрд░ agent state sss рдореЗрдВ рд╣реИ рдФрд░ action aaa рд▓реЗрддрд╛ рд╣реИ, рддреЛ рдЙрд╕реЗ future рдореЗрдВ рдХрд┐рддрдирд╛ total reward рдорд┐рд▓ рд╕рдХрддрд╛ рд╣реИредтАЭ

Q(s,a)=Expected┬аfuture┬аreward


ЁЯза 3. Bellman Equation for Q-Learning

Q-values рдХреЛ update рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╣рдо use рдХрд░рддреЗ рд╣реИрдВ Bellman update rule:

SymbolMeaning
Q(s,a)Q-value for state-action pair
╬▒Learning rate (0 to 1)
╬│Discount factor (importance of future reward)
rtImmediate reward
maxтБбaтА▓Q(sтА▓,aтА▓)Best future Q-value from next state

ЁЯФБ 4. Q-Learning Algorithm Steps

Initialize Q(s, a) arbitrarily (e.g., all 0s)
Repeat for each episode:
Start at initial state s
Repeat until terminal state:
Choose action a using ╬╡-greedy policy from Q(s, a)
Take action a тЖТ observe reward r and next state s'
Update Q(s, a) using Bellman equation
Move to new state s тЖР s'

ЁЯФз 5. Example: Gridworld (Maze)

Imagine a 5×5 maze:

  • Agent starts at top-left
  • Goal is bottom-right
  • Agent learns which path gives maximum reward (shortest way)
Q[state][action] += alpha * (reward + gamma * max(Q[next_state]) - Q[state][action])

ЁЯУИ 6. Exploration vs Exploitation

  • Exploration: Try new actions to discover better rewards
  • Exploitation: Use known actions with best Q-values

ЁЯСЙ Use ╬╡-greedy strategy:

  • With probability ╬╡ тЖТ random action
  • With probability (1тАУ╬╡) тЖТ best action

ЁЯУж 7. Summary Table

TermDescription
Q(s, a)Expected total reward for action aaa in state sss
╬▒Learning rate тАУ рдХрд┐рддрдиреА рддреЗрдЬрд╝реА рд╕реЗ рд╕реАрдЦрдирд╛ рд╣реИ
╬│Future rewards рдХреА importance
╬╡Randomness (exploration)
Bellman UpdateQ-values рдХреЛ improve рдХрд░рдиреЗ рдХрд╛ рддрд░реАрдХрд╛

ЁЯУЭ Practice Questions:

  1. Q-learning рдХреЛ model-free рдХреНрдпреЛрдВ рдХрд╣рд╛ рдЬрд╛рддрд╛ рд╣реИ?
  2. Q-value рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?
  3. Bellman equation рдХрд╛ role рдХреНрдпрд╛ рд╣реИ?
  4. ╬╡-greedy strategy рдХреНрдпреЛрдВ рдЙрдкрдпреЛрдЧ рд╣реЛрддреА рд╣реИ?
  5. Q-Learning рдФрд░ SARSA рдореЗрдВ рдХреНрдпрд╛ рдлрд░реНрдХ рд╣реИ?