рдм рд╣рдо Natural Language Processing (NLP) рдХрд╛ рдПрдХ рдмрд╣реБрдд рд╣реА рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╡рд┐рд╖рдп рд╕реАрдЦрддреЗ рд╣реИрдВ тАФ
ЁЯза Word Embeddings, рдЬреЛ deep learning-based NLP рдХреА рдиреАрдВрд╡ рд░рдЦрддреЗ рд╣реИрдВред
ЁЯФ╢ 1. Word Embeddings рдХреНрдпрд╛ рд╣реИрдВ?
Word Embeddings рд╡реЛ рддрдХрдиреАрдХ рд╣реИ рдЬрд┐рд╕рд╕реЗ рд╢рдмреНрджреЛрдВ рдХреЛ рд╕рдВрдЦреНрдпрд╛рдУрдВ (vectors) рдореЗрдВ represent рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ тАФ рдЗрд╕ рддрд░рд╣ рдХрд┐ рдЙрдирдХреЗ semantic (meaningful) рд░рд┐рд╢реНрддреЗ рднреА capture рд╣реЛрдВред
ЁЯОп “Word Embeddings words рдХреЛ mathematical space рдореЗрдВ рдРрд╕реЗ map рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ рдЙрдирдХреЗ рдмреАрдЪ рдХреЗ рдЕрд░реНрде рд╕рдВрдмрдВрдз рднреА рд╕рд╛рдлрд╝ рджрд┐рдЦреЗрдВред”
ЁЯза рдХреНрдпреЛрдВ рдЬрд╝рд░реВрд░реА рд╣реИрдВ?
Traditional NLP methods рдЬреИрд╕реЗ One-Hot Encoding рд╕рд┐рд░реНрдл рдкрд╣рдЪрд╛рдирддреЗ рд╣реИрдВ рдХрд┐ рдХреЛрдИ рд╢рдмреНрдж рд╣реИ рдпрд╛ рдирд╣реАрдВ тАФ рд▓реЗрдХрд┐рди рд╡реЛ рд╢рдмреНрджреЛрдВ рдХреЗ рдЕрд░реНрде рдпрд╛ рд╕рдВрдмрдВрдз рдХреЛ рдирд╣реАрдВ рд╕рдордЭрддреЗред
| Technique | рд╕рдорд╕реНрдпрд╛ |
|---|---|
| One-Hot | High dimensional, sparse, no meaning |
| Embedding | Dense, low-dimensional, meaningful representation |
ЁЯУП 2. Embedding Vector рдХреИрд╕рд╛ рд╣реЛрддрд╛ рд╣реИ?
Word тЖТ Vector (рдЬреИрд╕реЗ 300 dimensions рдХрд╛ dense vector):
| Word | Vector (рдЫреЛрдЯрд╛ version) |
|---|---|
| king | [0.25, 0.67, …, 0.12] |
| queen | [0.23, 0.65, …, 0.14] |
| banana | [0.10, 0.32, …, 0.91] |
| democracy | [0.55, 0.40, …, 0.60] |
ЁЯСЙ Words рдЬреЛ рдЕрд░реНрде рдореЗрдВ рдХрд░реАрдм рд╣реЛрддреЗ рд╣реИрдВ, рдЙрдирдХреЗ vectors рднреА рдкрд╛рд╕ рд╣реЛрддреЗ рд╣реИрдВред
ЁЯУК 3. Word2Vec
ЁЯзк Developed By:
Google (2013) тАФ Tomas Mikolov et al.
тЪЩя╕П Idea:
- рд╢рдмреНрджреЛрдВ рдХреЗ context рдХреЗ рдЖрдзрд╛рд░ рдкрд░ embedding рд╕реАрдЦрдирд╛ред
- тАЬYou shall know a word by the company it keeps.тАЭ
ЁЯФБ Two Architectures:
| Architecture | рдХрд╛рд░реНрдп |
|---|---|
| CBOW (Continuous Bag of Words) | Nearby words рд╕реЗ center word predict рдХрд░рддрд╛ рд╣реИ |
| Skip-Gram | Center word рд╕реЗ рдЖрд╕рдкрд╛рд╕ рдХреЗ words predict рдХрд░рддрд╛ рд╣реИ |
ЁЯФН Word2Vec Diagram:
[The] [king] [of] [Spain] тЖТ [rules]
тЖС context тЖТ target
CBOW: Predict “rules”
Skip-Gram: Predict “The”, “king”, “Spain” тЖР “rules”
ЁЯза 4. GloVe (Global Vectors)
ЁЯзк Developed By:
Stanford (2014) тАФ Jeffrey Pennington et al.
тЪЩя╕П Idea:
- Word2Vec local context рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддрд╛ рд╣реИ
- GloVe рдкреВрд░реЗ corpus рдХреЗ co-occurrence matrix рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рд╣реИ
ЁЯз╛ Objective:
Find┬аword┬аvectors┬аso┬аthat:┬а

рдЬрд╣рд╛рдБ PijтАЛ рджреЛ рд╢рдмреНрджреЛрдВ рдХреЗ co-occurrence рдХрд╛ ratio рд╣реИред
ЁЯФН Word2Vec vs GloVe
| Aspect | Word2Vec | GloVe |
|---|---|---|
| Context | Local window | Global corpus statistics |
| Type | Predictive | Count-based |
| Training | Faster | Slower (matrix-based) |
| Accuracy | High | Slightly better for analogies |
| Use Case | Fast semantic learning | Fine-grained vector space |
ЁЯзк 5. Real Example: Word Analogy
kingтИТman+womanтЙИqueen
Word Embeddings рдореЗрдВ рдпреЗ relation mathematically рдорд┐рд▓ рдЬрд╛рддрд╛ рд╣реИ! ЁЯФе
ЁЯз░ 6. Python Example (Gensim тАУ Word2Vec)
from gensim.models import Word2Vec
sentences = [["I", "love", "deep", "learning"],
["Word2Vec", "captures", "semantic", "meaning"]]
model = Word2Vec(sentences, vector_size=50, window=2, min_count=1, sg=1)
print(model.wv["deep"]) # Embedding vector
print(model.wv.most_similar("learning"))
ЁЯУМ 7. Pretrained Embedding Sources
| Embedding | Source |
|---|---|
| GloVe | https://nlp.stanford.edu/projects/glove/ |
| Word2Vec | https://code.google.com/archive/p/word2vec/ |
| FastText | https://fasttext.cc/ |
| BERT Embeddings | HuggingFace (transformers library) |
ЁЯУИ 8. Applications
| Use Case | How Embeddings Help |
|---|---|
| ЁЯЧгя╕П Chatbots | Words with similar meanings treated similarly |
| ЁЯУЭ Sentiment Analysis | тАЬbadтАЭ vs тАЬawfulтАЭ рдХреЛ рдкрд╣рдЪрд╛рдирдирд╛ |
| ЁЯФБ Translation | Semantic similarity across languages |
| ЁЯТм Q&A Systems | Understanding user intent |
ЁЯУЭ Practice Questions:
- Word Embeddings рдХреНрдпрд╛ рд╣реЛрддреЗ рд╣реИрдВ?
- Word2Vec рдХреЗ рджреЛ architecture рдХреМрди-рдХреМрди рд╕реЗ рд╣реИрдВ?
- GloVe рдФрд░ Word2Vec рдореЗрдВ рдореБрдЦреНрдп рдЕрдВрддрд░ рдмрддрд╛рдЗрдПред
- рдПрдХ embedding vector рдХреА structure рдХреЛ рд╕рдордЭрд╛рдЗрдПред
- Word analogy рдХреИрд╕реЗ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ embedding space рдореЗрдВ?
ЁЯза Summary Table
| Topic | Summary |
|---|---|
| Word Embedding | Words тЖТ meaningful vectors |
| Word2Vec | Learns from local context (CBOW, Skip-gram) |
| GloVe | Learns from global co-occurrence |
| Advantage | Semantic similarity capture рдХрд░рдирд╛ |
| Application | Chatbots, translation, classification |

