Data Cleaning and Normalization

July 12, 2025 by Anand Singh

किसी भी मशीन लर्निंग मॉडल की सफलता इस बात पर निर्भर करती है कि आपने उसे कितना साफ और संतुलित डेटा दिया है।
गंदा डेटा = ग़लत मॉडल
इसलिए हमें सबसे पहले डेटा को साफ (clean) करना और फिर संतुलित (normalize) करना होता है।

🔷 🔹 Why Clean & Normalize Data?

Reason	Benefit
Missing/Error हटाना	Training के दौरान performance में सुधार
Scaling balance करना	मॉडल को सभी features को समान रूप से सीखने देना
Bias कम करना	एक feature का ज़रूरत से ज़्यादा प्रभाव न हो

🔶 1. डेटा क्लीनिंग (Data Cleaning)

🧹 क्या होता है?

डेटा से गलत, अधूरा या अव्यवस्थित जानकारी हटाना या सुधारना।

✅ मुख्य कार्य:

Technique	Use Case
Missing Value Handling	Null, NaN भरना या हटाना
Outlier Removal	बहुत ज़्यादा/कम values हटाना
Duplicate Removal	दोहराए हुए rows हटाना
Type Conversion	String → Int/Float बदलना
Inconsistent Label Fixing	जैसे “Male”, “male”, “MALE” को एक जैसा बनाना

🛠️ Python/Pandas Code:

import pandas as pd

df = pd.read_csv("data.csv")

# Null values को भरना
df.fillna(df.mean(), inplace=True)

# Duplicates हटाना
df.drop_duplicates(inplace=True)

# गलत values हटाना
df = df[df["age"] > 0]

🔶 2. नॉर्मलाइजेशन (Normalization)

📌 क्या होता है?

सभी numerical features को एक समान स्केल (जैसे 0 से 1) पर लाना ताकि कोई feature ज़्यादा हावी न हो।

उदाहरण: अगर एक feature की वैल्यू 1-10 के बीच है और दूसरे की 1000-100000, तो दूसरा model को ज्यादा influence करेगा। यही imbalance को normalization से हटाया जाता है।

✅ प्रमुख तरीके:

तकनीक	विवरण	फॉर्मूला
Min-Max Scaling	0 से 1 के बीच स्केल करता है	`X' = (X - min) / (max - min)`
Z-Score Standardization	Mean को 0 और Std को 1 बनाता है	`X' = (X - μ) / σ`
Robust Scaling	Median और IQR पर आधारित होता है	`X' = (X - median) / IQR`

🛠️ Sklearn Code:

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaled = scaler.fit_transform(df[['age', 'salary']])

📊 Summary Table:

स्टेप	उद्देश्य	टूल/तकनीक
Missing Values	NaN भरना/हटाना	fillna(), dropna()
Outliers	मॉडल accuracy बचाना	IQR, Z-score
Scaling	सभी features को बराबरी देना	MinMaxScaler, StandardScaler
Duplicates	डाटा दोहराव हटाना	drop_duplicates()
Type Conversion	डेटा को सही फॉर्मेट में लाना	astype(), to_numeric()

📝 Practice Questions:

Missing value को handle करने के कौन-कौन से तरीके होते हैं?
Z-score और Min-Max scaling में क्या अंतर है?
Robust Scaling कब उपयोगी होता है?
fillna() और dropna() में अंतर बताइए।
Normalization की ज़रूरत क्यों होती है?

Types of Data

July 12, 2025 by Anand Singh

मशीन लर्निंग में किसी भी मॉडल की सफलता इस बात पर निर्भर करती है कि उसे कैसा डेटा (Data) दिया गया है।
डेटा कई प्रकार का हो सकता है — जैसे संख्यात्मक, श्रेणीक (categorical), इमेज, या टेक्स्ट। हर प्रकार के डेटा के लिए अलग तकनीक और मॉडलिंग की ज़रूरत होती है।

🔷 🔹 Why Understand Data Types?

Reason	Benefit
सही preprocessing चुनना	Encoding, Scaling आदि के सही तरीके
Model compatibility	कौन सा मॉडल किस डेटा के साथ बेहतर काम करता है
Visualization & analysis	सही insight निकालना संभव होता है

🔶 1. संरचित डेटा (Structured Data)

टेबल के रूप में होता है (rows और columns)
Excel, CSV, SQL database जैसे स्रोत

✅ उदाहरण:

Name	Age	Gender	Salary
Raj	25	Male	₹30,000

🔶 2. अर्ध-संरचित डेटा (Semi-structured Data)

कुछ degree तक structure होता है
लेकिन rigid format नहीं होता
अक्सर key-value format में

✅ उदाहरण:

XML, JSON, YAML

{
  "name": "Raj",
  "age": 25,
  "salary": 30000
}

🔶 3. असंरचित डेटा (Unstructured Data)

किसी fix format में नहीं होता
मशीन के लिए सीधे समझना कठिन होता है

✅ उदाहरण:

Text (e.g. tweets, reviews)
Images
Audio / Video

🔶 4. आंकड़ों के आधार पर डेटा के प्रकार (By Statistical Nature):

डेटा प्रकार	विवरण	उदाहरण
🔹 Numerical	संख्यात्मक	उम्र, वेतन
🔹 Categorical	श्रेणीक	Gender, City
🔹 Ordinal	क्रमबद्ध	Rank (High, Medium, Low)
🔹 Time Series	समय आधारित	Stock prices
🔹 Text	शब्द आधारित	Chat messages
🔹 Image	चित्र आधारित	Face detection
🔹 Audio	ध्वनि आधारित	Voice command

📊 Summary Table:

Type	Format	Example	ML Techniques
Structured	Tables	CSV, Excel	Supervised Learning
Semi-Structured	Key-Value	JSON/XML	NLP, API Parsing
Unstructured	Free-form	Text, Image	Deep Learning
Numerical	Numbers	Salary, Height	Regression
Categorical	Labels	Gender, City	Classification
Ordinal	Ordered Labels	Low < Medium < High	Ranking Models
Time Series	Indexed by time	Stock, Sensor	RNN, LSTM
Text	Sentence/word	Reviews, Chat	NLP (BERT, RNN)
Image	Pixels	Photos	CNN
Audio	Frequency	Voice	Audio Processing (WaveNet, etc.)

📝 Practice Questions:

Structured और Unstructured डेटा में क्या अंतर है?
Semi-structured डेटा के 2 उदाहरण दीजिए।
Numerical और Ordinal डेटा में क्या फ़र्क है?
Time Series डेटा किस प्रकार के मॉडल के लिए उपयुक्त है?
ChatGPT या Alexa जैसे मॉडल कौन से डेटा पर काम करते हैं?

Data & Feature Engineering in Machine Learning

July 12, 2025 by Anand Singh

अब हम Machine Learning के सबसे महत्वपूर्ण भागों में से एक को कवर करते हैं:

🧠 1. डेटा क्या है? / What is Data?

डेटा वह कच्चा इनपुट होता है जिससे मशीन लर्निंग मॉडल कुछ सीखता है।
यह संख्याओं, शब्दों, इमेज या ऑडियो के रूप में हो सकता है।

👉 उदाहरण:

उम्र	वेतन	नौकरी	लोन स्वीकृत?
25	₹30k	हाँ	नहीं

📦 2. डेटा का प्रकार / Types of Data:

प्रकार	विवरण	उदाहरण
Structured	टेबल फॉर्म में डेटा	Excel शीट, SQL
Unstructured	इमेज, टेक्स्ट, ऑडियो	फोटो, ईमेल
Semi-structured	आंशिक रूप से टेबल	JSON, XML

🧹 3. डेटा प्रीप्रोसेसिंग / Data Preprocessing

डेटा को मॉडल के लिए तैयार करना एक अनिवार्य स्टेप है।

🛠️ इसमें मुख्य चरण होते हैं:

🔹 A. Missing Values को हैंडल करना

NaN या null को हटाना / भरना

🔹 B. Encoding Categorical Data

नौकरी = “हाँ” / “नहीं” को 1/0 में बदलना (Label Encoding)

🔹 C. Normalization / Scaling

सभी फीचर्स को एक समान स्केल पर लाना
उम्र = 25 से 60 → [0, 1] स्केल में </br>

X_scaled = (X – min) / (max – min)

🔹 D. Outlier Detection

ऐसे डेटा पॉइंट्स जो बहुत अलग हैं — उन्हें हटाना

🏗️ 4. फीचर इंजीनियरिंग क्या है? / What is Feature Engineering?

Feature Engineering का अर्थ है:

“डेटा से ऐसे विशेष गुण (features) निकालना जो मॉडल को बेहतर सीखने में मदद करें।”

📌 फीचर = वह जानकारी जो आउटपुट को प्रभावित करती है

🔧 5. फीचर इंजीनियरिंग की तकनीकें / Techniques of Feature Engineering:

🔹 A. Feature Creation (नए फीचर्स बनाना)

उदाहरण:
जन्मतिथि → उम्र
“Total Purchase” + “Discount” → Final Price

🔹 B. Feature Selection (बेहतर फीचर चुनना)

सिर्फ वही फीचर रखें जो आउटपुट से सबसे ज़्यादा संबंधित हों।

उपयोगी तकनीकें:

Correlation Matrix
Mutual Information
Recursive Feature Elimination (RFE)

🔹 C. Dimensionality Reduction (फ़ीचर घटाना)

जब फीचर्स बहुत अधिक हों (High Dimensional Data)
तकनीक: PCA (Principal Component Analysis)

🤖 उदाहरण:

from sklearn.preprocessing import LabelEncoder, MinMaxScaler
import pandas as pd

data = pd.DataFrame({
    'Age': [25, 32, 40],
    'Job': ['Yes', 'No', 'Yes'],
    'Salary': [30000, 50000, 60000]
})

# Categorical Encoding
le = LabelEncoder()
data['Job'] = le.fit_transform(data['Job'])

# Scaling
scaler = MinMaxScaler()
data[['Age', 'Salary']] = scaler.fit_transform(data[['Age', 'Salary']])

📊 Summary Table:

Step	कार्य
Data Cleaning	Missing values, Outliers हटाना
Encoding	Categorical डेटा को संख्यात्मक बनाना
Scaling	फीचर्स को समान स्केल पर लाना
Feature Creation	नए सार्थक फीचर्स बनाना
Feature Selection	ज़रूरी फीचर्स चुनना
Dimensionality Reduction	अनावश्यक फीचर्स घटाना

🎯 निष्कर्ष / Conclusion:

“Garbage In → Garbage Out”
अगर डेटा और फीचर सही नहीं हैं, तो मॉडल का परफॉर्मेंस अच्छा नहीं होगा। इसलिए ML की सफलता का 70% हिस्सा डेटा और फीचर इंजीनियरिंग पर निर्भर करता है।

Data Preprocessing + Feature Engineering Example

हम एक सिंपल टेबल डेटा लेंगे (उम्र, वेतन, जॉब टाइप), और इसे PyTorch में टेंसर बनाकर स्केल, एनकोड और ट्रेनिंग के लिए तैयार करेंगे।

📌 उदाहरण डेटा:

उम्र (Age)	वेतन (Salary)	नौकरी (Job)
25	30000	Yes
35	45000	No
45	60000	Yes

🔧 कोड:

import torch
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

# -------------------------------
# Step 1: Raw Data Load
# -------------------------------
data = pd.DataFrame({
    'Age': [25, 35, 45],
    'Salary': [30000, 45000, 60000],
    'Job': ['Yes', 'No', 'Yes'],
    'Approved': [1, 0, 1]   # Target label
})

# -------------------------------
# Step 2: Label Encode 'Job'
# -------------------------------
le = LabelEncoder()
data['Job'] = le.fit_transform(data['Job'])  # 'Yes'→1, 'No'→0

# -------------------------------
# Step 3: Feature Scaling
# -------------------------------
scaler = MinMaxScaler()
data[['Age', 'Salary']] = scaler.fit_transform(data[['Age', 'Salary']])

# -------------------------------
# Step 4: Split Features & Labels
# -------------------------------
X = data[['Age', 'Salary', 'Job']].values   # Features
y = data['Approved'].values                 # Labels

# -------------------------------
# Step 5: Convert to PyTorch tensors
# -------------------------------
X_tensor = torch.tensor(X, dtype=torch.float32)
y_tensor = torch.tensor(y, dtype=torch.float32).unsqueeze(1)

# -------------------------------
# Output for verification
# -------------------------------
print("Features Tensor:\n", X_tensor)
print("Labels Tensor:\n", y_tensor)

📤 Output (उदाहरण):

Features Tensor:
 tensor([[0.0000, 0.0000, 1.0000],
         [0.5000, 0.5000, 0.0000],
         [1.0000, 1.0000, 1.0000]])

Labels Tensor:
 tensor([[1.],
         [0.],
         [1.]])

🔍 इस कोड में हमने क्या सीखा:

चरण	कार्य
Step 1	DataFrame बनाया
Step 2	‘Job’ कॉलम को Encode किया
Step 3	Features को Normalize किया
Step 4	Features और Labels अलग किए
Step 5	NumPy से PyTorch Tensor में बदला

📘 यह कोड खास तौर पर उपयोगी होगा:

Tabular Dataset पर Deep Learning Model चलाने से पहले
PyTorch में MLP (Multi-layer Perceptron) ट्रेन करने के लिए डेटा तैयार करने में

🔷 🔹 Why Data & Feature Engineering?

Reason	Benefit
Raw Data को साफ करना	मॉडल training में noise और errors कम होते हैं
Features को encode/scaling करना	डेटा को गणितीय रूप से मॉडल के लिए उपयुक्त बनाना
अच्छे Features निकालना	Accuracy, Generalization और Explainability बढ़ाना

🔶 1. डेटा प्रीप्रोसेसिंग (Data Preprocessing)

डेटा को model के लिए तैयार करना:

✅ Missing Values हटाना या भरना
✅ Categorical Data को Encode करना
✅ Scaling / Normalization
✅ Outlier को detect और handle करना

🔶 2. फीचर इंजीनियरिंग

🔹 2.1 Feature Creation

जैसे:

जन्मतिथि → उम्र
Final Price = Price – Discount

🔹 2.2 Feature Selection

सिर्फ वे features जो target से अधिक संबंधित हों (correlation आदि से चुने गए)

🔹 2.3 Dimensionality Reduction

High-dimensional डेटा को PCA या Autoencoder जैसे तरीकों से कम करना

🔷 🔧 PyTorch कोड उदाहरण

import torch
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

# Step 1: Raw Data
data = pd.DataFrame({
    'Age': [25, 35, 45],
    'Salary': [30000, 45000, 60000],
    'Job': ['Yes', 'No', 'Yes'],
    'Approved': [1, 0, 1]
})

# Step 2: Encode categorical feature
le = LabelEncoder()
data['Job'] = le.fit_transform(data['Job'])

# Step 3: Scaling
scaler = MinMaxScaler()
data[['Age', 'Salary']] = scaler.fit_transform(data[['Age', 'Salary']])

# Step 4: Separate X and y
X = data[['Age', 'Salary', 'Job']].values
y = data['Approved'].values

# Step 5: Convert to tensors
X_tensor = torch.tensor(X, dtype=torch.float32)
y_tensor = torch.tensor(y, dtype=torch.float32).unsqueeze(1)

print("Features:\n", X_tensor)
print("Labels:\n", y_tensor)

🔚 Summary Table

Component	Description
Missing Handling	NaN या null को mean, median या drop से ठीक करना
Encoding	LabelEncoder, OneHotEncoder आदि का उपयोग
Scaling	MinMaxScaler, StandardScaler
Feature Creation	नए meaningful features generate करना
Feature Selection	जरूरी features चुनना (correlation, RFE)
Dimensionality Reduce	PCA, AutoEncoder, UMAP, t-SNE आदि
PyTorch Integration	NumPy arrays → torch.tensor में बदलना

📝 Practice Questions:

PyTorch में MinMaxScaler और LabelEncoder का क्या उपयोग है?
Feature Creation और Feature Selection में क्या अंतर है?
Normalization और Standardization में क्या फ़र्क है?
Dimensionality Reduction कब ज़रूरी होता है?
PyTorch में NumPy array को tensor में कैसे बदला जाता है?

History and Evolution of Machine Learning

July 12, 2025 by Anand Singh

मशीन लर्निंग का इतिहास और विकास

अब हम Machine Learning के इतिहास और विकास (History and Evolution) को विस्तार से समझते हैं —

🕰️ प्रारंभिक चरण / Early Foundations (1950s – 1970s)

📌 1950 — Alan Turing और “Turing Test”

पहला बड़ा सवाल: “क्या मशीन सोच सकती है?”
ट्यूरिंग टेस्ट: यदि कोई इंसान और मशीन बातचीत करें और इंसान यह न पहचान पाए कि सामने वाला इंसान है या मशीन — तो वह AI कहलाएगा।

📌 1952 — Arthur Samuel का चेकर्स प्रोग्राम

यह पहला ML प्रोग्राम था जो खुद से चेकर्स खेलना सीखता था।

📌 1957 — Perceptron का आविष्कार

Frank Rosenblatt ने पहला आर्टिफिशियल न्यूरॉन मॉडल बनाया — जो Neural Networks का आधार बना।

📈 विकास की शुरुआत / Growth Phase (1980s – 1990s)

📌 1986 — Backpropagation Algorithm

Deep Neural Networks को ट्रेन करने की तकनीक विकसित हुई।

📌 1995 — SVM (Support Vector Machine)

एक शक्तिशाली Supervised Learning तकनीक, जो आज भी बहुत उपयोगी है।

📌 1997 — IBM Deep Blue ने शतरंज चैंपियन को हराया

मशीन लर्निंग और रणनीतिक सोच का बड़ा उदाहरण।

🚀 आधुनिक युग / Modern Era (2000s – 2010s)

📌 2006 — Geoffrey Hinton द्वारा “Deep Learning” शब्द की शुरुआत

डीप न्यूरल नेटवर्क्स की क्षमता दुनिया को समझ में आने लगी।

📌 2009 — Google Self-Driving Car Project

Reinforcement Learning और Computer Vision का प्रयोग।

📌 2012 — AlexNet ने ImageNet प्रतियोगिता जीती

CNN (Convolutional Neural Network) ने इमेज रिकग्निशन में क्रांति ला दी।

🤖 वर्तमान युग / Recent Advances (2015 – वर्तमान)

📌 2016 — AlphaGo ने दुनिया के GO चैम्पियन को हराया

Deep Reinforcement Learning का कमाल

📌 2018 — BERT मॉडल (Google)

NLP (Natural Language Processing) में क्रांतिकारी बदलाव

📌 2020 — OpenAI का GPT-3

मशीनें इंसानों जैसे टेक्स्ट लिखने में सक्षम हो गईं

📌 2022-2024 — ChatGPT, GPT-4, और AutoML टूल्स

अब ML मॉडल बिना कोडिंग के भी बनाए जा सकते हैं

🔍 सारांश तालिका / Timeline Table:

वर्ष	घटना
1950	ट्यूरिंग टेस्ट का प्रस्ताव
1952	पहला सीखने वाला गेम (Checkers)
1957	पहला Perceptron मॉडल
1986	Backpropagation का विकास
1997	IBM Deep Blue बनाम Kasparov
2012	AlexNet द्वारा ImageNet जीतना
2016	AlphaGo द्वारा GO चैम्पियन को हराना
2018	BERT NLP मॉडल
2020+	GPT-3, GPT-4, Hugging Face, AutoML

🎯 निष्कर्ष / Conclusion:

Machine Learning ने पिछले 70 वर्षों में लंबा सफर तय किया है — खेलों से लेकर चिकित्सा, भाषा से लेकर रोबोटिक्स तक, यह हर क्षेत्र में गहराई से प्रवेश कर चुका है। अब इसका भविष्य और भी स्वचालित, शक्तिशाली और उपयोगी होगा।

Supervised vs Unsupervised vs Reinforcement Learning

July 12, 2025 by Anand Singh

आइए अब हम Machine Learning के तीनों मुख्य प्रकारों को एक साथ समझते हैं:

🔷 1️⃣ Supervised Learning

📌 परिभाषा:

Supervised Learning में मशीन को ऐसा डेटा दिया जाता है जिसमें इनपुट और उसका सही आउटपुट पहले से तय होता है (लेबल्ड डेटा)। मशीन उसी से पैटर्न सीखती है और भविष्य की भविष्यवाणी करती है।

🧠 उदाहरण:

इनपुट (Features)	आउटपुट (Label)
उम्र = 25, वेतन = ₹30k	लोन स्वीकृत (Yes)
उम्र = 45, वेतन = ₹60k	लोन अस्वीकृत (No)

✅ उपयोग:

Spam detection
Disease prediction
Price prediction
Image classification

🔷 2️⃣ Unsupervised Learning

📌 परिभाषा:

Unsupervised Learning में मशीन को केवल इनपुट डेटा दिया जाता है, बिना किसी लेबल या सही उत्तर के। मशीन खुद डेटा के पैटर्न और समूह पहचानती है।

🧠 उदाहरण:

आपके पास ग्राहकों का खरीद डेटा है, लेकिन आप नहीं जानते कि कौन किस कैटेगरी का है — मशीन खुद समूह बना लेगी (क्लस्टरिंग)।

✅ उपयोग:

Customer segmentation
Market basket analysis
Anomaly detection
Recommendation systems

🔷 3️⃣ Reinforcement Learning

📌 परिभाषा:

इसमें एक Agent होता है जो Environment में काम करता है।
मशीन अपने एक्शन पर Reward (इनाम) या Penalty (सज़ा) पाती है और उसी से सीखती है।

🏆 उद्देश्य: सही नीति (Policy) सीखना जिससे अधिकतम Reward मिले।

🧠 उदाहरण:

गेम खेलना (e.g. Chess, Go)
Self-driving cars
Robotics

📊 तुलना तालिका / Comparison Table:

विशेषता	Supervised Learning	Unsupervised Learning	Reinforcement Learning
इनपुट	लेबल्ड डेटा	अनलेबल्ड डेटा	स्टेट्स और रिवॉर्ड
आउटपुट	ज्ञात (Known)	अज्ञात (Unknown)	सीखता है ट्रायल और एरर से
मुख्य उद्देश्य	भविष्यवाणी	पैटर्न खोजना	सही एक्शन सीखना
एल्गोरिद्म उदाहरण	Linear Regression, SVM	K-Means, PCA	Q-Learning, DQN
उपयोग क्षेत्र	Email spam, Disease detection	Customer groups	गेम, रोबोटिक्स

📌 चित्र / Diagram:

            +-------------------+
            |   Machine Learning |
            +-------------------+
                      |
         --------------------------------
        |              |               |
 Supervised    Unsupervised    Reinforcement
   (With labels)   (No labels)    (With reward)

🎯 निष्कर्ष / Conclusion:

Supervised Learning सिखाया जाता है (शिक्षक के साथ)
Unsupervised Learning खुद सीखता है (बिना शिक्षक के)
Reinforcement Learning अनुभव से सीखता है (इनाम और सज़ा से)