मशीन लर्निंग में किसी भी मॉडल की सफलता इस बात पर निर्भर करती है कि उसे कैसा डेटा (Data) दिया गया है। डेटा कई प्रकार का हो सकता है — जैसे संख्यात्मक, श्रेणीक (categorical), इमेज, या टेक्स्ट। हर प्रकार के डेटा के लिए अलग तकनीक और मॉडलिंग की ज़रूरत होती है।
🔷 🔹 Why Understand Data Types?
Reason
Benefit
सही preprocessing चुनना
Encoding, Scaling आदि के सही तरीके
Model compatibility
कौन सा मॉडल किस डेटा के साथ बेहतर काम करता है
Visualization & analysis
सही insight निकालना संभव होता है
🔶 1. संरचित डेटा (Structured Data)
टेबल के रूप में होता है (rows और columns)
Excel, CSV, SQL database जैसे स्रोत
✅ उदाहरण:
Name
Age
Gender
Salary
Raj
25
Male
₹30,000
🔶 2. अर्ध-संरचित डेटा (Semi-structured Data)
कुछ degree तक structure होता है
लेकिन rigid format नहीं होता
अक्सर key-value format में
✅ उदाहरण:
XML, JSON, YAML
{ "name": "Raj", "age": 25, "salary": 30000 }
🔶 3. असंरचित डेटा (Unstructured Data)
किसी fix format में नहीं होता
मशीन के लिए सीधे समझना कठिन होता है
✅ उदाहरण:
Text (e.g. tweets, reviews)
Images
Audio / Video
🔶 4. आंकड़ों के आधार पर डेटा के प्रकार (By Statistical Nature):
डेटा प्रकार
विवरण
उदाहरण
🔹 Numerical
संख्यात्मक
उम्र, वेतन
🔹 Categorical
श्रेणीक
Gender, City
🔹 Ordinal
क्रमबद्ध
Rank (High, Medium, Low)
🔹 Time Series
समय आधारित
Stock prices
🔹 Text
शब्द आधारित
Chat messages
🔹 Image
चित्र आधारित
Face detection
🔹 Audio
ध्वनि आधारित
Voice command
📊 Summary Table:
Type
Format
Example
ML Techniques
Structured
Tables
CSV, Excel
Supervised Learning
Semi-Structured
Key-Value
JSON/XML
NLP, API Parsing
Unstructured
Free-form
Text, Image
Deep Learning
Numerical
Numbers
Salary, Height
Regression
Categorical
Labels
Gender, City
Classification
Ordinal
Ordered Labels
Low < Medium < High
Ranking Models
Time Series
Indexed by time
Stock, Sensor
RNN, LSTM
Text
Sentence/word
Reviews, Chat
NLP (BERT, RNN)
Image
Pixels
Photos
CNN
Audio
Frequency
Voice
Audio Processing (WaveNet, etc.)
📝 Practice Questions:
Structured और Unstructured डेटा में क्या अंतर है?
Semi-structured डेटा के 2 उदाहरण दीजिए।
Numerical और Ordinal डेटा में क्या फ़र्क है?
Time Series डेटा किस प्रकार के मॉडल के लिए उपयुक्त है?
ChatGPT या Alexa जैसे मॉडल कौन से डेटा पर काम करते हैं?
“Garbage In → Garbage Out” अगर डेटा और फीचर सही नहीं हैं, तो मॉडल का परफॉर्मेंस अच्छा नहीं होगा। इसलिए ML की सफलता का 70% हिस्सा डेटा और फीचर इंजीनियरिंग पर निर्भर करता है।
Data Preprocessing + Feature Engineering Example
हम एक सिंपल टेबल डेटा लेंगे (उम्र, वेतन, जॉब टाइप), और इसे PyTorch में टेंसर बनाकर स्केल, एनकोड और ट्रेनिंग के लिए तैयार करेंगे।
📌 उदाहरण डेटा:
उम्र (Age)
वेतन (Salary)
नौकरी (Job)
25
30000
Yes
35
45000
No
45
60000
Yes
🔧 कोड:
import torch import pandas as pd from sklearn.preprocessing import LabelEncoder, MinMaxScaler
अब हम Machine Learning के इतिहास और विकास (History and Evolution) को विस्तार से समझते हैं —
🕰️ प्रारंभिक चरण / Early Foundations (1950s – 1970s)
📌 1950 — Alan Turing और “Turing Test”
पहला बड़ा सवाल: “क्या मशीन सोच सकती है?”
ट्यूरिंग टेस्ट: यदि कोई इंसान और मशीन बातचीत करें और इंसान यह न पहचान पाए कि सामने वाला इंसान है या मशीन — तो वह AI कहलाएगा।
📌 1952 — Arthur Samuel का चेकर्स प्रोग्राम
यह पहला ML प्रोग्राम था जो खुद से चेकर्स खेलना सीखता था।
📌 1957 — Perceptron का आविष्कार
Frank Rosenblatt ने पहला आर्टिफिशियल न्यूरॉन मॉडल बनाया — जो Neural Networks का आधार बना।
📈 विकास की शुरुआत / Growth Phase (1980s – 1990s)
📌 1986 — Backpropagation Algorithm
Deep Neural Networks को ट्रेन करने की तकनीक विकसित हुई।
📌 1995 — SVM (Support Vector Machine)
एक शक्तिशाली Supervised Learning तकनीक, जो आज भी बहुत उपयोगी है।
📌 1997 — IBM Deep Blue ने शतरंज चैंपियन को हराया
मशीन लर्निंग और रणनीतिक सोच का बड़ा उदाहरण।
🚀 आधुनिक युग / Modern Era (2000s – 2010s)
📌 2006 — Geoffrey Hinton द्वारा “Deep Learning” शब्द की शुरुआत
डीप न्यूरल नेटवर्क्स की क्षमता दुनिया को समझ में आने लगी।
📌 2009 — Google Self-Driving Car Project
Reinforcement Learning और Computer Vision का प्रयोग।
📌 2012 — AlexNet ने ImageNet प्रतियोगिता जीती
CNN (Convolutional Neural Network) ने इमेज रिकग्निशन में क्रांति ला दी।
🤖 वर्तमान युग / Recent Advances (2015 – वर्तमान)
📌 2016 — AlphaGo ने दुनिया के GO चैम्पियन को हराया
Deep Reinforcement Learning का कमाल
📌 2018 — BERT मॉडल (Google)
NLP (Natural Language Processing) में क्रांतिकारी बदलाव
📌 2020 — OpenAI का GPT-3
मशीनें इंसानों जैसे टेक्स्ट लिखने में सक्षम हो गईं
📌 2022-2024 — ChatGPT, GPT-4, और AutoML टूल्स
अब ML मॉडल बिना कोडिंग के भी बनाए जा सकते हैं
🔍 सारांश तालिका / Timeline Table:
वर्ष
घटना
1950
ट्यूरिंग टेस्ट का प्रस्ताव
1952
पहला सीखने वाला गेम (Checkers)
1957
पहला Perceptron मॉडल
1986
Backpropagation का विकास
1997
IBM Deep Blue बनाम Kasparov
2012
AlexNet द्वारा ImageNet जीतना
2016
AlphaGo द्वारा GO चैम्पियन को हराना
2018
BERT NLP मॉडल
2020+
GPT-3, GPT-4, Hugging Face, AutoML
🎯 निष्कर्ष / Conclusion:
Machine Learning ने पिछले 70 वर्षों में लंबा सफर तय किया है — खेलों से लेकर चिकित्सा, भाषा से लेकर रोबोटिक्स तक, यह हर क्षेत्र में गहराई से प्रवेश कर चुका है। अब इसका भविष्य और भी स्वचालित, शक्तिशाली और उपयोगी होगा।
आइए अब हम Machine Learning के तीनों मुख्य प्रकारों को एक साथ समझते हैं:
🔷 1️⃣ Supervised Learning
📌 परिभाषा:
Supervised Learning में मशीन को ऐसा डेटा दिया जाता है जिसमें इनपुट और उसका सही आउटपुट पहले से तय होता है (लेबल्ड डेटा)। मशीन उसी से पैटर्न सीखती है और भविष्य की भविष्यवाणी करती है।
🧠 उदाहरण:
इनपुट (Features)
आउटपुट (Label)
उम्र = 25, वेतन = ₹30k
लोन स्वीकृत (Yes)
उम्र = 45, वेतन = ₹60k
लोन अस्वीकृत (No)
✅ उपयोग:
Spam detection
Disease prediction
Price prediction
Image classification
🔷 2️⃣ Unsupervised Learning
📌 परिभाषा:
Unsupervised Learning में मशीन को केवल इनपुट डेटा दिया जाता है, बिना किसी लेबल या सही उत्तर के। मशीन खुद डेटा के पैटर्न और समूह पहचानती है।
🧠 उदाहरण:
आपके पास ग्राहकों का खरीद डेटा है, लेकिन आप नहीं जानते कि कौन किस कैटेगरी का है — मशीन खुद समूह बना लेगी (क्लस्टरिंग)।
✅ उपयोग:
Customer segmentation
Market basket analysis
Anomaly detection
Recommendation systems
🔷 3️⃣ Reinforcement Learning
📌 परिभाषा:
इसमें एक Agent होता है जो Environment में काम करता है। मशीन अपने एक्शन पर Reward (इनाम) या Penalty (सज़ा) पाती है और उसी से सीखती है।
🏆 उद्देश्य: सही नीति (Policy) सीखना जिससे अधिकतम Reward मिले।
Machine Learning (ML) कृत्रिम बुद्धिमत्ता (AI) का एक भाग है जिसमें कंप्यूटर को इस प्रकार सिखाया जाता है कि वह बिना स्पष्ट प्रोग्रामिंग के, अनुभव (data) से खुद सीख सके और निर्णय ले सके।
✅ सरल परिभाषा: “Machine Learning एक तकनीक है जिसमें मशीनें स्वयं डेटा से सीखकर भविष्य की भविष्यवाणी करती हैं या निर्णय लेती हैं।”
🎓 एक लाइन में समझें:
AI = इंसानों जैसी बुद्धिमत्ता ML = डेटा से सीखना और सुधार करना
📦 उदाहरण से समझें:
परंपरागत प्रोग्रामिंग
मशीन लर्निंग
नियम (Rules) लिखकर प्रोग्राम बनाया जाता है
डेटा से मशीन खुद नियम सीखती है
“अगर” – “तो” (if-else) लॉजिक पर आधारित
एल्गोरिद्म डेटा से पैटर्न निकालते हैं
उदाहरण:
आप Amazon पर मोबाइल देखते हैं और आपको वही या उससे मिलते-जुलते मोबाइल सुझाव में दिखते हैं — यही Machine Learning है।
📊 मशीन लर्निंग कैसे काम करता है?
डेटा एकत्र करें
डेटा को साफ और तैयार करें
उपयुक्त एल्गोरिद्म चुनें
मॉडल को ट्रेन करें (Train the model)
मॉडल को टेस्ट करें (Evaluate)
नई जानकारी पर प्रेडिक्शन करें
🧠 मशीन लर्निंग क्यों ज़रूरी है?
बड़े डेटा को मैन्युअली एनालाइज़ करना कठिन है
तेजी से सटीक निर्णय लेना
लगातार सुधार करने की क्षमता
🔍 वास्तविक दुनिया में कहां उपयोग होता है?
क्षेत्र
उपयोग
हेल्थकेयर
रोगों की भविष्यवाणी
बैंकिंग
धोखाधड़ी की पहचान
ई-कॉमर्स
प्रोडक्ट सिफारिश
सोशल मीडिया
पोस्ट रैंकिंग, कंटेंट फिल्टर
कृषि
फसल की बीमारी की पहचान
📌 निष्कर्ष / Conclusion:
मशीन लर्निंग वह तकनीक है जो कंप्यूटर को “अनुभव” से सीखने की शक्ति देती है।
यह आज की AI क्रांति की नींव है।
अगले अध्यायों में हम इसके तीन प्रमुख प्रकारों (Supervised, Unsupervised, Reinforcement) को गहराई से समझेंगे।