मशीन लर्निंग में किसी भी मॉडल की सफलता इस बात पर निर्भर करती है कि उसे कैसा डेटा (Data) दिया गया है। डेटा कई प्रकार का हो सकता है — जैसे संख्यात्मक, श्रेणीक (categorical), इमेज, या टेक्स्ट। हर प्रकार के डेटा के लिए अलग तकनीक और मॉडलिंग की ज़रूरत होती है।
🔷 🔹 Why Understand Data Types?
Reason
Benefit
सही preprocessing चुनना
Encoding, Scaling आदि के सही तरीके
Model compatibility
कौन सा मॉडल किस डेटा के साथ बेहतर काम करता है
Visualization & analysis
सही insight निकालना संभव होता है
🔶 1. संरचित डेटा (Structured Data)
टेबल के रूप में होता है (rows और columns)
Excel, CSV, SQL database जैसे स्रोत
✅ उदाहरण:
Name
Age
Gender
Salary
Raj
25
Male
₹30,000
🔶 2. अर्ध-संरचित डेटा (Semi-structured Data)
कुछ degree तक structure होता है
लेकिन rigid format नहीं होता
अक्सर key-value format में
✅ उदाहरण:
XML, JSON, YAML
{ "name": "Raj", "age": 25, "salary": 30000 }
🔶 3. असंरचित डेटा (Unstructured Data)
किसी fix format में नहीं होता
मशीन के लिए सीधे समझना कठिन होता है
✅ उदाहरण:
Text (e.g. tweets, reviews)
Images
Audio / Video
🔶 4. आंकड़ों के आधार पर डेटा के प्रकार (By Statistical Nature):
डेटा प्रकार
विवरण
उदाहरण
🔹 Numerical
संख्यात्मक
उम्र, वेतन
🔹 Categorical
श्रेणीक
Gender, City
🔹 Ordinal
क्रमबद्ध
Rank (High, Medium, Low)
🔹 Time Series
समय आधारित
Stock prices
🔹 Text
शब्द आधारित
Chat messages
🔹 Image
चित्र आधारित
Face detection
🔹 Audio
ध्वनि आधारित
Voice command
📊 Summary Table:
Type
Format
Example
ML Techniques
Structured
Tables
CSV, Excel
Supervised Learning
Semi-Structured
Key-Value
JSON/XML
NLP, API Parsing
Unstructured
Free-form
Text, Image
Deep Learning
Numerical
Numbers
Salary, Height
Regression
Categorical
Labels
Gender, City
Classification
Ordinal
Ordered Labels
Low < Medium < High
Ranking Models
Time Series
Indexed by time
Stock, Sensor
RNN, LSTM
Text
Sentence/word
Reviews, Chat
NLP (BERT, RNN)
Image
Pixels
Photos
CNN
Audio
Frequency
Voice
Audio Processing (WaveNet, etc.)
📝 Practice Questions:
Structured और Unstructured डेटा में क्या अंतर है?
Semi-structured डेटा के 2 उदाहरण दीजिए।
Numerical और Ordinal डेटा में क्या फ़र्क है?
Time Series डेटा किस प्रकार के मॉडल के लिए उपयुक्त है?
ChatGPT या Alexa जैसे मॉडल कौन से डेटा पर काम करते हैं?