Types of Data

मशीन लर्निंग में किसी भी मॉडल की सफलता इस बात पर निर्भर करती है कि उसे कैसा डेटा (Data) दिया गया है।
डेटा कई प्रकार का हो सकता है — जैसे संख्यात्मक, श्रेणीक (categorical), इमेज, या टेक्स्ट। हर प्रकार के डेटा के लिए अलग तकनीक और मॉडलिंग की ज़रूरत होती है।


🔷 🔹 Why Understand Data Types?

ReasonBenefit
सही preprocessing चुननाEncoding, Scaling आदि के सही तरीके
Model compatibilityकौन सा मॉडल किस डेटा के साथ बेहतर काम करता है
Visualization & analysisसही insight निकालना संभव होता है

🔶 1. संरचित डेटा (Structured Data)

  • टेबल के रूप में होता है (rows और columns)
  • Excel, CSV, SQL database जैसे स्रोत

✅ उदाहरण:

NameAgeGenderSalary
Raj25Male₹30,000

🔶 2. अर्ध-संरचित डेटा (Semi-structured Data)

  • कुछ degree तक structure होता है
  • लेकिन rigid format नहीं होता
  • अक्सर key-value format में

✅ उदाहरण:

  • XML, JSON, YAML
{
"name": "Raj",
"age": 25,
"salary": 30000
}

🔶 3. असंरचित डेटा (Unstructured Data)

  • किसी fix format में नहीं होता
  • मशीन के लिए सीधे समझना कठिन होता है

✅ उदाहरण:

  • Text (e.g. tweets, reviews)
  • Images
  • Audio / Video

🔶 4. आंकड़ों के आधार पर डेटा के प्रकार (By Statistical Nature):

डेटा प्रकारविवरणउदाहरण
🔹 Numericalसंख्यात्मकउम्र, वेतन
🔹 Categoricalश्रेणीकGender, City
🔹 Ordinalक्रमबद्धRank (High, Medium, Low)
🔹 Time Seriesसमय आधारितStock prices
🔹 Textशब्द आधारितChat messages
🔹 Imageचित्र आधारितFace detection
🔹 Audioध्वनि आधारितVoice command

📊 Summary Table:

TypeFormatExampleML Techniques
StructuredTablesCSV, ExcelSupervised Learning
Semi-StructuredKey-ValueJSON/XMLNLP, API Parsing
UnstructuredFree-formText, ImageDeep Learning
NumericalNumbersSalary, HeightRegression
CategoricalLabelsGender, CityClassification
OrdinalOrdered LabelsLow < Medium < HighRanking Models
Time SeriesIndexed by timeStock, SensorRNN, LSTM
TextSentence/wordReviews, ChatNLP (BERT, RNN)
ImagePixelsPhotosCNN
AudioFrequencyVoiceAudio Processing (WaveNet, etc.)

📝 Practice Questions:

  1. Structured और Unstructured डेटा में क्या अंतर है?
  2. Semi-structured डेटा के 2 उदाहरण दीजिए।
  3. Numerical और Ordinal डेटा में क्या फ़र्क है?
  4. Time Series डेटा किस प्रकार के मॉडल के लिए उपयुक्त है?
  5. ChatGPT या Alexa जैसे मॉडल कौन से डेटा पर काम करते हैं?