Linear Regression


ЁЯФ╖ рдкрд░рд┐рдЪрдп:

Linear Regression рд╕рдмрд╕реЗ рд╕рд░рд▓ рдФрд░ рдкреНрд░рдЪрд▓рд┐рдд Supervised Learning algorithm рд╣реИред
рдЗрд╕рдХрд╛ рдЙрджреНрджреЗрд╢реНрдп рд╣реИ тАФ рдХрд┐рд╕реА continuous value рдХреЛ predict рдХрд░рдирд╛, рдЬреИрд╕реЗ:

  • рдШрд░ рдХреА рдХреАрдордд
  • рд╕реНрдЯреВрдбреЗрдВрдЯ рдХреЗ рдорд╛рд░реНрдХреНрд╕
  • рдХрд░реНрдордЪрд╛рд░реА рдХрд╛ рд╡реЗрддрди

ЁЯФ╢ рдлреЙрд░реНрдореВрд▓рд╛:

ЁЯОп Prediction Function:

рдЬрд╣рд╛рдБ:

  • x= рдЗрдирдкреБрдЯ
  • w = рд╡рдЬрд╝рди (weight)
  • b = рдмрд╛рдпрд╕ (bias)
  • y^ = рдЕрдиреБрдорд╛рдирд┐рдд рдЖрдЙрдЯрдкреБрдЯ (predicted output)

ЁЯФз рдЙрдкрдпреЛрдЧ:

рдХреНрд╖реЗрддреНрд░рдЙрджрд╛рд╣рд░рдг
рд░рд┐рдпрд▓ рдПрд╕реНрдЯреЗрдЯрдШрд░ рдХреА рдХреАрдордд рдХрд╛ рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди
рдПрдЬреБрдХреЗрд╢рдирдорд╛рд░реНрдХреНрд╕ рдХрд╛ рдЕрдиреБрдорд╛рди
рд╣реЗрд▓реНрдерд░реЛрдЧ рдХреА рдЧрдВрднреАрд░рддрд╛ рд╕реНрдХреЛрд░

ЁЯФв Cost Function (Loss):

Mean Squared Error (MSE):


ЁЯФм Linear Regression in PyTorch

import torch
import torch.nn as nn
import matplotlib.pyplot as plt

# Dummy dataset
X = torch.tensor([[1.0], [2.0], [3.0], [4.0]], dtype=torch.float32)
y = torch.tensor([[2.0], [4.0], [6.0], [8.0]], dtype=torch.float32)

# Linear Regression Model
model = nn.Linear(1, 1)

# Loss and Optimizer
criterion = nn.MSELoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# Training loop
epochs = 1000
for epoch in range(epochs):
y_pred = model(X)
loss = criterion(y_pred, y)
optimizer.zero_grad()
loss.backward()
optimizer.step()

if epoch % 100 == 0:
print(f'Epoch {epoch}, Loss: {loss.item():.4f}')

# Prediction
with torch.no_grad():
test = torch.tensor([[5.0]])
pred = model(test)
print("Prediction for 5.0:", pred.item())

# Visualize
predicted = model(X).detach()
plt.scatter(X, y, label='Original')
plt.plot(X, predicted, label='Fitted line', color='red')
plt.legend()
plt.show()

ЁЯУК Summary Table:

ElementDescription
Model TypeRegression
InputContinuous/Real number
OutputContinuous value
Loss FunctionMean Squared Error (MSE)
OptimizerSGD, Adam
Library UsedPyTorch

ЁЯУЭ Practice Questions:

  1. Linear Regression рдХрд╛ рдЙрджреНрджреЗрд╢реНрдп рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?
  2. Model рдХрд╛ рдлреЙрд░реНрдореВрд▓рд╛ y^=wтЛЕx+b рдХрд╛ рдорддрд▓рдм рд╕рдордЭрд╛рдЗрдПред
  3. MSE (Mean Squared Error) рдХреЛ рдХреНрдпреЛрдВ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ?
  4. PyTorch рдореЗрдВ nn.Linear() рдХреНрдпрд╛ рдХрд░рддрд╛ рд╣реИ?
  5. Optimizer рдХрд╛ рдХрд╛рд░реНрдп рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?

Introduction of Supervised Learning Algorithms

Supervised Learning рд╡рд╣ рддрдХрдиреАрдХ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рдореЙрдбрд▓ рдХреЛ рдРрд╕реЗ рдбреЗрдЯрд╛ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдЬрд┐рд╕рдореЗрдВ рдЗрдирдкреБрдЯ рдХреЗ рд╕рд╛рде-рд╕рд╛рде рд╕рд╣реА рдЖрдЙрдЯрдкреБрдЯ (label) рднреА рд╣реЛрддрд╛ рд╣реИред
рдЙрджрд╛рд╣рд░рдг:

Input (Features)Output (Label)
рдЙрдореНрд░ = 30, рд╡реЗрддрди = тВ╣40kрд▓реЛрди рд╕реНрд╡реАрдХреГрдд (Yes)

рдЕрдм рд╣рдо рдРрд╕реЗ рдкреНрд░рдореБрдЦ рдПрд▓реНрдЧреЛрд░рд┐рджреНрдореНрд╕ рдХреЛ рд╕рдордЭреЗрдВрдЧреЗ рдЬреЛ Supervised Learning рдореЗрдВ рд╕рдмрд╕реЗ рдЬрд╝реНрдпрд╛рджрд╛ рдЙрдкрдпреЛрдЧ рд╣реЛрддреЗ рд╣реИрдВред


ЁЯФ╖ ЁЯФ╣ Why Supervised Algorithms?

FeatureBenefit
Input-output mapping definedрдЖрд╕рд╛рдиреА рд╕реЗ train рдФрд░ evaluate рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ
Classification & Regression рджреЛрдиреЛрдВ рдХреЗ рд▓рд┐рдПрдмрд╣реБрдд versatile models рдЙрдкрд▓рдмреНрдз рд╣реИрдВ
ScalabilityрдЫреЛрдЯреЗ рд╕реЗ рдмрдбрд╝реЗ рдбреЗрдЯрд╛рд╕реЗрдЯ рддрдХ рд▓рд╛рдЧреВ рд╣реЛрддрд╛ рд╣реИ

ЁЯФ╢ Supervised Learning Algorithms рдХреЗ рджреЛ рдкреНрд░рдореБрдЦ рдкреНрд░рдХрд╛рд░:

рдкреНрд░рдХрд╛рд░рдЙрдкрдпреЛрдЧ рдХреНрд╖реЗрддреНрд░рдЙрджрд╛рд╣рд░рдг
ClassificationLabel рдкрд╣рдЪрд╛рдирдирд╛Email Spam, Disease Detection
RegressionValue predict рдХрд░рдирд╛House Price, Stock Prediction

ЁЯФ╖ 1. Linear Regression (рд░реЗрдЦреАрдп рдкреНрд░рддрд┐рдЧрдорди)

ЁЯУМ рдЙрдкрдпреЛрдЧ:

Continuous Value Prediction
(рдЬреИрд╕реЗ рдШрд░ рдХреА рдХреАрдордд, рддрд╛рдкрдорд╛рди)

ЁЯзо рдлреЙрд░реНрдореВрд▓рд╛:

y = w*x + b

тЬЕ Python Example:

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

ЁЯФ╖ 2. Logistic Regression (рддрд░реНрдХрд╢рдХреНрддрд┐ рдкреНрд░рддрд┐рдЧрдорди)

ЁЯУМ рдЙрдкрдпреЛрдЧ:

Binary Classification (Yes/No)

тЬЕ Output:

Probability (0 to 1), рдлрд┐рд░ threshold рд▓рдЧрд╛рдХрд░ decision

from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

ЁЯФ╖ 3. Decision Tree

ЁЯУМ рдЙрдкрдпреЛрдЧ:

Classification рдФрд░ Regression рджреЛрдиреЛрдВ рдХреЗ рд▓рд┐рдП
рдбрд╛рдЯрд╛ рдХреЛ рдмрд╛рд░-рдмрд╛рд░ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдХреЗ рдирд┐рд░реНрдгрдп рд▓реЗрдирд╛ред

from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier()
model.fit(X_train, y_train)

ЁЯФ╖ 4. Random Forest

ЁЯУМ рдХреНрдпрд╛ рд╣реИ?

Multiple Decision Trees рдХрд╛ ensemble
Voting рдпрд╛ averaging рдХреЗ рдЬрд╝рд░рд┐рдП output рджреЗрддрд╛ рд╣реИред

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)

ЁЯФ╖ 5. Support Vector Machine (SVM)

ЁЯУМ рдЙрдкрдпреЛрдЧ:

High-dimensional datasets рдореЗрдВ classification рдХреЗ рд▓рд┐рдП рдмреЗрд╣рддрд░реАрди

from sklearn.svm import SVC

model = SVC(kernel='linear')
model.fit(X_train, y_train)

ЁЯФ╖ 6. K-Nearest Neighbors (KNN)

ЁЯУМ рдЙрдкрдпреЛрдЧ:

Instance-based learning тАФ training рдореЗрдВ рдХреЛрдИ model рдирд╣реАрдВ, prediction рдХреЗ рд╕рдордп рдирдЬрд╝рджреАрдХреА K-рдкрдбрд╝реЛрд╕рд┐рдпреЛрдВ рдХреЛ рджреЗрдЦрддрд╛ рд╣реИред

from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)

ЁЯФ╖ 7. Naive Bayes

ЁЯУМ рдЙрдкрдпреЛрдЧ:

Text classification рдЬреИрд╕реЗ spam detection
(Statistical probability рдЖрдзрд╛рд░рд┐рдд)

from sklearn.naive_bayes import GaussianNB

model = GaussianNB()
model.fit(X_train, y_train)

ЁЯУК Summary Table:

AlgorithmTypeStrengthsUse Case
Linear RegressionRegressionSimple, fastPrice prediction
Logistic RegressionClassificationProbabilistic outputSpam detection
Decision TreeBothInterpretabilityCredit approval
Random ForestBothAccuracy, handles overfittingMedical diagnosis
SVMClassificationWorks in high dimensionsFace recognition
KNNClassificationNo training, easy to implementPattern recognition
Naive BayesClassificationFast, good for textSentiment analysis

ЁЯУЭ Practice Questions:

  1. Linear Regression рдФрд░ Logistic Regression рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  2. Random Forest рдХреЛ Decision Tree рд╕реЗ рдмреЗрд╣рддрд░ рдХреНрдпреЛрдВ рдорд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИ?
  3. SVM рдХрд┐рд╕ рддрд░рд╣ рд╕реЗ Classification рдХрд░рддрд╛ рд╣реИ?
  4. KNN рдореЗрдВ K рдХрд╛ рдЪреБрдирд╛рд╡ рдХреИрд╕реЗ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ?
  5. Naive Bayes рдХрдм рдЕрдЪреНрдЫрд╛ рдФрд░ рдХрдм рдмреЗрдХрд╛рд░ perform рдХрд░рддрд╛ рд╣реИ?

Feature Selection & Feature Extraction

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЗрдВ рд╕рд╣реА рдлреАрдЪрд░реНрд╕ (рдЧреБрдг) рдЪреБрдирдирд╛ рдФрд░ рдирдП рдЙрдкрдпреЛрдЧреА рдлреАрдЪрд░реНрд╕ рдмрдирд╛рдирд╛ рдореЙрдбрд▓ рдХреА рджрдХреНрд╖рддрд╛ рдФрд░ рд╕рдЯреАрдХрддрд╛ рдХреЛ рдХрдИ рдЧреБрдирд╛ рдмрдврд╝рд╛ рд╕рдХрддрд╛ рд╣реИред рдпрд╣ рдкреНрд░рдХреНрд░рд┐рдпрд╛ рджреЛ рднрд╛рдЧреЛрдВ рдореЗрдВ рдмрд╛рдБрдЯреА рдЬрд╛рддреА рд╣реИ:
ЁЯФ╣ Feature Selection (рдЪрдпрди)
ЁЯФ╣ Feature Extraction (рдирд╡-рдирд┐рд░реНрдорд╛рдг)


ЁЯФ╖ Why Feature Selection & Extraction?

ReasonBenefit
Less ComplexityModel simple рдФрд░ fast рд╣реЛрддрд╛ рд╣реИ
Overfitting рд╕реЗ рдмрдЪрд╛рд╡Unnecessary features рд╣рдЯрд╛рдиреЗ рд╕реЗ accuracy рдмрдврд╝рддреА рд╣реИ
Better PerformanceRelevant features рд░рдЦрдиреЗ рд╕реЗ result рдЕрдЪреНрдЫрд╛ рдЖрддрд╛ рд╣реИ
Visualization рдЖрд╕рд╛рди рд╣реЛрддреА рд╣реИDimensionality рдШрдЯрд╛рдиреЗ рд╕реЗ data рд╕рдордЭрдирд╛ рдЖрд╕рд╛рди рд╣реЛрддрд╛ рд╣реИ

ЁЯФ╢ 1. Feature Selection (рдлреАрдЪрд░ рдЪрдпрди)

ЁЯУМ рдХреНрдпрд╛ рд╣реИ?

рдбреЗрдЯрд╛ рдореЗрдВ рд╕реЗ рд╕рдмрд╕реЗ рдЬрд╝рд░реВрд░реА рдФрд░ рдЙрдкрдпреЛрдЧреА рдлреАрдЪрд░реНрд╕ рдХреЛ рдЪреБрдирдирд╛, рдмрд╛рдХреА рдХреЛ рд╣рдЯрд╛рдирд╛ред рдЗрд╕рд╕реЗ model рддреЗрдЬрд╝, рд╕рдЯреАрдХ рдФрд░ рдЖрд╕рд╛рди рдмрдирддрд╛ рд╣реИред

тЬЕ рдореБрдЦреНрдп рддрд░реАрдХреЗ:

рддрд░реАрдХрд╛рд╡рд┐рд╡рд░рдг
Filter MethodsStatistics рдЬреИрд╕реЗ correlation, chi-square рдЖрджрд┐ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдлреАрдЪрд░реНрд╕ рдЪреБрдирдирд╛
Wrapper Methodsрд╣рд░ рдлреАрдЪрд░ рд╕реЗрдЯ рдкрд░ рдореЙрдбрд▓ train рдХрд░рдХреЗ best рдЪреБрдирдирд╛ (рдЬреИрд╕реЗ RFE)
Embedded MethodsрдореЙрдбрд▓ рдЦреБрдж feature рдЪреБрдирддрд╛ рд╣реИ (рдЬреИрд╕реЗ Lasso, Decision Trees)

ЁЯЫая╕П Python Code Example (Correlation Method):

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Correlation Matrix
corr = df.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.show()

ЁЯФ╢ 2. Feature Extraction (рдлреАрдЪрд░ рдирд╡-рдирд┐рд░реНрдорд╛рдг)

ЁЯУМ рдХреНрдпрд╛ рд╣реИ?

рдореМрдЬреВрджрд╛ рдлреАрдЪрд░реНрд╕ рд╕реЗ рдирдП meaningful рдлреАрдЪрд░реНрд╕ рдмрдирд╛рдирд╛, рдпрд╛ features рдХреЛ lower dimensions рдореЗрдВ compress рдХрд░рдирд╛ред

рдЙрджрд╛рд╣рд░рдг:
Image data тЖТ Raw pixels рдХреЛ CNN features рдореЗрдВ рдмрджрд▓рд╛ рдЬрд╛рддрд╛ рд╣реИ
Text data тЖТ TF-IDF рдпрд╛ Word Embedding рдмрдирд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ


тЬЕ рдореБрдЦреНрдп рддрд░реАрдХреЗ:

рддрд░реАрдХрд╛рд╡рд┐рд╡рд░рдг
PCA (Principal Component Analysis)Variance-preserving compressed representation
LDA (Linear Discriminant Analysis)Class separation рдХреЗ рд▓рд┐рдП feature reduce
AutoencodersDeep Learning рдЖрдзрд╛рд░рд┐рдд compressed features
TF-IDF / Word2VecText рд╕реЗ semantic features рдмрдирд╛рдирд╛

ЁЯЫая╕П Python Code Example (PCA):

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

# Step 1: Scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df)

# Step 2: Apply PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

print("Reduced Features:\n", X_pca)

ЁЯФН Feature Selection vs Feature Extraction

ComparisonFeature SelectionFeature Extraction
рдЙрджреНрджреЗрд╢реНрдпрд╕рдмрд╕реЗ рдЕрдЪреНрдЫреЗ рдореМрдЬреВрджрд╛ рдлреАрдЪрд░реНрд╕ рдЪреБрдирдирд╛рдирдП meaningful рдлреАрдЪрд░реНрд╕ рдмрдирд╛рдирд╛
Feature CountрдХрдо рд╣реЛрддрд╛ рд╣реИрдЕрд▓рдЧ set of features рдмрдирддреЗ рд╣реИрдВ
Technique ExamplesCorrelation, RFE, LassoPCA, Autoencoders, Word2Vec
рд╡реНрдпрд╛рдЦреНрдпрд╛ рдЖрд╕рд╛рди рд╣реИрд╣рд╛рдБрдХрднреА-рдХрднреА рдирд╣реАрдВ (PCA рдЬреИрд╕реЗ рдореЗрдВ)

ЁЯУК Summary Table:

TaskTool/Technique
SelectionCorrelation, Chi-square, RFE
EmbeddedLasso, Decision Tree
ExtractionPCA, LDA, Autoencoder
Text ExtractionTF-IDF, Word2Vec, BERT

ЁЯУЭ Practice Questions:

  1. Feature Selection рдФрд░ Feature Extraction рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  2. PCA рдХрд╛ рдХреНрдпрд╛ рдЙрдкрдпреЛрдЧ рд╣реИ рдФрд░ рдХрдм рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ?
  3. Wrapper method рдФрд░ Filter method рдореЗрдВ рдХреНрдпрд╛ рдлрд╝рд░реНрдХ рд╣реИ?
  4. Autoencoder рдХрд╛ рдЙрдкрдпреЛрдЧ feature extraction рдореЗрдВ рдХреИрд╕реЗ рд╣реЛрддрд╛ рд╣реИ?
  5. Embedded Method рдХрд╛ рдЙрджрд╛рд╣рд░рдг рджреАрдЬрд┐рдПред

Data Cleaning and Normalization

рдХрд┐рд╕реА рднреА рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЙрдбрд▓ рдХреА рд╕рдлрд▓рддрд╛ рдЗрд╕ рдмрд╛рдд рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддреА рд╣реИ рдХрд┐ рдЖрдкрдиреЗ рдЙрд╕реЗ рдХрд┐рддрдирд╛ рд╕рд╛рдл рдФрд░ рд╕рдВрддреБрд▓рд┐рдд рдбреЗрдЯрд╛ рджрд┐рдпрд╛ рд╣реИред
рдЧрдВрджрд╛ рдбреЗрдЯрд╛ = рдЧрд╝рд▓рдд рдореЙрдбрд▓
рдЗрд╕рд▓рд┐рдП рд╣рдореЗрдВ рд╕рдмрд╕реЗ рдкрд╣рд▓реЗ рдбреЗрдЯрд╛ рдХреЛ рд╕рд╛рдл (clean) рдХрд░рдирд╛ рдФрд░ рдлрд┐рд░ рд╕рдВрддреБрд▓рд┐рдд (normalize) рдХрд░рдирд╛ рд╣реЛрддрд╛ рд╣реИред


ЁЯФ╖ ЁЯФ╣ Why Clean & Normalize Data?

ReasonBenefit
Missing/Error рд╣рдЯрд╛рдирд╛Training рдХреЗ рджреМрд░рд╛рди performance рдореЗрдВ рд╕реБрдзрд╛рд░
Scaling balance рдХрд░рдирд╛рдореЙрдбрд▓ рдХреЛ рд╕рднреА features рдХреЛ рд╕рдорд╛рди рд░реВрдк рд╕реЗ рд╕реАрдЦрдиреЗ рджреЗрдирд╛
Bias рдХрдо рдХрд░рдирд╛рдПрдХ feature рдХрд╛ рдЬрд╝рд░реВрд░рдд рд╕реЗ рдЬрд╝реНрдпрд╛рджрд╛ рдкреНрд░рднрд╛рд╡ рди рд╣реЛ

ЁЯФ╢ 1. рдбреЗрдЯрд╛ рдХреНрд▓реАрдирд┐рдВрдЧ (Data Cleaning)

ЁЯз╣ рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?

рдбреЗрдЯрд╛ рд╕реЗ рдЧрд▓рдд, рдЕрдзреВрд░рд╛ рдпрд╛ рдЕрд╡реНрдпрд╡рд╕реНрдерд┐рдд рдЬрд╛рдирдХрд╛рд░реА рд╣рдЯрд╛рдирд╛ рдпрд╛ рд╕реБрдзрд╛рд░рдирд╛ред

тЬЕ рдореБрдЦреНрдп рдХрд╛рд░реНрдп:

TechniqueUse Case
Missing Value HandlingNull, NaN рднрд░рдирд╛ рдпрд╛ рд╣рдЯрд╛рдирд╛
Outlier Removalрдмрд╣реБрдд рдЬрд╝реНрдпрд╛рджрд╛/рдХрдо values рд╣рдЯрд╛рдирд╛
Duplicate RemovalрджреЛрд╣рд░рд╛рдП рд╣реБрдП rows рд╣рдЯрд╛рдирд╛
Type ConversionString тЖТ Int/Float рдмрджрд▓рдирд╛
Inconsistent Label FixingрдЬреИрд╕реЗ “Male”, “male”, “MALE” рдХреЛ рдПрдХ рдЬреИрд╕рд╛ рдмрдирд╛рдирд╛

ЁЯЫая╕П Python/Pandas Code:

import pandas as pd

df = pd.read_csv("data.csv")

# Null values рдХреЛ рднрд░рдирд╛
df.fillna(df.mean(), inplace=True)

# Duplicates рд╣рдЯрд╛рдирд╛
df.drop_duplicates(inplace=True)

# рдЧрд▓рдд values рд╣рдЯрд╛рдирд╛
df = df[df["age"] > 0]

ЁЯФ╢ 2. рдиреЙрд░реНрдорд▓рд╛рдЗрдЬреЗрд╢рди (Normalization)

ЁЯУМ рдХреНрдпрд╛ рд╣реЛрддрд╛ рд╣реИ?

рд╕рднреА numerical features рдХреЛ рдПрдХ рд╕рдорд╛рди рд╕реНрдХреЗрд▓ (рдЬреИрд╕реЗ 0 рд╕реЗ 1) рдкрд░ рд▓рд╛рдирд╛ рддрд╛рдХрд┐ рдХреЛрдИ feature рдЬрд╝реНрдпрд╛рджрд╛ рд╣рд╛рд╡реА рди рд╣реЛред

рдЙрджрд╛рд╣рд░рдг: рдЕрдЧрд░ рдПрдХ feature рдХреА рд╡реИрд▓реНрдпреВ 1-10 рдХреЗ рдмреАрдЪ рд╣реИ рдФрд░ рджреВрд╕рд░реЗ рдХреА 1000-100000, рддреЛ рджреВрд╕рд░рд╛ model рдХреЛ рдЬреНрдпрд╛рджрд╛ influence рдХрд░реЗрдЧрд╛ред рдпрд╣реА imbalance рдХреЛ normalization рд╕реЗ рд╣рдЯрд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред


тЬЕ рдкреНрд░рдореБрдЦ рддрд░реАрдХреЗ:

рддрдХрдиреАрдХрд╡рд┐рд╡рд░рдгрдлреЙрд░реНрдореВрд▓рд╛
Min-Max Scaling0 рд╕реЗ 1 рдХреЗ рдмреАрдЪ рд╕реНрдХреЗрд▓ рдХрд░рддрд╛ рд╣реИX' = (X - min) / (max - min)
Z-Score StandardizationMean рдХреЛ 0 рдФрд░ Std рдХреЛ 1 рдмрдирд╛рддрд╛ рд╣реИX' = (X - ╬╝) / ╧Г
Robust ScalingMedian рдФрд░ IQR рдкрд░ рдЖрдзрд╛рд░рд┐рдд рд╣реЛрддрд╛ рд╣реИX' = (X - median) / IQR

ЁЯЫая╕П Sklearn Code:

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaled = scaler.fit_transform(df[['age', 'salary']])

ЁЯУК Summary Table:

рд╕реНрдЯреЗрдкрдЙрджреНрджреЗрд╢реНрдпрдЯреВрд▓/рддрдХрдиреАрдХ
Missing ValuesNaN рднрд░рдирд╛/рд╣рдЯрд╛рдирд╛fillna(), dropna()
OutliersрдореЙрдбрд▓ accuracy рдмрдЪрд╛рдирд╛IQR, Z-score
Scalingрд╕рднреА features рдХреЛ рдмрд░рд╛рдмрд░реА рджреЗрдирд╛MinMaxScaler, StandardScaler
Duplicatesрдбрд╛рдЯрд╛ рджреЛрд╣рд░рд╛рд╡ рд╣рдЯрд╛рдирд╛drop_duplicates()
Type ConversionрдбреЗрдЯрд╛ рдХреЛ рд╕рд╣реА рдлреЙрд░реНрдореЗрдЯ рдореЗрдВ рд▓рд╛рдирд╛astype(), to_numeric()

ЁЯУЭ Practice Questions:

  1. Missing value рдХреЛ handle рдХрд░рдиреЗ рдХреЗ рдХреМрди-рдХреМрди рд╕реЗ рддрд░реАрдХреЗ рд╣реЛрддреЗ рд╣реИрдВ?
  2. Z-score рдФрд░ Min-Max scaling рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  3. Robust Scaling рдХрдм рдЙрдкрдпреЛрдЧреА рд╣реЛрддрд╛ рд╣реИ?
  4. fillna() рдФрд░ dropna() рдореЗрдВ рдЕрдВрддрд░ рдмрддрд╛рдЗрдПред
  5. Normalization рдХреА рдЬрд╝рд░реВрд░рдд рдХреНрдпреЛрдВ рд╣реЛрддреА рд╣реИ?

Types of Data

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдореЗрдВ рдХрд┐рд╕реА рднреА рдореЙрдбрд▓ рдХреА рд╕рдлрд▓рддрд╛ рдЗрд╕ рдмрд╛рдд рдкрд░ рдирд┐рд░реНрднрд░ рдХрд░рддреА рд╣реИ рдХрд┐ рдЙрд╕реЗ рдХреИрд╕рд╛ рдбреЗрдЯрд╛ (Data) рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред
рдбреЗрдЯрд╛ рдХрдИ рдкреНрд░рдХрд╛рд░ рдХрд╛ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ тАФ рдЬреИрд╕реЗ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ, рд╢реНрд░реЗрдгреАрдХ (categorical), рдЗрдореЗрдЬ, рдпрд╛ рдЯреЗрдХреНрд╕реНрдЯред рд╣рд░ рдкреНрд░рдХрд╛рд░ рдХреЗ рдбреЗрдЯрд╛ рдХреЗ рд▓рд┐рдП рдЕрд▓рдЧ рддрдХрдиреАрдХ рдФрд░ рдореЙрдбрд▓рд┐рдВрдЧ рдХреА рдЬрд╝рд░реВрд░рдд рд╣реЛрддреА рд╣реИред


ЁЯФ╖ ЁЯФ╣ Why Understand Data Types?

ReasonBenefit
рд╕рд╣реА preprocessing рдЪреБрдирдирд╛Encoding, Scaling рдЖрджрд┐ рдХреЗ рд╕рд╣реА рддрд░реАрдХреЗ
Model compatibilityрдХреМрди рд╕рд╛ рдореЙрдбрд▓ рдХрд┐рд╕ рдбреЗрдЯрд╛ рдХреЗ рд╕рд╛рде рдмреЗрд╣рддрд░ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ
Visualization & analysisрд╕рд╣реА insight рдирд┐рдХрд╛рд▓рдирд╛ рд╕рдВрднрд╡ рд╣реЛрддрд╛ рд╣реИ

ЁЯФ╢ 1. рд╕рдВрд░рдЪрд┐рдд рдбреЗрдЯрд╛ (Structured Data)

  • рдЯреЗрдмрд▓ рдХреЗ рд░реВрдк рдореЗрдВ рд╣реЛрддрд╛ рд╣реИ (rows рдФрд░ columns)
  • Excel, CSV, SQL database рдЬреИрд╕реЗ рд╕реНрд░реЛрдд

тЬЕ рдЙрджрд╛рд╣рд░рдг:

NameAgeGenderSalary
Raj25MaleтВ╣30,000

ЁЯФ╢ 2. рдЕрд░реНрдз-рд╕рдВрд░рдЪрд┐рдд рдбреЗрдЯрд╛ (Semi-structured Data)

  • рдХреБрдЫ degree рддрдХ structure рд╣реЛрддрд╛ рд╣реИ
  • рд▓реЗрдХрд┐рди rigid format рдирд╣реАрдВ рд╣реЛрддрд╛
  • рдЕрдХреНрд╕рд░ key-value format рдореЗрдВ

тЬЕ рдЙрджрд╛рд╣рд░рдг:

  • XML, JSON, YAML
{
"name": "Raj",
"age": 25,
"salary": 30000
}

ЁЯФ╢ 3. рдЕрд╕рдВрд░рдЪрд┐рдд рдбреЗрдЯрд╛ (Unstructured Data)

  • рдХрд┐рд╕реА fix format рдореЗрдВ рдирд╣реАрдВ рд╣реЛрддрд╛
  • рдорд╢реАрди рдХреЗ рд▓рд┐рдП рд╕реАрдзреЗ рд╕рдордЭрдирд╛ рдХрдард┐рди рд╣реЛрддрд╛ рд╣реИ

тЬЕ рдЙрджрд╛рд╣рд░рдг:

  • Text (e.g. tweets, reviews)
  • Images
  • Audio / Video

ЁЯФ╢ 4. рдЖрдВрдХрдбрд╝реЛрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдбреЗрдЯрд╛ рдХреЗ рдкреНрд░рдХрд╛рд░ (By Statistical Nature):

рдбреЗрдЯрд╛ рдкреНрд░рдХрд╛рд░рд╡рд┐рд╡рд░рдгрдЙрджрд╛рд╣рд░рдг
ЁЯФ╣ Numericalрд╕рдВрдЦреНрдпрд╛рддреНрдордХрдЙрдореНрд░, рд╡реЗрддрди
ЁЯФ╣ Categoricalрд╢реНрд░реЗрдгреАрдХGender, City
ЁЯФ╣ OrdinalрдХреНрд░рдордмрджреНрдзRank (High, Medium, Low)
ЁЯФ╣ Time Seriesрд╕рдордп рдЖрдзрд╛рд░рд┐рддStock prices
ЁЯФ╣ Textрд╢рдмреНрдж рдЖрдзрд╛рд░рд┐рддChat messages
ЁЯФ╣ ImageрдЪрд┐рддреНрд░ рдЖрдзрд╛рд░рд┐рддFace detection
ЁЯФ╣ AudioрдзреНрд╡рдирд┐ рдЖрдзрд╛рд░рд┐рддVoice command

ЁЯУК Summary Table:

TypeFormatExampleML Techniques
StructuredTablesCSV, ExcelSupervised Learning
Semi-StructuredKey-ValueJSON/XMLNLP, API Parsing
UnstructuredFree-formText, ImageDeep Learning
NumericalNumbersSalary, HeightRegression
CategoricalLabelsGender, CityClassification
OrdinalOrdered LabelsLow < Medium < HighRanking Models
Time SeriesIndexed by timeStock, SensorRNN, LSTM
TextSentence/wordReviews, ChatNLP (BERT, RNN)
ImagePixelsPhotosCNN
AudioFrequencyVoiceAudio Processing (WaveNet, etc.)

ЁЯУЭ Practice Questions:

  1. Structured рдФрд░ Unstructured рдбреЗрдЯрд╛ рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
  2. Semi-structured рдбреЗрдЯрд╛ рдХреЗ 2 рдЙрджрд╛рд╣рд░рдг рджреАрдЬрд┐рдПред
  3. Numerical рдФрд░ Ordinal рдбреЗрдЯрд╛ рдореЗрдВ рдХреНрдпрд╛ рдлрд╝рд░реНрдХ рд╣реИ?
  4. Time Series рдбреЗрдЯрд╛ рдХрд┐рд╕ рдкреНрд░рдХрд╛рд░ рдХреЗ рдореЙрдбрд▓ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреБрдХреНрдд рд╣реИ?
  5. ChatGPT рдпрд╛ Alexa рдЬреИрд╕реЗ рдореЙрдбрд▓ рдХреМрди рд╕реЗ рдбреЗрдЯрд╛ рдкрд░ рдХрд╛рдо рдХрд░рддреЗ рд╣реИрдВ?