Hierarchical Clustering рдПрдХ рдРрд╕рд╛ algorithm рд╣реИ рдЬреЛ рдбреЗрдЯрд╛ рдХреЛ рдЫреЛрдЯреЗ clusters рд╕реЗ рд╢реБрд░реВ рдХрд░рдХреЗ рдзреАрд░реЗ-рдзреАрд░реЗ рдЙрдиреНрд╣реЗрдВ merge рдХрд░рддрд╛ рд╣реИ, рдЬрд┐рд╕рд╕реЗ рдПрдХ Tree-like Structure (Dendrogram) рдмрдирддрд╛ рд╣реИредрдпрд╣ Unsupervised Learning рдХрд╛ рдПрдХ рдФрд░ рдорд╣рддреНрд╡рдкреВрд░реНрдг algorithm рд╣реИ рдЬреЛ clustering рдХреЛ рд╕рднреА levels рдкрд░ hierarchical рд░реВрдк рдореЗрдВ рдХрд░рддрд╛ рд╣реИ:
рд╕реЛрдЪрд┐рдП:
рдкрд╣рд▓реЗ рд╡реНрдпрдХреНрддрд┐ рдХреЛ рдкрд░рд┐рд╡рд╛рд░реЛрдВ рдореЗрдВ рдмрд╛рдВрдЯрд╛ рдЧрдпрд╛ тЖТ рдлрд┐рд░ рдкрд░рд┐рд╡рд╛рд░ рдХреЛ рд╕рдорд╛рдЬреЛрдВ рдореЗрдВ тЖТ рдлрд┐рд░ рд╕рдорд╛рдЬ рдХреЛ рд░рд╛рдЬреНрдпреЛрдВ рдореЗрдВред
рдпрд╣реА рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ Hierarchical Clusteringред
ЁЯФ╢ Clustering Approaches:
| Method | Description |
|---|---|
| Agglomerative | Bottom-Up: рд╣рд░ point рдПрдХ cluster рд╕реЗ рд╢реБрд░реВ рдХрд░рддрд╛ рд╣реИ тЖТ рдлрд┐рд░ merge рд╣реЛрддреЗ рд╣реИрдВ |
| Divisive | Top-Down: рдкреВрд░рд╛ dataset рдПрдХ cluster рд╣реИ тЖТ рдлрд┐рд░ split рд╣реЛрддреЗ рд╣реИрдВ |
ЁЯСЙ рд╕рдмрд╕реЗ рд╕рд╛рдорд╛рдиреНрдп рддрд░реАрдХрд╛: Agglomerative Clustering
ЁЯза Algorithm Steps (Agglomerative):
- рд╣рд░ data point рдХреЛ рдПрдХ рдЕрд▓рдЧ cluster рдорд╛рдиреЛ
- Closest рджреЛ clusters рдХреЛ merge рдХрд░реЛ
- Distance matrix update рдХрд░реЛ
- Step 2 рдФрд░ 3 рдХреЛ рддрдм рддрдХ рджреЛрд╣рд░рд╛рдУ рдЬрдм рддрдХ рдПрдХ рд╣реА cluster рди рдмрдЪ рдЬрд╛рдП
ЁЯФН Linkage Criteria (рдХреНрд▓рд╕реНрдЯрд░реНрд╕ рдХреЗ рдмреАрдЪ рджреВрд░реА рдХреИрд╕реЗ рдорд╛рдкреЗрдВ?)
| Linkage Type | Definition |
|---|---|
| Single | Closest points рдХреЗ рдмреАрдЪ рдХреА рджреВрд░реА |
| Complete | Farthest points рдХреЗ рдмреАрдЪ рдХреА рджреВрд░реА |
| Average | рд╕рднреА pairwise distances рдХрд╛ average |
| Ward | Variance рдХреЛ minimize рдХрд░рддрд╛ рд╣реИ (default) |
ЁЯУР Distance Calculation:

тЬЕ Python Code (SciPy + Matplotlib):
import numpy as np
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage
# Sample Data
X = np.array([[1, 2],
[2, 3],
[5, 8],
[6, 9]])
# Step 1: Linkage matrix
Z = linkage(X, method='ward')
# Step 2: Dendrogram Plot
plt.figure(figsize=(8, 5))
dendrogram(Z, labels=["A", "B", "C", "D"])
plt.title("Hierarchical Clustering Dendrogram")
plt.xlabel("Data Points")
plt.ylabel("Distance")
plt.show()
ЁЯМ▓ Dendrogram рдХреНрдпрд╛ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ?
Dendrogram рдПрдХ tree diagram рд╣реЛрддрд╛ рд╣реИ рдЬреЛ рджрд┐рдЦрд╛рддрд╛ рд╣реИ рдХрд┐ рдХреИрд╕реЗ data points рдФрд░ clusters рдЖрдкрд╕ рдореЗрдВ рдЬреБрдбрд╝реЗ рд╣реБрдП рд╣реИрдВред
- Y-axis = merging distance
- Horizontal cuts = Desired number of clusters
тЬВя╕П рдЕрдЧрд░ рдЖрдк Y-axis рдкрд░ рдПрдХ horizontal рд▓рд╛рдЗрди рдЦреАрдВрдЪреЗрдВ тЖТ рдЖрдкрдХреЛ рдЕрд▓рдЧ-рдЕрд▓рдЧ clusters рдорд┐рд▓реЗрдВрдЧреЗред
ЁЯФз Clustering рдХрд╛ рдирд┐рд░реНрдорд╛рдг (sklearn):
from sklearn.cluster import AgglomerativeClustering
model = AgglomerativeClustering(n_clusters=2)
model.fit(X)
print("Cluster Labels:", model.labels_)
ЁЯФм Use Cases:
| рдХреНрд╖реЗрддреНрд░ | рдЙрджрд╛рд╣рд░рдг |
|---|---|
| Bioinformatics | Gene expression analysis |
| Marketing | Customer segmentation |
| Sociology | Social group formation |
| Document Analysis | Document/topic clustering |
тЪЦя╕П Pros & Cons:
тЬЕ рдлрд╛рдпрджреЗ:
- рдХреЛрдИ need рдирд╣реАрдВ рд╣реИ k (cluster count) рдХреЛ рдкрд╣рд▓реЗ рд╕реЗ рдЬрд╛рдирдиреЗ рдХреА
- Dendrogram рд╕реЗ cluster insights рдЖрд╕рд╛рдиреА рд╕реЗ рдорд┐рд▓рддреЗ рд╣реИрдВ
- Complex shape рд╡рд╛рд▓реЗ clusters рдХреЛ рднреА рдкрдХрдбрд╝ рд╕рдХрддрд╛ рд╣реИ
тЭМ рдиреБрдХрд╕рд╛рди:
- рдмрдбрд╝реЗ datasets рдкрд░ slow рд╣реЛрддрд╛ рд╣реИ
- Distance metrics рдФрд░ linkage method рдкрд░ рднрд╛рд░реА рдирд┐рд░реНрднрд░рддрд╛
- Non-scalable for huge data
ЁЯУК Summary Table:
| Feature | Hierarchical Clustering |
|---|---|
| Input | Only Features (No Labels) |
| Output | Cluster assignments + Dendrogram |
| Method | Agglomerative / Divisive |
| Speed | Slow (high computational cost) |
| Visualization | Dendrogram |
ЁЯУЭ Practice Questions:
- Hierarchical Clustering рдХреИрд╕реЗ рдХрд╛рд░реНрдп рдХрд░рддрд╛ рд╣реИ?
- Agglomerative vs Divisive clustering рдореЗрдВ рдХреНрдпрд╛ рдЕрдВрддрд░ рд╣реИ?
- Linkage criteria рдореЗрдВ Ward method рдХреНрдпреЛрдВ рдЙрдкрдпреЛрдЧреА рд╣реИ?
- Dendrogram рдХреИрд╕реЗ interpret рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ?
- рдХреНрдпрд╛ Hierarchical Clustering large datasets рдХреЗ рд▓рд┐рдП рдЙрдкрдпреБрдХреНрдд рд╣реИ?







