صفحه اصلیآموزش علم دادهخوشه‌ بندی سلسله‌ مراتبی (Hierarchical Clustering)

خوشه‌ بندی سلسله‌ مراتبی (Hierarchical Clustering)

خوشه‌ بندی سلسله‌ مراتبی یکی از روش‌های محبوب در هوش مصنوعی است که برای ساخت یک سلسله‌ مراتب از خوشه‌ها استفاده می‌شود. این مدل به دو دسته اصلی تقسیم می‌شود: خوشه‌ بندی تجمعی (Agglomerative) و خوشه‌بندی تجزیه‌ای (Divisive). در این مقاله، به بررسی این مدل و کاربردهای آن می‌پردازیم.

خوشه‌ بندی تجمعی (Agglomerative Clustering)

خوشه‌ بندی تجمعی یا پایین به بالا، با در نظر گرفتن هر نقطه داده به عنوان یک خوشه مستقل شروع می‌شود. سپس نزدیک‌ترین خوشه‌ها به هم ادغام می‌شوند تا زمانی که تمام نقاط داده در یک خوشه واحد قرار گیرند. فرآیند به این صورت است:

شروع با خوشه‌های تک نقطه‌ای:
هر نقطه داده به عنوان یک خوشه مجزا در نظر گرفته می‌شود.
ادغام خوشه‌های نزدیک:
نزدیک‌ترین خوشه‌ها به هم ادغام می‌شوند. این فرآیند تا زمانی ادامه می‌یابد که تمام نقاط داده در یک خوشه بزرگ قرار گیرند.

خوشه‌ بندی تجزیه‌ای (Divisive Clustering)

خوشه‌ بندی تجزیه‌ای یا بالا به پایین، با یک خوشه بزرگ شامل تمام نقاط داده شروع می‌شود و سپس به خوشه‌های کوچکتر تقسیم می‌شود. فرآیند به این صورت است:

شروع با یک خوشه بزرگ: تمام نقاط داده به عنوان یک خوشه واحد در نظر گرفته می‌شوند.
تقسیم خوشه: خوشه بزرگ به خوشه‌های کوچکتر تقسیم می‌شود تا زمانی که هر نقطه داده به عنوان یک خوشه مجزا در نظر گرفته شود.

معیارهای فاصله و روش‌های پیوند

برای اندازه‌گیری فاصله بین خوشه‌ها، معیارهای مختلفی استفاده می‌شود:

فاصله اقلیدسی (Euclidean Distance): فاصله مستقیم بین دو نقطه در فضا.
فاصله منهتن (Manhattan Distance): مجموع اختلافات مطلق مختصات.
شباهت کسینوسی (Cosine Similarity): کسینوس زاویه بین دو بردار.

روش‌های مختلفی نیز برای ادغام خوشه‌ها وجود دارد:

پیوند تک‌نقطه‌ای (Single Linkage): فاصله بین نزدیک‌ترین نقاط در دو خوشه.
پیوند کامل (Complete Linkage): فاصله بین دورترین نقاط در دو خوشه.
پیوند متوسط (Average Linkage): میانگین فاصله بین تمام نقاط در دو خوشه.
روش وارد (Ward’s Method): کمینه‌سازی واریانس داخل خوشه‌ها.

مزایا و معایب

مزایا:

ساده و قابل فهم: پیاده‌سازی و درک آن آسان است.
بدون نیاز به تعداد خوشه‌های مشخص: برخلاف روش‌های دیگر، نیازی به تعیین تعداد خوشه‌ها از پیش نیست.

معایب:

هزینه محاسباتی بالا: برای مجموعه داده‌های بزرگ، محاسبات سنگین است.
حساسیت به نویز و نقاط پرت: نتایج ممکن است با تغییرات کوچک در داده‌ها تغییر کند.

کاربردها

خوشه‌ بندی سلسله‌ مراتبی در زمینه‌های مختلفی از جمله زیست‌شناسی، پردازش متن، بازاریابی و پردازش تصویر کاربرد دارد. این مدل به دلیل ساختار سلسله‌مراتبی و قابلیت بصری‌سازی از طریق دندروگرام، برای تحلیل و تفسیر داده‌ها بسیار مفید است.

خوشه‌ بندی سلسله‌ مراتبی ابزاری قدرتمند برای کشف ساختارهای پنهان در داده‌هاست و با استفاده از آن می‌توان خوشه‌های معناداری در داده‌ها پیدا کرد.

با خدمات پلتفرم ژیر اشنایی داری؟

مطالب مرتبط

متریک دقت (Accuracy) در یادگیری ماشین

متریک دقت (Accuracy) در مدل های کلاسیفیکیشن یادگیری ماشین https://aparat.com/v/skn3np0https://aparat.com/v/skn3np0 متریک دقت (Accuracy) یکی از پرکاربردترین معیارها برای ارزیابی عملکرد …

2 دقیقه مطالعه مشاهده

مدل رگرسیون XGBoost: یک روش قدرتمند برای پیش‌بینی

https://aparat.com/v/mwgmxvphttps://aparat.com/v/mwgmxvp مدل رگرسیون XGBoost یکی از محبوب‌ترین و قدرتمندترین الگوریتم‌های یادگیری ماشین است که در مسائل مختلف پیش‌بینی و تحلیل …

2 دقیقه مطالعه مشاهده

رگرسیون جنگل تصادفی (Random Forest Regression)

https://aparat.com/v/aryt0zphttps://aparat.com/v/aryt0zp رگرسیون جنگل تصادفی (Random Forest Regression) یکی از الگوریتم‌های محبوب و کارآمد یادگیری ماشین است که برای پیش‌بینی متغیرهای …

2 دقیقه مطالعه مشاهده

دیدگاهتان را بنویسید لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

منو موبایل

خوشه‌ بندی سلسله‌ مراتبی (Hierarchical Clustering)

خوشه‌ بندی تجمعی (Agglomerative Clustering)

شروع با خوشه‌های تک نقطه‌ای:

ادغام خوشه‌های نزدیک:

خوشه‌ بندی تجزیه‌ای (Divisive Clustering)

معیارهای فاصله و روش‌های پیوند

مزایا و معایب

کاربردها

متریک دقت (Accuracy) در یادگیری ماشین

مدل رگرسیون XGBoost: یک روش قدرتمند برای پیش‌بینی

رگرسیون جنگل تصادفی (Random Forest Regression)

دیدگاهتان را بنویسید لغو پاسخ