خوشه بندی سلسله مراتبی (Hierarchical Clustering)
خوشه بندی سلسله مراتبی یکی از روشهای محبوب در هوش مصنوعی است که برای ساخت یک سلسله مراتب از خوشهها استفاده میشود. این مدل به دو دسته اصلی تقسیم میشود: خوشه بندی تجمعی (Agglomerative) و خوشهبندی تجزیهای (Divisive). در این مقاله، به بررسی این مدل و کاربردهای آن میپردازیم.
خوشه بندی تجمعی (Agglomerative Clustering)
خوشه بندی تجمعی یا پایین به بالا، با در نظر گرفتن هر نقطه داده به عنوان یک خوشه مستقل شروع میشود. سپس نزدیکترین خوشهها به هم ادغام میشوند تا زمانی که تمام نقاط داده در یک خوشه واحد قرار گیرند. فرآیند به این صورت است:
شروع با خوشههای تک نقطهای:
هر نقطه داده به عنوان یک خوشه مجزا در نظر گرفته میشود.
ادغام خوشههای نزدیک:
نزدیکترین خوشهها به هم ادغام میشوند. این فرآیند تا زمانی ادامه مییابد که تمام نقاط داده در یک خوشه بزرگ قرار گیرند.
خوشه بندی تجزیهای (Divisive Clustering)
خوشه بندی تجزیهای یا بالا به پایین، با یک خوشه بزرگ شامل تمام نقاط داده شروع میشود و سپس به خوشههای کوچکتر تقسیم میشود. فرآیند به این صورت است:
- شروع با یک خوشه بزرگ: تمام نقاط داده به عنوان یک خوشه واحد در نظر گرفته میشوند.
- تقسیم خوشه: خوشه بزرگ به خوشههای کوچکتر تقسیم میشود تا زمانی که هر نقطه داده به عنوان یک خوشه مجزا در نظر گرفته شود.
معیارهای فاصله و روشهای پیوند
برای اندازهگیری فاصله بین خوشهها، معیارهای مختلفی استفاده میشود:
- فاصله اقلیدسی (Euclidean Distance): فاصله مستقیم بین دو نقطه در فضا.
- فاصله منهتن (Manhattan Distance): مجموع اختلافات مطلق مختصات.
- شباهت کسینوسی (Cosine Similarity): کسینوس زاویه بین دو بردار.
روشهای مختلفی نیز برای ادغام خوشهها وجود دارد:
- پیوند تکنقطهای (Single Linkage): فاصله بین نزدیکترین نقاط در دو خوشه.
- پیوند کامل (Complete Linkage): فاصله بین دورترین نقاط در دو خوشه.
- پیوند متوسط (Average Linkage): میانگین فاصله بین تمام نقاط در دو خوشه.
- روش وارد (Ward’s Method): کمینهسازی واریانس داخل خوشهها.
مزایا و معایب
مزایا:
- ساده و قابل فهم: پیادهسازی و درک آن آسان است.
- بدون نیاز به تعداد خوشههای مشخص: برخلاف روشهای دیگر، نیازی به تعیین تعداد خوشهها از پیش نیست.
معایب:
- هزینه محاسباتی بالا: برای مجموعه دادههای بزرگ، محاسبات سنگین است.
- حساسیت به نویز و نقاط پرت: نتایج ممکن است با تغییرات کوچک در دادهها تغییر کند.
کاربردها
خوشه بندی سلسله مراتبی در زمینههای مختلفی از جمله زیستشناسی، پردازش متن، بازاریابی و پردازش تصویر کاربرد دارد. این مدل به دلیل ساختار سلسلهمراتبی و قابلیت بصریسازی از طریق دندروگرام، برای تحلیل و تفسیر دادهها بسیار مفید است.
خوشه بندی سلسله مراتبی ابزاری قدرتمند برای کشف ساختارهای پنهان در دادههاست و با استفاده از آن میتوان خوشههای معناداری در دادهها پیدا کرد.
با خدمات پلتفرم ژیر اشنایی داری؟
مدل رگرسیون Elastic Net
https://aparat.com/v/xguyz7chttps://aparat.com/v/xguyz7c مدل رگرسیون Elastic Net یا شبکه الاستیک یکی از روشهای پرکاربرد در یادگیری ماشین است که برای حل مشکلات …
معرفی مدل Lasso Regression
https://aparat.com/v/bquvzg4https://aparat.com/v/bquvzg4 مدل Lasso Regression یکی از تکنیکهای رگرسیون خطی است که به منظور حل مشکلات دادههای بزرگ و جلوگیری از …
مقدمهای بر رگرسیون Ridge
https://aparat.com/v/qhbw8wdhttps://aparat.com/v/qhbw8wd رگرسیون Ridge یکی از انواع مدلهای رگرسیون خطی است که به منظور بهبود عملکرد مدل و جلوگیری از بیشبرازش …