عملیات OLAP | فصل 3 (بخش سوم)

مقدمه یک انبار داده باید از پرس‌وجوهای تحلیلی چندبعدی آنلاین پشتیبانی کند. در این بخش، مجموعه‌ای از عملیات معمول OLAP در انبارهای داده (بخش ۳.۳.۱) و نحوه فهرست‌بندی داده‌ها برای پشتیبانی از برخی پرس‌وجوهای OLAP (بخش ۳.۳.۲) را خواهید آموخت. یک مشکل مهم این است که چگونه می‌توان داده‌ها را به درستی ذخیره کرد تا […]

مدل‌سازی انبار داده: طرحواره و سنجه‌ها | فصل 3 (بخش دوم)

مقدمه همانطور که در بخش قبل بحث شد، یک انبار داده، داده‌های تاریخی و جاری را به شیوه‌ای موضوع‌گرا و غیرفرار ادغام می‌کند. مدل‌های داده‌ای که در انبارهای داده استفاده می‌شوند، داده‌ها را بر اساس موضوعات سازماندهی می‌کنند. در اینجا، یک موضوع، مانند مشتریان، توسط ابعادی مانند جنسیت، گروه سنی و شغل و سنجه‌هایی مانند […]

انبار داده و پردازش تحلیلی آنلاین | فصل 3 (بخش اول)

مقدمه تجزیه و تحلیل داده‌ها، که اغلب به عنوان هوش تجاری نیز شناخته می‌شود، استراتژی‌ها و فناوری‌هایی است که شرکت‌ها را قادر می‌سازد تا بینش عمیق و عملی در مورد داده‌های تجاری به دست آورند. داده‌کاوی نقش اصلی را در تجزیه و تحلیل داده‌ها و هوش تجاری ایفا می‌کند. اساساً، انبارهای داده، داده‌ها را در […]

داده‌کاوی

کتاب داده‌کاوی – Data Mining در دنیای امروز که حجم داده‌ها به‌سرعت در حال رشد است، تبدیل داده‌های خام به دانش ارزشمند ضروری است. داده‌کاوی، فرآیند کشف الگوها، مدل‌ها و دانش ارزشمند در مجموعه داده‌های بزرگ است و ابزار اصلی این کار محسوب می‌شود.کتاب «داده‌کاوی»، یک منبع جامع و آموزشی در زمینهٔ داده‌کاوی است. این […]

کاهش ابعاد | فصل 2 (بخش ششم)

مقدمه کاهش ابعاد فرآیند کاهش تعداد متغیرهای تصادفی یا ویژگی‌ها یا ویژگی‌های مورد بررسی است. روش‌های کاهش ابعاد شامل تحلیل مؤلفه‌های اصلی (PCA) (بخش ۲.۶.۱) است که یک روش خطی است که داده‌های اصلی را به فضای کوچک‌تری تبدیل یا تصویر می‌کند. انتخاب زیرمجموعه ویژگی روشی برای کاهش ابعاد است که در آن ویژگی‌ها یا […]

تبدیل داده‌ها | فصل 2 (بخش پنجم)

مقدمه در تبدیل داده‌ها، داده‌ها به اشکال مناسب برای کاوش تبدیل یا تجمیع می‌شوند. از طریق تبدیل مناسب داده‌ها، فرآیند کاوش حاصل ممکن است کارآمدتر باشد و الگوهای یافت‌شده ممکن است آسان‌تر قابل درک باشند. استراتژی‌های مختلفی برای تبدیل داده‌ها توسعه داده شده است. در این بخش، با معرفی نرمال‌سازی داده‌ها (بخش ۲.۵.۱) شروع می‌کنیم، […]

کیفیت، پاکسازی و یکپارچه‌سازی داده‌ها | فصل 2 (بخش چهارم)

مقدمه در این بخش، با بحث در مورد معیارهای کیفیت داده‌ها (بخش ۲.۴.۱) شروع می‌کنیم. سپس، تکنیک‌های رایج برای پاکسازی داده‌ها (بخش ۲.۴.۲) و یکپارچه‌سازی داده‌ها (بخش ۲.۴.۳) را معرفی می‌کنیم. معیارهای کیفیت داده‌ها داده‌ها در صورتی کیفیت دارند که الزامات کاربرد مورد نظر را برآورده کنند. عوامل زیادی شامل کیفیت داده‌ها می‌شوند، از جمله […]

معیارهای شباهت و فاصله | فصل 2 (بخش سوم)

مقدمه در کاربردهای داده‌کاوی، مانند خوشه‌بندی، تحلیل داده‌های پرت و طبقه‌بندی نزدیکترین همسایه، به روش‌هایی برای ارزیابی میزان شباهت یا عدم شباهت اشیاء در مقایسه با یکدیگر نیاز داریم. به عنوان مثال، یک فروشگاه ممکن است بخواهد خوشه‌هایی از اشیاء مشتری را جستجو کند که منجر به گروه‌هایی از مشتریان با ویژگی‌های مشابه (مثلاً درآمد، […]

آمار داده‌ها | فصل 2 (بخش دوم)

مقدمه برای موفقیت‌آمیز بودن پیش‌پردازش داده‌ها، داشتن یک تصویر کلی از داده‌هایتان ضروری است. توصیفات آماری پایه می‌توانند برای شناسایی ویژگی‌های داده‌ها و برجسته کردن اینکه کدام مقادیر داده باید به عنوان نویز یا داده‌های پرت در نظر گرفته شوند، استفاده شوند. این بخش سه حوزه از توصیفات آماری پایه را مورد بحث قرار می‌دهد. […]

داده‌ها، اندازه‌گیری‌ها و پیش‌پردازش داده‌ها | فصل 2 (بخش اول)

مقدمه برای انجام داده‌کاوی موفق، اولین نکته مهم آشنایی با داده‌هایتان است. شاید بخواهید موارد زیر را بدانید: انواع ویژگی‌ها یا فیلدهایی که داده‌های شما را تشکیل می‌دهند چیست؟ هر ویژگی چه نوع مقادیری دارد؟ توزیع مقادیر چگونه است؟ چگونه می‌توانیم شباهت برخی از اشیاء داده را نسبت به سایرین اندازه‌گیری کنیم؟ کسب چنین بینشی […]