کیفیت، پاکسازی و یکپارچه‌سازی داده‌ها | فصل 2 (بخش چهارم)

مقدمه در این بخش، با بحث در مورد معیارهای کیفیت داده‌ها (بخش ۲.۴.۱) شروع می‌کنیم. سپس، تکنیک‌های رایج برای پاکسازی داده‌ها (بخش ۲.۴.۲) و یکپارچه‌سازی داده‌ها (بخش ۲.۴.۳) را معرفی می‌کنیم. معیارهای کیفیت داده‌ها داده‌ها در صورتی کیفیت دارند که الزامات کاربرد مورد نظر را برآورده کنند. عوامل زیادی شامل کیفیت داده‌ها می‌شوند، از جمله […]

معیارهای شباهت و فاصله | فصل 2 (بخش سوم)

مقدمه در کاربردهای داده‌کاوی، مانند خوشه‌بندی، تحلیل داده‌های پرت و طبقه‌بندی نزدیکترین همسایه، به روش‌هایی برای ارزیابی میزان شباهت یا عدم شباهت اشیاء در مقایسه با یکدیگر نیاز داریم. به عنوان مثال، یک فروشگاه ممکن است بخواهد خوشه‌هایی از اشیاء مشتری را جستجو کند که منجر به گروه‌هایی از مشتریان با ویژگی‌های مشابه (مثلاً درآمد، […]

آمار داده‌ها | فصل 2 (بخش دوم)

مقدمه برای موفقیت‌آمیز بودن پیش‌پردازش داده‌ها، داشتن یک تصویر کلی از داده‌هایتان ضروری است. توصیفات آماری پایه می‌توانند برای شناسایی ویژگی‌های داده‌ها و برجسته کردن اینکه کدام مقادیر داده باید به عنوان نویز یا داده‌های پرت در نظر گرفته شوند، استفاده شوند. این بخش سه حوزه از توصیفات آماری پایه را مورد بحث قرار می‌دهد. […]

داده‌ها، اندازه‌گیری‌ها و پیش‌پردازش داده‌ها | فصل 2 (بخش اول)

مقدمه برای انجام داده‌کاوی موفق، اولین نکته مهم آشنایی با داده‌هایتان است. شاید بخواهید موارد زیر را بدانید: انواع ویژگی‌ها یا فیلدهایی که داده‌های شما را تشکیل می‌دهند چیست؟ هر ویژگی چه نوع مقادیری دارد؟ توزیع مقادیر چگونه است؟ چگونه می‌توانیم شباهت برخی از اشیاء داده را نسبت به سایرین اندازه‌گیری کنیم؟ کسب چنین بینشی […]

داده‌کاوی: تلاقی رشته‌های مختلف | فصل 1 (بخش سوم)

مقدمه به عنوان رشته‌ای که روش‌های کارآمد و مؤثر برای کشف الگوها و دانش از انواع مختلف مجموعه داده‌های عظیم برای بسیاری از کاربردها را مطالعه می‌کند، داده‌کاوی به طور طبیعی تلاقی رشته‌های مختلف از جمله یادگیری ماشین، آمار، تشخیص الگو، پردازش زبان طبیعی، فناوری پایگاه داده، تجسم و تعامل انسان و کامپیوتر (HCI)، الگوریتم‌ها، […]

وظایف داده‌کاوی | فصل 1 (بخش دوم)

استخراج انواع مختلف دانش انواع مختلفی از الگوها و دانش را می‌توان از طریق داده‌کاوی کشف کرد. به طور کلی، وظایف داده‌کاوی را می‌توان در دو دسته قرار داد: داده‌کاوی توصیفی و داده‌کاوی پیش‌بینی‌کننده. داده‌کاوی توصیفی ویژگی‌های مجموعه داده‌های مورد نظر را مشخص می‌کند، در حالی که داده‌کاوی پیش‌بینی‌کننده، استقراء را روی مجموعه داده‌ها انجام […]

داده‌کاوی چیست؟ | فصل 1 (بخش اول)

مقدمه ضرورت، مادر اختراع است. – افلاطون ما در جهانی زندگی می‌کنیم که حجم عظیمی از داده‌ها به طور مداوم و سریع تولید می‌شوند. “ما در عصر اطلاعات زندگی می‌کنیم” یک ضرب‌المثل رایج است؛ با این حال، ما در واقع در عصر داده‌ها زندگی می‌کنیم. ترابایت‌ها یا پتابایت‌ها داده هر روز از کسب‌وکار، آژانس‌های خبری، […]