کیفیت، پاکسازی و یکپارچهسازی دادهها | فصل 2 (بخش چهارم)
مقدمه در این بخش، با بحث در مورد معیارهای کیفیت دادهها (بخش ۲.۴.۱) شروع میکنیم. سپس، تکنیکهای رایج برای پاکسازی دادهها (بخش ۲.۴.۲) و یکپارچهسازی دادهها (بخش ۲.۴.۳) را معرفی میکنیم. معیارهای کیفیت دادهها دادهها در صورتی کیفیت دارند که الزامات کاربرد مورد نظر را برآورده کنند. عوامل زیادی شامل کیفیت دادهها میشوند، از جمله […]
معیارهای شباهت و فاصله | فصل 2 (بخش سوم)
مقدمه در کاربردهای دادهکاوی، مانند خوشهبندی، تحلیل دادههای پرت و طبقهبندی نزدیکترین همسایه، به روشهایی برای ارزیابی میزان شباهت یا عدم شباهت اشیاء در مقایسه با یکدیگر نیاز داریم. به عنوان مثال، یک فروشگاه ممکن است بخواهد خوشههایی از اشیاء مشتری را جستجو کند که منجر به گروههایی از مشتریان با ویژگیهای مشابه (مثلاً درآمد، […]
آمار دادهها | فصل 2 (بخش دوم)
مقدمه برای موفقیتآمیز بودن پیشپردازش دادهها، داشتن یک تصویر کلی از دادههایتان ضروری است. توصیفات آماری پایه میتوانند برای شناسایی ویژگیهای دادهها و برجسته کردن اینکه کدام مقادیر داده باید به عنوان نویز یا دادههای پرت در نظر گرفته شوند، استفاده شوند. این بخش سه حوزه از توصیفات آماری پایه را مورد بحث قرار میدهد. […]
دادهها، اندازهگیریها و پیشپردازش دادهها | فصل 2 (بخش اول)
مقدمه برای انجام دادهکاوی موفق، اولین نکته مهم آشنایی با دادههایتان است. شاید بخواهید موارد زیر را بدانید: انواع ویژگیها یا فیلدهایی که دادههای شما را تشکیل میدهند چیست؟ هر ویژگی چه نوع مقادیری دارد؟ توزیع مقادیر چگونه است؟ چگونه میتوانیم شباهت برخی از اشیاء داده را نسبت به سایرین اندازهگیری کنیم؟ کسب چنین بینشی […]
دادهکاوی: تلاقی رشتههای مختلف | فصل 1 (بخش سوم)
مقدمه به عنوان رشتهای که روشهای کارآمد و مؤثر برای کشف الگوها و دانش از انواع مختلف مجموعه دادههای عظیم برای بسیاری از کاربردها را مطالعه میکند، دادهکاوی به طور طبیعی تلاقی رشتههای مختلف از جمله یادگیری ماشین، آمار، تشخیص الگو، پردازش زبان طبیعی، فناوری پایگاه داده، تجسم و تعامل انسان و کامپیوتر (HCI)، الگوریتمها، […]
وظایف دادهکاوی | فصل 1 (بخش دوم)
استخراج انواع مختلف دانش انواع مختلفی از الگوها و دانش را میتوان از طریق دادهکاوی کشف کرد. به طور کلی، وظایف دادهکاوی را میتوان در دو دسته قرار داد: دادهکاوی توصیفی و دادهکاوی پیشبینیکننده. دادهکاوی توصیفی ویژگیهای مجموعه دادههای مورد نظر را مشخص میکند، در حالی که دادهکاوی پیشبینیکننده، استقراء را روی مجموعه دادهها انجام […]
دادهکاوی چیست؟ | فصل 1 (بخش اول)
مقدمه ضرورت، مادر اختراع است. – افلاطون ما در جهانی زندگی میکنیم که حجم عظیمی از دادهها به طور مداوم و سریع تولید میشوند. “ما در عصر اطلاعات زندگی میکنیم” یک ضربالمثل رایج است؛ با این حال، ما در واقع در عصر دادهها زندگی میکنیم. ترابایتها یا پتابایتها داده هر روز از کسبوکار، آژانسهای خبری، […]