مقدمه
برای انجام دادهکاوی موفق، اولین نکته مهم آشنایی با دادههایتان است. شاید بخواهید موارد زیر را بدانید: انواع ویژگیها یا فیلدهایی که دادههای شما را تشکیل میدهند چیست؟ هر ویژگی چه نوع مقادیری دارد؟ توزیع مقادیر چگونه است؟ چگونه میتوانیم شباهت برخی از اشیاء داده را نسبت به سایرین اندازهگیری کنیم؟ کسب چنین بینشی در مورد دادهها به تجزیه و تحلیل بعدی کمک خواهد کرد. علاوه بر این، دادههای دنیای واقعی معمولاً پر سر و صدا، حجم بسیار زیادی (اغلب چندین گیگابایت یا بیشتر) دارند و ممکن است از مجموعهای از منابع ناهمگن سرچشمه بگیرند. چگونه میتوانیم کیفیت دادهها را اندازهگیری کنیم؟ چطور میتوانیم دادهها را از چندین منبع ناهمگن تمیز و ادغام کنیم؟ چگونه میتوانیم دادهها را نرمالسازی، فشردهسازی یا تبدیل کنیم؟ چطور میتوانیم ابعاد دادهها را برای کمک به تجزیه و تحلیل بعدی کاهش دهیم؟ اینها وظایف این فصل هستند.
در بخش 2.1 با مطالعه انواع مختلف ویژگیها شروع میکنیم. این ویژگیها شامل ویژگیهای اسمی، ویژگیهای دودویی، ویژگیهای ترتیبی و ویژگیهای عددی هستند. همانطور که در بخش 2.2 توضیح داده شده است، میتوان از توصیفات آماری پایه برای کسب اطلاعات بیشتر در مورد مقادیر هر ویژگی استفاده کرد. برای مثال، با توجه به یک ویژگی دما، میتوانیم میانگین (مقدار متوسط)، میانه (مقدار میانی) و مد (متداولترین مقدار) آن را تعیین کنیم. اینها معیارهای گرایش مرکزی هستند که به ما ایدهای از «میانه» یا مرکز توزیع میدهند. دانستن چنین آمار پایهای در مورد هر ویژگی، پر کردن مقادیر گمشده، هموار کردن مقادیر نویزی و تشخیص نقاط پرت در طول پیشپردازش دادهها را آسانتر میکند.
آگاهی از ویژگیها و مقادیر ویژگی همچنین میتواند به رفع ناسازگاریهای ایجاد شده در طول ادغام دادهها کمک کند. رسم معیارهای گرایش مرکزی به ما نشان میدهد که آیا دادهها متقارن یا کج هستند. نمودارهای چندکی، هیستوگرامها و نمودارهای پراکندگی، نمایشهای گرافیکی دیگری از توصیفات آماری پایه هستند. همه اینها میتوانند در طول پیشپردازش دادهها مفید باشند و میتوانند بینشی در مورد حوزههای کاوش ارائه دهند.
همچنین ممکن است بخواهیم بررسی کنیم که اشیاء داده چقدر مشابه (یا متفاوت) هستند. به عنوان مثال، فرض کنید پایگاه دادهای داریم که در آن اشیاء داده، بیماران هستند که با علائم آنها توصیف میشوند. ممکن است بخواهیم شباهت یا عدم شباهت بین بیماران منفرد را پیدا کنیم. چنین اطلاعاتی میتواند به ما امکان دهد خوشههایی از بیماران مشابه را در مجموعه دادهها پیدا کنیم. شباهت (یا عدم شباهت) بین اشیاء همچنین میتواند برای تشخیص دادههای پرت در دادهها یا انجام طبقهبندی نزدیکترین همسایه استفاده شود. معیارهای زیادی برای ارزیابی شباهت و عدم شباهت وجود دارد. به طور کلی، چنین معیارهایی به عنوان معیارهای نزدیکی شناخته میشوند. نزدیکی دو شیء را به عنوان تابعی از فاصله بین مقادیر ویژگی آنها در نظر بگیرید، اگرچه نزدیکی را میتوان بر اساس احتمالات به جای فاصله واقعی نیز محاسبه کرد. معیارهای نزدیکی دادهها در بخش 2.3 شرح داده شدهاند.
در نهایت، ما در مورد پیشپردازش دادهها بحث خواهیم کرد، که برای پرداختن به چالشهای دنیای واقعی امروز است: مجموعه دادهها به دلیل اندازه معمولاً بزرگ و منشأ احتمالی آنها از منابع متعدد و ناهمگن، به شدت مستعد دادههای نویزی، گمشده و متناقض هستند. دادههای با کیفیت پایین منجر به نتایج کاوش با کیفیت پایین میشوند. تلاشهای زیادی برای پیشپردازش دادهها باید انجام شود تا کیفیت دادهها برای کاوش مؤثر افزایش یابد.
بخش 2.4 در مورد پاکسازی دادهها و ادغام دادهها است. مورد اول حذف نویز و اصلاح ناسازگاریها در دادهها است، در حالی که مورد دوم ادغام دادهها از منابع متعدد در یک مخزن داده منسجم مانند انبار داده است. بخش ۲.۵ در مورد تبدیل دادهها است که دادهها را به اشکال مناسب برای کاوش تبدیل یا تجمیع میکند. به عبارت دیگر، میتواند فرآیند کاوش حاصل را کارآمدتر کند و الگوهای یافت شده را آسانتر درک کند. استراتژیهای مختلفی برای تبدیل دادهها توسعه داده شده است. به عنوان مثال، نرمالسازی دادهها، دادههای ویژگی را در محدوده کوچکتری مانند ۰.۰ تا ۱.۰ قرار میدهد؛ گسستهسازی دادهها، مقادیر خام یک ویژگی عددی را با برچسبهای فاصلهای یا برچسبهای مفهومی جایگزین میکند؛ و تکنیکهای کاهش داده (به عنوان مثال، فشردهسازی و نمونهبرداری) دادههای ورودی را به یک نمایش کاهشیافته تبدیل میکنند و میتوانند دقت و کارایی الگوریتمهای کاوش شامل اندازهگیریهای فاصله را بهبود بخشند.
در نهایت، بخش ۲.۶ در مورد کاهش ابعاد است که فرآیند کاهش تعداد متغیرهای تصادفی یا ویژگیهای مورد بررسی است. لطفاً توجه داشته باشید که تکنیکهای مختلف پیشپردازش دادهها متقابلاً منحصر به فرد نیستند؛ آنها ممکن است با هم کار کنند. برای مثال، پاکسازی دادهها میتواند شامل تبدیلهایی برای اصلاح دادههای اشتباه باشد، مانند تبدیل تمام ورودیهای یک فیلد تاریخ به یک قالب مشترک.
انواع دادهها
مجموعه دادهها از اشیاء داده تشکیل شدهاند. یک شیء داده نشاندهنده یک موجودیت است – در یک پایگاه داده فروش، اشیاء ممکن است مشتریان، اقلام فروشگاه و فروش باشند؛ در یک پایگاه داده پزشکی، اشیاء ممکن است بیماران باشند؛ در یک پایگاه داده دانشگاه، اشیاء ممکن است دانشجویان، اساتید و دورهها باشند. اشیاء داده معمولاً توسط ویژگیها توصیف میشوند. اشیاء داده همچنین میتوانند به عنوان نمونهها، مثالها، نمونهها، نقاط داده یا اشیاء نامیده شوند. اگر اشیاء داده در یک پایگاه داده ذخیره شوند، آنها تاپلهای داده هستند. یعنی ردیفهای یک پایگاه داده مربوط به اشیاء داده و ستونها مربوط به ویژگیها هستند. در این بخش، ویژگیها را تعریف میکنیم و به انواع مختلف ویژگی نگاه میکنیم.
ویژگی چیست؟ یک ویژگی یک فیلد داده است که نشاندهنده یک ویژگی یا ویژگی از یک شیء داده است. اسمهای ویژگی، بُعد، ویژگی و متغیر اغلب در ادبیات به جای یکدیگر استفاده میشوند. اصطلاح بُعد معمولاً در انبار دادهها استفاده میشود. ادبیات یادگیری ماشین تمایل دارد از اصطلاح ویژگی استفاده کند، در حالی که آمارشناسان اصطلاح متغیر را ترجیح میدهند. متخصصان دادهکاوی و پایگاه داده معمولاً از اصطلاح ویژگی استفاده میکنند و ما نیز در اینجا همین کار را میکنیم. ویژگیهایی که یک شیء مشتری را توصیف میکنند، میتوانند شامل مواردی مانند شماره مشتری، نام و آدرس باشند. مقادیر مشاهده شده برای یک ویژگی معین، مشاهدات نامیده میشوند. مجموعهای از ویژگیهایی که برای توصیف یک شیء معین استفاده میشوند، بردار ویژگی (یا بردار ویژگی) نامیده میشوند. توزیع دادههایی که شامل یک ویژگی (یا متغیر) هستند، تک متغیره نامیده میشود. توزیع دو متغیره شامل دو ویژگی و غیره است.
نوع یک ویژگی توسط مجموعهای از مقادیر ممکن – اسمی، دودویی، ترتیبی یا عددی – که آن ویژگی میتواند داشته باشد، تعیین میشود. در زیربخشهای بعدی، هر نوع را معرفی میکنیم.
ویژگیهای اسمی
اسمی به معنای “مربوط به نامها” است. مقادیر یک ویژگی اسمی، نمادها یا نامهای چیزها هستند. هر مقدار نشان دهنده نوعی دسته، کد یا حالت است و بنابراین به ویژگیهای اسمی، دستهبندی نیز گفته میشود. مقادیر هیچ ترتیب معناداری ندارند. در علم کامپیوتر، مقادیر به عنوان شمارش نیز شناخته میشوند.
مثال 2.1. ویژگیهای اسمی. فرض کنید که رنگ مو و وضعیت زناشویی دو ویژگی هستند که اشیاء شخص را توصیف میکنند. در برنامه ما، مقادیر ممکن برای رنگ مو عبارتند از مشکی، قهوهای، بور، قرمز، خرمایی، خاکستری و سفید. ویژگی وضعیت زناشویی میتواند مقادیر مجرد، متأهل، مطلقه،و بیوه. هر دو صفت hair_color و latus صفات اسمی هستند. مثال دیگری از صفت اسمی، شغل است که مقادیر آن معلم، دندانپزشک، برنامهنویس، کشاورز و غیره است. اگرچه گفتیم که مقادیر یک صفت اسمی نمادها یا «نام چیزها» هستند، اما میتوان چنین نمادها یا «نامهایی» را با اعداد نمایش داد.
به عنوان مثال، با صفت hair_color میتوانیم کد ۰ را برای رنگ مشکی، ۱ را برای رنگ قهوهای و غیره اختصاص دهیم. مثال دیگر customer_ID است که مقادیر ممکن همگی عددی هستند. با این حال، در چنین مواردی، اعداد برای استفاده کمی در نظر گرفته نمیشوند. یعنی عملیات ریاضی روی مقادیر صفات اسمی معنادار نیستند. کم کردن یک شماره شناسه مشتری از شماره شناسه مشتری دیگر، برخلاف مثلاً کم کردن مقدار سن از دیگری (که در آن سن یک صفت عددی است)، منطقی نیست. اگرچه یک صفت اسمی ممکن است اعداد صحیح به عنوان مقادیر داشته باشد، اما یک صفت عددی محسوب نمیشود زیرا اعداد صحیح برای استفاده کمی در نظر گرفته نشدهاند. در بخش ۲.۱.۴ بیشتر در مورد ویژگیهای عددی صحبت خواهیم کرد.
از آنجا که مقادیر ویژگیهای اسمی هیچ ترتیب معناداری در مورد خود ندارند و کمی نیستند، یافتن مقدار میانگین (میانگین) یا مقدار میانه (میانه) برای چنین ویژگیای، با توجه به مجموعهای از اشیاء، منطقی نیست. با این حال، نکتهای که مورد توجه است، رایجترین مقدار آن ویژگی است. این مقدار که به عنوان مد شناخته میشود، یکی از معیارهای گرایش مرکزی است. در بخش ۲.۲ در مورد معیارهای گرایش مرکزی خواهید آموخت.
ویژگیهای دودویی
یک ویژگی دودویی، یک ویژگی اسمی است که فقط دو دسته یا حالت دارد: ۰ یا ۱، که در آن ۰ معمولاً به معنای عدم وجود ویژگی و ۱ به معنای وجود آن است. اگر دو حالت با درست و نادرست مطابقت داشته باشند، به ویژگیهای دودویی بولی گفته میشود.
مثال ۲.۲. ویژگیهای دودویی. با توجه به ویژگی smoker که یک شیء بیمار را توصیف میکند، ۱ نشان میدهد که بیمار سیگار میکشد، در حالی که ۰ نشان میدهد که بیمار سیگار نمیکشد. به طور مشابه، فرض کنید بیمار تحت یک آزمایش پزشکی قرار میگیرد که دو نتیجه ممکن دارد. ویژگی medical_test دودویی است، که در آن مقدار ۱ به معنای مثبت بودن نتیجه آزمایش برای بیمار است، در حالی که ۰ به معنای منفی بودن نتیجه است.
یک ویژگی دودویی متقارن است اگر هر دو حالت آن به یک اندازه ارزشمند باشند و وزن یکسانی داشته باشند؛ یعنی هیچ ترجیحی در مورد اینکه کدام نتیجه باید به صورت ۰ یا ۱ کدگذاری شود، وجود ندارد. یکی از این مثالها میتواند ویژگی جنسیت باشد که حالتهای مرد و زن را دارد.
یک ویژگی دودویی نامتقارن است اگر نتایج حالتها به یک اندازه مهم نباشند، مانند نتایج مثبت و منفی یک آزمایش پزشکی برای HIV. طبق قرارداد، ما مهمترین نتیجه را که معمولاً نادرتر است، با ۱ (مثلاً HIV مثبت) و دیگری را با ۰ (مثلاً HIV منفی) کدگذاری میکنیم.
محاسبه شباهتها بین اشیاء شامل ویژگیهای دودویی متقارن و نامتقارن در بخش بعدی این فصل مورد بحث قرار خواهد گرفت.
ویژگیهای ترتیبی
یک ویژگی ترتیبی، ویژگیای با مقادیر ممکن است که ترتیب یا رتبهبندی معناداری بین آنها وجود دارد، اما بزرگی بین مقادیر متوالی مشخص نیست.
مثال ۲.۳. ویژگیهای ترتیبی. فرض کنید drink_size مربوط به اندازه نوشیدنیهای موجود در یک رستوران فست فود باشد. این ویژگی اسمی سه مقدار ممکن دارد: کوچک، متوسط و بزرگ.
مقادیر دارای توالی معناداری هستند (که مربوط به افزایش اندازه نوشیدنی است)؛ با این حال، ما نمیتوانیم از روی مقادیر بگوییم که مثلاً یک بزرگ چقدر بزرگتر از یک متوسط است. نمونههای دیگر از ویژگیهای ترتیبی شامل درجه (مثلاً A، A، A، B و غیره) و رتبه حرفهای است. رتبههای حرفهای را میتوان به ترتیب متوالی برشمرد: به عنوان مثال، دستیار، دانشیار و تمام برای اساتید، و خصوصی، خصوصی درجه دو، خصوصی درجه یک، متخصص، سرجوخه، گروهبان، … برای درجات ارتش.
ویژگیهای ترتیبی برای ثبت ارزیابیهای ذهنی از کیفیتهایی که نمیتوان به صورت عینی اندازهگیری کرد، مفید هستند. بنابراین، ویژگیهای ترتیبی اغلب در نظرسنجیها برای رتبهبندی استفاده میشوند. در یک نظرسنجی، از شرکتکنندگان خواسته شد تا میزان رضایت خود را به عنوان مشتری ارزیابی کنند. رضایت مشتری دارای دستههای ترتیبی زیر بود: ۱: بسیار ناراضی، ۲: ناراضی، ۳: خنثی، ۴: راضی و ۵: بسیار راضی. ویژگیهای ترتیبی را میتوان از گسستهسازی کمیتهای عددی با تقسیم محدوده مقادیر به تعداد محدودی از دستههای مرتب، همانطور که در بخش بعدی در مورد کاهش دادهها توضیح داده شده است، نیز بدست آورد.
گرایش مرکزی یک ویژگی ترتیبی را میتوان با مد و میانه آن (مقدار میانی در یک دنباله مرتب) نشان داد، اما میانگین را نمیتوان تعریف کرد.
توجه داشته باشید که ویژگیهای اسمی، دودویی و ترتیبی کیفی هستند. یعنی، آنها یک ویژگی از یک شیء را بدون ارائه اندازه یا کمیت واقعی توصیف میکنند. مقادیر چنین ویژگیهای کیفی معمولاً کلماتی هستند که نشاندهنده دستهها هستند. اگر از اعداد صحیح استفاده شود، آنها کدهای کامپیوتری را برای دستهها نشان میدهند، برخلاف مقادیر قابل اندازهگیری (مثلاً 0 برای اندازه نوشیدنی کوچک، 1 برای متوسط و 2 برای بزرگ). در زیربخش بعدی، به ویژگیهای عددی میپردازیم که اندازهگیریهای کمی از یک شیء را ارائه میدهند.
ویژگیهای عددی
یک ویژگی عددی کمی است؛ یعنی یک کمیت قابل اندازهگیری است که با مقادیر صحیح یا واقعی نشان داده میشود و میتوانند مقیاس بازه ای یا مقیاس نسبتی باشند.
ویژگیهای مقیاس بازهای
ویژگیهای مقیاس بازهای در مقیاسی از واحدهای با اندازه مساوی اندازهگیری میشوند. مقادیر ویژگیهای مقیاس بازه ای دارای ترتیب هستند و میتوانند مثبت، صفر یا منفی باشند. بنابراین، علاوه بر ارائه رتبهبندی مقادیر، چنین ویژگیهایی به ما امکان مقایسه و تعیین کمیت تفاوت بین مقادیر را میدهند.
مثال ۲.۴. ویژگیهای مقیاس بازهای. یک ویژگی دما مقیاس بازه ای است. فرض کنید مقادیر دمای بیرون را برای تعدادی از روزهای مختلف داریم که هر روز یک شیء است. با مرتب کردن مقادیر، رتبهبندی اشیاء را نسبت به دما به دست میآوریم. علاوه بر این، میتوانیم تفاوت بین مقادیر را تعیین کمیت کنیم.
به عنوان مثال، دمای ۲۰ درجه سانتیگراد پنج درجه بالاتر از دمای ۱۵ درجه سانتیگراد است. تاریخهای تقویمی مثال دیگری هستند. به عنوان مثال، سالهای ۲۰۱۲ و ۲۰۲۰ هشت سال با هم فاصله دارند. دماها در واحد سانتیگراد و فارنهایت نقطه صفر واقعی ندارند، یعنی نه 0 درجه سانتیگراد و نه 0 درجه فارنهایت هیچ کدام «بدون دما» را نشان نمیدهند. (برای مثال، در مقیاس سانتیگراد، واحد اندازهگیری 1/100 اختلاف بین دمای ذوب و دمای جوش آب در فشار اتمسفر است.)
اگرچه میتوانیم اختلاف بین مقادیر دما را محاسبه کنیم، اما نمیتوانیم از یک مقدار دما به عنوان مضربی از دیگری صحبت کنیم. بدون صفر واقعی، نمیتوانیم بگوییم که مثلاً 10 درجه سانتیگراد دو برابر 5 درجه سانتیگراد گرمتر است. یعنی نمیتوانیم از مقادیر بر اساس نسبت صحبت کنیم. به طور مشابه، هیچ نقطه صفر واقعی برای تاریخهای تقویمی وجود ندارد. (سال 0 با آغاز زمان مطابقت ندارد.) این ما را به ویژگیهای مقیاسبندیشده نسبی میرساند که برای آنها یک نقطه صفر واقعی وجود دارد.
از آنجا که ویژگیهای مقیاسبندیشده با بازه عددی هستند، میتوانیم علاوه بر معیارهای گرایش مرکزی میانه و مد، مقدار میانگین آنها را نیز محاسبه کنیم.
ویژگیهای مقیاسبندیشده با نسبت
یک ویژگی مقیاسبندیشده با نسبت، یک ویژگی عددی با یک نقطه صفر ذاتی است. یعنی اگر یک اندازهگیری مقیاسبندیشده با نسبت باشد، میتوانیم از یک مقدار به عنوان مضربی (یا نسبتی) از یک مقدار دیگر صحبت کنیم. علاوه بر این، مقادیر مرتب شدهاند و میتوانیم تفاوت بین مقادیر و همچنین میانگین، میانه و مد را نیز محاسبه کنیم.
مثال ۲.۵. ویژگیهای مقیاسبندیشده با نسبت. برخلاف دما در سانتیگراد و فارنهایت، مقیاس دمای کلوین (K) دارای چیزی است که یک نقطه صفر واقعی (۰ K 273.15 ◦C) در نظر گرفته میشود: این نقطهای است که در توصیف کلاسیک ترمودینامیک، تمام حرکت حرارتی در آن متوقف میشود. نمونههای دیگر از ویژگیهای مقیاسبندیشده نسبی شامل ویژگیهای شمارشی مانند سالهای تجربه (مثلاً اشیاء کارمند هستند) و تعداد کلمات (مثلاً اشیاء سند هستند) میشود. نمونههای دیگر شامل ویژگیهایی برای اندازهگیری وزن، قد و سرعت و مقادیر پولی (مثلاً شما با ۱۰۰ دلار ۱۰۰ برابر ثروتمندتر از ۱ دلار هستید) است.
ویژگیهای گسسته در مقابل پیوسته
در ارائه ما، ویژگیها را به انواع اسمی، دودی، ترتیبی و عددی سازماندهی کردهایم. روشهای زیادی برای سازماندهی انواع ویژگی وجود دارد. این نوعها متقابلاً منحصر به فرد نیستند.
الگوریتمهای طبقهبندی توسعهیافته از حوزه یادگیری ماشین اغلب ویژگیها را گسسته یا پیوسته در نظر میگیرند. هر نوع ممکن است به طور متفاوتی پردازش شود. یک ویژگی گسسته دارای مجموعهای محدود یا قابل شمارش از مقادیر است که ممکن است به صورت اعداد صحیح نمایش داده شوند یا نشوند. ویژگیهای رنگ مو، سیگاری، آزمایش پزشکی و اندازه نوشیدنی هر کدام تعداد محدودی از مقادیر دارند و بنابراین گسسته هستند.
توجه داشته باشید که ویژگیهای گسسته ممکن است مقادیر عددی داشته باشند، مانند ۰ و ۱ برای ویژگیهای دودویی یا مقادیر ۰ تا ۱۱۰ برای ویژگی سن. یک ویژگی در صورتی نامتناهی است که مجموعه مقادیر ممکن نامتناهی باشد، اما بتوان این مقادیر را در تناظر یک به یک با اعداد طبیعی قرار داد. به عنوان مثال، ویژگی customer_ID نامتناهی است. تعداد مشتریان میتواند تا بینهایت افزایش یابد، اما در واقعیت، مجموعه واقعی مقادیر قابل شمارش است (که در آن مقادیر میتوانند در تناظر یک به یک با مجموعه اعداد صحیح قرار گیرند). کدهای پستی نمونه دیگری هستند.
اگر یک ویژگی گسسته نباشد، پیوسته است. اصطلاحات ویژگی عددی و ویژگی پیوسته اغلب در ادبیات به جای یکدیگر استفاده میشوند. (این میتواند گیجکننده باشد زیرا به معنای کلاسیک، مقادیر پیوسته اعداد حقیقی هستند، در حالی که مقادیر عددی میتوانند اعداد صحیح یا اعداد حقیقی باشند.) در عمل، مقادیر حقیقی با استفاده از تعداد محدودی از ارقام نمایش داده میشوند. ویژگیهای پیوسته معمولاً به صورت متغیرهای ممیز شناور نمایش داده میشوند.


