داده‌ها، اندازه‌گیری‌ها و پیش‌پردازش داده‌ها | فصل 2 (بخش اول)

دکتر محمدرضا عاطفی
منتشر شده در 18 نوامبر 2025

مقدمه

برای انجام داده‌کاوی موفق، اولین نکته مهم آشنایی با داده‌هایتان است. شاید بخواهید موارد زیر را بدانید: انواع ویژگی‌ها یا فیلدهایی که داده‌های شما را تشکیل می‌دهند چیست؟ هر ویژگی چه نوع مقادیری دارد؟ توزیع مقادیر چگونه است؟ چگونه می‌توانیم شباهت برخی از اشیاء داده را نسبت به سایرین اندازه‌گیری کنیم؟ کسب چنین بینشی در مورد داده‌ها به تجزیه و تحلیل بعدی کمک خواهد کرد. علاوه بر این، داده‌های دنیای واقعی معمولاً پر سر و صدا، حجم بسیار زیادی (اغلب چندین گیگابایت یا بیشتر) دارند و ممکن است از مجموعه‌ای از منابع ناهمگن سرچشمه بگیرند. چگونه می‌توانیم کیفیت داده‌ها را اندازه‌گیری کنیم؟ چطور می‌توانیم داده‌ها را از چندین منبع ناهمگن تمیز و ادغام کنیم؟ چگونه می‌توانیم داده‌ها را نرمال‌سازی، فشرده‌سازی یا تبدیل کنیم؟ چطور می‌توانیم ابعاد داده‌ها را برای کمک به تجزیه و تحلیل بعدی کاهش دهیم؟ اینها وظایف این فصل هستند.

در بخش 2.1 با مطالعه انواع مختلف ویژگی‌ها شروع می‌کنیم. این ویژگی‌ها شامل ویژگی‌های اسمی، ویژگی‌های دودویی، ویژگی‌های ترتیبی و ویژگی‌های عددی هستند. همانطور که در بخش 2.2 توضیح داده شده است، می‌توان از توصیفات آماری پایه برای کسب اطلاعات بیشتر در مورد مقادیر هر ویژگی استفاده کرد. برای مثال، با توجه به یک ویژگی دما، می‌توانیم میانگین (مقدار متوسط)، میانه (مقدار میانی) و مد (متداول‌ترین مقدار) آن را تعیین کنیم. اینها معیارهای گرایش مرکزی هستند که به ما ایده‌ای از «میانه» یا مرکز توزیع می‌دهند. دانستن چنین آمار پایه‌ای در مورد هر ویژگی، پر کردن مقادیر گمشده، هموار کردن مقادیر نویزی و تشخیص نقاط پرت در طول پیش‌پردازش داده‌ها را آسان‌تر می‌کند.

آگاهی از ویژگی‌ها و مقادیر ویژگی همچنین می‌تواند به رفع ناسازگاری‌های ایجاد شده در طول ادغام داده‌ها کمک کند. رسم معیارهای گرایش مرکزی به ما نشان می‌دهد که آیا داده‌ها متقارن یا کج هستند. نمودارهای چندکی، هیستوگرام‌ها و نمودارهای پراکندگی، نمایش‌های گرافیکی دیگری از توصیفات آماری پایه هستند. همه اینها می‌توانند در طول پیش‌پردازش داده‌ها مفید باشند و می‌توانند بینشی در مورد حوزه‌های کاوش ارائه دهند.

همچنین ممکن است بخواهیم بررسی کنیم که اشیاء داده چقدر مشابه (یا متفاوت) هستند. به عنوان مثال، فرض کنید پایگاه داده‌ای داریم که در آن اشیاء داده، بیماران هستند که با علائم آنها توصیف می‌شوند. ممکن است بخواهیم شباهت یا عدم شباهت بین بیماران منفرد را پیدا کنیم. چنین اطلاعاتی می‌تواند به ما امکان دهد خوشه‌هایی از بیماران مشابه را در مجموعه داده‌ها پیدا کنیم. شباهت (یا عدم شباهت) بین اشیاء همچنین می‌تواند برای تشخیص داده‌های پرت در داده‌ها یا انجام طبقه‌بندی نزدیکترین همسایه استفاده شود. معیارهای زیادی برای ارزیابی شباهت و عدم شباهت وجود دارد. به طور کلی، چنین معیارهایی به عنوان معیارهای نزدیکی شناخته می‌شوند. نزدیکی دو شیء را به عنوان تابعی از فاصله بین مقادیر ویژگی آنها در نظر بگیرید، اگرچه نزدیکی را می‌توان بر اساس احتمالات به جای فاصله واقعی نیز محاسبه کرد. معیارهای نزدیکی داده‌ها در بخش 2.3 شرح داده شده‌اند.

در نهایت، ما در مورد پیش‌پردازش داده‌ها بحث خواهیم کرد، که برای پرداختن به چالش‌های دنیای واقعی امروز است: مجموعه داده‌ها به دلیل اندازه معمولاً بزرگ و منشأ احتمالی آنها از منابع متعدد و ناهمگن، به شدت مستعد داده‌های نویزی، گمشده و متناقض هستند. داده‌های با کیفیت پایین منجر به نتایج کاوش با کیفیت پایین می‌شوند. تلاش‌های زیادی برای پیش‌پردازش داده‌ها باید انجام شود تا کیفیت داده‌ها برای کاوش مؤثر افزایش یابد.

بخش 2.4 در مورد پاکسازی داده‌ها و ادغام داده‌ها است. مورد اول حذف نویز و اصلاح ناسازگاری‌ها در داده‌ها است، در حالی که مورد دوم ادغام داده‌ها از منابع متعدد در یک مخزن داده منسجم مانند انبار داده است. بخش ۲.۵ در مورد تبدیل داده‌ها است که داده‌ها را به اشکال مناسب برای کاوش تبدیل یا تجمیع می‌کند. به عبارت دیگر، می‌تواند فرآیند کاوش حاصل را کارآمدتر کند و الگوهای یافت شده را آسان‌تر درک کند. استراتژی‌های مختلفی برای تبدیل داده‌ها توسعه داده شده است. به عنوان مثال، نرمال‌سازی داده‌ها، داده‌های ویژگی را در محدوده کوچکتری مانند ۰.۰ تا ۱.۰ قرار می‌دهد؛ گسسته‌سازی داده‌ها، مقادیر خام یک ویژگی عددی را با برچسب‌های فاصله‌ای یا برچسب‌های مفهومی جایگزین می‌کند؛ و تکنیک‌های کاهش داده (به عنوان مثال، فشرده‌سازی و نمونه‌برداری) داده‌های ورودی را به یک نمایش کاهش‌یافته تبدیل می‌کنند و می‌توانند دقت و کارایی الگوریتم‌های کاوش شامل اندازه‌گیری‌های فاصله را بهبود بخشند.

در نهایت، بخش ۲.۶ در مورد کاهش ابعاد است که فرآیند کاهش تعداد متغیرهای تصادفی یا ویژگی‌های مورد بررسی است. لطفاً توجه داشته باشید که تکنیک‌های مختلف پیش‌پردازش داده‌ها متقابلاً منحصر به فرد نیستند؛ آنها ممکن است با هم کار کنند. برای مثال، پاکسازی داده‌ها می‌تواند شامل تبدیل‌هایی برای اصلاح داده‌های اشتباه باشد، مانند تبدیل تمام ورودی‌های یک فیلد تاریخ به یک قالب مشترک.

انواع داده‌ها

مجموعه داده‌ها از اشیاء داده تشکیل شده‌اند. یک شیء داده نشان‌دهنده یک موجودیت است – در یک پایگاه داده فروش، اشیاء ممکن است مشتریان، اقلام فروشگاه و فروش باشند؛ در یک پایگاه داده پزشکی، اشیاء ممکن است بیماران باشند؛ در یک پایگاه داده دانشگاه، اشیاء ممکن است دانشجویان، اساتید و دوره‌ها باشند. اشیاء داده معمولاً توسط ویژگی‌ها توصیف می‌شوند. اشیاء داده همچنین می‌توانند به عنوان نمونه‌ها، مثال‌ها، نمونه‌ها، نقاط داده یا اشیاء نامیده شوند. اگر اشیاء داده در یک پایگاه داده ذخیره شوند، آنها تاپل‌های داده هستند. یعنی ردیف‌های یک پایگاه داده مربوط به اشیاء داده و ستون‌ها مربوط به ویژگی‌ها هستند. در این بخش، ویژگی‌ها را تعریف می‌کنیم و به انواع مختلف ویژگی نگاه می‌کنیم.

ویژگی چیست؟ یک ویژگی یک فیلد داده است که نشان‌دهنده یک ویژگی یا ویژگی از یک شیء داده است. اسم‌های ویژگی، بُعد، ویژگی و متغیر اغلب در ادبیات به جای یکدیگر استفاده می‌شوند. اصطلاح بُعد معمولاً در انبار داده‌ها استفاده می‌شود. ادبیات یادگیری ماشین تمایل دارد از اصطلاح ویژگی استفاده کند، در حالی که آمارشناسان اصطلاح متغیر را ترجیح می‌دهند. متخصصان داده‌کاوی و پایگاه داده معمولاً از اصطلاح ویژگی استفاده می‌کنند و ما نیز در اینجا همین کار را می‌کنیم. ویژگی‌هایی که یک شیء مشتری را توصیف می‌کنند، می‌توانند شامل مواردی مانند شماره مشتری، نام و آدرس باشند. مقادیر مشاهده شده برای یک ویژگی معین، مشاهدات نامیده می‌شوند. مجموعه‌ای از ویژگی‌هایی که برای توصیف یک شیء معین استفاده می‌شوند، بردار ویژگی (یا بردار ویژگی) نامیده می‌شوند. توزیع داده‌هایی که شامل یک ویژگی (یا متغیر) هستند، تک متغیره نامیده می‌شود. توزیع دو متغیره شامل دو ویژگی و غیره است.

نوع یک ویژگی توسط مجموعه‌ای از مقادیر ممکن – اسمی، دودویی، ترتیبی یا عددی – که آن ویژگی می‌تواند داشته باشد، تعیین می‌شود. در زیربخش‌های بعدی، هر نوع را معرفی می‌کنیم.

ویژگی‌های اسمی

اسمی به معنای “مربوط به نام‌ها” است. مقادیر یک ویژگی اسمی، نمادها یا نام‌های چیزها هستند. هر مقدار نشان دهنده نوعی دسته، کد یا حالت است و بنابراین به ویژگی‌های اسمی، دسته‌بندی نیز گفته می‌شود. مقادیر هیچ ترتیب معناداری ندارند. در علم کامپیوتر، مقادیر به عنوان شمارش نیز شناخته می‌شوند.

مثال 2.1. ویژگی‌های اسمی. فرض کنید که رنگ مو و وضعیت زناشویی دو ویژگی هستند که اشیاء شخص را توصیف می‌کنند. در برنامه ما، مقادیر ممکن برای رنگ مو عبارتند از مشکی، قهوه‌ای، بور، قرمز، خرمایی، خاکستری و سفید. ویژگی وضعیت زناشویی می‌تواند مقادیر مجرد، متأهل، مطلقه،و بیوه. هر دو صفت hair_color و latus صفات اسمی هستند. مثال دیگری از صفت اسمی، شغل است که مقادیر آن معلم، دندانپزشک، برنامه‌نویس، کشاورز و غیره است. اگرچه گفتیم که مقادیر یک صفت اسمی نمادها یا «نام چیزها» هستند، اما می‌توان چنین نمادها یا «نام‌هایی» را با اعداد نمایش داد.

به عنوان مثال، با صفت hair_color می‌توانیم کد ۰ را برای رنگ مشکی، ۱ را برای رنگ قهوه‌ای و غیره اختصاص دهیم. مثال دیگر customer_ID است که مقادیر ممکن همگی عددی هستند. با این حال، در چنین مواردی، اعداد برای استفاده کمی در نظر گرفته نمی‌شوند. یعنی عملیات ریاضی روی مقادیر صفات اسمی معنادار نیستند. کم کردن یک شماره شناسه مشتری از شماره شناسه مشتری دیگر، برخلاف مثلاً کم کردن مقدار سن از دیگری (که در آن سن یک صفت عددی است)، منطقی نیست. اگرچه یک صفت اسمی ممکن است اعداد صحیح به عنوان مقادیر داشته باشد، اما یک صفت عددی محسوب نمی‌شود زیرا اعداد صحیح برای استفاده کمی در نظر گرفته نشده‌اند. در بخش ۲.۱.۴ بیشتر در مورد ویژگی‌های عددی صحبت خواهیم کرد.

از آنجا که مقادیر ویژگی‌های اسمی هیچ ترتیب معناداری در مورد خود ندارند و کمی نیستند، یافتن مقدار میانگین (میانگین) یا مقدار میانه (میانه) برای چنین ویژگی‌ای، با توجه به مجموعه‌ای از اشیاء، منطقی نیست. با این حال، نکته‌ای که مورد توجه است، رایج‌ترین مقدار آن ویژگی است. این مقدار که به عنوان مد شناخته می‌شود، یکی از معیارهای گرایش مرکزی است. در بخش ۲.۲ در مورد معیارهای گرایش مرکزی خواهید آموخت.

ویژگی‌های دودویی

یک ویژگی دودویی، یک ویژگی اسمی است که فقط دو دسته یا حالت دارد: ۰ یا ۱، که در آن ۰ معمولاً به معنای عدم وجود ویژگی و ۱ به معنای وجود آن است. اگر دو حالت با درست و نادرست مطابقت داشته باشند، به ویژگی‌های دودویی بولی گفته می‌شود.

مثال ۲.۲. ویژگی‌های دودویی. با توجه به ویژگی smoker که یک شیء بیمار را توصیف می‌کند، ۱ نشان می‌دهد که بیمار سیگار می‌کشد، در حالی که ۰ نشان می‌دهد که بیمار سیگار نمی‌کشد. به طور مشابه، فرض کنید بیمار تحت یک آزمایش پزشکی قرار می‌گیرد که دو نتیجه ممکن دارد. ویژگی medical_test دودویی است، که در آن مقدار ۱ به معنای مثبت بودن نتیجه آزمایش برای بیمار است، در حالی که ۰ به معنای منفی بودن نتیجه است.

یک ویژگی دودویی متقارن است اگر هر دو حالت آن به یک اندازه ارزشمند باشند و وزن یکسانی داشته باشند؛ یعنی هیچ ترجیحی در مورد اینکه کدام نتیجه باید به صورت ۰ یا ۱ کدگذاری شود، وجود ندارد. یکی از این مثال‌ها می‌تواند ویژگی جنسیت باشد که حالت‌های مرد و زن را دارد.

یک ویژگی دودویی نامتقارن است اگر نتایج حالت‌ها به یک اندازه مهم نباشند، مانند نتایج مثبت و منفی یک آزمایش پزشکی برای HIV. طبق قرارداد، ما مهمترین نتیجه را که معمولاً نادرتر است، با ۱ (مثلاً HIV مثبت) و دیگری را با ۰ (مثلاً HIV منفی) کدگذاری می‌کنیم.

محاسبه شباهت‌ها بین اشیاء شامل ویژگی‌های دودویی متقارن و نامتقارن در بخش بعدی این فصل مورد بحث قرار خواهد گرفت.

ویژگی‌های ترتیبی

یک ویژگی ترتیبی، ویژگی‌ای با مقادیر ممکن است که ترتیب یا رتبه‌بندی معناداری بین آنها وجود دارد، اما بزرگی بین مقادیر متوالی مشخص نیست.

مثال ۲.۳. ویژگی‌های ترتیبی. فرض کنید drink_size مربوط به اندازه نوشیدنی‌های موجود در یک رستوران فست فود باشد. این ویژگی اسمی سه مقدار ممکن دارد: کوچک، متوسط و بزرگ.

مقادیر دارای توالی معناداری هستند (که مربوط به افزایش اندازه نوشیدنی است)؛ با این حال، ما نمی‌توانیم از روی مقادیر بگوییم که مثلاً یک بزرگ چقدر بزرگتر از یک متوسط است. نمونه‌های دیگر از ویژگی‌های ترتیبی شامل درجه (مثلاً A، A، A، B و غیره) و رتبه حرفه‌ای است. رتبه‌های حرفه‌ای را می‌توان به ترتیب متوالی برشمرد: به عنوان مثال، دستیار، دانشیار و تمام برای اساتید، و خصوصی، خصوصی درجه دو، خصوصی درجه یک، متخصص، سرجوخه، گروهبان، … برای درجات ارتش.

ویژگی‌های ترتیبی برای ثبت ارزیابی‌های ذهنی از کیفیت‌هایی که نمی‌توان به صورت عینی اندازه‌گیری کرد، مفید هستند. بنابراین، ویژگی‌های ترتیبی اغلب در نظرسنجی‌ها برای رتبه‌بندی استفاده می‌شوند. در یک نظرسنجی، از شرکت‌کنندگان خواسته شد تا میزان رضایت خود را به عنوان مشتری ارزیابی کنند. رضایت مشتری دارای دسته‌های ترتیبی زیر بود: ۱: بسیار ناراضی، ۲: ناراضی، ۳: خنثی، ۴: راضی و ۵: بسیار راضی. ویژگی‌های ترتیبی را می‌توان از گسسته‌سازی کمیت‌های عددی با تقسیم محدوده مقادیر به تعداد محدودی از دسته‌های مرتب، همانطور که در بخش بعدی در مورد کاهش داده‌ها توضیح داده شده است، نیز بدست آورد.

گرایش مرکزی یک ویژگی ترتیبی را می‌توان با مد و میانه آن (مقدار میانی در یک دنباله مرتب) نشان داد، اما میانگین را نمی‌توان تعریف کرد.

توجه داشته باشید که ویژگی‌های اسمی، دودویی و ترتیبی کیفی هستند. یعنی، آنها یک ویژگی از یک شیء را بدون ارائه اندازه یا کمیت واقعی توصیف می‌کنند. مقادیر چنین ویژگی‌های کیفی معمولاً کلماتی هستند که نشان‌دهنده دسته‌ها هستند. اگر از اعداد صحیح استفاده شود، آنها کدهای کامپیوتری را برای دسته‌ها نشان می‌دهند، برخلاف مقادیر قابل اندازه‌گیری (مثلاً 0 برای اندازه نوشیدنی کوچک، 1 برای متوسط و 2 برای بزرگ). در زیربخش بعدی، به ویژگی‌های عددی می‌پردازیم که اندازه‌گیری‌های کمی از یک شیء را ارائه می‌دهند.

ویژگی‌های عددی

یک ویژگی عددی کمی است؛ یعنی یک کمیت قابل اندازه‌گیری است که با مقادیر صحیح یا واقعی نشان داده می‌شود و می‌توانند مقیاس بازه ای یا مقیاس نسبتی باشند.

ویژگی‌های مقیاس بازه‌ای

ویژگی‌های مقیاس بازه‌ای در مقیاسی از واحدهای با اندازه مساوی اندازه‌گیری می‌شوند. مقادیر ویژگی‌های مقیاس بازه ای دارای ترتیب هستند و می‌توانند مثبت، صفر یا منفی باشند. بنابراین، علاوه بر ارائه رتبه‌بندی مقادیر، چنین ویژگی‌هایی به ما امکان مقایسه و تعیین کمیت تفاوت بین مقادیر را می‌دهند.

مثال ۲.۴. ویژگی‌های مقیاس بازه‌ای. یک ویژگی دما مقیاس بازه ای است. فرض کنید مقادیر دمای بیرون را برای تعدادی از روزهای مختلف داریم که هر روز یک شیء است. با مرتب کردن مقادیر، رتبه‌بندی اشیاء را نسبت به دما به دست می‌آوریم. علاوه بر این، می‌توانیم تفاوت بین مقادیر را تعیین کمیت کنیم.

به عنوان مثال، دمای ۲۰ درجه سانتیگراد پنج درجه بالاتر از دمای ۱۵ درجه سانتیگراد است. تاریخ‌های تقویمی مثال دیگری هستند. به عنوان مثال، سال‌های ۲۰۱۲ و ۲۰۲۰ هشت سال با هم فاصله دارند. دماها در واحد سانتیگراد و فارنهایت نقطه صفر واقعی ندارند، یعنی نه 0 درجه سانتیگراد و نه 0 درجه فارنهایت هیچ کدام «بدون دما» را نشان نمی‌دهند. (برای مثال، در مقیاس سانتیگراد، واحد اندازه‌گیری 1/100 اختلاف بین دمای ذوب و دمای جوش آب در فشار اتمسفر است.)

اگرچه می‌توانیم اختلاف بین مقادیر دما را محاسبه کنیم، اما نمی‌توانیم از یک مقدار دما به عنوان مضربی از دیگری صحبت کنیم. بدون صفر واقعی، نمی‌توانیم بگوییم که مثلاً 10 درجه سانتیگراد دو برابر 5 درجه سانتیگراد گرمتر است. یعنی نمی‌توانیم از مقادیر بر اساس نسبت صحبت کنیم. به طور مشابه، هیچ نقطه صفر واقعی برای تاریخ‌های تقویمی وجود ندارد. (سال 0 با آغاز زمان مطابقت ندارد.) این ما را به ویژگی‌های مقیاس‌بندی‌شده نسبی می‌رساند که برای آنها یک نقطه صفر واقعی وجود دارد.

از آنجا که ویژگی‌های مقیاس‌بندی‌شده با بازه عددی هستند، می‌توانیم علاوه بر معیارهای گرایش مرکزی میانه و مد، مقدار میانگین آنها را نیز محاسبه کنیم.

ویژگی‌های مقیاس‌بندی‌شده با نسبت

یک ویژگی مقیاس‌بندی‌شده با نسبت، یک ویژگی عددی با یک نقطه صفر ذاتی است. یعنی اگر یک اندازه‌گیری مقیاس‌بندی‌شده با نسبت باشد، می‌توانیم از یک مقدار به عنوان مضربی (یا نسبتی) از یک مقدار دیگر صحبت کنیم. علاوه بر این، مقادیر مرتب شده‌اند و می‌توانیم تفاوت بین مقادیر و همچنین میانگین، میانه و مد را نیز محاسبه کنیم.

مثال ۲.۵. ویژگی‌های مقیاس‌بندی‌شده با نسبت. برخلاف دما در سانتیگراد و فارنهایت، مقیاس دمای کلوین (K) دارای چیزی است که یک نقطه صفر واقعی (۰ K 273.15 ◦C) در نظر گرفته می‌شود: این نقطه‌ای است که در توصیف کلاسیک ترمودینامیک، تمام حرکت حرارتی در آن متوقف می‌شود. نمونه‌های دیگر از ویژگی‌های مقیاس‌بندی‌شده نسبی شامل ویژگی‌های شمارشی مانند سال‌های تجربه (مثلاً اشیاء کارمند هستند) و تعداد کلمات (مثلاً اشیاء سند هستند) می‌شود. نمونه‌های دیگر شامل ویژگی‌هایی برای اندازه‌گیری وزن، قد و سرعت و مقادیر پولی (مثلاً شما با ۱۰۰ دلار ۱۰۰ برابر ثروتمندتر از ۱ دلار هستید) است.

ویژگی‌های گسسته در مقابل پیوسته

در ارائه ما، ویژگی‌ها را به انواع اسمی، دودی، ترتیبی و عددی سازماندهی کرده‌ایم. روش‌های زیادی برای سازماندهی انواع ویژگی وجود دارد. این نوع‌ها متقابلاً منحصر به فرد نیستند.

الگوریتم‌های طبقه‌بندی توسعه‌یافته از حوزه یادگیری ماشین اغلب ویژگی‌ها را گسسته یا پیوسته در نظر می‌گیرند. هر نوع ممکن است به طور متفاوتی پردازش شود. یک ویژگی گسسته دارای مجموعه‌ای محدود یا قابل شمارش از مقادیر است که ممکن است به صورت اعداد صحیح نمایش داده شوند یا نشوند. ویژگی‌های رنگ مو، سیگاری، آزمایش پزشکی و اندازه نوشیدنی هر کدام تعداد محدودی از مقادیر دارند و بنابراین گسسته هستند.

توجه داشته باشید که ویژگی‌های گسسته ممکن است مقادیر عددی داشته باشند، مانند ۰ و ۱ برای ویژگی‌های دودویی یا مقادیر ۰ تا ۱۱۰ برای ویژگی سن. یک ویژگی در صورتی نامتناهی است که مجموعه مقادیر ممکن نامتناهی باشد، اما بتوان این مقادیر را در تناظر یک به یک با اعداد طبیعی قرار داد. به عنوان مثال، ویژگی customer_ID نامتناهی است. تعداد مشتریان می‌تواند تا بی‌نهایت افزایش یابد، اما در واقعیت، مجموعه واقعی مقادیر قابل شمارش است (که در آن مقادیر می‌توانند در تناظر یک به یک با مجموعه اعداد صحیح قرار گیرند). کدهای پستی نمونه دیگری هستند.

اگر یک ویژگی گسسته نباشد، پیوسته است. اصطلاحات ویژگی عددی و ویژگی پیوسته اغلب در ادبیات به جای یکدیگر استفاده می‌شوند. (این می‌تواند گیج‌کننده باشد زیرا به معنای کلاسیک، مقادیر پیوسته اعداد حقیقی هستند، در حالی که مقادیر عددی می‌توانند اعداد صحیح یا اعداد حقیقی باشند.) در عمل، مقادیر حقیقی با استفاده از تعداد محدودی از ارقام نمایش داده می‌شوند. ویژگی‌های پیوسته معمولاً به صورت متغیرهای ممیز شناور نمایش داده می‌شوند.

نویسنده

عضو هیئت علمی دانشگاه
رئیس هیئت مدیره گروه ناب
هم بنیان گذار شرکت دانش بنیان
مشاور شرکت ها و سازمان های بزرگ کشور

حوزه های فعالیت

استراتژی

هوش مصنوعی

نوآوری

آینده پژوهی

مدل سازی

مقالات مرتبط

یادگیری عمیق با پایتون

کتاب یادگیری عمیق با پایتون – Deep Learning with Python کتاب Deep Learning with Python – Second Edition نوشته‌ی فرانسوا شوله (François Chollet)، خالق کتابخانه‌ی

توضیحات بیشتر »

دسامبر 21, 2025 بدون دیدگاه

نوشته ها

تکنیک‌های انتخاب ویژگی در یادگیری ماشین (Feature Selection Techniques)

مقدمه در پروژه‌های یادگیری ماشین، همیشه «داده‌ی بیشتر» به معنای «مدل بهتر» نیست. در بسیاری از مواقع، وجود ویژگی‌های زیاد، نامرتبط یا تکراری نه‌تنها کمکی

توضیحات بیشتر »

دسامبر 18, 2025 بدون دیدگاه

نوشته ها

قسمت 5: استراتژی‌های مدیریت (حذف، اصلاح یا نگهداری؟)

مقدمه شناسایی داده‌های پرت فقط نیمی از مسیر است؛ تصمیم‌گیری درباره اینکه با این نقاط چه رفتاری داشته باشیم، بخش حساس‌تر و تعیین‌کننده‌تر ماجراست. یک

توضیحات بیشتر »

دسامبر 18, 2025 بدون دیدگاه

دکتر محمدرضا عاطفی

دکتر محمدرضا عاطفی

داده‌ها، اندازه‌گیری‌ها و پیش‌پردازش داده‌ها | فصل 2 (بخش اول)

مقدمه

انواع داده‌ها

ویژگی‌های اسمی

ویژگی‌های دودویی

ویژگی‌های ترتیبی

ویژگی‌های عددی

ویژگی‌های گسسته در مقابل پیوسته

استراتژی

هوش مصنوعی

نوآوری

آینده پژوهی

مدل سازی

مقالات مرتبط

یادگیری عمیق با پایتون

تکنیک‌های انتخاب ویژگی در یادگیری ماشین (Feature Selection Techniques)

قسمت 5: استراتژی‌های مدیریت (حذف، اصلاح یا نگهداری؟)

نظرات و انتقادات

دیدگاهتان را بنویسید لغو پاسخ

درخواست خدمات