1: شناخت داده ها
انواع داده ها:
1- رکوردی: Matrix - Term-frequency vector - Transaction Data - Relation Record
2- گراف: web - Social Nwetwork
3- ترتیبی: Video Data- Temporal
مفاهیم:
Dataset={Databject,DataObject,...} مثال: پایگاه داده دانشگاه
DataObject=Entity =Table مثال: جدول دانشجو
Attribute=Field مثال: نام دانشجو
2- ویژگی داده: انواع ویژگی های داده(Data Type)
1- Nominal : اسم.
2- Numeric: عددی.
2-1 Interval: بین عددها ترتیب داریم ولی هیچ نسبتی نداریم – صفر مطلق نداریم – مثل: درجه حرارت سانتیگراد.
2-2: Ration: بین عددها نسبت داریم و قابل سنجش هستند - نقطه صفر ذاتی دارند – طول – تعداد – مقدار پول - وزن.
3- Binary: درست/نادرست.
4- Ordered: در یک جهت معنادار ارزش دارند(ترتیب اهمیت دارد).
3- مباحث آماری
1- Mean: اندازه گیری جبری روی داده ها، اگر به داده ها وزن بدهیم می شود میانگین وزنی: ( وزن * مقدار) / وزن همه
عیب: مرکز داده را درست نشان نمی دهد(اگر داده ها خیلی پرت باشند میانگین عوض می شود، تاثیر داده های پرت زیاد است).
راهحل: جدا کردن مقادیر افراطی(داده ها را مرتب کنیم یک درصد کمی از بالا ها و پایین ها را حذف کنیم- میانگین هرس شده).
2- Median: ویژگی های که مقادیرشان نامتقارن یا چولگی دارد از معیار میانه استفاده می کنیم.
زمانی که داده ها زیاد می شود محاسبه میانه خیلی سخت می شود، باید از دسته بندی استفاده کنیم جهت سریع شدن الگوریتم ها، دسته بندی می کنیم و می گویم در هر دسته ای چند نفر وجود دارند(در جدول پایگاه داده به جای اینکه بنویسی 9 سالش می نویسم دسته 2 و ... )
3- Mode: بیشترین تکرار
4- Midrange: میانگین بزرگترین و کوچکترین مقدار در محموعه داده
5- انحراف معیار(سیگما): میزان پراکندگی داده ها، هر چه انحراف معیار بیشتر باشد پراکندگی بیشتری دارد. هر چه انحراف معیار کمتر باشد داده ها به هم نزدیکتر است و بهتر است.
نکته: اگر انحراف معیار صفر شد یعنی داده ها با هم برابر هستند
6- واریانس(سیگما به توان دو): اگر انحراف معیار را به توان دو برسانیم می گوییم واریانس،
نکته: 99% از داده ها در سه برابر انحراف معیار قرار دارند و
96% از داده ها در دو برابر انحراف معیار قرار دارند و
68% داده ها در یک برابر انحراف معیار قرار دارند.
توزیع داده ها: داده ها چگونه در مجموعه داده گسترش پیدا کرده اند.
1- داده های نرمال
2- داده های چوله: (چوله راست،چوله چپ)
اندازه گیری پراکندگی داده ها
چارک: داده ها را به چهار قسمت مساوی تقسیم می کند.
چارک اول 25% - چارک دوم50% - چارک سوم 75% - چارک چهارم 100%
30-26-47 50-52-52 56-60-63 70-70-110
Q3>=63
75% از داده ها کوچکتر از 63 هستند.
IQR: رنج بین چارک اول و سوم q3 – q1=16 63-47=16
رسم BoxPlot
16 * 1.5 = 24 (IQR*1.5)
63 + 24 = 87
36 - 24 = 12
30-26-47 50-52-52 56-60-63 70-70-110
26 30 47 50 52 52 56 60 63 70 70 110