داده کاوی و کشف داده از پایگاه داده، به صورت مترادف به کار می روند. کشف داده در پایگاه داده یک فرایند شناسایی صحیح، ساده، دقیق، مفید و الگوها و مدلهای قابل فهم داده است. داده کاوی، مرحله ای از کشف دانش شامل الگوریتم های مخصوص داده کاوی است.
چرا داده کاوی؟
داده های بسیاری در حال جمع آوری و انباشت می باشد. داده های اینترنتی، داده های تجارت الکترونیک، داده های خرید از فروشگاه ها،داده های تراکنش های بانکی و کارت های اعتباری همه اینها داده های است که در زندگی روزمره همه تولید میشود.
کامپیوترها با پیشرفت بیشتر و قیمت ارزان در اختیار همه قرار دارد. رقابت های تجاری سخت تر از گذشته شده است. ارائه خدمات بهتر به مشتریان و مشتری مداری شرکتها و ادارات رو به افزایش است.
داده ها با سرعت بالا جمع آوری و ذخیره می شوند(گیگا بایت). حسگرهای موجود در ماهواره ها، تلسکوپ های فضایی، داده های خرید ثبت شده در فروشگاه ها، داده های تراکنش بانکی و کارتهای اعتباری همه داده های تولیدی برای هر فرد و هر روندی خواهد بود.
تکنیکهای قدیمی برای استفاده از داده ها کاربردی نیستند. داده کاوی این امکان را می دهد تا داده ها دسته بندی و گروه بندی شود. این باعث شکل گیری فرضیه های جدید میشود.
کشف اطلاعات از داده ها
معمولا اطلاعات نهفته فراوانی در داده ها است که تا کنون آشکار نشده است. برای کشف این اطلاعات با توجه به انبوه داده، هفته ها زمان باید صرف شود تا انسان آنها را کشف کند. بنابراین کاوش داده ها و استخراج اطلاعات مفید است.
مراحل اکتشاف دانش
- پاکسازی داده(Data Cleaning)
- یکپارچه سازی داده(Data Integration)
- انتخاب داده(Data Selection)
- تبدیل داده(Data Transformation)
- داده کاوی(Data Mining)
- ارزیابی الگو(Pattern Evalution)
- ارائه دانش(Knowlege Representation)
اکتشاف دانش از منظر یادگیری ماشین و آمار
۱٫ پیش پردازش(داده ورودی)
- ادغام داده(Data integration)
- نرمال کردن(Normalization)
- انتخاب ویژگی(Feature selection)
- کاهش ابعاد(Dimension reduction)
۲٫ داده کاوی
- کشف الگو(Pattern discovery)
- پیوستگی و همبستگی(Association & correlation)
- طبقه بندی(Classification)
- خوشه بندی(Clustering)
- نقاط پرت(Outlier analysis)
۳٫ پس پردازش
- ارزیابی الگو(Pattern evaluation)
- انتخاب الگو(Pattern selection)
- تفسیر الگو(Pattern interpretation)
- تجسم الگو(Pattern visualization)
۴٫ استخراج الگو، اطلاعات و دانش
چه داده های قابل کاوش هستند؟
- مجموعه داده های پایگاه داده و برنامه های کاربردی
پایگاه داده، انبار داده ها، پایگاه داده های عملیاتی، مجموعه داده های پیشرفته و برنامه های کاربردی پیشرفته جریان داده ها ، داده های حسی، داده های سریال، داده های توالی (شامل توالی های زیستی) ، داده های ساختاری، نمودار ها، شبکه های اجتماعی و چند لینک داده پایگاه های اطلاعاتی ارتباطی پایگاه داده های چند رسانه ای پایگاه های داده پایگاه داده جهانی دنیای گسترده وب - الگوهای مکرر (یا مجموعه های مکرر)
مواردی که اغلب با هم در Walmart خریداری می شوند؟
انجمن، همبستگی در مقابل علیت
یک قانون ارتباطی معمول
مواردی که به شدت مرتبط هستند نیز به شدت وابسته هستند؟
چگونه می توان چنین الگوهای و قوانین را در مجموعه داده های بزرگ کارآمد کرد؟
چگونه از چنین الگوهایی برای طبقه بندی، خوشه بندی و برنامه های دیگر استفاده کنید؟ - پیش بینی طبقه بندی و برچسب
ساخت مدل (توابع) بر اساس برخی از نمونه های آموزشی
توصیف و تشخیص کلاسها یا مفاهیم برای پیش بینی آینده (مثال، طبقه بندی کشورها بر اساس (آب و هوا)، و یا طبقه بندی خودرو بر اساس (مسافت پیموده شده گاز گاز))
پیش بینی برخی از کلاس های ناشناخته کلاس
روش های معمول
درخت تصمیم گیری، طبقه بندی Bayesian ساده، ماشین آلات بردار پشتیبانی، شبکه های عصبی، طبقه بندی مبتنی بر قاعده، طبقه بندی مبتنی بر الگوی، رگرسيون لجستيک، …
برنامه های کاربردی نمونه
تشخیص تقلب کارت اعتباری، طبقه بندی ستاره ها، بیماری ها، صفحات وب، … - یادگیری بدون برچسب (یعنی برچسب کلاس نامعلوم است)
داده های گروه، برای ایجاد دسته های جدید (به عنوان مثال، خوشه ها)، مانند خانه های خوشه ای برای یافتن الگوهای توزیع
اصل: حداکثر شباهت بین کلاس ها و به حداقل رساندن شباهت بین کلاس
بسیاری از روش ها و برنامه های کاربردی