اهمیت داده در استخراج اطلاعات بر کسی پوشیده نیست. دنیای امروز این امکان را به وجود آورده است؛ تا تمام فعالیتها را به صورت دیجیتال تبدیل نماییم. این داده های دیجیتالی دنیای جدیدی را پیش روی دانش گشوده است به نام دنیای داده ها. داده ها از دید یادگیری ماشین، الگو شناسی و نظریه محاسباتی است. مطالعه و ساخت الگوریتم هایی که به وسیله داده ها یادگیری و پیش بینی انجام می دهند.
داده از دید یادگیری ماشین(Machine Learning)
الگوریتم های یادگیری ماشین از دستورات برنامه پیروی محض نمیکنند. به اینن معنا که از طریق داده های ورودی مدلسازی از داده های ورودی نمونه انجام میدهد که به بیش بینی یا تصمیم گیری میگردد. یادگیری ماشین در زمینه تحلیل داده ها، روشی برای طراحی الگوریتم ها و مدل های پیچیده است تا برای پیش بینی استفاده شوند. یادگیری ماشین ارتباط تنگاتنگی با آار محاسباتی دارد و اعلب با آن هم پوشانی دارد. یادگیری ماشین تمرکز بر پیش بینی رایانه ای و بهینه سازی ریاضی دارد.
یادگیری ماشین زیر مجموعه ای از فناوری هوش مصنوعی(Artificial Intelligence) است. یادگیری ماشین بر اساس تجربیات ماشین (از انواع داده ای که به عنوان ورودی دریافت کرده است) و پیش بینی هایی که بر این تجربیات بدست آمده بنا نهاده شده است.
عملکرد یادگیری ماشین و مسایل مختلف
عملکرد یادگیری ماشین بر اساس داشتن بازخورد یا سیگنالی داشته باشد یا خیر ؟ تقسیم می شود:
- یادگیری با نظارت(Supervised Learning)
- یادگیری بدون نظارت(Unsupervised Learning)
- یادگیری تقویتی(Reinforcement Learning)
- یادگیری با نظارت(Supervised Learning)- داده ها به سه دسته تقسیم می شوند:
- داده های آموزش- جهت آموزش دیدن به عنوان ورودی به سیستم یادگیری اعمال می شود تا آموزش ببیند.
- داده های ارزیابی- جهت تست کردن، به سیستم آموزش دیده شده داده می شود تا صحت آموزش مشخص شود.
- داده های آزمایش- سیستم را برای داده های نادیده آزمایش می کنند تا عملکرد آن درست باشد.
- یادگیری بدون نظارت(Unsupervised Learning)- داده ها از طریق مشاهدات خود یادمیگیرند. دستورالعملها و ساختار موجود داده ها کشف میشود. مدل با استفاده از خوشه بندی داده ها، الگو و شباهت را کشف میکند. این سیستم نمی تواند برچسبی بر روی هر خوشه(دسته) مشخص نماید. مثلا می تواند سیب ها و پرتقالها را از هم جدا کند؛ ولی قادر نیست برچسب سیب و پرتقال روی هر دسته بزند.
- یادگیری تقویتی(Reinforcement Learning)- توانایی ارتباط با محیط و کسب بهترین نتیجه را دارد. با سعی و خطا یادگیری را انجام میدهد. به این صورت که بر مبنای نتیجه صحیح یا غلط امتیاز مثبت یا جریمه می شود. این امتیاز باعث یادگیری ذرست شده و سیستم پیش بینی دقیق در مورد داده های جدید می کند.
روشهای دستیابی به یادگیری از داده ها
یادگیری از روی داده های ورودی در دو حالت نظارت شده و بدون نظارت از روش های زیر بدست می آید:
الف- یادگیری با نظارت :
- روش های ادامه دار
- رگرسیون (خطی/پولی نومیال)
- درخت تصمیم
- جنگل تصادفی
- روش های قطعی
- طبقه بندی(طبقه بندی بر اساس نزدیکترین همسایه/طبقه بندی درختی/رگرسیون لجستیک/طبقه بندی بیز ساده/ماشین بردار(SVM))
ب- یادگیری بدون نظارت
- روش های ادامه دار
- خوشه بندی(تجزیه ماتریس(SVD)/تحلیل مولفه های اصلی(PCA)/تکنیک کای مینز(K-means))
- روش های قطعی
- تحلیل آماری(الگوریتم اپریوری(Apriori)/الگوریتم اف پی گروس)
- مدل مخفی مارکف