کلان داده در مورد داده ها نمی باشد. بلکه در مورد ابزراهایی است که به مدیریت و استخراج ارزش از دل داده ها می پردازد. رسانه های مختلف اغلب کلان داده را با “تعداد زیادی” از داده ها برابر میدانند. حجم های بزرگی از داده مانند: ترابایت، پنتابایت از داده های را به عنوان کلان داده معرفی می کنند. داشتن مقدار زیادی از داده ها آن چیزی نیست که ما در مورد آنها بحث می کنیم.
منابع داده های بزرگ Big Data
- Black Box Data : داده های وسایل و دستگاه هایی مانند هلی کوپتر، هواپیما و جت ها، صدای خدمه پرواز در طول سفر، صدای ضبط شده آنها و اطلاعات عملکردی هواپیما
- داده های شبکه های اجتماعی: فیسبوک، تویتر، اطلاعات و پست های میلیون کاربر در سراسر جهان
- داده های بازار بورس: اطلاعات خرید و فروش سهام شرکت ها
- داده های حمل و نقل: نوع، مدل، ظرفیت، مسیر و میزان دسترسی به وسایل نقلیه
- داده های موتورهای جستجو: حجم زیادی از داده ها در پایگاه های داده مختلف
ویژگی های کلان داده ها Big Data
۱٫ تنوع یا گوناگونی(Variety)
- ساخت یافته- داده های پایگاه داده که گروه بندی شده و به صورت سطر و ستون هستند.
- نیمه ساخت یافته- شکلی از داده های ساخت یافته با تفاوت در ساختار رسمی.
- ساخت نیافته- داده هایی مثل صوت، ویدیو، ایمیل ها و ….
۲٫ سرعت(Velocity)
- سرعت تولید داده
- سرعت پردازش داده
- سرعت نمایش داده
۳٫ حجم(Volume)
- حجم کل داده ها تا سال ۲۰۰۵، ۵ اگزابایت بوده اما امروز هر ۲ روز ۵ اگزابایت به حجم کل داده ها افزوده می شود.
- انتظار می روز تولید داده در هر ۲ سال دو برابر شده و به حدود ۴۰۰۰۰ اگزابایت در سال ۲۰۲۰ برسد.
- اگر داده تحلیل شوند بیش از یک سوم از آنها می تواند در سال ۲۰۲۰ ارزشمند باشد.
- در سال ۲۰۱۰ کمتر از یک سوم از داده نیاز به حفاظت داشته اند. اما در سال ۲۰۲۰ بیش از ۴۰ درصد از داده نیاز به حفاظت خواهند داشت.
۴٫ صحت و قابلیت اطمینان(Veracity)
- وجود منابع مختلف دریافت اطلاعات برابر عدم امکان اعتماد به تمام اطلاعات است. مانند نظراتی که در شبکه های اجتماعی در خصوص یک موضوع پخش می شود؛ ویا مطالب مختلفی که در مورد یک وضوع در وب سایتها مختلف مشاهده می کنیم…
ویژگی های دیگر Big Data
- اعتبار(Validity)- دیتای صحیح اما ناکارآمد برای برخی کاربردها
- نوسان(Volatility)- سرعت تغییر ارزش داده ها در طول زمان
- نمایش(Visualization)- نمایش اطلاعات از کارهای مشکل در حوزه کلان داده
- ارزش(Value)- ارزش داده در قبال نگهداری آنها در دیتابیس