در تحلیل کلان داده، حجم عظیمی از داده هها دارای همبستگی هستند و برای کشف الگوهای معنادار تحلیل و کاوش می شوند. اغلب سازمانها دارای سیاست های گوناگونی برای حفاظت و امنیت اطلاعات حساس خود هستند. حفاظت از اطلاعات حساس مساله مهمی در تحلیل های کلان داده است زیرا ریسک و چالش های امنیتی بسیار زیادی برای کلان داده وجود دارد.
چالش های امنیت و حریم خصوصی در کلان داده ها
ده چالش پیش روی در امنیت و حریم خصوصی کلان داده می توان نام برد:
۱٫ محاسبات امن در چاچوب برنام نویسی توزیع شده
۲٫ بهترین شیوه های امنیتی برای ذخیره داده های غیر رابطه ای
۳٫ ذخیره سازی داده های امن و ثبت تراکنش ها- داده و لاگ های مربوط به تراکنش ها در رسانه ذخیره سازی چند لایه (Multi tier storage) ذخیره می شوند.لزوم مقیاس پذیری و در دسترس پذیری کلان داده و ضرورت استفاده از Auto tiering برای مدیریت ذخیره سازی
- چالش امنیتی- مدل تهدید برای سیستم های ذخیره سازی Auto- tier شامل هفت سناریو عمده است:
- محرمانگی و یکپارچگی داده
- صحت داده
- دسترس پذیری
- سازگاری
- حمله تبانی
- حمله Roll back
- اختلاف
راهکار:
- حفاظت از حریم خصوصی
- دستکاری امن بر روی داده های رمز شده
۴٫ اعتبارسنجی ورودی نقطه انتهایی/ فیلترینگ
۵٫ نظارت بر انطباق/ امنیت بلادرنگ
۶٫ داده کاوی و تحلیل و حفظ حریم خصوصی ترکیبی و مقیاس پذیر
۷٫ امنیت داده محور با اعمال رمزنگاری
۸٫ کنترل دسترسی ریزبینانه تر
۹٫ ممیزی ریزبینانه تر
۱۰٫ منشا داده
طبقه بندی چالش های امنیت کلان داده
به تناسب موضوع، چالشهای امنیت و حریم خصوصی کلان داده ها به ۴ دسته زیر طبقه بندی می شوند:
۱٫ امنیت زیر ساخت
- رایانش های امن در چارچوب برنامه نویسی توزیع یافته
- بهترین شیوه های امنیتی برای منابع داده های غیر رابطه ای
۲٫ حریم خصوصی داده ها
- داده کاوی حفط حریم خصوصی و تحلیل
- امنیت داده محور با اعمال رمزنگاری
- کنترل دسترسی
۳٫ مدیریت داده ها
- امن کردن ذخایر داده و رویدادهای تراکنش
- ممیزی ریز بینانه
- منشا داده ها
۴٫ یکپارچگی و امنیت واکنشی
- اعتبارسنجی نطقه انتهایی و فیلترینگ
- نظارت امنیتی بلادرنگ
به منظور امن سازی زیر ساخت های سیستم کلان داده ها، باید محاسبات توزیع شده و ذخایر داده ها امن باشند. برای امن بودن خود داده ها، انتشار اطلاعات باید با حفظ حریم خصوصی بوده و داده های حساس نیز با رمز نگاری و کنترل دسترسی ریزبینانه حفاظت شوند. همچنین مدیریت حجم زیاد داده ها نیازمند راهکارهای مقیاس پذیر و توزیع یافته به دو منظور، امن سازی ذخایر داده ای و هم توانمند سازی ممیزی های موثر و اصالت داده ها می باشد.