زندگی امروز از انبوی از اطلاعات تشکیل شده است. بخش زیادی از این داده ها در صفحات وب و از طریق اینترنت تولید می شود. این اطلاعات حاوی داده های با اهمیتی هستند که با استخراج و تجزیه و تحلیل، دانش زیاد و مهمی را در اختیار قرار میدهند.
استخراج داده از وب سایت
امروزه داده ها و اطلاعات با حجم وحشتناکی تولید میشود. مدیریت این اطلاعات با چشم و یا ذهن انسان غیر قابل انجام است. استفاده از برنامه وب اسکریینگ(Web Scraping) برای جمع آوری خودکار این داده ها و اطلاعات در دسترس است. می توان با این نرم افزارها داده کاوی، تحلیل داده و … را انجام داد. به عبارت دیگر وب اسکرپینگ تعریفی برای استخراج داده و ذخیره سازی از وب است. تمام داده های موجود در دنیای اینترنت را می توان جمع آوری کرد. از جمله اطلاعات املاک، ایمیل، کسب و کارهای مختلف، ورزشی و….
دسترسی به داده سایت
با استفاده از ابزارها و کتابخانه های زبان های برنامه نویسی، می توان از تگ های html هر صفحه و محتواهای آن استفاده نمود. برای رسیدن به تگ های html باید از طریق url سایت مورد نظر به تگ ها دسترسی داشت و از این طریق به تگ مورد نظر رسید و اطلاعات را ذخیره نمود. در html از تگ ها برای ایجاد صفحه های وب و انتشار محتواهای مختلف از جمله متن، تصویر، ویدئو، فایل های پی دی اف، صوت و غیره استفاده می شود. هر یک از داده ها(متن، تصویر، ویدئو و غیره) با فرمت ها و ساختارهای متفاوتی هستند. در حالت کلی سه ساختار برای داده ها در نظر میگیرند:
- داده های ساختار یافته(structured data)- مانند فایل های متنی ساده
- داده های ساختار نیافته(unstructured data)- مانند تصویر، ویدئو و غیره
- داده های نیمه ساختار یافته(semi-structured data)- مانند فایل های اکسل، فایل های csv، فایل های با فرمتjson و فایل های با فرمتxml
پس با فرمتهای مختلفی از داده روبه رو هستیم که انبوهی از اطلاعات را در صفحه وب یا اینترنت شامل می شوند. اولین قدم بدست آوردن داده های از منابع مختلف اینترنت(صفحات وب) است. از طریق تگ های html در هر صفحه وب می توان داده ها را بدست آورد. هدف اصلی کسب این داده ها پردازش و استخراج دانش برای تصمیم گیری، از دانش به دست آمده است. این دانش برای توسعه و پیشرفت در زمینه ای که داده ها بدست آمده، است. این زمینه می تواند کسب و کاری مشخص باشد که داده های را تولید کرده است. با کشف دانش حاصل از داده های تولیدی این کسب و کار می توانیم به رونق و بهبود آن کمک کنیم.
در حقیقت هدف کلی و اصلی، تجزیه و تحلیل داده ها برای بهبود و تصمیم گیری درست است.