کلان داده (Big Data)

تا اینجا انواع داده ها را از لحاظ ساختار مشاهده کردیم.

تعریف کلان داده (Big Data)

داده های بزرگ، ترکیبی از داده های ساخت یافته، نیمه ساختاری و غیر ساختاری است که توسط سازمان ها جمع آوری می شود و می تواند برای اطلاعات استخراج شود و در پروژه های یادگیری ماشین ، مدل سازی پیش بینی و سایر برنامه های تجزیه و تحلیل پیشرفته مورد استفاده قرار گیرد.

سیستم هایی که داده های بزرگ را پردازش و ذخیره می کنند ، به یکی از مولفه های معماری مدیریت داده در سازمان ها تبدیل شده اند. داده های بزرگ اغلب با3Vs  مشخص می شوند:

1. حجم(Volume): حجم زیاد داده ها در بسیاری از محیط ها،

2. تنوع(variety):  تنوع گسترده ای از انواع داده های ذخیره شده در سیستم های بزرگ داده و
3. سرعت(
velocity): سرعت تولید، جمع آوری و پردازش داده ها.

این خصوصیات ابتدا توسط داگ لنی، سپس تحلیلگر Meta Group Inc ، در سال 2001 شناسایی شد. گارتنر بعد از به دست آوردن گروه متا در سال 2005 ، آنها را بیشتر رایج کرد. اخیراً ، چندین Vs دیگر به توصیف های مختلف داده های بزرگ، از جمله صحت(veracity) ، ارزش(value) و تغییر پذیری(variability) اضافه شده اند.

اگرچه داده های بزرگ با حجم خاصی از داده ها برابر نیستند، اما استقرار داده های بزرگ غالباً شامل ترابایت (TB) ، پتابایت (PB) و حتی اگزابایت (EB) داده های گرفته شده در طول زمان است.