کلان داده (Big Data)

تا اینجا انواع داده ها را از لحاظ ساختار مشاهده کردیم.
تعریف کلان داده (Big Data)
داده های بزرگ، ترکیبی از داده های ساخت یافته، نیمه ساختاری و غیر ساختاری است که توسط سازمان ها جمع آوری می شود و می تواند برای اطلاعات استخراج شود و در پروژه های یادگیری ماشین ، مدل سازی پیش بینی و سایر برنامه های تجزیه و تحلیل پیشرفته مورد استفاده قرار گیرد.
سیستم هایی که داده های بزرگ را پردازش و ذخیره می کنند ، به یکی از مولفه های معماری مدیریت داده در سازمان ها تبدیل شده اند. داده های بزرگ اغلب با3Vs  مشخص می شوند:
1. حجم(Volume): حجم زیاد داده ها در بسیاری از محیط ها،
2. تنوع(variety):  تنوع گسترده ای از انواع داده های ذخیره شده در سیستم های بزرگ داده و3. سرعت(velocity): سرعت تولید، جمع آوری و پردازش داده ها.
این خصوصیات ابتدا توسط داگ لنی، سپس تحلیلگر Meta Group Inc ، در سال 2001 شناسایی شد. گارتنر بعد از به دست آوردن گروه متا در سال 2005 ، آنها را بیشتر رایج کرد. اخیراً ، چندین Vs دیگر به توصیف های مختلف داده های بزرگ، از جمله صحت(veracity) ، ارزش(value) و تغییر پذیری(variability) اضافه شده اند.
اگرچه داده های بزرگ با حجم خاصی از داده ها برابر نیستند، اما استقرار داده های بزرگ غالباً شامل ترابایت (TB) ، پتابایت (PB) و حتی اگزابایت (EB) داده های گرفته شده در طول زمان است.
اهمیت داده های بزرگ
شرکت ها از داده های کلان جمع شده در سیستم های خود برای بهبود عملیات، ارائه خدمات بهتر به مشتری، ایجاد کمپین های بازاریابی شخصی بر اساس ترجیحات خاص مشتری و در نهایت افزایش سودآوری استفاده می کنند. مشاغلی که از داده های بزرگ استفاده می کنند، دارای مزیت بالقوه رقابتی نسبت به مشاغل دیگر هستند ، زیرا نمی توانند تصمیمات شغلی سریعتر و آگاهانه تری را اتخاذ کنند، مشروط بر اینکه از داده ها به طور موثر استفاده کنند.
به عنوان مثال، داده های بزرگ می توانند بینش های ارزشمندی را در مورد مشتریان خود در اختیار شرکت ها قرار دهند که می تواند برای اصلاح کمپین ها و تکنیک های بازاریابی به منظور افزایش تعامل و نرخ تبدیل مشتری، مورد استفاده قرار گیرد.
علاوه بر این، استفاده از داده های بزرگ شرکت ها را قادر می سازد تا به طور فزاینده ای مشتری مدار شوند. از داده های تاریخی و به موقع می توان برای ارزیابی ترجیحات در حال تغییر مصرف کنندگان استفاده کرد، در نتیجه تجارت را قادر می سازد استراتژی های بازاریابی خود را به روز کرده و بهبود ببخشد و بیشتر به خواسته ها و نیازهای مشتری پاسخ دهد.
داده های بزرگ همچنین توسط محققان پزشکی برای شناسایی عوامل خطر بیماری و توسط پزشکان برای کمک به تشخیص بیماری ها و شرایط در بیماران جداگانه استفاده می شود. علاوه بر این ، داده های به دست آمده از سوابق الکترونیکی بهداشت (EHR) ، رسانه های اجتماعی، وب و منابع دیگر اطلاعات هر دقیقه در مورد تهدیدات یا شیوع بیماری های عفونی را به سازمان های بهداشتی و آژانس های دولتی ارائه می دهند.
در صنعت انرژی، داده های بزرگ به شرکت های نفت و گاز کمک می کند تا مکان های بالقوه حفاری را شناسایی کرده و عملیات خط لوله را رصد کنند. به همین ترتیب، سرویس های برق از آن برای ردیابی شبکه های برق استفاده می کنند. شرکت های خدمات مالی از سیستم های بزرگ داده برای مدیریت ریسک و تجزیه و تحلیل زمان واقعی داده های بازار استفاده می کنند. تولیدکنندگان و شرکت های حمل و نقل برای مدیریت زنجیره تأمین و بهینه سازی مسیرهای تحویل به داده های بزرگ اعتماد می کنند. اقدامات دیگر دولت شامل واکنش اضطراری، پیشگیری از جرم و ابتکارات شهر هوشمند است.
نمونه هایی از داده های بزرگ
داده های کلان از منابع مختلف بی شماری مانند سیستم های معاملات تجاری، پایگاه های اطلاعاتی مشتری، سوابق پزشکی، گزارش های جریان کلیک اینترنتی، برنامه های تلفن همراه، شبکه های اجتماعی، مخازن تحقیقات علمی، داده های تولید شده در ماشین و حسگرهای داده در زمان واقعی استفاده می شود که در اینترنت موارد استفاده می شود ( اینترنت اشیا) محیط ها. داده ها ممکن است به صورت خام در سیستم های کلان داده باقی بمانند یا با استفاده از ابزارهای داده کاوی یا نرم افزار آماده سازی داده ها ، پیش پردازش شوند تا برای استفاده های خاص تجزیه و تحلیل آماده شوند.
با استفاده از داده های مشتری به عنوان مثال، شاخه های مختلف تجزیه و تحلیل که می توان با اطلاعات موجود در مجموعه داده های بزرگ انجام داد شامل موارد زیر است:تحلیل مقایسه ای: این شامل بررسی معیارهای رفتار کاربر و مشاهده تعامل مشتری در زمان واقعی برای مقایسه محصولات، خدمات و اقتدار نام تجاری یک شرکت با محصولات رقابتی آن است.گوش دادن به شبکه های اجتماعی: این اطلاعاتی است در مورد آنچه مردم در شبکه های اجتماعی در مورد یک تجارت یا محصول خاص می گویند و فراتر از آن است که در یک نظرسنجی یا نظرسنجی ارائه شود. از این داده ها می توان برای کمک به شناسایی مخاطبان هدف برای فعالیت های بازاریابی با مشاهده فعالیت پیرامون موضوعات خاص در منابع مختلف استفاده کرد.تجزیه و تحلیل بازاریابی: این شامل اطلاعاتی است که می تواند برای آگاهی و ابتکار بیشتر تبلیغ محصولات، خدمات و ابتکارات جدید مورد استفاده قرار گیرد.رضایت مشتری و تجزیه و تحلیل احساسات: تمام اطلاعات جمع آوری شده می تواند احساس مشتری در مورد یک شرکت یا نام تجاری را نشان دهد، در صورت بروز هرگونه مشکل احتمالی، چگونه می توان وفاداری به نام تجاری را حفظ کرد و چگونه تلاش های خدمات مشتری را بهبود بخشید.
در هم شکستن Vs داده های بزرگ
حجم معمول ترین استناد به داده های بزرگ است. یک محیط داده بزرگ نیازی به مقدار زیادی داده ندارد، اما بیشتر آنها به دلیل ماهیت داده های جمع آوری شده و ذخیره شده در آنها هستند. جریانهای کلیک، گزارش های سیستم و سیستم های پردازش جریان از جمله منابعی هستند که به طور معمول حجم عظیمی از داده های بزرگ را به طور مداوم تولید می کنند.
 
ششV  داده های بزرگ
داده های بزرگ مجموعه ای از داده ها از منابع مختلف است، که اغلب توسط آنچه به عنوان 3Vs شناخته می شود مشخص می شود:
حجم ، تنوع و سرعت
با گذشت زمان ، موارد دیگر به شرح داده ها اضافه شده است:


داده های بزرگ همچنین انواع مختلفی از داده ها را شامل می شود، از جمله موارد زیر:داده های ساختاریافته در پایگاه داده ها و انبارهای داده بر اساس زبان جستجوی ساختار یافته (SQL) ؛داده های بدون ساختار ، مانند پرونده های متنی و اسنادی موجود در خوشه های Hadoop یا سیستم های پایگاه داده و NoSQL.داده های نیمه ساختار یافته، مانند گزارش های وب سرور یا جریان داده ها از حسگرها.
همه انواع مختلف داده را می توان با هم در یک دریاچه داده(data lake) ذخیره کرد که معمولاً براساس Hadoop یا سرویس ذخیره سازی ابری است. علاوه بر این، برنامه های بزرگ داده اغلب شامل چندین منبع داده هستند که ممکن است در غیر این صورت یکپارچه نشوند. به عنوان مثال، یک پروژه تجزیه و تحلیل داده های بزرگ ممکن است سعی کند با همبستگی داده های فروش گذشته، داده های برگشتی و داده های بررسی آنلاین خریدار برای آن محصول، موفقیت و فروش آینده محصول را اندازه گیری کند.
سرعت(Velocity) به سرعت تولید داده های بزرگ گفته می شود و باید پردازش و تحلیل شود. در بسیاری از موارد ، مجموعه داده های بزرگ به جای به روزرسانی های روزانه ، هفتگی یا ماهانه که در بسیاری از انبارهای داده سنتی انجام می شود ، به صورت واقعی یا تقریباً به صورت واقعی به روز می شوند. برنامه های کاربردی تجزیه و تحلیل داده های بزرگ داده های ورودی را بلعیده ، همبسته و تجزیه و تحلیل می کنند و سپس پاسخ یا نتیجه ای را بر اساس یک پرسش کلی ارائه می دهند. این بدان معناست که دانشمندان داده و سایر تحلیلگران داده ها باید درک دقیق از داده های موجود داشته باشند و تا حدی بدانند که به دنبال چه پاسخی هستند تا از معتبر بودن و به روز بودن اطلاعات دریافت کنند.
مدیریت سرعت داده ها نیز مهم است زیرا تجزیه و تحلیل داده های بزرگ در زمینه هایی مانند یادگیری ماشین و هوش مصنوعی (AI) گسترش می یابد ، جایی که فرایندهای تحلیلی به طور خودکار الگوهایی را در داده های جمع آوری شده پیدا می کنند و از آنها برای تولید بینش استفاده می کنند.
 
خصوصیات بیشتر داده های بزرگ
با نگاهی فراتر از 3 ولت اصلی ، صحت داده ها به میزان اطمینان در مجموعه داده ها اشاره دارد. داده های خام نامشخصی که از چندین منبع جمع آوری شده است - مانند سیستم عامل های رسانه های اجتماعی و صفحات وب - می تواند باعث بروز مشکلات جدی در مورد کیفیت داده شود که تشخیص آنها دشوار است. به عنوان مثال ، شرکتی که مجموعه ای از داده های بزرگ را از صدها منبع جمع آوری می کند، ممکن است بتواند داده های نادرست را شناسایی کند، اما تحلیلگران آن برای ردیابی محل ذخیره سازی داده ها به اطلاعات مربوط به تبار داده نیاز دارند تا بتوانند مشکلات را اصلاح کنند.
داده های بد منجر به تجزیه و تحلیل نادرست می شود و ممکن است ارزش تجزیه و تحلیل کسب و کار را تضعیف کند زیرا می تواند باعث بی اعتمادی مدیران به داده ها به طور کلی شود. مقدار داده های نامشخص در یک سازمان باید قبل از استفاده در برنامه های تجزیه و تحلیل داده های بزرگ ، محاسبه شود. تیم های IT و تجزیه و تحلیل همچنین باید اطمینان حاصل کنند که داده های دقیق کافی در دسترس برای تولید نتایج معتبر دارند.
برخی از دانشمندان داده همچنین به لیست مشخصات داده های بزرگ ارزش افزوده می دهند. همانطور که در بالا توضیح داده شد ، همه داده های جمع آوری شده ارزش تجاری واقعی ندارند و استفاده از داده های نادرست می تواند بینش ارائه شده توسط برنامه های تجزیه و تحلیل را ضعیف کند. این بسیار مهم است که سازمانها از قبیل پاک کردن داده ها از روشهایی استفاده می کنند و تأیید می کنند که دادهها قبل از استفاده از آنها در یک پروژه تجزیه و تحلیل داده های بزرگ ، به مسائل مربوط به تجارت مرتبط هستند.
تنوع(Variability) اغلب در مورد مجموعه داده های کلان اعمال می شود، که سازگاری کمتری نسبت به داده های معاملاتی معمولی دارند و ممکن است چندین معنی داشته باشند یا از یک منبع داده به منبع دیگر به صورت های مختلف قالب بندی شوند - عواملی که تلاش برای پردازش و تحلیل داده ها را بیشتر پیچیده می کنند. برخی از افراد حتی بیشتر Vs را به داده های بزرگ نسبت می دهند. دانشمندان و مشاوران داده ها، لیست های مختلفی را بین 7 تا 10 v در مقابل ایجاد کرده اند.