تفاوت بین متن کاوی و تجزیه و تحلیل متن(Text Mining vs Text Analytics)

تفاوت بین متن کاوی و تجزیه و تحلیل متن(Text Mining vs Text Analytics)

 

داده های ساختاری از اوایل دهه 1900 وجود داشته است، اما آنچه باعث استخراج متن (Text Mining) و تجزیه و تحلیل متن(Text Analytics) شده است، استفاده از اطلاعات از داده های بدون ساختار (پردازش زبان طبیعی(NLP)) است. هنگامی که ما قادر به تبدیل این متن بدون ساختار به داده های نیمه ساختاریافته یا ساختاریافته باشیم، استفاده از همه الگوریتم های داده کاوی پیشین در دسترس خواهد بود. الگوریتم های آماری و یادگیری ماشین.

 

حتی دونالد ترامپ توانست از این داده ها استفاده کند و آنها را به اطلاعاتی تبدیل کند که به او کمک کرد تا در انتخابات ریاست جمهوری آمریکا پیروز شود، اما اساساً او این کار را به صورت دستی انجام نداد.

بسیاری از مشاغل شروع به استفاده از استخراج متن کرده اند تا از ورودی های ارزشمند متن موجود در آنجا استفاده کنند، به عنوان مثال، یک شرکت مبتنی بر محصول می تواند از داده های توییتر / داده های فیس بوک استفاده کند تا بداند محصول آنها در دنیا با استفاده از تحلیل و بررسی احساسات مشتریان چقدر خوب یا بد عمل می کند. در روزهای اولیه پردازش، برای پردازش یا حتی پیاده سازی الگوریتم های یادگیری ماشین زمان زیادی را صرف می کردند، روزها طول می کشید، اما با معرفی ابزارهایی مانند Hadoop ، Azure ، KNIME و سایر نرم افزارهای پردازش داده های بزرگ استخراج متن محبوبیت زیادی در بازار پیدا کرده است. یکی از بهترین نمونه های تجزیه و تحلیل متن با استفاده از استخراج ارتباط، موتور توصیه آمازون است که به طور خودکار به مشتریان خود توصیه می کند سایر افراد هنگام خرید هر یک از محصولات خاص چه چیز دیگری خریداری کنند.

ادامه نوشته

کلان داده

کلان داده (Big Data)

تا اینجا انواع داده ها را از لحاظ ساختار مشاهده کردیم.

تعریف کلان داده (Big Data)

داده های بزرگ، ترکیبی از داده های ساخت یافته، نیمه ساختاری و غیر ساختاری است که توسط سازمان ها جمع آوری می شود و می تواند برای اطلاعات استخراج شود و در پروژه های یادگیری ماشین ، مدل سازی پیش بینی و سایر برنامه های تجزیه و تحلیل پیشرفته مورد استفاده قرار گیرد.

سیستم هایی که داده های بزرگ را پردازش و ذخیره می کنند ، به یکی از مولفه های معماری مدیریت داده در سازمان ها تبدیل شده اند. داده های بزرگ اغلب با3Vs  مشخص می شوند:

1. حجم(Volume): حجم زیاد داده ها در بسیاری از محیط ها،

2. تنوع(variety):  تنوع گسترده ای از انواع داده های ذخیره شده در سیستم های بزرگ داده و
3. سرعت(
velocity): سرعت تولید، جمع آوری و پردازش داده ها.

این خصوصیات ابتدا توسط داگ لنی، سپس تحلیلگر Meta Group Inc ، در سال 2001 شناسایی شد. گارتنر بعد از به دست آوردن گروه متا در سال 2005 ، آنها را بیشتر رایج کرد. اخیراً ، چندین Vs دیگر به توصیف های مختلف داده های بزرگ، از جمله صحت(veracity) ، ارزش(value) و تغییر پذیری(variability) اضافه شده اند.

اگرچه داده های بزرگ با حجم خاصی از داده ها برابر نیستند، اما استقرار داده های بزرگ غالباً شامل ترابایت (TB) ، پتابایت (PB) و حتی اگزابایت (EB) داده های گرفته شده در طول زمان است.

ادامه نوشته