تفاوت بین متن کاوی و تجزیه و تحلیل متن(Text Mining vs Text Analytics)

تفاوت بین متن کاوی و تجزیه و تحلیل متن(Text Mining vs Text Analytics)

 

داده های ساختاری از اوایل دهه 1900 وجود داشته است، اما آنچه باعث استخراج متن (Text Mining) و تجزیه و تحلیل متن(Text Analytics) شده است، استفاده از اطلاعات از داده های بدون ساختار (پردازش زبان طبیعی(NLP)) است. هنگامی که ما قادر به تبدیل این متن بدون ساختار به داده های نیمه ساختاریافته یا ساختاریافته باشیم، استفاده از همه الگوریتم های داده کاوی پیشین در دسترس خواهد بود. الگوریتم های آماری و یادگیری ماشین.

 

حتی دونالد ترامپ توانست از این داده ها استفاده کند و آنها را به اطلاعاتی تبدیل کند که به او کمک کرد تا در انتخابات ریاست جمهوری آمریکا پیروز شود، اما اساساً او این کار را به صورت دستی انجام نداد.

بسیاری از مشاغل شروع به استفاده از استخراج متن کرده اند تا از ورودی های ارزشمند متن موجود در آنجا استفاده کنند، به عنوان مثال، یک شرکت مبتنی بر محصول می تواند از داده های توییتر / داده های فیس بوک استفاده کند تا بداند محصول آنها در دنیا با استفاده از تحلیل و بررسی احساسات مشتریان چقدر خوب یا بد عمل می کند. در روزهای اولیه پردازش، برای پردازش یا حتی پیاده سازی الگوریتم های یادگیری ماشین زمان زیادی را صرف می کردند، روزها طول می کشید، اما با معرفی ابزارهایی مانند Hadoop ، Azure ، KNIME و سایر نرم افزارهای پردازش داده های بزرگ استخراج متن محبوبیت زیادی در بازار پیدا کرده است. یکی از بهترین نمونه های تجزیه و تحلیل متن با استفاده از استخراج ارتباط، موتور توصیه آمازون است که به طور خودکار به مشتریان خود توصیه می کند سایر افراد هنگام خرید هر یک از محصولات خاص چه چیز دیگری خریداری کنند.

ادامه نوشته

کلان داده

کلان داده (Big Data)

تا اینجا انواع داده ها را از لحاظ ساختار مشاهده کردیم.

تعریف کلان داده (Big Data)

داده های بزرگ، ترکیبی از داده های ساخت یافته، نیمه ساختاری و غیر ساختاری است که توسط سازمان ها جمع آوری می شود و می تواند برای اطلاعات استخراج شود و در پروژه های یادگیری ماشین ، مدل سازی پیش بینی و سایر برنامه های تجزیه و تحلیل پیشرفته مورد استفاده قرار گیرد.

سیستم هایی که داده های بزرگ را پردازش و ذخیره می کنند ، به یکی از مولفه های معماری مدیریت داده در سازمان ها تبدیل شده اند. داده های بزرگ اغلب با3Vs  مشخص می شوند:

1. حجم(Volume): حجم زیاد داده ها در بسیاری از محیط ها،

2. تنوع(variety):  تنوع گسترده ای از انواع داده های ذخیره شده در سیستم های بزرگ داده و
3. سرعت(
velocity): سرعت تولید، جمع آوری و پردازش داده ها.

این خصوصیات ابتدا توسط داگ لنی، سپس تحلیلگر Meta Group Inc ، در سال 2001 شناسایی شد. گارتنر بعد از به دست آوردن گروه متا در سال 2005 ، آنها را بیشتر رایج کرد. اخیراً ، چندین Vs دیگر به توصیف های مختلف داده های بزرگ، از جمله صحت(veracity) ، ارزش(value) و تغییر پذیری(variability) اضافه شده اند.

اگرچه داده های بزرگ با حجم خاصی از داده ها برابر نیستند، اما استقرار داده های بزرگ غالباً شامل ترابایت (TB) ، پتابایت (PB) و حتی اگزابایت (EB) داده های گرفته شده در طول زمان است.

ادامه نوشته

متن کاوی چیست؟

همان طور که تا اینجا صحبت کردیم، متوجه شدیم که داده‌های متنی غیر ساخت‌یافته، بزرگترین منبع داده‌های تولید شده به وسیله انسان محسوب می‌شوند که روز به روز در سرتاسر جهان بر حجم آن افزوده می شود. در این برهه زمانی شرکت ها با این سوال مواجه هستند که با این داده ها چه کار کنند؟

این داده‌ها، از یک سو، به شرکت‌های تجاری این امکان را می‌دهند تا بتوانند بینش هوشمندانه و دانش مفیدی را در رابطه با دیدگاه مردم، نسبت به یک محصول یا سرویس خاص، کسب کنند. شرکت‌ها قادر خواهند بود از طریق اطلاعات به دست آمده از تحلیل ایمیل‌های مشتریان، نقدهای محصولات، مطالب شبکه‌های اجتماعی، بازخورد مشتریان و سایر موارد، ایده‌های جالبی در مورد بهبود محصولات و خدمات کنونی یا ارائه خدمات و محصولات جدید کسب کنند. از سوی دیگر، چالش بزرگ شرکت‌ها، نحوه ی «پردازش (Processing) »این حجم از داده‌های غیر ساخت‌یافته است. اینجا است که اهمیت و نقش متن کاوی، برای شرکت‌ها مشخص می‌شود.

 

ادامه نوشته

انواع داده ها (ساختار یافته و غیر ساختار یافته)

تا الان ما با انواع بسیاری از داده ها از لحاظ کمی و کیفی در مباحث آمار در مقاطع دبیرستان و حتی دانشگاه آشنا شده ایم.اگر با برنامه نویسی آشنا باشید، انواع داده در زبان های برنامه نویسی را هم می شناسید.اما در اینجا ما به نوع دیگری از دسته بندی داده ها قرار است آشنا شویم. 

آیا تا به حال به این فکر کردید که به طور مثال پستی که در اینستاگرام آپلود می کنید یا نظری که در مورد یک محصول در وب سایت آن شرکت به اشتراک می گذارید، چه نوع داده ای است؟

همانطور که در متن قبل مطالعه کردی،متوجه شدید که  داده ها هر روز با جهشی فزاینده رشد می کنند، بعضی از آنها ساختار دارند اما اکثریت آنها ساختار ندارند. برآوردها می گویند که تقریبا 20٪ از داده ها ساختار دارند ، در حالی که داده های بدون ساختار 80-90٪ از داده های تولید شده را تشکیل می دهند.

اما این ساختار یافته بودن و غیر ساختار بودن به چه معناست؟

 

هر دو نوع داده به روش های مختلف جمع آوری، پردازش و تحلیل می شوند ، با این حال، هدف یکسانی را شامل می شوند و آن هم  استخراج اطلاعات برای تصمیم گیری های مبتنی بر داده است.

 بنابراین تفاوت های داده های ساخت یافته و غیر ساختاری دقیقاً چیست؟

 

 

ادامه نوشته

روزانه در جهان چه میزان داده تولید می شود؟

در دنیای کسب و کار رو به رشد امروزی ،که دانش حرف اول برای ماندن در صحنه رقابت را می زند ،یکی از مهم ترین مواردی که می تواند به کسب و کار ما کمک شایان به ذکری بکند تحلیل حجم انبوهی از داده هایی است که ما روزانه از سمت بسیاری از افراد اعم از مشتریان ، کارکنان و اطرافیان خود دریافت می کنیم. هر یک از ما روزانه کار هایی رو انجام می دهیم بدون اینکه مطلع باشیم چه میزان داده داریم به حجم داده جهانی می افزاییم.

 دیگر نمیتوان داده ها را به روش سنتی مورد بررسی قرار داد زیرا حجم داده به طور روز افزون در حال افزایش است.

ادامه نوشته

هرم دانش یا هرم (DIKW)

آیا از هرم DIKW چیزی شنیده اید؟ اگر نه ، شما تنها نیستید چون من هم کمی پیش مثل شما بودم. اما اگر شما در پی چگونگی تصمیم گیری مبتنی بر داده هستید ، ادامه مطلب را بخوانید.

 

 

هرم DIKW مخفف (Data,Information,Knowledge,wisdom)یا همان هرم دانش(Knowledge pyramid)است.

هرم DIKW روابط بین داده ، اطلاعات ، دانش و خرد را نشان می دهد. هر بلوک ساختمانی گامی به سوی سطح بالاتر است .ابتدا داده می آید ، سپس اطلاعات ، بعدی دانش است و سرانجام خرد می آید. هر مرحله به سوالات مختلف در مورد داده های اولیه پاسخ می دهد و به آنها ارزش می دهد. هرچه اطلاعات خود را با معنی و زمینه، غنی کنیم ، دانش و بینش بیشتری از آنها می گیریم تا بتوانیم تصمیمات بهتر ، آگاهانه و مبتنی بر داده اتخاذ کنیم.

 

بنابراین ، بیایید نگاهی بیندازیم به اجزای جداگانه هرم دانش و نحوه حرکت ما از یک سطح به دیگری.

ادامه نوشته