همان طور که تا اینجا صحبت کردیم، متوجه شدیم که داده‌های متنی غیر ساخت‌یافته، بزرگترین منبع داده‌های تولید شده به وسیله انسان محسوب می‌شوند که روز به روز در سرتاسر جهان بر حجم آن افزوده می شود. در این برهه زمانی شرکت ها با این سوال مواجه هستند که با این داده ها چه کار کنند؟

این داده‌ها، از یک سو، به شرکت‌های تجاری این امکان را می‌دهند تا بتوانند بینش هوشمندانه و دانش مفیدی را در رابطه با دیدگاه مردم، نسبت به یک محصول یا سرویس خاص، کسب کنند. شرکت‌ها قادر خواهند بود از طریق اطلاعات به دست آمده از تحلیل ایمیل‌های مشتریان، نقدهای محصولات، مطالب شبکه‌های اجتماعی، بازخورد مشتریان و سایر موارد، ایده‌های جالبی در مورد بهبود محصولات و خدمات کنونی یا ارائه خدمات و محصولات جدید کسب کنند. از سوی دیگر، چالش بزرگ شرکت‌ها، نحوه ی «پردازش (Processing) »این حجم از داده‌های غیر ساخت‌یافته است. اینجا است که اهمیت و نقش متن کاوی، برای شرکت‌ها مشخص می‌شود.

متن کاوی یا استخراج متن چیست؟

متن در استخراج متن یا متن کاوی، به زبان نوشتاری اشاره دارد که دارای برخی مطالب اطلاعاتی است. به عنوان مثال، داستان روزنامه ها، مقالات مجله، کتاب های داستانی و غیر داستانی، کتابچه های راهنما، وبلاگ ها، ایمیل و مقالات آنلاین همه متن هستند.

استخراج متن یا متن کاوی (همچنین به عنوان داده کاوی متن و کشف دانش در پایگاه داده های متنی شناخته می شود) فرآیند استخراج اطلاعات جدید از مجموعه متون است. منظور  از "اطلاعات بدیع یا جدید" اجتماع ها، فرضیه ها یا روندهایی است که به صراحت در منابع متنی مورد تحلیل وجود ندارد. گرچه متن کاوی به درستی بخشی از زمینه عمومی داده کاوی محسوب می شود، اما به دلیل الگوهایی که از متن زبان طبیعی استخراج می شود به جای اینکه از پایگاه داده های ساختار یافته واقعیت ها استخراج شود، متن کاوی در بسیاری از جزئیات تفاوت قابل توجهی دارد. پایگاه داده ها برای پردازش خودکار برنامه ها طراحی شده اند. متن برای خواندن مردم نوشته شده است. ما برنامه هایی نداریم که بتوانند متن را "بخوانند" و "درک کنند" (حداقل نه به روشی که بشر انجام می دهد). بسیاری از محققان فکر می کنند که قبل از اینکه بتوانیم برنامه هایی را بنویسیم که روش کار افراد را بخواند و درک کند، به یک شبیه سازی کامل از ذهن نیاز دارد که تا حدودی در هوش مصنوعی بر روی این موضوع کار می شود.

بنابراین متن کاوی چه کاری انجام می دهد؟ در ابتدایی ترین سطح، یک سند متنی بدون ساختار را عددی می کند و سپس با استفاده از ابزارها و تکنیک های داده کاوی، الگوهایی را از آنها استخراج می کند. بنابراین، متن کاوی را می توان برای بسیاری از برنامه ها در زمینه های مختلف از جمله:

1. بازاریابی

2. برنامه های امنیت ملی و امنیت شرکتی

3. پزشکی و زیست پزشکی

4- پرونده های حقوقی - وکلا

5. مالی شرکت - برای هوش تجاری

6. تجزیه و تحلیل ثبت اختراع - برای اداره ثبت اختراعات و علائم تجاری ایالات متحده

7. روابط عمومی - مقایسه صفحات وب مشاغل، کالج ها یا سازمان های قابل مقایسه

 

تکنیک ها و رویکردهای متعددی برای متن کاوی وجود دارد که در مطالب بعدی به آن ها می پردازیم، اما هدف کلی ساده است: این اطلاعات جدید و مفیدی را که در یک یا چند اسناد متنی موجود است کشف می کنند. در عمل، متن کاوی با اجرای برنامه های رایانه ای انجام می شود که، متن در اسناد خوانده شده و آنها را به روش های مختلف پردازش می کند. سپس نتایج توسط انسان تفسیر می شود.

استخراج متن ترکیبی از تخصص چندین رشته است: ریاضیات، آمار، احتمال، هوش مصنوعی، بازیابی اطلاعات و پایگاه داده، از جمله. برخی از روشهای آن از نظر مفهومی ساده هستند، به عنوان مثال، سازگاری در جایی که همه موارد یک کلمه در متن آن ذکر شده باشد (مانند یک توافق نامه کتاب مقدس). همچنین الگوریتم های پیچیده ای مانند مدل های مخفی مارکوف (برای شناسایی قسمت های گفتار استفاده می شود) وجود دارد. در ادامه به بررسی آنها می پردازیم.

و در نگاهی عمیق تر می توانیم بیان کینم که متن‌کاوی از طریق استخراج اطلاعات و دانش مفید از داده‌های سازمانی و غیرسازمانی مرتبط، منجر به ایجاد تصمیمات تجاری داده محور (Data-Driven Business Decisions)  بهتر در شرکت‌ها می‌شوند. در این جا، شاید این سوال پیش بیاید که متن کاوی چگونه می‌تواند تمامی این موارد را محقق کند؟ پاسخ به این سوال در مفهوم (یادگیری ماشینی( (Machine Learning) نهفته است.

یادگیری ماشین یکی از زیر شاخه‌های (هوش مصنوعی( (Artificial Intelligence) و هدف آن، تولید الگوریتم‌هایی است که کامپیوتر را قادر به یادگیری انجام وظایف، بر مبنای نمونه‌ها (داده‌ها) می‌کنند. مدل‌های یادگیری ماشین، پیش از آنکه مورد استفاده قرار بگیرند، باید توسط داده‌ها آموزش داده شوند. پس از آموزش، مدل‌های یادگیری ماشین قادر خواهند بود تا به طور خودکار و با درصد دقت مشخصی، در مورد داده‌های ورودی پیش‌بینی انجام دهند. وقتی که متن‌کاوی و یادگیری ماشین با هم ترکیب شوند، «تحلیل اتوماتیک متن» ممکن می‌شود.