متن کاوی چیست؟

همان طور که تا اینجا صحبت کردیم، متوجه شدیم که دادههای متنی غیر ساختیافته، بزرگترین منبع دادههای تولید شده به وسیله انسان محسوب میشوند که روز به روز در سرتاسر جهان بر حجم آن افزوده می شود. در این برهه زمانی شرکت ها با این سوال مواجه هستند که با این داده ها چه کار کنند؟
این دادهها، از یک سو، به شرکتهای تجاری این امکان را میدهند تا بتوانند بینش هوشمندانه و دانش مفیدی را در رابطه با دیدگاه مردم، نسبت به یک محصول یا سرویس خاص، کسب کنند. شرکتها قادر خواهند بود از طریق اطلاعات به دست آمده از تحلیل ایمیلهای مشتریان، نقدهای محصولات، مطالب شبکههای اجتماعی، بازخورد مشتریان و سایر موارد، ایدههای جالبی در مورد بهبود محصولات و خدمات کنونی یا ارائه خدمات و محصولات جدید کسب کنند. از سوی دیگر، چالش بزرگ شرکتها، نحوه ی «پردازش (Processing) »این حجم از دادههای غیر ساختیافته است. اینجا است که اهمیت و نقش متن کاوی، برای شرکتها مشخص میشود.

متن کاوی یا استخراج متن چیست؟
متن در استخراج متن یا متن کاوی، به زبان نوشتاری اشاره دارد که دارای برخی مطالب اطلاعاتی است. به عنوان مثال، داستان روزنامه ها، مقالات مجله، کتاب های داستانی و غیر داستانی، کتابچه های راهنما، وبلاگ ها، ایمیل و مقالات آنلاین همه متن هستند.
استخراج متن یا متن کاوی (همچنین به عنوان داده کاوی متن و کشف دانش در پایگاه داده های متنی شناخته می شود) فرآیند استخراج اطلاعات جدید از مجموعه متون است. منظور از "اطلاعات بدیع یا جدید" اجتماع ها، فرضیه ها یا روندهایی است که به صراحت در منابع متنی مورد تحلیل وجود ندارد. گرچه متن کاوی به درستی بخشی از زمینه عمومی داده کاوی محسوب می شود، اما به دلیل الگوهایی که از متن زبان طبیعی استخراج می شود به جای اینکه از پایگاه داده های ساختار یافته واقعیت ها استخراج شود، متن کاوی در بسیاری از جزئیات تفاوت قابل توجهی دارد. پایگاه داده ها برای پردازش خودکار برنامه ها طراحی شده اند. متن برای خواندن مردم نوشته شده است. ما برنامه هایی نداریم که بتوانند متن را "بخوانند" و "درک کنند" (حداقل نه به روشی که بشر انجام می دهد). بسیاری از محققان فکر می کنند که قبل از اینکه بتوانیم برنامه هایی را بنویسیم که روش کار افراد را بخواند و درک کند، به یک شبیه سازی کامل از ذهن نیاز دارد که تا حدودی در هوش مصنوعی بر روی این موضوع کار می شود.
بنابراین متن کاوی چه کاری انجام می دهد؟ در ابتدایی ترین سطح، یک سند متنی بدون ساختار را عددی می کند و سپس با استفاده از ابزارها و تکنیک های داده کاوی، الگوهایی را از آنها استخراج می کند. بنابراین، متن کاوی را می توان برای بسیاری از برنامه ها در زمینه های مختلف از جمله:
1. بازاریابی
2. برنامه های امنیت ملی و امنیت شرکتی
3. پزشکی و زیست پزشکی
4- پرونده های حقوقی - وکلا
5. مالی شرکت - برای هوش تجاری
6. تجزیه و تحلیل ثبت اختراع - برای اداره ثبت اختراعات و علائم تجاری ایالات متحده
7. روابط عمومی - مقایسه صفحات وب مشاغل، کالج ها یا سازمان های قابل مقایسه
تکنیک ها و رویکردهای متعددی برای متن کاوی وجود دارد که در مطالب بعدی به آن ها می پردازیم، اما هدف کلی ساده است: این اطلاعات جدید و مفیدی را که در یک یا چند اسناد متنی موجود است کشف می کنند. در عمل، متن کاوی با اجرای برنامه های رایانه ای انجام می شود که، متن در اسناد خوانده شده و آنها را به روش های مختلف پردازش می کند. سپس نتایج توسط انسان تفسیر می شود.
استخراج متن ترکیبی از تخصص چندین رشته است: ریاضیات، آمار، احتمال، هوش مصنوعی، بازیابی اطلاعات و پایگاه داده، از جمله. برخی از روشهای آن از نظر مفهومی ساده هستند، به عنوان مثال، سازگاری در جایی که همه موارد یک کلمه در متن آن ذکر شده باشد (مانند یک توافق نامه کتاب مقدس). همچنین الگوریتم های پیچیده ای مانند مدل های مخفی مارکوف (برای شناسایی قسمت های گفتار استفاده می شود) وجود دارد. در ادامه به بررسی آنها می پردازیم.
و در نگاهی عمیق تر می توانیم بیان کینم که متنکاوی از طریق استخراج اطلاعات و دانش مفید از دادههای سازمانی و غیرسازمانی مرتبط، منجر به ایجاد تصمیمات تجاری داده محور (Data-Driven Business Decisions) بهتر در شرکتها میشوند. در این جا، شاید این سوال پیش بیاید که متن کاوی چگونه میتواند تمامی این موارد را محقق کند؟ پاسخ به این سوال در مفهوم (یادگیری ماشینی( (Machine Learning) نهفته است.
یادگیری ماشین یکی از زیر شاخههای (هوش مصنوعی( (Artificial Intelligence) و هدف آن، تولید الگوریتمهایی است که کامپیوتر را قادر به یادگیری انجام وظایف، بر مبنای نمونهها (دادهها) میکنند. مدلهای یادگیری ماشین، پیش از آنکه مورد استفاده قرار بگیرند، باید توسط دادهها آموزش داده شوند. پس از آموزش، مدلهای یادگیری ماشین قادر خواهند بود تا به طور خودکار و با درصد دقت مشخصی، در مورد دادههای ورودی پیشبینی انجام دهند. وقتی که متنکاوی و یادگیری ماشین با هم ترکیب شوند، «تحلیل اتوماتیک متن» ممکن میشود.