داده کاوی چیست ؟ سیر تا پیاز داده کاوی

داده کاوی

داده کاوی چیست ؟ سیر تا پیاز داده کاوی

داده‌کاوی ، به مفهوم استخراج اطلاعات نهان یا الگوها و روابط مشخص در حجم زیادی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ گفته می‌شود. بسیاری از مردم داده کاوی را مترادف واژه‌های رایج کشف دانش از داده‌ها (KDD) می‌دانند. داده‌کاوی، پایگاه‌ها و مجموعه حجیم داده‌ها را در پی کشف و استخراج، مورد تحلیل قرار می‌دهد. این‌گونه مطالعات و کاوش‌ها را به واقع می‌توان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینه‌ها و کاربردها، و نیز ابعاد و اندازه‌های داده‌های امروزین است که شیوه‌های ماشینی مربوط به یادگیری، مدل‌سازی، و آموزش را طلب می‌نماید.

داده کاوی چیست ؟

داده‌کاوی ، به مفهوم استخراج اطلاعات نهان یا الگوها و روابط مشخص در حجم زیادی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ گفته می‌شود. بسیاری از مردم داده کاوی را مترادف واژه‌های رایج کشف دانش از داده‌ها (KDD) می‌دانند. داده‌کاوی، پایگاه‌ها و مجموعه حجیم داده‌ها را در پی کشف و استخراج، مورد تحلیل قرار می‌دهد. این‌گونه مطالعات و کاوش‌ها را به واقع می‌توان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینه‌ها و کاربردها، و نیز ابعاد و اندازه‌های داده‌های امروزین است که شیوه‌های ماشینی مربوط به یادگیری، مدل‌سازی، و آموزش را طلب می‌نماید.

تفاوت داده کاوی با علم آمار در چیست ؟

تفاوت اصلی داده کاوی و علم آمار، در حجم داده های مورد تحلیل، روش مدلسازی داده ها و استفاده از هوش مصنوعی است. داده کاوی شاخه ی توسعه یافته و پیچیده ی علم آمار است. علم آمار به تنهایی برای صاحبان صنایع و شرکت ها بسیار اهمیت دارد. اما اهمیت داده کاوی فراتر از علم آمار می رود و امکاناتی در اختیار شما قرار می دهد که ساز و کارهایی آماری از انجام آنها ناتوان هستند.

تفاوت اصلی علم آمار با شاخه ی توسعه یافته ی خود یعنی داده کاوی، در حجم داده های مورد تحلیل و روش مدلسازی داده هاست. در بیشتر موارد حجم داده های اولیه ی مورد استفاده در داده کاوی آنقدر زیاد است که به یک چالش زمان بر و هزینه بر تبدیل می شود. اما مدلسازی داده های ورودی و دستیابی به اطلاعات پنهان و ارزشمند موجود در این حجم عظیم داده، با کمک هوش مصنوعی و شیوه های خودکار یادگیری انجام می شود که در بررسی های پایه ای آماری خبری از آن نیست.

وظیفه ی داده کاوی، کاویدن و استخراج دانش از منابع عظیم داده ایی است تا اطلاعات گرانبهایی و با ارزشی که در حجم انبوهی از اطلاعات سطحی پنهان شده است را آشکار کند.

داده کاوی چگونه کار می کند ؟

چند روش اصلی وجود دارد که برای تشخیص الگوها معمولاً از آنها استفاده می شود که به عنوان وظایف داده کاوی مطرح گشته اند. این وظایف، نشان می دهند که داده کاوی چگونه می تواند کار کند.

  • تشخیص انحرافات

در مجموعه داده های بزرگ می توان تمایل داده ها به الگو یا رفتار خاصی را تصویر نمود. تکنیک های آماری می توانند در این موقعیت بررسی کنند آیا موارد خاصی وجود دارند که نسبت به الگوی موجود تفاوت قابل ملاحظه ای داشته باشند یا خیر؟ بطور مثال، اداره های دارایی می توانند با مدلسازی الگوی اظهارنامه های مالیاتی دریافت شده و با استفاده از روش های تشخیص انحرافات، اظهارنامه های مغایر با الگوی معمول را استخراج کرده و به بررسی بیشتر و ممیزی آنها بپردازند.

  •  آنالیز وابستگی ها

یکی از روش های داده کاوی می باشد که در سیستم پیشنهادات سایت آمازون مورد استفاده قرار گرفته است. این روش کشف الگو، معمولاً در مسائل بازاریابی و تبلیغات هدفمند استفاده می شود. یک نسخه مشابه ولی پیچیده تر از این روش در سیستم پیشنهاد فیلم سایت Netflix بکار رفته است.

  •  خوشه بندی

یکی از روش های الگوشناسی است که بطور خاص در تشخیص خوشه های متمایز در درون داده ها بکار می رود. بدون داده کاوی، تحلیلگر بایستی با مشاهده بصری داده ها نسبت به خوشه های متمایز در آنها تصمیم گیری کرده و روابط شاخص در هر خوشه را تشخیص دهد. در این حالت خطر نادیده انگاشتن دسته های مهمی از داده ها بسیار زیاد است. با استفاده از داده کاوی، این امکان وجود دارد تا به خود داده ها اجازه دهیم تا گروه های بین خود را نمایش دهند.

این یکی از روش های جعبه سیاه الگوریتم های داده کاوی است که درک آن سخت می باشد. ولی در یک مثال ساده، می توان رفتار خرید مشتریان را با استفاده از این روش مورد بررسی قرار داد. مثلاً می توانیم مشاهده کنیم رفتار خرید باغبان ها، ماهیگیران و علاقه مندان به هواپیماهای برند، نسبت به هم تفاوت معناداری دارند. الگوریتم های یادگیری ماشین می توانند خوشه های متفاوت از هم را در مجموعه داده ها نشان دهند.

  •  طبقه بندی

اگر ساختار و دسته بندی تعریف شده ای در مجموعه داده وجود داشته باشد، داده کاوی می تواند موارد جدید را به یکی از آنها تخصیص دهد. الگوریتم ها با یادگیری از مجموعه بزرگی از داده های از قبل دسته بندی شده، می توانند بطور دائمی وجه تمایز بین عناصر هر دسته را تشخیص داده و با استفاده از قوانین حاصل شده، موارد جدید را بصورت اتوماتیک دسته بندی نمایند. فیلتر هرزنامه ها، یکی از بهترین نمونه های این روش می باشد. مجموعه بزرگی از ایمیل ها که به عنوان هرزنامه ها شناخته می شوند، دارای تفاوت های جدی در استفاده از کلمات در متن خود می باشند، بطوریکه طبقه بندی آنها با استفاده از قوانین بدست آمده دارای صحت بالایی می باشد.

  • پیش بینی

داده کاوی دارای قابلیت ساخت مدلهای پیش بینی کننده بر اساس تعداد زیادی از متغیرها می باشد. بطور مثال، فیسبوک علاقه مند است تا سرگرمی های آتی کاربرانش را بر اساس رفتارهای گذشته آنها پیش بینی نماید. فاکتورهایی مانند مقدار اطلاعات به اشتراک گذاشته شده، تعداد عکس های تگ شده، تعداد درخواست های دوستی، تعداد نظرات، تعداد لایک ها و … می توانند به عنوان ورودی های یک مدل باشند. در طول زمان این مدل می تواند با اضافه کردن متغیرهای جدید و یا تغییر وزن متغیرهای موجود بر اساس میزان تفاوت پیش بینی با مقادیر واقعی، خود را بهبود دهد. در نهایت نتایج بدست آمده می توانند به عنوان راهنمای طراحی به منظور تشویق رفتارهایی که منجر به افزایش سرگرمی ها در آینده خواهد شد استفاده شوند.

 

داده کاوی در این مسیر، قدرت استنتاجی عظیمی را اعطا می کند. اگر یک الگوریتم به درستی می تواند یک نمونه را بر اساس حجم داده های محدود به طبقه خودش تخصیص دهد، پس این امکان وجود دارد تا بتوان دامنه وسیعی از اطلاعات مربوط به آن نمونه را بر اساس ویژگی های سایر نمونه های موجود در آن طبقه برآورد نمود. هرچند ممکن است این موضوع سخت و دشوار به نظر آید، اما نشان می دهد که شرکت های بزرگ اینترنتی چگونه پول می سازند و از کجا قدرتشان را بدست می آورند.

چرا داده کاوی سودآور است ؟؟

به دو دلیل داده کاوی سوداور است  :

  • منجر به تصمیمات واقع بینانه می شود.
  • باعث تکرار تصمیمات سودآور رخ داده در گذشته می شود.

با داده کاوی شما تصمیمات احساسی را فراموش می کنید و بر اساس واقعیت ها تصمیم بگیرید. بنابراین ضرر های ناشی از نا آگاهی مدیران حذف می شود.

داده کاوی همچنین فضای سال های گذشته ی شرکت شما را بازبینی می کند و در نهایت نشان می دهد کدام تصمیمات منجر به سود شده است در حالی که شما از آن ها بی خبر هستید. شرکت ها و سازمان ها هر لحظه در حال گرفتن تصمیمات جدیدی هستند که منجر به سود یا زیان مجموعه می شود. بسیاری از تصمیمات بر اساس واقعیت های موجود گرفته نمی شود و عواملی چون (فراموشی)، (تخلفات و تقلبات)، (اشکالات خط تولید)، (منافع شخصی) و (سیاست های اعمال نفوذ شده از جاهای دیگر) منجر به اتخاذ تصمیمات غیر واضح و در نتیجه زیانبار می شوند.

به اشتراک گذاری پست

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


download free uapkmod,action game apk mod, android apps apk mod