داده کاوی دسترسی به داده‌ها ی است خصوصی است و تنهااجازه داده دسترسی کاربر در پایگاه داده باشد.

وب‌کاوی دسترسی به داده‌های عمومی است . در این نمی توان داده‌هایی که دسترسی به پایگاه داده وب دارند را مخفی کرد . امااجازه دسترسی به وبلاگ master و دسترسی به داده را دارد .

دسترسی(access)

در داده کاوی دریافت اطلاعات ازساختار صریح و روشن است . داده کاوی واکشی اطلاعات از پایگاه داده گسترده ای در مقایسه با پایگاه داده وب‌کاوی
نیست .

در وب کاوی دریافت اطلاعات ازساختار، بدون ساختار و نیمه ساخت یافته ازصفحات وب است. داده کاوی واکشی اطلاعات از پایگاه داده گسترده است

ساختار(strucrure)

۲-۶ الگوریتم های وب‌کاوی
در وب‌کاوی الگوریتم های زیادی استفاده می‌شود ازجمله:

    • درخت تصمیم :یکی از الگوریتم های یادگیری ماشین است. در این الگوریتم نمونه های اشیاء و رکوردها، بر اساس مقادیر برخی صفات به گروه هایی تقسیم می شوند و این روند ادامه می یابد تا یک ساختار درختی شکل گیرد. این درخت مورد آموزش قرار می گیرد و برای دسته بندی داده‌های جدید به کار می رود.
    • (( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

  • شبکه عصبی :مجموعه ای از سیگنال های ورودی، گره ها و سیگنال های خروجی است. شبکه های عصبی ابتدا با داده‌ها و مثال های آموزشی، آموزش داده می شوند. سپس داده‌های جدید به شبکه ارائه می شوند و شبکه به تحلیل آن‌ها می پردازد. شبکه های عصبی در کاوش محتوای وب، برای خوشه بندی، تشخیص موجودیت ها، تحلیل انحرافات و سایر کاربردهای وب کاوی وهمچنین برای کشف الگوهای غیرعادی در تصاویر به کار می‌روند.
  • نزدیکترین همسایه:به تحلیل داده‌های جدید بر اساس همسایه های آن‌ها می پردازند. در این روش اگر داده ی جدیدی باید تحلیل شود، داده‌های موجود بررسی می‌شوند تا داده‌هایی که ویژگی هایی مشابه داده جدید دارند، تشخیص داده شوند. سپس بر اساس این داده‌ها در مورد داده جدید، تصمیم گیری می شود. برای تشخیص داده‌های مشابه از توابع فاصله استفاده می‌شود.
  • جریان بیشینه:در یک گراف که به یال های آن ظرفیت جریانی مثبت اختصاص داده شده‌است، هدف، محاسبه ی بیشینه جریانی که قابل انتقال از گره s به گره t است می‌باشد.
  • Average Click:فاصله بین دو صفحه وب را اندازه گیری می کند. تعداد پیوندهایی که از یک صفحه برای رسیدن به صفحه دیگر باید پیموده شود، معیار مناسبی برای اندازه گیری فاصله دو صفحه نمی باشد. چرا که احتمال این که کاربران پیوندی از صفحه ای با تعداد کمتری پیوند را دنبال کنند بیشتر از احتمال پیمودن این پیوند در صفحه ای با تعداد بیشتری پیوند است. به همین دلیل Average Clicks فاصله بین صفحات را بر اساس احتمال کلیک کردن یک پیوند در قدم زدن تصادفی محاسبه می کند[۴۱,۶۳].

۲-۷ دسته بندی وب‌کاوی
وب‌کاوی همانطور که در شکل ۲-۲ نشان داده شده‌است شامل سه زیر مجموعه ی محتواکاوی، ساختار کاوی و کاربرد کاوی است[۳۹,۴۱].
شکل۲-۲. دسته بندی وب‌کاوی[۴۱]
۲-۷-۱محتوا کاوی وب
محتواکاوی وب اولین گروه از طبقه بندی ارائه شده در وب کاوی می باشد. وب‌کاوی اساسا فرایند استخراج اطلاعات مانند متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیست ها و جداول مفید از محتوای مستندات وب است. بسیاری از صفحات برای دسترسی به اطلاعات در وب باز هستند. همچنین جستجوی اطلاعات و باز کردن صفحات جستجو، محتوای وب است . آخرین نتیجه دقیق یا صحیح ،نتیجه محتواکاوی وب را تعریف می‌کند[۵۱,۶۰] .
۲-۷-۱-۱دیدگاه های محتوا کاوی وب
محتواکاوی در وب را می توان از دو دید بررسی کرد:

  • از دید بازیابی اطلاعات: هدف محتواکاوی در وب از نقطه نظر بازیابی اطلاعات تسهیل یا بهبود فرایند جستجوی اطلاعات یا فیلتر کردن اطلاعات برای کاربران است
  • از دید پایگاه داده‌ها:از دید پایگاه داده‌ها هدف محتواکاوی، ارائه مدلی از داده‌های وب و یکپارچه سازی آن‌ها است به طوی که پرس‌و‌جوهای پیچیده تر از پرس‌و‌جوهای مبتنی بر کلمات کلیدی قابل پردازش باشند. محتواکاوی از دید پایگاه داده‌ها سعی در بدست آوردن ساختار سایت وب و یا تبدیل سایت وب به یک پایگاه داده دارد تا بتواند مدیریت و پرس‌و‌جوی اطلاعات موجود در وب را کاراتر انجام دهد. این کار با کشف شمای[۱۹] اسناد موجود در وب یا ساخت یک پایگاه داده مجازی قابل انجام است[۴۴,۶۰].

۲-۷-۱-۲ داده‌های محتوا کاوی وب
داده‌های محتوا کاوی وب در شکل ۲-۳ نشان داده شده‌است[۴۶,۵۳].
شکل۲-۳.داده‌های محتواکاوی وب[۴۶,۵۳]
۲-۷-۱-۳ رویکردها و تکنیک های محتواکاوی وب
به طور کلی برای انجام کاوش محتوا برای یک کاربرد خاص، ابتدا باید نوع نتیجه مورد انتظار تعیین شود. سپس بر اساس آن تکنیکی که برای کاوش و به‌دست‌آوردن آن نتیجه به کار می رود، انتخاب می گردد. در پایان نوع رویکرد مشخص می شود تا تعیین گردد، فرایند چگونه انجام شود. سه رویکرد[۲۰] یا متدولوژی اصلی برای کاوش محتوا وجود داردکه در شکل۲-۴ نشان داده شده‌است[۱۸,۱۲].
شکل۲-۴.رویکردهای محتواکاوی وب[۱۸,۱۲]
این متدولوژی ها می توانند مستقیم یا غیر مستقیم باشند. به متدولوژی های مستقیم، یادگیری بانظارت و به متدولوژی های غیر مستقیم، یادگیری بدون نظارت نیز گفته می شود. در رویکرد بالا به پایین کار از یک فرضیه، ایده یا الگوی مشخص آغاز می شود. سپس با بهره گرفتن از داده‌های موجود، این فرضیه ارزیابی می شود. اگر برخی از داده‌ها، فرضیه مورد بررسی را تایید نکنند، فرضیه اصلاح می شود. برای این منظور بسیاری از تکنیک های استدلال آماری استفاده می شوند. به طور کلی ارزیابی فرضیه شامل تولید مدلی برای فرضیه و ارزیابی مدل برای تعیین صحت یا عدم صحت فرضیه می باشد. توسعه مدل چالش اصلی این فرایند می باشد. یک مدل می تواند مجموعه ای از قوانین باشد. برای ارزیابی مدل از داده‌های موجود استفاده می شود[۱۸,۱۲,۲۷].
در رویکرد پایین به بالا، فرضیه ای برای ارزیابی وجود ندارد. این رویکرد دشوارتر از رویکرد بالا به پایین است، چرا که باید داده‌ها بررسی شده و از آن‌ها الگویی استخراج شود. رویکرد پایین به بالا می تواند مستقیم یا غیر مستقیم باشد. در روش مستقیم که به آن یادگیری با نظارت نیز گفته می شود، ایده ای در مورد آنچه به دنبال آن هستیم، وجود دارد. در این حالت، مشابه رویکرد بالا به پایین، به توسعه مدل ها و ارزیابی آن‌ها بر اساس داده‌ها پرداخته می شود. در روش غیر مستقیم که به آن یادگیری بدون نظارت نیز گفته می شود، ایده ای در مورد آنچه به دنبال آن هستیم، وجود ندارد. بلکه از ابزار موجود برای کاوش خواسته می شود که الگوهایی کشف کند. به عنوان مثال در کاوش تصویر، ابزار کاوش می تواند به جستجوی الگوهای غیر معمول بپردازد. پس از آن که الگوهای مورد نظر کشف شد، می توان از روش‌های یادگیری مستقیم استفاده کرد.ودر رویکرد ترکیبی، از هر دو رویکرد بالا به پایین و پایین به بالا استفاده می شود. برای مثال می توان کار را با رویکرد پایین به بالا آغاز کرد و با تحلیل داده‌ها یک یا چند الگو را کشف نمود. این الگو می تواند فرضیه ای باشد که با بهره گرفتن از رویکرد بالا به پایین مورد ارزیابی قرار گیرد[۱۸,۱۲,۲۷].
۲-۷-۱-۴ انواع محتواکاوی وب
منظور از انواع محتواکاوی وب، انواع نتایج مختلفی است که پس از فرایند کاوش تولید می شود.که درجدول ۲-۳ آمده است[۳۲,۴۷,۴۱].
جدول۲-۳.انواع محتواکاوی وب[۳۲,۴۷,۴۱]

طبقه‌بندی[۲۱]

هدف از طبقه بندی مستندات، یافتن طبقه موضوعی مناسبی است که با کمترین خطا موضوع بحث یک سند را نشان می دهد. جزء روش‌های یادگیری با نظارت به شمار می آید. یعنی ابتدا مجموعه اسنادی به سیستم داده می شود که طبقه آن‌ها مشخص شده‌است. سپس سیستم با دیدن این نمونه ها ، نمونه های جدید را طبقه بندی می‌کند.هدف طبقه بندی، تحلیل نمونه های آموزشی و ساخت مدل دقیقی برای هر طبقه با بهره گرفتن از ویژگیهای موجود در داده‌ها و سپس استفاده از این مدلها برای طبقه بندی داده‌های آتی است.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...