در اینجا، عامل چهارمی در رابطه با اندازه گیری اعوجاج اختلافی اضافه شده که مربوط به عامل همواری اختلاف می باشد. به دنبال این ایده، پیشنهاد اندازه گیری اعوجاج اختلافی به صورت محلی با بهره گرفتن از فاصله اقلیدسی و درنتیجه به دست آوردن وزن برای اندازه گیری محلی شده است (بدون اعوجاج این فاکتور ۱، در حالی که حداکثر اندازه گیری اعوجاج ۰ می دهد). معیار ارائه شده با اندازه گیری نگاشت محلی SSIM، ، و کیب آن با اندازه گیری اعوجاج اختلاف محلی با بهره گرفتن از حاصل ضرب نقطه به نقطه، محاسبه شده است.

(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

اعوجاج اختلافی محاسبه شده برای هرپیکسل p برای هر نما به شرح زیر است (در اینجا برای نمای سمت چپ):
(۳-۲)
مقدار کیفیت نهایی با محاسبه مقدار متوسط N پیکسل از نگاشت های و و متوسط گیری از دوم مقدار حاصل، بصورت زیر بدست می آید (به شکل ۳-۷ نگاه کنید):
(۳-۳)
شکل ۳-۸. نمونه ای از افزایش محلی شباهت ساختاری، از چپ به راست: نگاشت اصلی شباهت ساختاری ،
نگاشت اختلاف اعوجاج محلی و نگاشت
شکل ۳-۸ نمونه هایی از نتیجه نگاشت دوبعدی شباهت ساختاری (در اینجا برای نمای سمت چپ)، نگاشت اعوجاج اختلافی محلی با اندازه گیری فاصله ی اقلیدسی، ونگاشت مربوطه، رانشان می دهد.
۳-۳ پیش بینی کیفیت ویدیو سه بعدی با بهره گرفتن از مدل های کیفیت عینی ویدیو دوبعدی
به کار گیری به موقع برنامه های ویدئویی سه بعدی نیاز به معیارهای دقیق کیفیت عینی دارد، به طوری که بتوان از آزمون های ذهنی وقت گیر اجتناب نمود. در این بخش ارتباط بین ارزیابی های ذهنی و عینی از رنگ و نگاشت عمق تصاویر ویدئو سه بعدی بررسی شده است. آزمون های ذهنی برای تعیین کیفیت کلی تصویر و درک عمق از یک طیف وسیعی از دنباله های ویدئویی نامتقارن کدگذاری شده، انجام می شود. نتایج ذهنی برای تعیین دقیق تر معیارهای کیفیت عینی برای رنگ و نگاشت عمق تصاویر ویدیو سه بعدی استفاده شده است.
مدل های با کیفیت عینی (به عنوان مثال مدل کیفیت فیلم (VQM) در مرجع [۲۱]) که از نزدیک با ویژگی های سیستم بینایی انسان[۵۷] همبستگی دارد، در حال ظهور و توسعه است که اجازه می دهد تا اندازه گیری دقیق تری از کیفیت ویدئویی دوبعدی انجام شود. با این حال، توسعه یک معیار کیفیت عینی که شامل جنبه های ادراکی از سه بعدی است، یک فرایند پیچیده است زیرا ویژگی های ادرکی سه بعدی (به عنوان مثال عمق، حضور، طبیعی بودن، آسایش بصری) در طبیعت چند بعدی هستند. کدینگ JPEG از ویدیو سه بعدی در کیفیت کلی تصویر تاثیرگذار است، اما هیج تاثیری در درک عمق ندارد. در مقابل، یک رابطه مثبت بین عمق و کیفیت تصویر درک شده برای تصاویر غیر فشرده سه بعدی در مرجع [۲۳] نشان داده شده است.
در اینجا، آزمون ارزیابی ذهنی برای اندازه گیری اثر مولفه های تخریبی فشرده سازی بر روی کیفیت درک شده (به عنوان مثال کیفیت کلی تصویر و ادراک عمق) از ویدیو سه بعدی بازسازی شده استفاده شده است. علاوه بر این، رابطه بین درک کیفیت کلی تصویر و عمق، مورد بحث قرار گرفته است.
در نهایت، ویژگی های درک شده از ویدیو سه بعدی بازسازی شده با بهره گرفتن از سه مدل با کیفیت عینی یعنیPSNR, SSIM و VQM (در مرجع [۲۱]) پیش بینی شده است. نتایج حاصل به رسیدن به پاسخ پیرامون سوالات مهم در مورد همبستگی بین اندازه گیری های عینی و ذهنی فیلم با کیفیت سه بعدی کمک می کند که به نوبه خود در تعیین مناسب ترین روش برای اندازه گیری عینی از کیفیت ویدیو سه بعدی تاثیر گذار است.
تمرکز اصلی این تحقیق بروی ارائه مناسب رنگ و عمق ویدیو سه بعدی می باشد که با توجه به انعطاف پذیری و تطبیق پذیری با روش های کدینگ و فن آوری های انتقال موجود، به طور گسترده ای در پژوهش ها استفاده شده است. مقدار عمق هر پیکسل تعیین کننده موقعیت بافت رنگ مرتبط با آن در فضای سه بعدی است. تکنیک پیچاندن تصویر[۵۸]، تکنیک شناخته شده ای مبتنی برعمق تصویر است که در ارائه دید دو چشمی بروی تصویر مورد نظر مورد استفاده قرار می گیرد.
به منظور فراهم سازی نیازهای ذخیره سازی و پهنای باند مورد نیاز کاربردهای ویدئویی سه بعدی، تکنیک‌های فشرده سازی موثری مورد نیاز است. روش های فشرده سازی دوبعدی موجود را می توان برای کد کردن ویدیو سه بعدی تطبیق داده و استفاده کرد.
در این قسمت، پیکربندی کدینگ لایه لایه، بر اساس گسترش مقیاس پذیری از H.264/AVC برای کدینگ رنگ و نگاشت عمق ویدیو، با توجه به سازگاری و کارایی فشرده سازی مناسب آن، انتخاب شده است.
آثار مولفه های تخریبی مختلف ناشی از کدینگ تصویر در کیفیت درک شده از ویدیو سه بعدی ممکن است در طبیعت گوناگون باشد. بنابراین، معیارهای ذهنی مناسب می تواند در ارزیابی فن آوری های در حال ظهور سه بعدی استفاده شوند. در این مطالعه تحقیقاتی، آزمون های ذهنی برای به دست آوردن کیفیت ویدیو سه بعدی درک شده برای ترکیبات مختلف از کدینگ متقارن / نامتقارن انجام شده است. معیارهای عینی کاندید با بهره گرفتن از تابع منطقی متقارن تشریح شده در ITU-Recommendation BT.500-11 به کیفیت ذهنی مناسب نگاشت یافته است. اندازه گیری های عینی دنباله های تصاویر رنگی و نماهای چپ و راست ارائه شده با بهره گرفتن از روش پیچاندن تصویر، برای پیش بینی کیفیت ویدیو سه بعدی درک شده استفاده می شود.
چهار دنباله تصویر سه بعدی بر اساس رنگ و عمق، با نام های Orbi، Interview،Break dance و Ballet در آزمایشات استفاده می شود. دنباله های Orbi و Interview (720 x 576 پیکسل و ۲۵ فریم / ثانیه) با بهره گرفتن از یک دوربین دور برد دریافت شده اند در حالی کهBreak dance و نگاشت عمق Ballet (1024x 768 پیکسل و ۱۵ فریم / ثانیه) از مشاهده چند دیدگاه تصویر به دست آمده اند.
JSVM (مدل های ویدیویی مقیاس پذیر مشترک) نرم افزار مرجع نسخه ۹.۴ است که در رمزگذاری دنباله های ویدیو از ۱۰ ثانیه برای قالب دنباله IPPP استفاده شده است. پارامترهای کوانتیزه (QPs) نسبت به پایه و لایه های بالاتر برای به دست آوردن رمزگذاری متقارن/نامتقارن رنگ و دنباله عمق تصویر متفاوت هستند.
برای برجسته دیدن از مولفه های تخریبی کدینگ، برای دید سه بعدی از مولفه های تخریبی کدینگ، با اندازه های QP 30، ۳۵، ۴۰، ۴۵، ۵۰ برای هر دو رنگ و عمق دنباله های تصویر انتخاب شده اند. ترکیبات کدینگ ۳۰_۳۰، ۳۰_۳۵، ۳۰_۴۰، ۳۰_۴۵، ۳۰_۵۰، ۳۵_۳۰، ۳۵_۳۵، ۴۰_۳۰، ۴۰_۴۰، ۴۵_۳۰، ۴۵_۴۵، ۵۰_۳۰، ۵۰_۵۰ در آزمایشات به عنوان وسیله ای برای کاهش نرخ بیت مورد نیاز برای رنگ به همراه نگاشت عمق مبتنی بر ویدیو سه بعدی استفاده می شود. شماره های اول و دوم از این ترکیبات به رنگ و عمق نگاشت QPs که در هنگام رمزگذاری استفاده شده، اشاره می کند.
فیلیپس ۴۲ اینچی WOWvx دارای صفحه نمایش خودکار سه بعدی چند دیدگاهی است که در آزمایش برای نشان دادن دنباله های تصویر سه بعدی کد شده مورد استفاده قرار می گیرد. صفحه نمایش سه بعدی با بهره گرفتن از GretagMacbeth نمایش یک چشمی ۲ دستگاه کالیبراسیون، کالیبره شده است. از ناظران، نرخ دنباله های ویدئویی با توجه به روش دو کیفیت مستمر محرک[۵۹] خواسته شد.
شکل ۳-۹. امتیازات MOS برای کیفیت تصویر درک شده است، درک کردن عمق، رنگ اندازه گیری شده با بهره گرفتن از VQM می باشد و اندازه گیری مقدار متوسط ​​بازدید از چپ و راست ارائه شده با بهره گرفتن از VQM صورت می گیرد.

    1. a) Orbi b) Interview c) Break dance d) Ballet

در طول تجزیه و تحلیل نتایج، اختلاف در رتبه بندی ذهنی برای ویدئوهای دچار اختلال شده و ویدئوی اصلی، محاسبه شده و به مقیاس کوچکتر از نظر امتیاز خطی که در محدوده ای از بازده ۰ (کیفیت عالی) تا ۱۰۰ (با کیفیت بد) می باشد، محاسبه شده است.
سی و دو ناظران غیر متخصص (۱۰ ناظر زن و ۲۲ مرد) در آزمایشات شرکت کردند. آنها به دو گروه به منظور ارزیابی درک کلی کیفیت تصویر و درک عمق تقسیم شدند. مجموعه محرک شامل ۱۳ دنباله های ویدئو کد شده و اصلی است، نسخه فشرده نشده از هر صحنه به عنوان مرجع در ارزیابی آزمون استفاده می شود. تمام ترکیبات از رنگ های کد شده و دنباله عمق ویدئو، دو مرتبه معرفی شده اند؛ بنابراین، در مجموع چهار دنباله آزمون، یکی تکرار و ۱۳ ترکیبات کدینگ استفاده می شود. در نتیجه یک مجموعه محرک از ۴x2x13=104 دنباله ویدئویی تشکیل می شود. مجموعه از ۱۰۴ دنباله های ویدئو سه بعدی است که بصورت تصادفی و پی در پی ارائه شده است.
شکل ۳-۹ امتیازات MOS برای درک کلی کیفیت تصویر، درک عمق، رنگ عینی کیفیت تصویر اندازه گیری شده با بهره گرفتن از VQMو کیفیت عینی از مقدار متوسط دیدگاه چپ و راست ارائه شده با بهره گرفتن از VQM را نشان می دهد. نرخ بیت از سمت چپ نمودار به سمت راست افزایش می یابد. خطای استاندارد[۶۰] برای درک کیفیت تصویر / عمق و حاشیه خطای ۵٪ برای امتیازات VQM معرفی شده اند.
امتیازات کیفیت ذهنی برای افزایش کیفیت تصویر به عنوان افزایش نرخ بیت، برای همه دنباله های آزمایش می باشد؛ اما افت کیفیت هنگامی که پیکربندی کدینگ حاوی مقادیر بالا QP برای مولفه ویدیو رنگی (به عنوان مثال ۵۰_۵۰، ۴۵_۴۵، ۵۰_۳۰ و ۴۵_۳۰) می باشد، قابل مشاهده است. این افت کیفیت از شکل گیری یک رابطه ساده بین درک کلی کیفیت تصویر و مقدار متوسط ​​نرخ بیت جلوگیری می کند. به هر حال مقادیر متوسطQP ​​(به عنوان مثال ۳۵ و ۴۰) برای کدینگ ویدئو رنگی، همراه با هر مقدار QP برای کدینگ عمق ویدئو برای رسیدن به درک خوبی از کیفیت کلی تصویر و عمق می تواند مورد استفاده قرار گیرد. این بدان معنی است که عمق را می توان با مقادیر بالایQP برای کاهش نرخ بیت، بدون افت کیفیت تصویر کلی درک شده کدگذاری کرد. امتیاز VQM از ویدیو رنگی و امتیاز متوسط​​ VQM از ویدیو چپ و راست ارائه شده، با بهره گرفتن از رنگ کد شده و دنباله های عمق، نشان می دهد که روند مشابه در مقایسه با امتیازات کیفیت تصویر درک شده، اما همراه با افت از لحاظ امتیاز MOS می باشد. علاوه بر آن، رتبه بندی VQM از رنگ و ویدئو چپ و راست ارائه شده می تواند به عنوان یک مدل با کیفیت عینی خوبی برای پیش بینی کیفیت درک شده و عمق تصویر استفاده شود.
جدول ۳-۱. ارزیابی عملکرد مدل های کیفیت تصویر
CC: ضریب همبستگی، RMSE مسیر میانگین مربع خطا
SSE مجموع مربعات با توجه به خطا
درک عمق، روند مشابهی را در درک کیفیت تصویر نشان می دهد، اما به طور متوسط ​​امتیازات پایین تر MOS را نسبت به کیفیت کلی تصویر نتیجه می دهد؛ بنابراین، درک عمق به طور قابل توجهی با بهره گرفتن از مقادیر QP های مختلف برای کدینگ نگاشت عمق تحت تاثیر قرار نمی گیرد، در حالی که مولفه های تخریبی (مات، مسدود شده) با فشرده سازی ویدیوهای رنگی معرفی شده ادراک عمق را به شدت تحت تاثیر قرار می دهند (به عنوان مثال درک عمق ۳۵_۳۰، ۴۰_۳۰، ۴۵_۳۰، ۵۰_۳۰ برای ترکیبات کدینگ کم است). علاوه بر این، می توان از شکل ۳-۹ نتیجه گرفت که همبستگی بالایی بین کیفیت کلی تصویر و درک عمق وجود دارد. ضریب همبستگی از بین کیفیت تصویر درک شده و رتبه عمق، ۰.۹۲ تعیین شده است؛ بنابراین، درک عمق اثر مثبتی بروی کیفیت تصویر درک شده برای رنگ کد شده و دنباله های عمق دارد؛ بنابراین، اقدامات عینی از عمق ویدئو در پیش بینی درک فیلم با کیفیت سه بعدی استفاده نمی شود.
مدل های ارزیابی کیفیت عینی مورد استفاده در پیش بینی ویژگی های کیفیی درک شده از سه بعدی، امتیازات PSNR / SSIM / VQM از ویدئو رنگی کد شده هستند و میانگین ​​​​PSNR / SSIM / VQM از دیدگاه چپ و راست ارائه شده، با بهره گرفتن از رنگ کد شده به همراه دنباله عمق تولید می شود. اقدامات کمی برای هر مدل پیش بینی شده، تقریبی با بهره گرفتن از تابع لجستیک متقارن در مرجع [۲۲] شرح داده شده که در جدول ۳-۱ ارائه شده است. این نشان می دهد که امتیازات VQM از دنباله ویدئویی رنگی، یک مدل خوب برای پیش بینی هر دو درک کیفیت و عمق تصویر است. علاوه بر این، VQM به طور متوسط ​​از ارائه دیدگاه های چپ و راست با همبستگی بالا و با عمق درک شده از ویدیو سه بعدی کد شده را نشان می دهد.
۳-۴ معیارهای ذهنی کیفیت بکار رفته در فشرده‌سازی تصاویر سه‌بعدی
در این بخش به توسعه و ارزیابی یک معیار کیفیت جدید تصویر سه بعدی که می تواند برای رتبه بندی کیفیت تصاویر فشرده سازی شده و راهنمای انتخاب روش فشرده سازی مورد استفاده قرار گیرد، پرداخته می شود.
در روش­های قدیمی، به منظور بررسی اثر فشرده سازی بروی کیفیت تصویر درک شده، از اندازه گیری های دوبعدی عینی مانند ماکزیمم سیگنال به نویز[۶۱] یا میانگین مربعات خطا[۶۲] استفاده می شد. در تحقیقات اولیه آزمایش هایی برای ارزیابی کیفیت بر اساس کدینگ متقارن و نامتقارن با بهره گرفتن از PSNR نشان داده شده است. نتایج تاکید می کنند که کدینگ متقارن باید برای فشرده سازی تصویر زوج استریو استفاده شود، با این حال معیار PSNR همبستگی خوبی با قضاوت عینی ما از کیفیت تصویر ندارد. این عجیب نیست زیرا PSNR اساسا یک روش مبتنی بر مقایسه ساده پیکسل می باشد.
در ادامه، مدل های محاسباتی سیستم بینایی انسان[۶۳] بررسی، و بر این اساس یک معیار کیفیت تصویر سه بعدی ارائه داده می شود. این معیار جدید از تطابق نقاط متناظر بین دید چپ و راست به منظور محاسبه حساسیت HVS به تغییرات در کنتراست و تغییرات شدت نور در مناطق با فرکانس مکانی بالا استفاده می کند. به منظور ارزش­گذاری معیار ارائه شده، یک پایگاه مرجع بصورت تجربی از ویژگی­های کیفی سه­بعدی از دیدگاه سیستم بینایی انسان، تهیه شده است. هر دو معیار PSNR و معیار جدید با این پایگاه مرجع مقایسه شده ­اند. نتایج نشان می دهند که این معیار جدید، ابزار عملی بهتری برای پیش بینی میزان فشرده سازی قابل قبول در کدینگ تصویر سه بعدی است.
۳-۴-۱ تاریخچه فشرده‌سازی
حداکثر سیگنال به نویز (PSNR) اصطلاح مهندسی است که نسبت حداکثر قدرت از یک سیگنال به قدرت ازخرابی نویز مؤثر بر کیفیت سیگنال ممکن است. با توجه به طیف گسترده مقادیر آن، PSNR معمولا به عنوان یک دسیبل لگاریتمی[۶۴] بیان می شود. یکی از استفاده های PSNR، اندازه گیری کیفیت فشرده سازی تصویر است. برای این منظور، ابتدا میانگین مربع خطا برای دو عکس محاسبه می­ شود، که معمولا تصویر اولی فشرده سازی شده و با بهره گرفتن از معادله زیر قابل محاسبه است:
(۳-۴)
مختصات (Y،X) I مقادیر پیکسل تصویر اصلی و (Y، X) I‘مختصات نقطه متناظر درنسخه فشرده شده است و m و n ابعاد تصاویر هستند. حداکثر سیگنال به نویز به بصورت زیر تعریف می شود:
(۳-۵)
که در آن ماکزیمم ارزش پیکسل­های تصویر است. مقدار MSE پایین نمایانگر خطای کمتر است و از آنجاکه PSNR رابطه معکوس با MSE دارد، بیشترین ارزش PSNR معادل یک خطای کمتر است و لذا مقدار PSNR بیشتر در فشرده سازی بهتر می باشد.
مقایسه روش های فشرده سازی ویدیو سه بعدی برای دو دنباله تصویر صورت می گیرد.PSNR برای ارزیابی روش های کدینگ به منظور ایجاد نتیجه بهتر استفاده شده است. برای مقایسه از تصاویر استریو،PSNR باید با بهره گرفتن از میانگین MSE از تصاویر بازسازی شده چپ و راست محاسبه شود. اگر چه هنوز این روش به طور گسترده ای مورد استفاده قرار می گیرد، PSNR به خوبی با نظر بیننده در هنگام ارزیابی استاندارد کیفیت تصویر دوبعدی بستگی ندارد. این دو معیار معروف کیفیت تصویر، متوسط مربع ریشه ​​ و قله نسبت سیگنال به نویز در مرجع [۲۴] بایکدیگر مقایسه شده اند. نتایج حاصل بیانگر آن است که این معیارها علامت های ساده ای از تفاوت پیکسل­ها هستند و هیچ اطلاعاتی در مورد نوع تخریب آن ارائه نمی کنند. PSNR نمی تواند به طور کاریردی بر روی تصاویر حاوی متن و یا تصاویر باینری اعمال شود و همچنین PSNR قادر به اندازه گیری اعوجاج ادراکی نیست. دو تصویر یکسان در نظر گرفته شده ­اند که یکی انتقال یافته دیگری به میزان یک پیکسل مکانی به سمت راست می­باشد. این تصاویر هنوز هم به نظر می رسد مشابه هستند، اما متوسط ​​مربع خطا و PSNR آنها تفاوت های بزرگی دارند.
آزمایش های اولیه با بهره گرفتن از معیار حداکثر سیگنال نویز انجام شده است. نتایج نشان می دهد که در هنگام استفاده از PSNR به منظور مقایسه فشرده سازی از زوج تصویر سه بعدی JPEG، فشرده سازی متقارن، به عنوان مخالف فشرده سازی نامتقارن، همیشه باید مورد استفاده قرار گیرد. نتایج مقایسهJPEG متقارن در مقابل نامتقارن، برای تصویر تست مانکن شکل ۳-۱۰، در شکل ۳-۱۱ نمایش داده شده است. در نتیجه، نتایج PSNR به خوبی با نتایج حاصل از آزمایش های متقارن / نامتقارن قبلی بدست آمده بر اساس معیار ذهنی واقع در مرجع [۲۵]، همبستگی ندارد و لذا PSNR معیار مناسبی برای مقایسه تصویر استریو نیست.
۳-۴-۲ ویژگی های مهم سیستم بصری انسان
با توجه به مشکلات معیار مبتنی بر مقایسه تصویر، تحقیقاتی در راستای بهره برداری از سیستم بینایی انسان در معیارهای کیفیت عینی، برای مقایسه تصویر دوبعدی، مبتنی بر ویژگی های HVS انجام گرفته است.
برخی از ویژگی های مهم سیستم بینایی انسان عبارتند از:
حساسیت به تغییرات کنتراست، نه تنها تغییرات شدت نور
تغییر حساسیت به مولفه های تخریبی و خطاها در فرکانسهای مختلف فضایی؛ که می تواند توسط یک تابع حساسیت کنتراست[۶۵] که برآورد آستانه دید برای محرک ها در فرکانس های مختلف فضایی است مدل شود

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...