مقاله ترجمه شده تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی

مهندسی کامپیوتر 944 بازدید

کد محصول:CM28

قیمت فایل ترجمه شده: ۱۰۰۰۰ تومان

تعداد صفحه انگلیسی:۱۰

سال نشر: ۲۰۱۳

تعداد صفحه ترجمه فارسی: ۲۶ صفحه word

عنوان فارسی:

مقاله ترجمه شده تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی

عنوان انگلیسی:

Efficient Text-Independent Speaker Verification with Structural Gaussian Mixture Models and Neural Network

چکیده فارسی:

چکیده – ما سیستم یکپارچه ای را در ارتباط با مدل های مخلوط گاوس ساختاری (SGMM) و شبکه های عصبی به منظور دستیابی به راندمان محاسباتی و دقت بالا در ارتباط با تعیین هویت گوینده ارائه می دهیم. مدل پس زمینه ساختاری (SBM) در ابتدا از طریق خوشه بندی زنجیره ای تمام موئلفه های مخلوط گاوس در ارتباط با مدل پس زمینه ساختاری ایجاد می گردد. به این ترتیب، یک فضای اکوستیک به بخش های چندگانه ای در سطوح مختلف قدرت تشخیص، جزء بندی می گردد. برای هر یک از گوینده های مورد نظر، مدل مدل مخلوط گاوس ساختاری (SGMM) از طریق استدلال حداکثری (MAP) سازگار با مدل پس زمینه ساختاری (SBM) ایجاد می گردد. در هنگام تست، تنها زیرمجموعه کمی از موئلفه های مخلوط گاوس برای هر بردار مختصات محاسبه می گردد تا هزینه محاسبه را به طور قابل توجهی کاهش دهد. علاوه بر این، امتیازات حاصل شده در لایه های مدل های درخت ساختار، برای تصمیم گیری نهایی از طریق شبکه عصبی ادغام می گردند. وضعیت های مختلفی در بررسی های انجام شده بر روی داده های حاصل از گفتگوهای تلفنی مورد استفاده در ارزیابی هویت گوینده NIST ، مقایسه شد. نتایج تجربی نشان می دهد که کاهش محاسبه توسط فاکتور ۱۷ از طریق ۵% کاهش نسبی در میزان خطای هم ارز (EER) در مقایسه با خطو مبنا، حاصل می گردد. روش SGMM-SBM (مدل مخلوط گاوس ساختاری- مدل پس زمینه ساختاری)، مزایایی را نسبت به مدل اخیرا مطرح شده GMM (مدل مخلوط گاوس) داشته، که شامل سرعت بالاتر و عملکرد تشخیص بهتر، می باشد.

۶ : نتیجه گیری.

یک سیستم یکپارچه با توجه به مدل های مخلوط گاوس و شبکه های عصبی در این مقاله برای تشخیص صدای افراد ارائه شده است.

تمام موئلفه های مدل مخلوط گاوس در UBM به طور زنجیروار در هنگام ایجاد ساختارهای سه لایه SBM طبقه بندی شده اند. SGMM از طریق تطبیق چند سطحی MAP برای هر یک از گوینده ایجاد شده است. به این ترتیب، فضاهای صوتی به بخش های چندگانه ای در سطوح مختلف تقسیم بندی می گردند. هزینه های محاسباتی به طور قابل توجهی با ایجاد فواصل در میان مجموعه ای از موئلفه های گاوس در طی مرحله تایید ایجاد می گردد. فواصل چندگانه و اهداف مورد نظر در لایه های مختلف SBM ایجاد می گردند و توسط MLP ترکیب می گردند.نتایج حاصل از بررسی های NIST نشان می دهد که کاهش ضرایب محاسباتی می تواند از طریق کاهش نسبی ۵ درصدی در EER زمانی که از شبکه های عصبی بر مبنای ترکیب استفاده می کند ایجاد گردد. دارای مزایای بیشتری نسبت به مدل مختلط GMM می باشد. در آینده روش های ساختاری درختی مورد بررسی قرار می گیرد.همچنین تحقیقات بیشتری در ارتباط با ترکیب فواصل از لایه های چندگانه برای بهبود عملکرد تطبیقی وجود دارد. برای نمونه، نمونه های دیگری از شبکه های عصبی به عنوان گزینه هایی در ارتباط با MLP برای کسب مزایای بیشتر از فواصل در سطوح مختلف به شمار می آیند.

ما همچنین به تاکید کرد ایم که اگرچه ترکیب فواصل SGMM و MLP برای ارزیابی تطبیق گوینده به کار می روند، آن ها همچنین می توانند در ارتباط با تایید صدای گوینده با کاهش هزینه های محاسباتی مورد استفاده قرار گیرند. SGMM می تواند برای هر یک از گوینده ایجاد گردد و MLP های مشابه می تواند با توجه به فواصل بین لایه های مختلف SGMM طراحی گردد. تعداد نورون های بازده مشابه تعداد گوینده در سیستم می باشد و در این مقاله برای تشخیص صدای افراد استفاده می گردد. سرانجام ما این نکته را بیان می کنیم که، ترکیب احتمالات چندگانه از چند سطح زنجیروار با استفاده از شبکه های عصبی برای تشخیص صدا با سرعت بالا با مدل های ساختاری درختی کاربرد دارد.

پارس پروژه پرتال خدمات دانشگاهی

مقاله ترجمه شده تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس ساختاری و شبکه های عصبی

دیدگاهتان را بنویسید لغو پاسخ