پایان نامه صحت گفتار

صفحه اصلی آرشیو راهنمای خرید پرسش و پاسخ درباره ما پشتیبانی تبلیغات تماس با ما

دانلود پایان نامه صحت گفتار

دانلود پایان نامه صحت گفتار

فصل اول مقدمه:
صحت و گفتار نقش اساسی در ارتباط انسانها ایفا می‌کنند و یکی از دلایل پیشرفت انسانها است.
برای برقراری ارتباط کامپیوتر با انسان بوسیله گفتار در کار لازم است انجام شود. یکی سنتزل گفتار است. و دیگری بازشناسی گفتار، سنتز گفتار بیان گفتار بوسیله کامپیوتر می‌باشد و بازشناسی یعنی فهمیدن گفتار در بازشناسی گفتار. هدف بدست آوردن دنباله آوایی یک گفتار می‌باشد و این دنباله آوایی می‌تواند بر اساس واج، سیلاب، کلمه، جمله و … باشد. بازشناسی گفتار عکس عمل سنتز است و گفتار را به متن تبدیل می‌کند. اما انجام بازشناسی گفتار به دلیل خاصیت صدای انسانها، دارای پیچیدگی‌های زیادی است. اما اغلب بازشناسی کامل و درست غیر ممکن است. حتی خود انسانها هم نمی‌توانند به طور کامل همه صداها را بفهمند و میزان، درک گوش انسانها حدود ۷۰% می‌باشد. شکل ۱-۱ ارتباط گفتاری بین انسانها و کامپیوتر را نشان می‌دهد. به دلیل نقش مهم و کاربردهای فراوانی که بازشناسی گفتار دارد، تحقیقات و مقاله‌های زیادی در این زمینه انجام شده و راه حل‌های متفاوتی پیشنهاد شده است،‌ ولی بازشناسی گفتار کاملاً درست هنوز امکان‌پذیر نمی‌باشد.
بازشناسی گفتار دارای کاربردهای زیادی است. از جمله کاربردهای بازشناسی گفتار، حل مشکل تایپ است، با کمک بازشناسی گفتار می‌توان جمله‌ها را یکی پس از دیگری خواند و کامپیوتر آنها را تایپ کند. یکی دیگر از کاربردهای بازشناسی گفتار، حل مشکل صحبت دو فرد مختلف همزبان است. یکی از مشکلات انسانها ارتباط با افرادی است که با زبانهای متفاوت صحبت می‌کنند. ارتباط بدون دانستن زبان مشکل است. و یادگیری یک زبان دیگر کار وقت گیر و پر زحمتی است ولی به کمک بازشناسی گفتار به یادگیری زبانهای مختلف احتیاجی نخواهد بود و می‌توان با یک دستگاه کوچک با فردی که با زبان دیگری صحبت می‌کند، صحبت نمود. یک کامپیوتر کوچک صدای شما را گرفته و به تعدادی از کلمات تبدیل می‌نماید. سپس این کلمات به زبان دیگر ترجمه شده و در نهایت با زبان جدید گفته می‌شوند. دو مرحله آخر این سیستم جزو مسایل انجام شده گفتار هستند و با کامل نمودن مسئله بازشناسی گفتار بدون دانستن زبان‌های دیگر به آنها تکلم نمود.
شکل ۱-۲ نشان دهنده ارتباط دو فرد با زبان‌های مختلف است. یکی از کاربردهای دیگر بازشناسی گفتار، برقراری ارتباط با کامپیوتر است. همان گونه که به انسانهای دیگر دسترس می‌دهید، به کامپیوتر هم می‌توان دستور داد و با آن صحبت کرد. یا حتی می‌توانید از او بخواهید کاری برایتان انجام دهد.
حتی با کمک بازشناسی گفتار می‌توان به انسانهای نابینا و ناشنوا کمک کرد. به طور مثال نابینایان می‌توانند با صحبت کردن و دادن دستور به کامپیوتر با آن کار کنند.
از دستاوردهای جدید بازشناسی گفتار و پردازش مدت کاربرد آن در آموزش‌های زبان دوم می‌باشد. بدین ترتیب که با ایجاد سیستمی‌که قابلیت آشکارسازی خطای تلفظ بین لهجه‌های زبان اصلی و لهجه یک فردی که به زبان دوم فرد سخن می‌گوید، وی را در یادگیری و تصحیح تلفظ و لهجه آن زبان کمک نمی‌کنند.
بازشناسی گفتار می‌تواند برای شرایط مختلفی انجام گیرد. هر کدام از این شرایط می‌توانند باعث مشکل شدن، پیچیدگی بازشناسی شوند. یکی از این شرایط، وابسته بودن بازشناسی به یک گوینده یا مستقل بودن آن از گوینده است. مستقل بودن از گوینده به معنای آن است که بتوان کار بازشناسی را برای هر فرد انجام داد. از دیگر شرایط بازشناسی گسسته یا پیوسته بودن گفتار است. راحتی بازشناسی گفتار گسسته، داشتن ابتدا و انتهای عصر کلمه یا اساساً خود کلمه یا همان واحد آوایی می‌باشد. همچنین از دیگر شرایطی که در بازشناسی مطرح است،تعداد واژگان می‌باشد. یعنی بازشناسی گفتار برای چه تعداد کلمه‌ای صورت می‌پذیرد.
هدف از انجام پروژه فوق در ابتدا بازشناسی کلمات گسسته قرانی و در مرحله دوم ارزیابی نحوه بیان و تلفظ کلمات قرآنی می‌باشد. از آنجائیکه برای مقایسه بین کلمه ادا شده توسط کاربر و صدای استاد باید یک سیستم بهینه وجود داشته باشد. در مرحله اول سعی می‌کنیم، سیستم را به حالت بهینه خود برسانیم و سپس پارامترهای این سیستم جهت انجام مرحله دوم استفاده کنیم.
اما چون در هنگام ارزیابی نحوه‌ بیان کلمه قرآنی، کلمه مورد نظر از قبل مشخص است، بناباین در مرحله دوم احتیاجی به بازشناسی گفتار نمی‌باشد.
در بخش اول برای بهتر درک کردن مفهوم بازشناسی به بررسی سیستم تولید صوت و شنوایی انسان می‌پردازیم. سپس وارد مفاهیم بازشناسی گفتار خواهیم شد. در این مرحله روشهای جداسازی سیگنال زمینه از روی سیگنال صحبت مورد بررسی قرار می‌گیرد. سپس نحوه استخراج ماتری ضرائب کپستروم و در نهایت بازشناسی گفتار بوسیله الگوریتم انحراف زمانی پویا (DTU) و مدل مخفی مارکوف مورد بررسی قرار می‌گیرد.
پس از آشنایی با ابزارهای بازشناسی گفتار، نحوه پیاده سازی الگوریتم‌های فوق ذکر خواهد شد. بعد از راه‌اندازی سیستم بازشناسی گفتار کلمات مقطع، بوسیله الگوریتم DTN مشاهده شد نرخ بازشناسی گفتار پائینی است و حدود %۴۷ می‌باشد. از این رو در جهت بهبود پارامترهای سیستم و بهینه کردن آن در مراحل بازشناسی و پارامترهای آن تغییراتی داده شد، که به ذکر آنها پرداخته خواهد شد.
پس از بهینه کردن پارامترهای سیستم بازشناسی گفتار و رسانیدن نرخ بازشناسی گفتار به ۹۹% برای ۲۰ کلمه قرآنی الگوریتم‌های ارزیابی نحوه بیان بوسیله روش DTA بحث خواهد شد.
در بخش انتهایی به بررسی مدل مخفی مارکوف خواهیم پرداخت. سپس مراحل پیاده سازی الگوریتم فوق بوسیله نرم افزار و نکات عملی آن گفته خواهد شد. در نهایت سیستم بازشناسی گفتار کلمات مقطع قرآنی و نحوه پیاده سازی آن مورد بررسی قرار خواهد گرفت و در مرحله بعدی الگوریتم ارزیابی نحوه بیان بوسیله ذکر خواهد شد.
تغییر محیط اکوستیکی روی نتیجه بازشناسی اثر خواهد گذاشت. از آنجائیکه سیستم فوق برای نمونه‌های آزمایشگاهی آموزش داده شده با تغییر محیط اکوستیکی مطمئناً نتایج بازشناسی تغییر خواهد کرد و نمونه‌های واقعی دارای نوین میکروفن، محیط و همچنین برگشت صدا خواهند بود.
در انتها به بررسی سیستم‌های بهبود گفتار خواهیم پرداخت، هدف از این بخش حذف هزینه ورودی از طریق میکروفن و از بین بردن تأثیرهای محیط بر روی سیگنال صدا می‌باشد.
در این بخش به دو روش اشاره خواهیم: ابتدا روش spectral subtraction
که به میزان یک روش عمدی برای حذف نویز می‌رود ذکر خواهد شد.
سپس به معرفی یک الگوریتم جدید در حذف نویز میکروفن خواهیم پرداخت.

مدل اعضای صوتی انسان
در شکل (۱-۲) یک دیاگرام شماتیک از مکانیزم تولید صحبت انسان نشان داده شده است. هنگام صحبت معمولی،‌ قفسه سین با فشار وارد کردن به ششها باعث می‌شود که هوای فشرده از ششها از طریق حنجره بیرون رانده شود. تارهای صوتی که درست در پشت غده تیروئید قرار گرفته‌اند،‌ اگر تحت تنش قرار گیرند، با عبور هوا مرتعش می‌شوند و بدین ترتیب هوا نیز متناسب با فرکانس ارتعاش تارهای صوتی مرتعش شده و در این حالت حروف صدادار تولید می‌گردند.
اگر تارهای صوتی از هم جدا شوند، جریان هوا از درون فاصله بین تارهای صوتی عبور می‌کند و تأثیر آن ایجاد نمی‌شود. جریان هوا سپس از فضای حلق عبور نموده و بسته به موقعیت دریچه تنظیم عبور هوا از دهان یا بینی از فضای این دو عبور می‌نماید. جریان هوا از طریق دهان و بینی یا هر دو مشترکاً به بیرون داده می‌شود و هنگام صحبت این کاملاً قابل حس کردن است.
در حالت تولید حرف بی صدا مانند «س» یا «پ» تارهای صوتی در هم باز می‌شوند و یکی از دو حالت زیر غالب است. یا یک جریان مغشوش هوا تولید می‌شود، هنگامی‌که هوا از درون فضای نیمه بسته باریک در نقطه‌ای از اعضای صوتی عبور می‌کند (مانری) و یا یک تحریک گذری مختصر بدنبال ایجاد فشار پشت یک نقطه کاملاً بسته در اعضای صوتی انسان اتفاق می‌افتد (مانند p).
وقتیکه جز جز کننده‌های مختلف مانند زبان، لبها، آرواره‌ها و پرده تفکیک بینی و دهان در حین صحبت مدام حالتشان عوض می‌شود. شکل قسمتهای مختلف فضای داخل ناخیه صوتی تغییر می‌کند. ناحیه صوتی از حنجره تا لبها مانند یک حفره تشدید کننده عمل می‌کند که فرکانسهای معینی را تقویت و بقیه فرکانسها را تضعیف می‌نماید. اعضای صوتی انسان مثل یک لوله صوتی غیر یکنواخت است که از تارهای صوتی تا لبها ادامه دارد و طول آن در افراد مانع حدود cm17 می‌باشد. بنابراین اولین فرکانس تشدید آن در فرکانس زیر اتفاق می‌افتد.
سطح مقطع غیر یکنواخت این لوله – مقدار زیادی متکی به وضعیت جز جز کننده‌ها است. و از صفر تا نزدیک cm20 متغیر است.
عضو صوتی مدهای تشدید یعنی از ارتعاش را داراست که فرمنت نامیده می‌شود که به مقدار زیادی به موقعیت دقیق جزءجزءکننده‌ها بستگی دارد.
شکل (۲-۲) تصویر شماتیک نیم رخ ناحیه صوتی را برای چند حرف صدادار نشان داده است و مقادیر نمونه فرکانسها نیز ذیل آن برای سه فرمنت اول بر حسب Hz داده شده است.
شکل ۳-۲ مشخصه‌های فرکانسی انتقالی این حروف را نشان می‌دهد، وضعیت تشدیدها به روشنی در این منحنی‌ها دیده می‌شود. خوبست که بدانیم بطور قابل ملاحظه‌ای در فهم صحبتها، فقط ۳ فرمنت اول در تعیین صدایی که شنیده می‌شود مهم هستند. اگرچه برای تولید اصوات با کیفیت قابل قبول و بهتر فرمنت‌های بالا نیز مورد نیاز می‌باشد.
شکل موج صدای تولید شده بوسیله حنجره در هر حال یک سینوسی معمولی نیست. اگر اینطور بود ناحیه صوتی تشدید کننده، در خروجی فقط یک سیگنال سینوس می‌داد که بسته به میزان دور یا نزدیک بودن آن به فرکانس تشدید، تقویت یا تضعیف شده بود.
حنجره دارای دو لبه چین خورده پوستی بنام تارهای صوتی است که در هر سیکل از پریود فرکانس گام یکبار از هم باز شده و دوباره بهم می‌آید. فرکانس هیچ در مکالکات انسان مذکر از ۵۰ الی ۲۵۰ هرتز متغیر است که بطور متوسط حدود Hz100است. برای انسان مؤنث این فرکانس در رنج بالاتر تا حدود Hz500 قرار دارد. در آواز خواندن این فرکانس بالاتر نیز هست. بعضی آوازخوانهای اپرا، فرکانس گام خود را تا Hz1000 می‌توانند برسانند.
حرکت نوسانی تارهای صوتی شکل موجی تولید می‌کند که می‌توان آن را با یک پالس مثلثی تقریب زد. این شکل موج دارای طیف فرکانسی غنی است که با شیب db/ocdao12 می‌افتد و همه‌‌هارمونیکها نیز تحت تأثیر نواحی تشدید اعضای صوتی قرار می‌گیرند. (شکل ۴-۲)
شکل ۴-۲ بالائی مربوط است به مدل فیلتر منبع که مشخصات فیلتر و طیف است. شکل سمت راست تحریک دهانه حنجره در گفتار طبیعی است و بالاخره شکل سمت چپ تقویت در تحریک دهانه حنجره است.
ناحیه صوتی وقتی که به وسیله یک شکل موج با طیف‌هارمونیکی گسترده قرار می‌گیرد. نقاط موجی در طیف انرژی شکل موج مکالمات تولید می‌کند که همان فرمنت‌ها هستند. پائین ترین فرمنت که اولین فرمنت نامیده می‌بود از حدود Hz.200 تا Hz100 در حین صحبت متغیر است. و مقدار دقیق آن متکی به ابعاد ناحیه صوتی می‌باشد.
فرمنت دوم از حدود Hz500 تا Hz9500 متغیر است و فرمنت سوم از حدود Hz1500 تا Hz3500. البته گفتار یک پدیده استاتیک و ثابت نیست. مدل لوله صوتی می‌تواند نمایشگر طیف گفتار در مدتی که یک حرف صدادار بطور ممتد کشیده می‌شود و دهان در حالت ثابت باقی می‌ماند (مانند آآ‌آ) باشد. اما در گفتار واقعی زبان و لبها در تحریک دائم هستند و شکل ناحیه صوتی را مرتباً تغییر می‌دهند و نتیجتاً موقعیت فرکانسهای تشدید را عوض می‌کنند. این مشابه یک لوله صوتی است که بطور مداوم از قسمتهای مختلف فشرده و منبسط می‌شود.
بعنوان مثال در هنگام بیان کلمه «میز» احساس می‌کنیم که چطور زبانتان به سقف دهان نزدیک می‌شود و باعث ایجاد یک حالت عبوری نیمه بسته در نزدیک جلوی حفره صوتی می‌شود.
در طیف یک حرف صدادار که بطور مداوم ادامه داده شود، بصورت مداوم ادامه داده شود، بصورت یک طیف انرژی ثابت می‌آید. اما باید توجه داشت که منظور از حروف صدادار در اینجا با آنچه معمولاً تصور می‌شود متفاوت است. بگوئید «I» و ببینید زبان هنگام بیان به آهستگی تغییر موقعیت می‌دهد. از نظر تکنیکی این تها یک حرف صدادار نیست و یک لغزش بین دو موقعیت مربوط به دو حرف صدادار است.
تفاوتهای شنوایی اصلی بین حروف صدادار مختلف و فرکانسهای دو فرمنت اول آنهاست. دیدیم که صحبت کردن، محدود کردن صوت است بعد از آنکه بوسیله نوسانات در حنجره تولید شده است. وقتی که با حالت نجوا و زمزمه صحبت می‌کنیم، تارهای صوتی در حنجره کمی‌از هم جدا نگاه داشته شده‌اند و هوای عبوری از آنها بصورت مغشوش در می‌آید و باعث تحریک حفره تشدید کننده (اعضای صوتی) بوسیله یک نویز می‌گردد.
فرمنتها در اینجا نیز حضور دارند و روی نویز سوار شده‌اند. برای حروف صدادار ریشه حروف در تارهای صوتی است و صدا حاوی فرت‌های شبه پریودیک با باند عریض است که توسط مرتعش شدن تارهای صوتی ایجاد گردیده‌اند.
برای حروف بی صدا مانند «س» صدا در نقطه نیمه بسته تحت فشار در عضو صوتی قرار دارد و شامل جریان هوای شبه رندوم مغشوش می‌باشد. برای حروف بی صدا مانند p (مثل pop) ریشه حرف در نقطه مسدود قرار دارد و بوسیله‌ آزاد شدن هوای فشردیکه پشت نقطه کاملاً مسدود ایجاد گردیده است، تولید می‌گردد. از نوع اخیر که صداهای تنفسی نامیده می‌شود، حرف H مثل کلمه Hello را نیز می‌توان ذکر نمود. بدین ترتیب حروف مکالمات را به ۳ دسته می‌توان تقسیم نمود:
۱- حروف صدادار
۲- حروف بی صدا سایشی مثل س ر ش ف
۳- حروف بی صدای تنفسی هـ، پ
تولید حروف بی صدا از نوع سایشی نیز میسر است که مثلاً حروف ز ژ – و که آنها را صدادار سایشی می‌نامیم. نمونه حروف بی صدا سایشی س – ش – ف هستند.

۲-۲ مدل منبع – فیلتر گفتار
فرض اساسی در تقریباً تمامی‌سیستمهای پردازش گفتار این است که منبع تحریک و سیستم اعضای صوتی مستقل از هم هستند. این موضوع به ما اجازه می‌دهد که در مورد تابع تبدیل عضو صوتی بحث کنیم و این امکان را می‌دهد که این سیستم را با هر منبع ممکن دیگر تحریک نمائیم.
فرض فوق در مورد اکثر حالات مورد نظر ما به خوبی معتبر می‌باشد. البته حالاتی نیز وجود دارد که فرض فوق معتبر نمی‌باشد و مدل اساسی می‌شکند (مانند حرف p در po). برای بیشتر قسمتها ما معتبر بودن آن را فرض می‌نمائیم. بر این اساس یک مدل دیجیتالی ساده تولید گفتار را در شکل (۵-۲) مشاهده می‌کنیم.
منابع تحریک عبارتند از یک مولد پالس که فرکانس آن همان فرکانس گام می‌باشد و یک مولد نویز رندوم.
مولد پالس در هر تعداد از نمونه و مرتبط با شروع عبور یک حجم از هوا از تارهای صوتی، یک پالس تولید می‌کند که طول آن متناسب با پریود گام می‌باشد. خروجی نویز رندوم مشابه اغتشاش شبه رندوم برار حروف بی صدا می‌باشد. هر کدام یا هر دو این منابع ممکن است بعنتوان ورودی برای یک فیلتر دیجیتال خطی و متغیر با زبان بکار روند. این فیلتر، عضو صوتی (ناحیه صوتی) را مشابه سازی می‌نماید و ندا ضرایب فیلتر تعیین کننده ناحیه صوتی بعنوان یک تابع متغیر نسبت به زمان در حین گفتار می‌باشند.
بطور متوسط در هر ۱۰ میلی ثانیه یکبار، ضرایب فیلتر عوض می‌شوند که نشانگر مشخصات ناحیه صوتی جدید هستند، کنترل بهره

فهرست مطالب
فصل اول مقدمه
مدل اعضای صوتی انسان
-۲ مدل منبع – فیلتر گفتار
فصل دوم
Speech analysist
مقدمه:
فریم بندی سیگنال صحبت
فیلتر پیش تأکید
جداسازی سیگنال صحبت از روی سیگنال زمینه
پیدا کردن اولین و آخرین فریم واکه‌دار
مرحله ۴ پیدا کردن نقطه انتهایی و ابتدایی
پیاده سازی الگوریتم‌ها
استخراج ضرائب کپزرم
محاسبه ضرایب دلتاکپترال
پردازش روی فریم‌های واکه دار:
روش اول: استفاده از autocorrelation
روش دوم: استفاده از ضرائب کپستروم
پیاده سازی الگوریتم‌ها
فرکانس فرمنت
استخراج فرکانس فرمنت از طریق حل ریشه‌های LPC
آنالیز پیشگویی خطی (LPC)
مدل تولید صحبت
روش همبستگی
روش کوواریانس
مقایسه روش‌های همبستگی و کوواریانس
مرتبه پیشگو
کوانتیزاسیون برداری
الگوریتم LBG
فصل سوم: انحراف پویای زمانی (Dynamic time warpping)
مقدمه:
– هم ترازی‌سازی زمانی و نرمالیزاسیون
مروری بر Dynamic programing
محدودیتهای نرمالیزاسیون زمانی
محدودیتهای نقطه انتها
شرایط یکنواختی
محدودیت پیوستگی محلی
محدودیت در مسیر سراسری
وزن دهی شیب منحنی
انحراف زمانی پویا (dynamic – lime warping)
فصل چهارم
استفاده از مدلهای مارکف مخفی
در تشخیص گفتار
۲-۳- مدل مارکف مخفی (HMM) ]21[
مدل کاسه و گلوله
۱-۲-۳- اجزای یک HMM
۲-۲-۳- سه مسئله اساسی در HMM
حل مسئله ۱
-۱-۲-۲-۳- الگوریتم پیشرو – پسرو
۲-۲-۲-۳- حل مسئله ۲
۳-۲-۲-۳- حل مسئله ۳
۱-۴- الگوریتم بام – ولچ ]۲۱[ و ]۱۱[
-۴- مسائل مربوط به پیاده سازی روش ML
الف – مقیاس بندی
ب. دنباله های مشاهده چندتایی
پ. تخمین اولیه پارامترهای HMM
فصل ۵: بازشناسی و ارزیابی نحوه بیان کلمات مقطع قرآنی
بازشناسی گفتار بوسیله الگوریتم DTW
تاثیر طول پنجره در کیفیت گفتار جداشده در زمینه
تطابق چندالگویی
روش اول: استفاده در میانگین الگوها:
الگوریتم پیدا کردن کلمه مناسب
فلوچارت مربوط به الگوریتم knn
حذف میانگین ضرایب کپستروم
MEI Scald-MFCC
پیاده سازی
طراحی ساختار مدل مخفی مارکوف
مقدار دهی اولیه Hmm
تخمین بیشترین شباهت
بازشناسی گفتار
بخش دوم لرزیابی نحوه بیان گفتار قرآنی
ارزیابی نحوه بیان گفتار قرآنی بوسیله و تطابق الگو
Log spectral Distance
Weignted cepstral Distance
Cepstral Distance
Distance base on LPC
پیدا کردن منحنی فاصله‌ها
امتیازدهی به گوینده
استفاده از هر ارزیابی نحوه بیان
استفاده از Hmm در ارزیابی نحوه بیان


قیمت : 7000 تومان
[ بلافاصله بعد از پرداخت لینک دانلود فعال می شود ]




برچسب :




تبلیغات