ايران ويج

نسخه‌ی کامل: Talk
شما در حال مشاهده‌ی نسخه‌ی متنی این صفحه می‌باشید. مشاهده‌ی نسخه‌ی کامل با قالب بندی مناسب.
صفحه‌ها: 1 2 3 4
ajlajlajl نوشته است:دستت درد نکنه. هنوز بررسيشون نکردم. وليک ميگم نگفتي چطوري ميشه نميدونم توسعه داد و اينا؟؟
شدن كه ميشه .مهمترين چيز داشتن اطلاعات و روش پياده سازي هست
ajlajlajl نوشته است:
arnh نوشته است:ما تا حالا توي ايران .. ( براي زبون فارسي ) تا حالا همچين چيزي رو نداشتيم ( تا اونجا كه اطلاع دارم )
ساختنش رو ساختن. ولي هيچ کدوم کامل نشده. اکثرا براي پايان نامه شون بوده (مثل من) که بعد از فارغ التحصيلي ولش کردند.يه گروهش که من خبر دارم به همون روش 3 که گفتم کار کرده بودند. منم اصل پايان نامم اين نيست ولي ميخام اگه بشه همراهش باشه.
ايول .. Clap فقط همين يه خط رو گرفتي Happy

Amaze Amaze Amaze Amaze Amaze Amaze Amaze
انتظار داشتم در مورد بحث فني بحث بشه .

اگه ساختن پس كو ؟! ( فقط ادعاSad )
lord_viper نوشته است:خب همون برنامه microsoft speech یه engine هست که این کارا رو انجام میده شما یا میتونین یکی بنویسین یا از یک مدل امادش استفاده کنین یا یکی رو توسعه بدین برای کارتون
مشكل اصلي همون زبون فارسي هست .
هيچ چيز مطلبوبي از توسعه microsoft speech يا هر موتور ديگه كه براي زبون ديگه اي حتي عربي بدست نمياد .

. بهتره از اول شروع بشه .. ( طرح ريزي يه موتور )
- بهتره اين موتور طوري طراحي بشه كه به هر سمت بشه اونو توسعه داد .

به نظر من همچين كاري سه تا بخش داره ( براي زبون فارسي )
1. موتور توليد خروجي ( صدا )
كه واج ها . صدا ها و هجا رو براي زبون فارسي . ( تركيب ها )
به همراه
الف . توانايي تغيير تن صدا . ( سن . جنسيت )
ب . تغيير لهجه .

2 . پيدا كردن راه حلي براي كشف صدا هاي نوشته نشده در زبان فارسي .
3. ايندكس كردن تمامي استثنات .

تركيب جمله ..
البت طرح كلي خيلي خيلي پيچيده تر از اين حرفاست .

بحث سنگين كار كردن در شروع كار نيست . فقظ جنبه اطلاعات عمومي داشت .Amaze
آقا lord_viper دستت درد نکنه ولی این مطالب(همون لینکا) دقیقا بر عکس چیزیه که من میخوام. ;) . یعنی صدا به متنه نه متن به صدا.
--------------------------------------------------------------------------------------------
و اما آقای arnh
و اما بحث فنی. من اول فقط یه خرده راهنمایی میخواستم که بقیه راه رو خودم برم چون فکر نمیکردم کسی علاقه مند باشه. ولی حالا که شما میخواید چشم(به کسر شین).

خب واقعا چیزی که شما میخواید یه چیز خیلی بزرگه. فکر نکنم به این راحتی ها بشه همچین کاری کرد.
من الان هنوز دنبال اینم که ببینم میشه از اول شروع نکرد. و دنباله یه راه دیگه رو بگیرم.


شروع کردن از پایه یه خرده سخته. ولی خب بنا بر دلایلی که گفتید احتمالا حق با شماست.
و اگه بخوایم از ابتدا شروع کنیم:
برای آوای کلمات که فکر کنم باید تمامی آوای کلمات توی یه جایی داشته باشیم چون عملا نمیشه بر اساس هیچ قانونی آوای یه کلمه رو درآورد. برای مثال توی یه کلمه ای مثل "خانگی" با حروف "خ" و "گ" به خاطر حروف صدادار "ا" و "ی" که بعد از اونها هستند مشکلی نداریم ولی صدای حرف "ن" رو به هیچ طریقی نمیشه بدست آورد بغیر از ذخیره کردن.
و اگه قرار باشه آوای همه کلمات ذخیره بشند دیگه مشکلی با استثنائات نداریم.
تنها مشکلی که میمونه وقتیه که کلمه توی جمله قرار میگیره و در بعضی مواقع باید در انتهای کسره یا یه حرکت دیگه ای قرار بگیره که اینم فکر کنم یا باید از طریق بررسی ساختار جمله حل بشه و اگه نشه دیگه فکر کنم میره توی حوزه هوش مصنوعی.

حالا همه اینا در صورتی بود که فقط زبان فارسی استاندارد رو کار کنیم . و به ازای هر لحجه یا گویشی فکر کنم همون کارا باید دوباره انجام بشه. حالا یه خرده کمتر.

در مورد سن و جنسیت سخنگو هم میشه بعد از تولید صدا به هر روشی اونو دستکاری کرد مثل Voice chenger.

حالا همه اینایی که تا حالا گفتم فقط مربوط به بخش آوا ها بود نه تولید صدا.

توی تولید صدا دو باره دو راه هست که یکی همون تولید صدا است و یکی هم پخش آوای ضبط شده. میشه گفت روش دوم راحتتره و روش اول بهتر. میشه ترکیبشونو هم بکار برد. روش دومو تقریبا همه بلدند و کاری نداره ولی روش اول ... .

اینا همه جنبه تئوریه و همچنین به قول شما اطلاعات عمومی وگرنه توسعه دادن پروژه تا این حد خیلی خطرناکه!. فعلا یه مدل ساده باشه. بعدا میشه توسعش داد.

یه مشکل اساسی دیگه . من هنوز نفهمیدم منظورتون از موتور یا engine چیه؟ یه ساختار استاندارده؟ یا یه چیزی مینویسیم بعد اسمش میشه موتور.؟!؟
سلام.
پروژه خیلی مشکلیه. این پروژه به یه تیم حرفه ای نیاز داره.
ajlajlajl نوشته است:برای آوای کلمات که فکر کنم باید تمامی آوای کلمات توی یه جایی داشته باشیم چون عملا نمیشه بر اساس هیچ قانونی آوای یه کلمه رو درآورد. برای مثال توی یه کلمه ای مثل "خانگی" با حروف "خ" و "گ" به خاطر حروف صدادار "ا" و "ی" که بعد از اونها هستند مشکلی نداریم ولی صدای حرف "ن" رو به هیچ طریقی نمیشه بدست آورد بغیر از ذخیره کردن.
و اگه قرار باشه آوای همه کلمات ذخیره بشند دیگه مشکلی با استثنائات نداریم.
منظورت اینه تلفظ همه کلمات رو جایی ذخیره کنیم؟ میدونی چه حجم عظیمی اشغال میشه؟ شاید من اشتباه متوجه شدم.

ajlajlajl نوشته است:تنها مشکلی که میمونه وقتیه که کلمه توی جمله قرار میگیره و در بعضی مواقع باید در انتهای کسره یا یه حرکت دیگه ای قرار بگیره که اینم فکر کنم یا باید از طریق بررسی ساختار جمله حل بشه و اگه نشه دیگه فکر کنم میره توی حوزه هوش مصنوعی.
داستان اون شخصی که قرار بود اعدام بشه رو که شنیدی. وزیر میگه طرفو ببخش. پادشاه میگه بخخش لازم نیست. اعدامش کنید. وزیر نامه مینویسه بخشش ، لازم نیست اعدامش کنید.
میبینی که با یه ویرگول و نقطه این ور اون ور شدن تلفظ و لحن بیان و معنای جمله 180 درجه عوض میشه. کار خیلی مشکلیه که برنامه بتونه منظور دقیق متن رو تشخیص بده. تازه خیلی مواقع ویرگول و نشانه های دیگه در جمله موجود نیست و ما از موضوع کلی متن و جملات قبلی پی به تلفظ کلمات میبریم.
ضمنا باید خیلی دقت کنی. چون ممکن برنامت باعث مرگ کسی شه. اون وقت خونش میفته پای تو.

ajlajlajl نوشته است:حالا همه اینا در صورتی بود که فقط زبان فارسی استاندارد رو کار کنیم . و به ازای هر لحجه یا گویشی فکر کنم همون کارا باید دوباره انجام بشه. حالا یه خرده کمتر.

در مورد سن و جنسیت سخنگو هم میشه بعد از تولید صدا به هر روشی اونو دستکاری کرد مثل Voice chenger.
حالا شما فارسی رون و تهرانی رو بنویس.

ajlajlajl نوشته است:حالا همه اینایی که تا حالا گفتم فقط مربوط به بخش آوا ها بود نه تولید صدا.

توی تولید صدا دو باره دو راه هست که یکی همون تولید صدا است و یکی هم پخش آوای ضبط شده. میشه گفت روش دوم راحتتره و روش اول بهتر. میشه ترکیبشونو هم بکار برد. روش دومو تقریبا همه بلدند و کاری نداره ولی روش اول ... .
روش اول حرفه ای تره ولی مشکل تره.
روش دوم توی این کارت های تلفن تماس با خارج از کشور به کار میره. دیدید چه بی کیفیت زمان باقی مانده رو اعلام میکنه.
خب همینو میگم اول به قول شما فارسی رون و تهرانیش ساخته بشه. یه کلمه هم بخونه بستمه. جملش پیشکش.
Payman62 نوشته است:منظورت اینه تلفظ همه کلمات رو جایی ذخیره کنیم؟ میدونی چه حجم عظیمی اشغال میشه؟ شاید من اشتباه متوجه شدم.
گفتم که. فکر نکنم راه دیگه ای باشه. تازه حجمی هم نمیگیره. 500 هزار کلمه کلمه ای هم 10 حرف. حد اکثر میشه 10 مگ!. اگه روش دیگه ای به ذهنتون میرسه بگید. در ضمن نباید که همه این کلمات یکجا وارد بشه. کمکمک.

Payman62 نوشته است:روش اول حرفه ای تره ولی مشکل تره.
روش دوم توی این کارت های تلفن تماس با خارج از کشور به کار میره. دیدید چه بی کیفیت زمان باقی مانده رو اعلام میکنه.
درسته روش اول حرفه ای تره. ولیک یکی باید یاد ما بده چطوری؟ ؟

یکی قضیه این موتورو برای من روشن کنه؟!!
ajlajlajl نوشته است:یکی قضیه این موتورو برای من روشن کنه؟!!
خود text to speech مايكروسافت رو كه ديدين توي اون نيومدن تمام كلمات رو بگيرن بريزن تو يه ديتا بيس و از روش بخونن اون يه engine كارش چيه ايجاد اوايي كه شما ميگين
حتما فايلهاي wave رو ديدين 44 بايت اولش هدرشه كه مربوط به طول و سرعت ضبط صدا هست وقتي ما صدامونو توسط ميكروفن ضبط ميكنيم اين فركانسهايي كه توليد ميشه توسط ميكروفن بطورت فايل باينري در مياد و درون فايل wave قرار ميگيره وقتي اون فايل wave پخش ميشه اون بايتها خونده و براي ژخش و تبديل دوباره به همون فركانسها فرستاده ميشن .
حروف الفبا بطور معمولي صدايي ندارن بلكه در كنار حروف صدادار خونده ميشن (فتحه و كسره و ضمه و ا و او و اي )اين 6 تا حرف تو فارسي صدا ايجاد ميكنن وقتي مينويسين با يك حرف بيصدا به يه حرف صدا دار چسبيده حروف بيصدا تلفضشون يه شكله و موجشون هم يكيه و در كنار اون 6 حرف صدادار حالتهاي خاصي به خودشون ميگيرن حالا اگه فركانس اين حالات رو تفكيكا داشته باشين ميتونين يه برنامه بنويسين كه اين فركانسها رو كنار هم قرار بده بعد تبديل به مقدار باينري كنه و به منبع پخش بفرسته
و اما فرکانس.
1. فرکانسشونو چطوری بدست بیاریم.؟
2. توی انگلیسی همیشه صدای حروف توسط حروف صداداری که "کنارشون نوشته شده" مشخص میشه ولی توی فارسی علامت هایی که طریقه تلفظ رو مشخص میکنه نوشته نمیشه. مشکل اینه.
3. یکی از لینکایی که داده بودید دقیقا همین کاری که گفته بودید رو میکرد و بایت ها رو میخوند و نمایش میداد. مشکل با پخشش نیست یه راهی پیدا میشه. مشکل تولیدشونه!؟
ajlajlajl نوشته است:توی انگلیسی همیشه صدای حروف توسط حروف صداداری که "کنارشون نوشته شده" مشخص میشه ولی توی فارسی علامت هایی که طریقه تلفظ رو مشخص میکنه نوشته نمیشه. مشکل اینه.
همين كه ميگم تا حالا همچين چيزي ساخته نشده .
چون اين معما حل نشده ..
بقيه دنيا هم توي كف اين موندن كه ما چطوري مي خونيم . Whistle
زبون فارسي يكي از بي قاعده ترين زبان هاي دنياست .

مثلا اگه زبون عربي هم اعراب رو هم نداشته باشه . باز بر حسب صرفشون ميشه صدا رو كشف كرد ولي فارسي نوچ ! Amaze

اين معما رو هر كه حل كنه .. از نوابغ روزگاره ! Happy
خوب دیگه. ما چطوری میخونیم؟ هم سواله هم جواب At. یه خرده فکر کنید. ما چطوری میخونیم؟
خب کلاس اول که بودیم کلمات علامت داشتند. خب شیوه تلفظشون رو یاد گرفتیم و حفظ شدیم. بعد علامت ها رو برداشتند. خب چون حفظ بودیم مشکلی پیش نمیومد. با ملت حرف میزدیم. شیوه تلفظ کلماتی که یاد نگرفته بودیم رو هم یاد گرفتیم. چند تا روزنامه خوندیم. یه کتاب خوندیم. یا یه نوشته دیگه. توی تلفظ یه کلمش موندیم. خب از بابا ، مامان یا یکی دیگه که بهش اطمینان داشتیم طریقه صحیح تلفظش رو یاد گرفتیم. هیچ کس نبود؟ یه تلفظ با توجه به هم خانواده بودنش با بقیه کلمات از خودمون ساختیم تا یه وقت دیگه که توی صحبتمون آوردیمش اگه غلط بود بهمون درستشو بگن.
(فصل تلفظ. زندگی نامه یه بچه)Question

خب برنامه هم دقیقا باید همین مراحل رو طی کنه و به همین ترتیب یاد بگیره.
همون طور که گفتم اول طریقه تلفظ یه سری کلمه توی دیتابیس ذخیره میشه. بعد که برنامه راه افتاد یه چند نفر دیگه هم پیدا میشند و اطلاعات یه مجموعه بزرگتری رو (مثل یه دیکشنری) رو اضافه میکنند. حالا وسط خوندن یه متن کلمه ناشناخته بود. اول با توجه به هم خانواده بودنش با بقیه کلمات و اینا یه تلفظ پیشساخته درست میکنه. بعد اونو به کاربر نشون میده میگه درسته؟؟ اگه درست نبود کاربر درستش میکنه.

چطوره؟ به این میگن نمیدونم چی ( به این میگن چی؟)Confused
(کلا ببخشید اگه غلط املایی زیاد داره)
arnh نوشته است:همين كه ميگم تا حالا همچين چيزي ساخته نشده .
چون اين معما حل نشده ..
.........
مثلا اگه زبون عربي هم اعراب رو هم نداشته باشه . باز بر حسب صرفشون ميشه صدا رو كشف كرد ولي فارسي نوچ ! Amaze

اين معما رو هر كه حل كنه .. از نوابغ روزگاره ! Happy

http://www.aisoft.ir/fa/tts-enlarge.aspx

سال 81 دانشجويان دانشگاه صنعتي امير كبير اولين كساني بودند كه اين برنامه رو ساختند. همونطور كه مي دونيد موتورهاي سخنگويي كه براي زبان انگليسي طراحي شدند _ با وجود پيچيدگي كمتري كه زبان انگليسي داره_ هرگز قادر به ايجاد تن صدا و به اصطلاح ايجاد احساس در جملات نشده اند كه البته اين برنامه تا حدود زيادي مي تونه اين كار رو انجام بده.
صفحه‌ها: 1 2 3 4