امتیاز موضوع:
  • 0 رأی - میانگین امتیازات: 0
  • 1
  • 2
  • 3
  • 4
  • 5
Talk
نویسنده پیام
lord_viper غایب
مدیر کل انجمن
*****

ارسال‌ها: 3,949
موضوع‌ها: 352
تاریخ عضویت: بهمن ۱۳۸۴

تشکرها : 5193
( 9875 تشکر در 2650 ارسال )
ارسال: #12
RE: Talk
ajlajlajl نوشته است:دستت درد نکنه. هنوز بررسيشون نکردم. وليک ميگم نگفتي چطوري ميشه نميدونم توسعه داد و اينا؟؟
شدن كه ميشه .مهمترين چيز داشتن اطلاعات و روش پياده سازي هست
۱۱-اردیبهشت-۱۳۸۷, ۱۲:۳۰:۰۶
وب سایت ارسال‌ها
پاسخ
arnh آفلاین
مدیر بازنشسته
*****

ارسال‌ها: 959
موضوع‌ها: 75
تاریخ عضویت: آبان ۱۳۸۴

تشکرها : 38
( 172 تشکر در 76 ارسال )
ارسال: #13
RE: Talk
ajlajlajl نوشته است:
arnh نوشته است:ما تا حالا توي ايران .. ( براي زبون فارسي ) تا حالا همچين چيزي رو نداشتيم ( تا اونجا كه اطلاع دارم )
ساختنش رو ساختن. ولي هيچ کدوم کامل نشده. اکثرا براي پايان نامه شون بوده (مثل من) که بعد از فارغ التحصيلي ولش کردند.يه گروهش که من خبر دارم به همون روش 3 که گفتم کار کرده بودند. منم اصل پايان نامم اين نيست ولي ميخام اگه بشه همراهش باشه.
ايول .. Clap فقط همين يه خط رو گرفتي Happy

Amaze Amaze Amaze Amaze Amaze Amaze Amaze
انتظار داشتم در مورد بحث فني بحث بشه .

اگه ساختن پس كو ؟! ( فقط ادعاSad )
۱۱-اردیبهشت-۱۳۸۷, ۱۴:۰۱:۱۲
وب سایت ارسال‌ها
پاسخ
arnh آفلاین
مدیر بازنشسته
*****

ارسال‌ها: 959
موضوع‌ها: 75
تاریخ عضویت: آبان ۱۳۸۴

تشکرها : 38
( 172 تشکر در 76 ارسال )
ارسال: #14
RE: Talk
lord_viper نوشته است:خب همون برنامه microsoft speech یه engine هست که این کارا رو انجام میده شما یا میتونین یکی بنویسین یا از یک مدل امادش استفاده کنین یا یکی رو توسعه بدین برای کارتون
مشكل اصلي همون زبون فارسي هست .
هيچ چيز مطلبوبي از توسعه microsoft speech يا هر موتور ديگه كه براي زبون ديگه اي حتي عربي بدست نمياد .

. بهتره از اول شروع بشه .. ( طرح ريزي يه موتور )
- بهتره اين موتور طوري طراحي بشه كه به هر سمت بشه اونو توسعه داد .

به نظر من همچين كاري سه تا بخش داره ( براي زبون فارسي )
1. موتور توليد خروجي ( صدا )
كه واج ها . صدا ها و هجا رو براي زبون فارسي . ( تركيب ها )
به همراه
الف . توانايي تغيير تن صدا . ( سن . جنسيت )
ب . تغيير لهجه .

2 . پيدا كردن راه حلي براي كشف صدا هاي نوشته نشده در زبان فارسي .
3. ايندكس كردن تمامي استثنات .

تركيب جمله ..
البت طرح كلي خيلي خيلي پيچيده تر از اين حرفاست .

بحث سنگين كار كردن در شروع كار نيست . فقظ جنبه اطلاعات عمومي داشت .Amaze
۱۱-اردیبهشت-۱۳۸۷, ۱۴:۱۳:۲۰
وب سایت ارسال‌ها
پاسخ
ajlajlajl آفلاین
مدیر بازنشسته
*****

ارسال‌ها: 2,192
موضوع‌ها: 70
تاریخ عضویت: مهر ۱۳۸۴

تشکرها : 932
( 2618 تشکر در 1020 ارسال )
ارسال: #15
RE: Talk
آقا lord_viper دستت درد نکنه ولی این مطالب(همون لینکا) دقیقا بر عکس چیزیه که من میخوام. ;) . یعنی صدا به متنه نه متن به صدا.
--------------------------------------------------------------------------------------------
و اما آقای arnh
و اما بحث فنی. من اول فقط یه خرده راهنمایی میخواستم که بقیه راه رو خودم برم چون فکر نمیکردم کسی علاقه مند باشه. ولی حالا که شما میخواید چشم(به کسر شین).

خب واقعا چیزی که شما میخواید یه چیز خیلی بزرگه. فکر نکنم به این راحتی ها بشه همچین کاری کرد.
من الان هنوز دنبال اینم که ببینم میشه از اول شروع نکرد. و دنباله یه راه دیگه رو بگیرم.


شروع کردن از پایه یه خرده سخته. ولی خب بنا بر دلایلی که گفتید احتمالا حق با شماست.
و اگه بخوایم از ابتدا شروع کنیم:
برای آوای کلمات که فکر کنم باید تمامی آوای کلمات توی یه جایی داشته باشیم چون عملا نمیشه بر اساس هیچ قانونی آوای یه کلمه رو درآورد. برای مثال توی یه کلمه ای مثل "خانگی" با حروف "خ" و "گ" به خاطر حروف صدادار "ا" و "ی" که بعد از اونها هستند مشکلی نداریم ولی صدای حرف "ن" رو به هیچ طریقی نمیشه بدست آورد بغیر از ذخیره کردن.
و اگه قرار باشه آوای همه کلمات ذخیره بشند دیگه مشکلی با استثنائات نداریم.
تنها مشکلی که میمونه وقتیه که کلمه توی جمله قرار میگیره و در بعضی مواقع باید در انتهای کسره یا یه حرکت دیگه ای قرار بگیره که اینم فکر کنم یا باید از طریق بررسی ساختار جمله حل بشه و اگه نشه دیگه فکر کنم میره توی حوزه هوش مصنوعی.

حالا همه اینا در صورتی بود که فقط زبان فارسی استاندارد رو کار کنیم . و به ازای هر لحجه یا گویشی فکر کنم همون کارا باید دوباره انجام بشه. حالا یه خرده کمتر.

در مورد سن و جنسیت سخنگو هم میشه بعد از تولید صدا به هر روشی اونو دستکاری کرد مثل Voice chenger.

حالا همه اینایی که تا حالا گفتم فقط مربوط به بخش آوا ها بود نه تولید صدا.

توی تولید صدا دو باره دو راه هست که یکی همون تولید صدا است و یکی هم پخش آوای ضبط شده. میشه گفت روش دوم راحتتره و روش اول بهتر. میشه ترکیبشونو هم بکار برد. روش دومو تقریبا همه بلدند و کاری نداره ولی روش اول ... .

اینا همه جنبه تئوریه و همچنین به قول شما اطلاعات عمومی وگرنه توسعه دادن پروژه تا این حد خیلی خطرناکه!. فعلا یه مدل ساده باشه. بعدا میشه توسعش داد.

یه مشکل اساسی دیگه . من هنوز نفهمیدم منظورتون از موتور یا engine چیه؟ یه ساختار استاندارده؟ یا یه چیزی مینویسیم بعد اسمش میشه موتور.؟!؟

میزان رای دشمن است!
[تصویر:  cff100.png]
۱۱-اردیبهشت-۱۳۸۷, ۱۵:۰۹:۲۰
وب سایت ارسال‌ها
پاسخ
Payman62 آفلاین
مدیر بخش ویژوال بیسیک
*****

ارسال‌ها: 2,273
موضوع‌ها: 149
تاریخ عضویت: اسفند ۱۳۸۴

تشکرها : 1308
( 3661 تشکر در 942 ارسال )
ارسال: #16
RE: Talk
سلام.
پروژه خیلی مشکلیه. این پروژه به یه تیم حرفه ای نیاز داره.
ajlajlajl نوشته است:برای آوای کلمات که فکر کنم باید تمامی آوای کلمات توی یه جایی داشته باشیم چون عملا نمیشه بر اساس هیچ قانونی آوای یه کلمه رو درآورد. برای مثال توی یه کلمه ای مثل "خانگی" با حروف "خ" و "گ" به خاطر حروف صدادار "ا" و "ی" که بعد از اونها هستند مشکلی نداریم ولی صدای حرف "ن" رو به هیچ طریقی نمیشه بدست آورد بغیر از ذخیره کردن.
و اگه قرار باشه آوای همه کلمات ذخیره بشند دیگه مشکلی با استثنائات نداریم.
منظورت اینه تلفظ همه کلمات رو جایی ذخیره کنیم؟ میدونی چه حجم عظیمی اشغال میشه؟ شاید من اشتباه متوجه شدم.

ajlajlajl نوشته است:تنها مشکلی که میمونه وقتیه که کلمه توی جمله قرار میگیره و در بعضی مواقع باید در انتهای کسره یا یه حرکت دیگه ای قرار بگیره که اینم فکر کنم یا باید از طریق بررسی ساختار جمله حل بشه و اگه نشه دیگه فکر کنم میره توی حوزه هوش مصنوعی.
داستان اون شخصی که قرار بود اعدام بشه رو که شنیدی. وزیر میگه طرفو ببخش. پادشاه میگه بخخش لازم نیست. اعدامش کنید. وزیر نامه مینویسه بخشش ، لازم نیست اعدامش کنید.
میبینی که با یه ویرگول و نقطه این ور اون ور شدن تلفظ و لحن بیان و معنای جمله 180 درجه عوض میشه. کار خیلی مشکلیه که برنامه بتونه منظور دقیق متن رو تشخیص بده. تازه خیلی مواقع ویرگول و نشانه های دیگه در جمله موجود نیست و ما از موضوع کلی متن و جملات قبلی پی به تلفظ کلمات میبریم.
ضمنا باید خیلی دقت کنی. چون ممکن برنامت باعث مرگ کسی شه. اون وقت خونش میفته پای تو.

ajlajlajl نوشته است:حالا همه اینا در صورتی بود که فقط زبان فارسی استاندارد رو کار کنیم . و به ازای هر لحجه یا گویشی فکر کنم همون کارا باید دوباره انجام بشه. حالا یه خرده کمتر.

در مورد سن و جنسیت سخنگو هم میشه بعد از تولید صدا به هر روشی اونو دستکاری کرد مثل Voice chenger.
حالا شما فارسی رون و تهرانی رو بنویس.

ajlajlajl نوشته است:حالا همه اینایی که تا حالا گفتم فقط مربوط به بخش آوا ها بود نه تولید صدا.

توی تولید صدا دو باره دو راه هست که یکی همون تولید صدا است و یکی هم پخش آوای ضبط شده. میشه گفت روش دوم راحتتره و روش اول بهتر. میشه ترکیبشونو هم بکار برد. روش دومو تقریبا همه بلدند و کاری نداره ولی روش اول ... .
روش اول حرفه ای تره ولی مشکل تره.
روش دوم توی این کارت های تلفن تماس با خارج از کشور به کار میره. دیدید چه بی کیفیت زمان باقی مانده رو اعلام میکنه.
۱۱-اردیبهشت-۱۳۸۷, ۱۵:۵۲:۴۰
ارسال‌ها
پاسخ
ajlajlajl آفلاین
مدیر بازنشسته
*****

ارسال‌ها: 2,192
موضوع‌ها: 70
تاریخ عضویت: مهر ۱۳۸۴

تشکرها : 932
( 2618 تشکر در 1020 ارسال )
ارسال: #17
RE: Talk
خب همینو میگم اول به قول شما فارسی رون و تهرانیش ساخته بشه. یه کلمه هم بخونه بستمه. جملش پیشکش.
Payman62 نوشته است:منظورت اینه تلفظ همه کلمات رو جایی ذخیره کنیم؟ میدونی چه حجم عظیمی اشغال میشه؟ شاید من اشتباه متوجه شدم.
گفتم که. فکر نکنم راه دیگه ای باشه. تازه حجمی هم نمیگیره. 500 هزار کلمه کلمه ای هم 10 حرف. حد اکثر میشه 10 مگ!. اگه روش دیگه ای به ذهنتون میرسه بگید. در ضمن نباید که همه این کلمات یکجا وارد بشه. کمکمک.

Payman62 نوشته است:روش اول حرفه ای تره ولی مشکل تره.
روش دوم توی این کارت های تلفن تماس با خارج از کشور به کار میره. دیدید چه بی کیفیت زمان باقی مانده رو اعلام میکنه.
درسته روش اول حرفه ای تره. ولیک یکی باید یاد ما بده چطوری؟ ؟

یکی قضیه این موتورو برای من روشن کنه؟!!

میزان رای دشمن است!
[تصویر:  cff100.png]
۱۱-اردیبهشت-۱۳۸۷, ۱۷:۵۱:۳۷
وب سایت ارسال‌ها
پاسخ
lord_viper غایب
مدیر کل انجمن
*****

ارسال‌ها: 3,949
موضوع‌ها: 352
تاریخ عضویت: بهمن ۱۳۸۴

تشکرها : 5193
( 9875 تشکر در 2650 ارسال )
ارسال: #18
RE: Talk
ajlajlajl نوشته است:یکی قضیه این موتورو برای من روشن کنه؟!!
خود text to speech مايكروسافت رو كه ديدين توي اون نيومدن تمام كلمات رو بگيرن بريزن تو يه ديتا بيس و از روش بخونن اون يه engine كارش چيه ايجاد اوايي كه شما ميگين
حتما فايلهاي wave رو ديدين 44 بايت اولش هدرشه كه مربوط به طول و سرعت ضبط صدا هست وقتي ما صدامونو توسط ميكروفن ضبط ميكنيم اين فركانسهايي كه توليد ميشه توسط ميكروفن بطورت فايل باينري در مياد و درون فايل wave قرار ميگيره وقتي اون فايل wave پخش ميشه اون بايتها خونده و براي ژخش و تبديل دوباره به همون فركانسها فرستاده ميشن .
حروف الفبا بطور معمولي صدايي ندارن بلكه در كنار حروف صدادار خونده ميشن (فتحه و كسره و ضمه و ا و او و اي )اين 6 تا حرف تو فارسي صدا ايجاد ميكنن وقتي مينويسين با يك حرف بيصدا به يه حرف صدا دار چسبيده حروف بيصدا تلفضشون يه شكله و موجشون هم يكيه و در كنار اون 6 حرف صدادار حالتهاي خاصي به خودشون ميگيرن حالا اگه فركانس اين حالات رو تفكيكا داشته باشين ميتونين يه برنامه بنويسين كه اين فركانسها رو كنار هم قرار بده بعد تبديل به مقدار باينري كنه و به منبع پخش بفرسته
۱۱-اردیبهشت-۱۳۸۷, ۱۸:۱۴:۲۷
وب سایت ارسال‌ها
پاسخ
ajlajlajl آفلاین
مدیر بازنشسته
*****

ارسال‌ها: 2,192
موضوع‌ها: 70
تاریخ عضویت: مهر ۱۳۸۴

تشکرها : 932
( 2618 تشکر در 1020 ارسال )
ارسال: #19
RE: Talk
و اما فرکانس.
1. فرکانسشونو چطوری بدست بیاریم.؟
2. توی انگلیسی همیشه صدای حروف توسط حروف صداداری که "کنارشون نوشته شده" مشخص میشه ولی توی فارسی علامت هایی که طریقه تلفظ رو مشخص میکنه نوشته نمیشه. مشکل اینه.
3. یکی از لینکایی که داده بودید دقیقا همین کاری که گفته بودید رو میکرد و بایت ها رو میخوند و نمایش میداد. مشکل با پخشش نیست یه راهی پیدا میشه. مشکل تولیدشونه!؟

میزان رای دشمن است!
[تصویر:  cff100.png]
۱۱-اردیبهشت-۱۳۸۷, ۱۸:۲۴:۱۰
وب سایت ارسال‌ها
پاسخ
arnh آفلاین
مدیر بازنشسته
*****

ارسال‌ها: 959
موضوع‌ها: 75
تاریخ عضویت: آبان ۱۳۸۴

تشکرها : 38
( 172 تشکر در 76 ارسال )
ارسال: #20
RE: Talk
ajlajlajl نوشته است:توی انگلیسی همیشه صدای حروف توسط حروف صداداری که "کنارشون نوشته شده" مشخص میشه ولی توی فارسی علامت هایی که طریقه تلفظ رو مشخص میکنه نوشته نمیشه. مشکل اینه.
همين كه ميگم تا حالا همچين چيزي ساخته نشده .
چون اين معما حل نشده ..
بقيه دنيا هم توي كف اين موندن كه ما چطوري مي خونيم . Whistle
زبون فارسي يكي از بي قاعده ترين زبان هاي دنياست .

مثلا اگه زبون عربي هم اعراب رو هم نداشته باشه . باز بر حسب صرفشون ميشه صدا رو كشف كرد ولي فارسي نوچ ! Amaze

اين معما رو هر كه حل كنه .. از نوابغ روزگاره ! Happy
۱۱-اردیبهشت-۱۳۸۷, ۲۱:۰۲:۳۷
وب سایت ارسال‌ها
پاسخ
ajlajlajl آفلاین
مدیر بازنشسته
*****

ارسال‌ها: 2,192
موضوع‌ها: 70
تاریخ عضویت: مهر ۱۳۸۴

تشکرها : 932
( 2618 تشکر در 1020 ارسال )
ارسال: #21
RE: Talk
خوب دیگه. ما چطوری میخونیم؟ هم سواله هم جواب At. یه خرده فکر کنید. ما چطوری میخونیم؟
خب کلاس اول که بودیم کلمات علامت داشتند. خب شیوه تلفظشون رو یاد گرفتیم و حفظ شدیم. بعد علامت ها رو برداشتند. خب چون حفظ بودیم مشکلی پیش نمیومد. با ملت حرف میزدیم. شیوه تلفظ کلماتی که یاد نگرفته بودیم رو هم یاد گرفتیم. چند تا روزنامه خوندیم. یه کتاب خوندیم. یا یه نوشته دیگه. توی تلفظ یه کلمش موندیم. خب از بابا ، مامان یا یکی دیگه که بهش اطمینان داشتیم طریقه صحیح تلفظش رو یاد گرفتیم. هیچ کس نبود؟ یه تلفظ با توجه به هم خانواده بودنش با بقیه کلمات از خودمون ساختیم تا یه وقت دیگه که توی صحبتمون آوردیمش اگه غلط بود بهمون درستشو بگن.
(فصل تلفظ. زندگی نامه یه بچه)Question

خب برنامه هم دقیقا باید همین مراحل رو طی کنه و به همین ترتیب یاد بگیره.
همون طور که گفتم اول طریقه تلفظ یه سری کلمه توی دیتابیس ذخیره میشه. بعد که برنامه راه افتاد یه چند نفر دیگه هم پیدا میشند و اطلاعات یه مجموعه بزرگتری رو (مثل یه دیکشنری) رو اضافه میکنند. حالا وسط خوندن یه متن کلمه ناشناخته بود. اول با توجه به هم خانواده بودنش با بقیه کلمات و اینا یه تلفظ پیشساخته درست میکنه. بعد اونو به کاربر نشون میده میگه درسته؟؟ اگه درست نبود کاربر درستش میکنه.

چطوره؟ به این میگن نمیدونم چی ( به این میگن چی؟)Confused
(کلا ببخشید اگه غلط املایی زیاد داره)

میزان رای دشمن است!
[تصویر:  cff100.png]
(آخرین ویرایش در این ارسال: ۱۱-اردیبهشت-۱۳۸۷, ۲۱:۵۶:۰۹، توسط ajlajlajl.)
۱۱-اردیبهشت-۱۳۸۷, ۲۱:۴۸:۵۵
وب سایت ارسال‌ها
پاسخ
Di Di آفلاین
مدير بخش هك و كرك
*****

ارسال‌ها: 2,358
موضوع‌ها: 116
تاریخ عضویت: اسفند ۱۳۸۵

تشکرها : 1816
( 4046 تشکر در 1321 ارسال )
ارسال: #22
RE: Talk
arnh نوشته است:همين كه ميگم تا حالا همچين چيزي ساخته نشده .
چون اين معما حل نشده ..
.........
مثلا اگه زبون عربي هم اعراب رو هم نداشته باشه . باز بر حسب صرفشون ميشه صدا رو كشف كرد ولي فارسي نوچ ! Amaze

اين معما رو هر كه حل كنه .. از نوابغ روزگاره ! Happy

http://www.aisoft.ir/fa/tts-enlarge.aspx

سال 81 دانشجويان دانشگاه صنعتي امير كبير اولين كساني بودند كه اين برنامه رو ساختند. همونطور كه مي دونيد موتورهاي سخنگويي كه براي زبان انگليسي طراحي شدند _ با وجود پيچيدگي كمتري كه زبان انگليسي داره_ هرگز قادر به ايجاد تن صدا و به اصطلاح ايجاد احساس در جملات نشده اند كه البته اين برنامه تا حدود زيادي مي تونه اين كار رو انجام بده.

۱۱-اردیبهشت-۱۳۸۷, ۲۱:۵۳:۲۹
وب سایت ارسال‌ها
پاسخ


پرش به انجمن:


کاربرانِ درحال بازدید از این موضوع: 14 مهمان

صفحه‌ی تماس | IranVig | بازگشت به بالا | | بایگانی | پیوند سایتی RSS