Tagآیند به

بات های سخنگو به اسکایپ می آیند

بات های سخنگو به اسکایپ می آیند

مایکروسافت به تازگی فعالیت های گسترده خود را روی قرار دادن بات هایی در اسکایپ شروع کرده و آینده اپلیکیشن های پیام رسان را در این امر می داند. با وجود آن که، بات هایی همچون Expedia و UPS روی اسکایپ حضور پیدا کرده اند، اما مایکروسافت برنامه های بزرگتری برای سال آینده دارد و قصد دارد با توسعه باتی که قادر به انجام مکالمه با انسان است، قدمی رو به جلو در پیشرفت اپلیکیشن های پیام رسان بردارد.

به گفته مایکروسافت: «توسعه دهندگان ما به زودی طراحی باتی سخنگو را به پایان می رسانند که آن را با نام سخنگوی اسکایپ صدا می کنیم. این بات در واقع با صحبت کردن به تعامل با انسان می پردازد و به صورت عمومی در دسترس تمامی کاربران اسکایپ قرار می گیرد.»

بات سخنگوی اسکایپ به شرکت ها این فرصت را می دهد که با استفاده از آن با کاربران خود تعامل نزدیکی داشته باشند. همچنین امکان آن وجود دارد تا در آینده مترجمی همزمان برای این بات از سوی تیم توسعه دهنده اسکایپ در نظر گرفته شود تا افراد تمامی کشورها با هر زبانی بتوانند از آن استفاده کنند.

مایکروسافت در نظر دارد تا با طراحی بات هایی که در تعامل با کاربر، قادر به استفاده از ویدیو، عکس و حتی فایل های GIF هستند، قدمی رو به جلو بر دارد. اما مسلما یک بات سخنگو می تواند کلید آینده پیام رسان ها را در دست داشته باشد و پایه گذار تحول سیستم آن ها شود.

The post appeared first on .

بات های سخنگو به اسکایپ می آیند

هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند

هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند

لب خوانی عملی دشوار و پیچیده است. نتایج به دست آمده از این تکنیک تفاوت های زیادی را بین افراد نشان می دهد، اما در مجموع می توان گفت شخص عادی با نگاه به چهره دیگران، می تواند از هر 10 واژه یکی را به درستی حدس بزند، و این موضوع در بین متخصصین لب خوانی کمی بالاتر است.

با این حال، اگر با به کار گیری روش های هوش مصنوعی و یادگیری عمیق توانسته ایم تشخیص گفتار صوتی را به عملکردی در سطح انسان برسانیم، پس چرا از همین رویه برای لب خوانی بهره نگیریم؟

به تازگی محققین دانشگاه اکسفورد مقاله ای را منتشر کرده اند که به کار گیری روش یادگیری عمیق را در لب خوانی نشان می دهد، و نتایج آن نسبتاً امیدوارکننده است. این نرم افزار که LipNet نام دارد، در شرایط کنترل شده به دقت 93.4 درصدی در تشخیص لغات دست یافته، در حالی که متخصصین لب خوانی در شرایطی مشابه حداکثر 52.3 درصد واژه ها را به درستی شناسایی کردند.

نکته مهم در مورد این نرم افزار، عملکرد سریع و بلادرنگ آن است و با اینکه سیستم هنوز در مراحل اولیه قرار دارد، باز هم می تواند ویدیوی صامت را به صورت آنی به متن نوشتاری تبدیل نماید.

آموزش سیستم فوق با استفاده از مجموعه داده GRID صورت گرفته، که ده ها هزار ویدیوی کوتاه از 34 نفر داوطلب را در بر می گیرد. این افراد در کلیپ های 3 ثانیه ای، جملاتی با الگوی مشخص و کلمات محدود را بیان می کردند. به همین دلیل منتقدین پروژه فوق می گویند این پژوهش در جهان واقعی کاربرد نخواهد داشت.

البته محققین مورد بحث در دفاع از خود عنوان داشتند دلیل استفاده از GRID صرفاً به خاطر محدودیت داده های استاندارد کنونی بوده و در صورتی که مجموعه داده غنی تر و گسترده تری در اختیار داشته باشند، می توانند همین نتایج مثبت را به دست آورند.

گفتنیست افرادی که در مورد حریم شخصی و مشکلات امنیتی این تکنولوژی بدبین هستند نیز نگران نباشند. به گفته این پژوهشگران، لب خوانی دقیق به تصویربرداری مستقیم از چهره با وضعیتی ثابت و قابلیت مشاهده زبان وابسته است، بنابراین دوربین های شهری هیچگاه محتوایی با کیفیت را برای استفاده از این فناوری تولید نخواهند کرد.

The post appeared first on .

هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند

لب خوانی عملی دشوار و پیچیده است. نتایج به دست آمده از این تکنیک تفاوت های زیادی را بین افراد نشان می دهد، اما در مجموع می توان گفت شخص عادی با نگاه به چهره دیگران، می تواند از هر 10 واژه یکی را به درستی حدس بزند، و این موضوع در بین متخصصین لب خوانی کمی بالاتر است.

با این حال، اگر با به کار گیری روش های هوش مصنوعی و یادگیری عمیق توانسته ایم تشخیص گفتار صوتی را به عملکردی در سطح انسان برسانیم، پس چرا از همین رویه برای لب خوانی بهره نگیریم؟

به تازگی محققین دانشگاه اکسفورد مقاله ای را منتشر کرده اند که به کار گیری روش یادگیری عمیق را در لب خوانی نشان می دهد، و نتایج آن نسبتاً امیدوارکننده است. این نرم افزار که LipNet نام دارد، در شرایط کنترل شده به دقت 93.4 درصدی در تشخیص لغات دست یافته، در حالی که متخصصین لب خوانی در شرایطی مشابه حداکثر 52.3 درصد واژه ها را به درستی شناسایی کردند.

نکته مهم در مورد این نرم افزار، عملکرد سریع و بلادرنگ آن است و با اینکه سیستم هنوز در مراحل اولیه قرار دارد، باز هم می تواند ویدیوی صامت را به صورت آنی به متن نوشتاری تبدیل نماید.

آموزش سیستم فوق با استفاده از مجموعه داده GRID صورت گرفته، که ده ها هزار ویدیوی کوتاه از 34 نفر داوطلب را در بر می گیرد. این افراد در کلیپ های 3 ثانیه ای، جملاتی با الگوی مشخص و کلمات محدود را بیان می کردند. به همین دلیل منتقدین پروژه فوق می گویند این پژوهش در جهان واقعی کاربرد نخواهد داشت.

البته محققین مورد بحث در دفاع از خود عنوان داشتند دلیل استفاده از GRID صرفاً به خاطر محدودیت داده های استاندارد کنونی بوده و در صورتی که مجموعه داده غنی تر و گسترده تری در اختیار داشته باشند، می توانند همین نتایج مثبت را به دست آورند.

گفتنیست افرادی که در مورد حریم شخصی و مشکلات امنیتی این تکنولوژی بدبین هستند نیز نگران نباشند. به گفته این پژوهشگران، لب خوانی دقیق به تصویربرداری مستقیم از چهره با وضعیتی ثابت و قابلیت مشاهده زبان وابسته است، بنابراین دوربین های شهری هیچگاه محتوایی با کیفیت را برای استفاده از این فناوری تولید نخواهند کرد.

The post appeared first on .

هوش مصنوعی و یادگیری عمیق به کمک تکنیک لب خوانی می آیند