आम

यह नई स्पीच सिंथेसिस टेक्नोलॉजी किसी की भी आवाज को फेक सकती है


मानव जैसे रोबोट के निर्माण में तेजी से विकास के साथ, इस कृत्रिम बुद्धि युग में अगला सबसे महत्वपूर्ण कदम उन्हें वास्तविक जीवन की आवाज़ों के साथ मिलाना है। और यह वही है जो इस मॉन्ट्रियल-आधारित स्टार्ट-अप ने दुनिया की पहली भाषण संश्लेषण प्रौद्योगिकी का अनावरण करके किया है जो किसी की भी आवाज़ को दोहरा सकता है। सिरी और एलेक्सा को देखें, आपको जल्द ही अप्रचलित समझा जा सकता है!

[छवि स्रोत: पिक्साबे]

यह कैसे काम करता है?

लियरबर्ड, तीन पीएच.डी. मॉन्ट्रियल विश्वविद्यालय के छात्रों ने एक भाषण संश्लेषण समाधान विकसित किया है जो किसी दिए गए भाव के साथ किसी की आवाज को बिल्कुल कॉपी करने में सक्षम है।

संश्लेषण केवल कुछ दर्जन सेकंड की ऑडियो रिकॉर्डिंग का विश्लेषण करके ऐसा करता है। किसी की आवाज के एक मिनट रिकॉर्ड करने से, Lyrebird उस व्यक्ति के ऑडियो डीएनए को एक अद्वितीय कुंजी में संपीड़ित कर सकता है। AI भाषण जनरेटर तब अपनी संबंधित मुखर रेंज के साथ किसी भी भाषण का उत्पादन कर सकता है। यदि आप किसी ऐसे व्यक्ति की आवाज को नकली नहीं बनाना चाहते हैं जिसे आप जानते हैं या अपने स्वयं के उपयोग से, आप अपने ऐप पर उपयोग के लिए एक अद्वितीय आवाज़ डिज़ाइन कर सकते हैं। हजारों पूर्वनिर्धारित आवाज़ों में से एक विस्तृत श्रृंखला भी है जिसे आप चुन सकते हैं। बेशक, पूरे एआई भाषण जनरेटर वह विशेष नहीं होगा यदि यह वर्तमान डिजिटल आवाज़ों की तरह नीरस था। लियरबर्ड के सिंथेटिक मुखर जेनरेटर उन्हें क्रोध, सहानुभूति, तनाव और कई मानवीय मानवीय अभिव्यक्तियों को देते हुए उत्पन्न आवाजों के भाव को नियंत्रित कर सकते हैं। लेकिन इस नए, डिजिटल वॉयस जनरेटर का वास्तविक आकर्षण आधे सेकंड से भी कम समय में 1,000 वाक्यों का उत्पादन करने की क्षमता है! यह Lyrebird की तकनीक को AI भाषण संश्लेषण में सबसे आगे रखता है।

लिरेबर्ड के सह-संस्थापक में से एक, अलेक्जेंड्रे डी ब्रेबिसन ने बताया कि कैसे उनकी नई विकसित तकनीक को समान आवाज़ उत्पन्न करने के लिए इतनी जानकारी की आवश्यकता नहीं है।

"विभिन्न आवाज़ें बहुत सारी जानकारी साझा करती हैं। कई वक्ताओं की आवाज़ें सीखने के बाद, एक नए स्पीकर की आवाज़ सीखना बहुत तेज़ होता है। इसलिए हमें पूरी तरह से नई आवाज़ सीखने के लिए इतने डेटा की आवश्यकता नहीं है। अधिक डेटा अभी भी निश्चित रूप से मदद करेगा। , फिर भी एक मिनट बहुत सारे वॉइस डीएनए को कैप्चर करने के लिए पर्याप्त है ”।

विकसित किया जा रहा एपीआई शोर रिकॉर्डिंग से भी सीखने के लिए मजबूत होगा। प्रौद्योगिकी का वर्तमान संस्करण एक व्यक्ति की आवाज़ से विभिन्न इंटोनेशन का उपयोग करता है जैसे कि यह डोनाल्ड ट्रम्प मुखर रिकॉर्डिंग उत्पन्न करता है।

नैतिक मुद्दों

कई शोध अध्ययन अनिवार्य रूप से नैतिक आलोचकों का सामना करते हैं और अक्सर उनके निष्कर्षों के इच्छित उपयोग के बारे में पूछताछ की जाती है। लियरबर्ड के भाषण संश्लेषण में पहचान की चोरी जैसे कुछ नैतिक मुद्दों का सामना करना पड़ता है क्योंकि किसी की आवाज को दोहराने के लिए केवल ऑडियो रिकॉर्डिंग की बहुत कम अवधि की आवश्यकता होती है। खासकर जब और जब भाषण जनरेटर जनता के लिए जारी किया जाता है, तो लाखों लोगों को तकनीक तक पहुंच प्राप्त करने के बाद इसे नियंत्रित करना मुश्किल होगा। इसके अलावा, आपराधिक मामलों में वॉयस रिकॉर्डिंग साक्ष्य भी अवैध रूप से प्रस्तुत किए जा सकते हैं क्योंकि यह तर्क दिया जा सकता है कि ऑडियो फ़ाइल जाली है या उसके साथ छेड़छाड़ की गई है।

हालाँकि, यह इस भाषण संश्लेषण का अभीष्ट उद्देश्य नहीं है। लियरबर्ड के संस्थापक एक निजी सहायता के रूप में प्रौद्योगिकी को सकारात्मक रूप से लागू करने के लिए देख रहे हैं जैसे कि प्रसिद्ध आवाज़ों के साथ किताबें पढ़ने के लिए। यह विकलांग लोगों के लिए भी लक्षित है जो भाषण संश्लेषण का उपयोग उन्हें बोलने में मदद कर सकते हैं। इसका एक प्रसिद्ध उदाहरण कंप्यूटर की आवाज़ है जिसका उपयोग स्टीफन हॉकिंग करते हैं। इसके अलावा, एनीमेशन फिल्मों और वीडियो गेम स्टूडियो में भी प्रौद्योगिकी का बड़े पैमाने पर उपयोग किया जा सकता है।

लियरबर्ड की तकनीक अभी भी विकसित की जा रही है, हालांकि, इच्छुक व्यक्ति स्टार्ट-अप की वेबसाइट को बीटा-टेस्टर बनने या लॉन्च होने की सूचना दे सकते हैं।

के जरिएएक प्रकार की पक्षी

यह भी देखें: यह ब्रेन-कंप्यूटर डिवाइस उन लोगों को आवाज देता है जो बोल नहीं सकते


वीडियो देखना: How To Make Your Computer Speak With JavaScript (अक्टूबर 2021).