आम

एआई सिस्टम ने महज 44 घंटों में रुबिक के क्यूब को हल करने का तरीका सीखा


डीपक्यूब नामक एक स्व-सिखाया कृत्रिम बुद्धिमत्ता (एआई) प्रणाली ने मानव हस्तक्षेप के बिना केवल 44 घंटों में रूबिक क्यूब पहेली को हल करने में महारत हासिल की है। सिस्टम के आविष्कारकों ने 'डिजाइनिंग द रूबिक क्यूब विदाउट ह्यूमन नॉलेज' नामक एक पेपर में अपने डिजाइन को विस्तृत किया है।

"आम तौर पर बुद्धिमान एजेंट को खुद को सिखाने में सक्षम होना चाहिए कि न्यूनतम मानव पर्यवेक्षण के साथ जटिल डोमेन में समस्याओं को कैसे हल किया जाए", कागज के लेखकों को लिखें। "वास्तव में, यदि हम कभी भी एक सामान्य, मानव जैसी मशीन बुद्धि प्राप्त करने जा रहे हैं, तो हमें ऐसी प्रणालियाँ विकसित करनी होंगी जो सीख सकें और फिर उन सीखने को वास्तविक दुनिया के अनुप्रयोगों में लागू कर सकें।"

रूबिक क्यूब ने गो या शतरंज की तुलना में अधिक चुनौतीपूर्ण साबित किया

जबकि कई एआई सिस्टम को गेम खेलना सिखाया गया है, एक रुबिक क्यूब की जटिलता में महारत हासिल करना चुनौतियों का एक अनूठा सेट है। गो और शतरंज जैसे खेल सिखाना आमतौर पर एक ऐसी रणनीति सीखकर किया जाता है, जो and अच्छे ’और’ बुरे ’कदमों का निर्देश देती है और सकारात्मक निर्णय लेने का पुरस्कार देती है।

हालाँकि, इस प्रकार की अधिगम रुबिक क्यूब को हल करने के साथ काम नहीं करता है क्योंकि यह निर्धारित करना मुश्किल है कि क्या एक कदम ने समाधान के लिए पहेली को तेज कर दिया है। अगर सिस्टम को वृद्धिशील चरणों के लिए पुरस्कृत नहीं किया जा सकता है तो यह नहीं सीख सकता है।

3X3X3 रूबिक क्यूब में 43,252,003,274,489,856,000 संयोजनों (कुल 43 क्विंटल) का कुल "राज्य स्थान" है। पहेली को हल करने के लिए क्यूब के सभी छह किनारों का एक ही रंग होना चाहिए।

इस जादू के क्षण को प्राप्त करने के लिए एल्गोरिदम या रणनीतियों के मल्टीट्यूड हैं, जिनमें से सबसे पहले पहेली के आविष्कारक एरन रूबिक को यह पता लगाने में कई महीने लगे। निराशाजनक खेल को अनसुना करने के लिए न्यूनतम संभव कदम 26 निर्धारित किए गए हैं।

खेल के आविष्कार के बाद से, हमने पहेली को सुलझाने के बहुत सारे तरीके विकसित किए हैं और खिलौने के प्रशंसक उन्हें नए लोगों के साथ साझा करने के लिए उत्सुक हैं। हालांकि, शोधकर्ताओं ने इस पूर्व ज्ञान और युक्तियों की सूची तक पहुंच प्रदान किए बिना पहेली को हल करने के लिए प्रणाली को पढ़ाने का एक तरीका खोजने के लिए निर्धारित किया गया था।

नई एआई तकनीक विकसित हुई

कैलिफोर्निया विश्वविद्यालय, इरविन से अनुसंधान समस्या को हल करने के लिए, एक नई एआई तकनीक विकसित की, जिसे ऑटोडिडैक्टिक Iteration के रूप में जाना जाता है। "सुदृढीकरण सीखने का उपयोग करके रूबिक क्यूब को हल करने के लिए, एल्गोरिथ्म एक नीति सीखेगा," शोधकर्ताओं ने अपने अध्ययन में लिखा है।

"नीति निर्धारित करती है कि किसी भी स्थिति में कौन सी चाल चलनी है।" इस नीति को बनाने के लिए डीप्यूब ने अपनी स्वयं की इनाम प्रणाली विकसित की, और क्यूब में केवल परिवर्तनों का उपयोग करके, अपनी प्रस्तावित चाल की संभावित सफलता का मूल्यांकन करने के लिए सीखा। यह एक सुपर चालाक लेकिन अविश्वसनीय रूप से समय लेने वाली (कम से कम मनुष्यों के लिए) तरीके से करता है।

जब DeepCube एक कदम पर निर्णय लेता है तो यह सभी तरह से पूरा क्यूब के आगे कूदता है, फिर सभी अपने प्रस्तावित समायोजन में वापस आ जाता है। यह प्रणाली दीप्यूब को इस कदम की समग्र सफलता का मूल्यांकन करने देती है।

एक बार जब यह पर्याप्त डेटा एकत्र कर लेता है, तो यह पेड़ खोज विधि का उपयोग करता है कि किस रास्ते पर जाने से पहले सभी संभावित खोज चाल की जांच करें। शोधकर्ताओं ने लिखा है, "हमारा एल्गोरिथ्म 30% चालों की एक औसत हल करने की क्षमता हासिल करने के दौरान बेतरतीब ढंग से तले हुए क्यूब्स को हल करने में सक्षम है - जो कि मानव डोमेन ज्ञान को रोजगार देने वाले सॉल्वर के बराबर या बराबर है," शोधकर्ताओं ने लिखा है।

शोधकर्ता जल्द ही चुनौती को बढ़ाएंगे और कठिन, 16-पक्षीय क्यूब्स पर नई ऑटोडिडैक्टिक Iteration तकनीक का परीक्षण करेंगे।


वीडियो देखना: रकरड समय म वशल रबक क घन 15X15 क हल करन (दिसंबर 2021).