एआई डेटा के लिए एक बड़ी मारामारी पैदा कर रहा है

Moni

Updated on:

से बहुत दूर। Adobe ने Firefly नामक AI टूल का अपना सूट बनाने के लिए करोड़ों स्टॉक फ़ोटो के अपने डेटाबेस का उपयोग किया है। कंपनी के एक अधिकारी दाना राव कहते हैं, मार्च में रिलीज़ होने के बाद से सॉफ़्टवेयर का उपयोग 1 बिलियन से अधिक छवियां बनाने के लिए किया गया है। छवियों के लिए इंटरनेट पर खनन से बचकर, जैसा कि प्रतिद्वंद्वियों ने किया था, एडोब ने इससे किनारा कर लिया है कॉपीराइट पर गहराता विवाद वह अब उद्योग को प्रभावित करता है। फ़ायरफ़्लाई के लॉन्च होने के बाद से कंपनी के शेयर की कीमत में 36% की वृद्धि हुई है।

डूमस्टर्स पर एडोब की जीत एआई उपकरणों के लिए तेजी से विकसित हो रहे बाजार में प्रभुत्व की प्रतिस्पर्धा के बारे में एक व्यापक बिंदु को दर्शाती है। तथाकथित “जनरेटिव” एआई की नवीनतम लहर को शक्ति प्रदान करने वाले सुपरसाइज़्ड मॉडल भारी मात्रा में डेटा पर निर्भर करते हैं। पहले से ही इंटरनेट का भरपूर उपयोग करने के बाद – अक्सर बिना अनुमति के – मॉडल बिल्डर्स अब फीडिंग उन्माद को बनाए रखने के लिए नए डेटा स्रोतों की तलाश कर रहे हैं इस बीच, बड़ी मात्रा में सामान रखने वाली कंपनियां इस बात पर विचार कर रही हैं कि इससे सबसे अच्छा लाभ कैसे उठाया जाए। डेटा भूमि हड़पने का काम चल रहा है।

एआई मॉडल के लिए दो आवश्यक तत्व डेटासेट हैं, जिस पर सिस्टम को प्रशिक्षित किया जाता है, और प्रसंस्करण शक्ति, जिसके माध्यम से मॉडल उन डेटासेट के भीतर और बीच संबंधों का पता लगाता है। वे दो सामग्रियां, एक हद तक, विकल्प हैं: एक मॉडल को या तो अधिक डेटा प्राप्त करके या अधिक प्रसंस्करण शक्ति जोड़कर बेहतर बनाया जा सकता है। हालाँकि, कमी के बीच उत्तरार्द्ध कठिन होता जा रहा है विशेषज्ञ एआई चिप्सअग्रणी मॉडल बिल्डरों को डेटा प्राप्त करने पर दोगुना ध्यान केंद्रित करना होगा।

एक शोध संगठन एपोक एआई का मानना ​​है कि डेटा की मांग इतनी तेजी से बढ़ रही है कि प्रशिक्षण के लिए उपलब्ध उच्च गुणवत्ता वाले पाठ का भंडार 2026 तक समाप्त हो सकता है। माना जाता है कि दो तकनीकी दिग्गज Google और Meta के नवीनतम AI मॉडल को 1trn से अधिक शब्दों पर प्रशिक्षित किया गया है। तुलनात्मक रूप से, विकिपीडिया, एक ऑनलाइन विश्वकोश, पर अंग्रेजी शब्दों का कुल योग लगभग 4 बिलियन है।

केवल डेटासेट का आकार ही मायने नहीं रखता। डेटा जितना बेहतर होगा, मॉडल उतना ही बेहतर होगा। स्केल एआई, एक डेटा स्टार्टअप के रसेल कपलान कहते हैं, टेक्स्ट-आधारित मॉडल को आदर्श रूप से लंबे प्रारूप, अच्छी तरह से लिखे गए, तथ्यात्मक रूप से सटीक लेखन पर प्रशिक्षित किया जाता है। जिन मॉडलों को यह जानकारी दी जाती है, उनके समान उच्च-गुणवत्ता वाले आउटपुट उत्पन्न करने की अधिक संभावना होती है। इसी तरह, एआई चैटबॉट्स से जब उनके काम को चरण-दर-चरण समझाने के लिए कहा जाता है तो वे बेहतर उत्तर देते हैं, जिससे ऐसा करने वाली पाठ्यपुस्तकों जैसे स्रोतों की मांग भी बढ़ जाती है। विशिष्ट सूचना सेट भी मूल्यवान हैं, क्योंकि वे मॉडलों को अधिक विशिष्ट अनुप्रयोगों के लिए “फाइन-ट्यून” करने की अनुमति देते हैं। माइक्रोसॉफ्ट द्वारा 2018 में $7.5 बिलियन में सॉफ़्टवेयर कोड के लिए रिपॉजिटरी GitHub की खरीद ने उसे एक कोड-लेखन AI टूल विकसित करने में मदद की।

जैसे-जैसे डेटा की मांग बढ़ती जा रही है, उस तक पहुंच बनाना मुश्किल होता जा रहा है, सामग्री निर्माता अब एआई मॉडल में डाली गई सामग्री के लिए मुआवजे की मांग कर रहे हैं। अमेरिका में मॉडल बिल्डरों के खिलाफ कॉपीराइट-उल्लंघन के कई मामले पहले ही लाए जा चुके हैं। लेखकों का एक समूह, जिसमें एक हास्य कलाकार सारा सिल्वरमैन भी शामिल हैं, ओपनएआई, चैटजीपीटी, एक एआई चैटबॉट और मेटा के निर्माता पर मुकदमा कर रहे हैं। कलाकारों का एक समूह इसी तरह स्टेबिलिटी एआई पर मुकदमा कर रहा है, जो टेक्स्ट-टू-इमेज टूल और मिडजॉर्नी बनाता है।

इस सबका नतीजा यह हुआ है कि एआई कंपनियों में डेटा स्रोतों को सुरक्षित करने की होड़ मच गई है। जुलाई में OpenAI ने अपनी कहानियों के संग्रह तक पहुँचने के लिए समाचार एजेंसी एसोसिएटेड प्रेस के साथ एक समझौता किया। इसने हाल ही में स्टॉक फोटोग्राफी के प्रदाता शटरस्टॉक के साथ एक समझौते का विस्तार भी किया है, जिसके साथ मेटा का भी एक सौदा है। 8 अगस्त को यह बताया गया कि Google यूनिवर्सल म्यूजिक, एक रिकॉर्ड लेबल, के साथ गीत लेखन एआई टूल को फीड करने के लिए कलाकारों की आवाज़ को लाइसेंस देने के लिए चर्चा कर रहा था। एक परिसंपत्ति प्रबंधक, फिडेलिटी ने कहा है कि तकनीकी कंपनियों ने उसके वित्तीय डेटा तक पहुंच के लिए संपर्क किया है। अफवाहें उड़ रही हैं कि एआई प्रयोगशालाएं छवियों और फिल्मों के संग्रह तक पहुंच के लिए ब्रिटेन के सार्वजनिक प्रसारक बीबीसी से संपर्क कर रही हैं। एक अन्य अनुमानित लक्ष्य जेएसटीओआर है, जो अकादमिक पत्रिकाओं की एक डिजिटल लाइब्रेरी है।

जानकारी के धारक अपनी अधिक सौदेबाजी की शक्ति का लाभ उठा रहे हैं। Reddit, एक चर्चा मंच, और स्टैक ओवरफ़्लो, एक प्रश्न-उत्तर साइट, जो कोडर्स के बीच लोकप्रिय है, ने अपने डेटा तक पहुंच की लागत बढ़ा दी है। दोनों वेबसाइटें विशेष रूप से मूल्यवान हैं क्योंकि उपयोगकर्ता पसंदीदा उत्तरों को “अपवोट” करते हैं, जिससे मॉडलों को यह जानने में मदद मिलती है कि कौन सा सबसे अधिक प्रासंगिक है। ट्विटर (जिसे अब एक्स के रूप में जाना जाता है), एक सोशल-मीडिया साइट, ने साइट को स्क्रैप करने के लिए बॉट्स की क्षमता को सीमित करने के लिए उपाय किए हैं और अब जो कोई भी इसके डेटा तक पहुंचना चाहता है, उससे शुल्क लेता है। इसके मालिक एलोन मस्क डेटा का उपयोग करके अपना खुद का एआई व्यवसाय बनाने की योजना बना रहे हैं।

परिणामस्वरूप, मॉडल निर्माता अपने पास पहले से मौजूद इनपुट की गुणवत्ता में सुधार करने के लिए कड़ी मेहनत कर रहे हैं। कई एआई लैब छवियों को लेबल करने और उत्तरों को रेटिंग देने जैसे कार्य करने के लिए डेटा एनोटेटर्स की सेनाओं को नियुक्त करते हैं। उनमें से कुछ कार्य जटिल हैं; ऐसी ही एक नौकरी के विज्ञापन में जीवन विज्ञान में मास्टर डिग्री या डॉक्टरेट वाले आवेदकों की तलाश है। लेकिन इसमें से अधिकांश सांसारिक है, और इसे केन्या जैसे स्थानों पर आउटसोर्स किया जा रहा है जहां श्रम सस्ता है।

एआई कंपनियां अपने टूल के साथ उपयोगकर्ताओं की बातचीत के माध्यम से भी डेटा एकत्र कर रही हैं। इनमें से कई में किसी न किसी प्रकार का फीडबैक तंत्र होता है, जहां उपयोगकर्ता संकेत देते हैं कि कौन से आउटपुट उपयोगी हैं। जुगनू का टेक्स्ट-टू-इमेज जनरेटर उपयोगकर्ताओं को चार विकल्पों में से एक चुनने की अनुमति देता है। बार्ड, Google का चैटबॉट, इसी तरह तीन उत्तर प्रस्तावित करता है। जब चैटजीपीटी प्रश्नों का उत्तर देता है तो उपयोगकर्ता उसे ऊपर या नीचे की ओर इशारा कर सकते हैं। उस जानकारी को अंतर्निहित मॉडल में एक इनपुट के रूप में वापस फीड किया जा सकता है, जिसे कॉन्टेक्स्टुअल एआई, एक स्टार्टअप के सह-संस्थापक डौवे कीला कहते हैं, जिसे “डेटा फ्लाईव्हील” कहा जाता है। चैटबॉट के उत्तरों की गुणवत्ता का एक मजबूत संकेत अभी भी यह है कि क्या उपयोगकर्ता वह कहते हैं, ”पाठ को कॉपी करें और इसे कहीं और पेस्ट करें। ऐसी जानकारी का विश्लेषण करने से Google को अपने अनुवाद टूल में तेजी से सुधार करने में मदद मिली।

सीमा का विस्तार

हालाँकि, डेटा का एक स्रोत है जो काफी हद तक अप्रयुक्त है: वह जानकारी जो तकनीकी कंपनियों के कॉर्पोरेट ग्राहकों की दीवारों के भीतर मौजूद है। कई व्यवसायों के पास, अक्सर अनजाने में, कॉल-सेंटर ट्रांसक्रिप्ट से लेकर ग्राहक खर्च रिकॉर्ड तक, बड़ी मात्रा में उपयोगी डेटा होता है। ऐसी जानकारी विशेष रूप से मूल्यवान है क्योंकि इसका उपयोग विशिष्ट व्यावसायिक उद्देश्यों के लिए मॉडल को बेहतर बनाने के लिए किया जा सकता है, जैसे कॉल-सेंटर कर्मचारियों को ग्राहकों के प्रश्नों का उत्तर देने या व्यवसाय विश्लेषकों को बिक्री बढ़ाने के तरीके ढूंढने में मदद करना।

फिर भी उस समृद्ध संसाधन का उपयोग करना हमेशा आसान नहीं होता है। कंसल्टेंसी बैन के रॉय सिंह का कहना है कि ज्यादातर कंपनियों ने ऐतिहासिक रूप से विशाल लेकिन असंरचित डेटासेट के प्रकारों पर बहुत कम ध्यान दिया है जो एआई उपकरणों के प्रशिक्षण के लिए सबसे उपयोगी साबित होंगे। अक्सर ये कई प्रणालियों में फैले होते हैं, क्लाउड के बजाय कंपनी सर्वर में दबे होते हैं।

उस जानकारी को अनलॉक करने से कंपनियों को अपनी विशिष्ट आवश्यकताओं को बेहतर ढंग से पूरा करने के लिए एआई टूल को अनुकूलित करने में मदद मिलेगी। अमेज़ॅन और माइक्रोसॉफ्ट, दो तकनीकी दिग्गज, अब Google की तरह कंपनियों को उनके असंरचित डेटासेट को बेहतर ढंग से प्रबंधित करने में मदद करने के लिए टूल पेश करते हैं। एक डेटाबेस फर्म, स्नोफ्लेक के क्रिश्चियन क्लेनरमैन का कहना है कि व्यवसाय फलफूल रहा है क्योंकि ग्राहक “डेटा साइलो को खत्म करने” पर विचार कर रहे हैं। स्टार्टअप ढेर हो रहे हैं। अप्रैल में एआई-केंद्रित डेटाबेस व्यवसाय, वीविएट ने $200m के मूल्य पर $50m जुटाए। . बमुश्किल एक हफ्ते बाद प्रतिद्वंद्वी पाइनकोन ने 750 मिलियन डॉलर के मूल्यांकन पर 100 मिलियन डॉलर जुटाए। इस महीने की शुरुआत में एक अन्य डेटाबेस स्टार्टअप नियॉन ने फंडिंग में अतिरिक्त 46 मिलियन डॉलर जुटाए। डेटा के लिए हाथापाई अभी शुरू ही हुई है।

© 2023, द इकोनॉमिस्ट न्यूजपेपर लिमिटेड। सर्वाधिकार सुरक्षित। द इकोनॉमिस्ट से, लाइसेंस के तहत प्रकाशित। मूल सामग्री www.economist.com पर पाई जा सकती है

(टैग्सटूट्रांसलेट)कृत्रिम बुद्धिमत्ता(टी)एआई(टी)बिग डेटा(टी)डेटा वार्स(टी)चैटजीपीटी(टी)मिडजर्नी(टी)एडोब(टी)एआई टूल्स(टी)एआई चैटबॉट्स(टी)एआई मॉडल्स(टी)गूगल (टी)ओपनाई(टी)माइक्रोसोफ(टी)एआई कंपनी(टी)एलोन मस्क(टी)एआई में प्रगति

Leave a comment