प्राकृतिक भाषा प्रसंस्करण
प्राकृतिक भाषा प्रसंस्करण ( एनएलपी ) भाषा विज्ञान , कंप्यूटर विज्ञान और कृत्रिम बुद्धि का एक उपक्षेत्र है जो कंप्यूटर और मानव भाषा के बीच बातचीत से संबंधित है, विशेष रूप से कंप्यूटर को बड़ी मात्रा में प्राकृतिक भाषा डेटा को संसाधित और विश्लेषण करने के लिए प्रोग्राम कैसे करें । परिणाम एक कंप्यूटर है जो दस्तावेजों की सामग्री को "समझने" में सक्षम है, जिसमें उनके भीतर की भाषा की प्रासंगिक बारीकियां भी शामिल हैं। प्रौद्योगिकी तब दस्तावेजों में निहित जानकारी और अंतर्दृष्टि को सटीक रूप से निकाल सकती है और साथ ही दस्तावेजों को स्वयं वर्गीकृत और व्यवस्थित कर सकती है।

प्राकृतिक भाषा प्रसंस्करण में चुनौतियों में अक्सर वाक् पहचान , प्राकृतिक भाषा समझ और प्राकृतिक भाषा का निर्माण शामिल होता है ।
इतिहास
1950 के दशक में प्राकृतिक भाषा प्रसंस्करण की जड़ें हैं। पहले से ही 1950 में, एलन ट्यूरिंग ने " कंप्यूटिंग मशीनरी और इंटेलिजेंस " शीर्षक से एक लेख प्रकाशित किया था , जिसमें प्रस्तावित किया गया था कि अब ट्यूरिंग टेस्ट को बुद्धि की कसौटी के रूप में कहा जाता है , एक ऐसा कार्य जिसमें स्वचालित व्याख्या और प्राकृतिक भाषा की पीढ़ी शामिल है, लेकिन उस समय व्यक्त नहीं किया गया था। कृत्रिम बुद्धि से अलग एक समस्या के रूप में।
प्रतीकात्मक एनएलपी (1950 के दशक - 1990 के दशक की शुरुआत)
प्रतीकात्मक एनएलपी का आधार जॉन सियरल के चीनी कक्ष प्रयोग द्वारा अच्छी तरह से सारांशित किया गया है : नियमों के संग्रह को देखते हुए (उदाहरण के लिए, एक चीनी वाक्यांश पुस्तिका, प्रश्नों और मिलान उत्तरों के साथ), कंप्यूटर प्राकृतिक भाषा समझ (या अन्य एनएलपी कार्यों) का अनुकरण करता है। उन नियमों को उस डेटा पर लागू करना जिसका सामना करना पड़ता है।
- १९५० का दशक : १९५४ में जॉर्जटाउन प्रयोग में साठ से अधिक रूसी वाक्यों का अंग्रेजी में पूरी तरह से स्वचालित अनुवाद शामिल था । लेखकों ने दावा किया कि तीन या पांच वर्षों के भीतर, मशीनी अनुवाद एक समस्या का समाधान हो जाएगा। [२] हालांकि, वास्तविक प्रगति बहुत धीमी थी, और १९६६ में एएलपीएसी रिपोर्ट के बाद , जिसमें पाया गया कि दस साल के लंबे शोध अपेक्षाओं को पूरा करने में विफल रहे, मशीनी अनुवाद के लिए धन नाटकीय रूप से कम हो गया था। मशीनी अनुवाद में थोड़ा और शोध 1980 के दशक के अंत तक किया गया था जब पहली सांख्यिकीय मशीन अनुवाद प्रणाली विकसित की गई थी।
- 1960 का दशक : 1960 के दशक में विकसित कुछ उल्लेखनीय रूप से सफल प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ SHRDLU थीं , जो प्रतिबंधित शब्दावली के साथ प्रतिबंधित " ब्लॉक वर्ल्ड " में काम करने वाली एक प्राकृतिक भाषा प्रणाली और 1964 और 1966 के बीच जोसेफ वेइज़नबाम द्वारा लिखित एक रोजेरियन मनोचिकित्सक का अनुकरण एलिज़ा है । मानव विचार या भावना के बारे में लगभग कोई जानकारी नहीं का उपयोग करते हुए, एलिजा ने कभी-कभी एक चौंकाने वाली मानव जैसी बातचीत प्रदान की। जब "रोगी" बहुत कम ज्ञान के आधार को पार कर जाता है, तो एलिज़ा एक सामान्य प्रतिक्रिया प्रदान कर सकती है, उदाहरण के लिए, "मेरे सिर में दर्द होता है" का जवाब "आप क्यों कहते हैं कि आपके सिर में दर्द होता है?"।
- 1970 का दशक : 1970 के दशक के दौरान, कई प्रोग्रामर ने "कॉन्सेप्टुअल ऑन्कोलॉजी " लिखना शुरू किया , जिसने वास्तविक दुनिया की जानकारी को कंप्यूटर-समझने योग्य डेटा में संरचित किया। उदाहरण हैं मार्गी (शैंक, 1975), एसएएम (कलिंगफोर्ड, 1978), पीएएम (विलेंस्की, 1978), टेलस्पिन (मीहान, 1976), क्वालम (लेहनर्ट, 1977), राजनीति (कार्बोनेल, 1979), और प्लॉट यूनिट्स (लेहनर्ट 1981) ) इस समय के दौरान, पहले कई चैटरबॉट लिखे गए थे (उदाहरण के लिए, PARRY )।
- १९८० का दशक : १९८० और १९९० के दशक एनएलपी में प्रतीकात्मक तरीकों के दिन को चिह्नित करते हैं। उस समय के फोकस क्षेत्रों में नियम-आधारित पार्सिंग (उदाहरण के लिए, जनरेटिव व्याकरण के कम्प्यूटेशनल संचालन के रूप में एचपीएसजी का विकास ), आकृति विज्ञान (उदाहरण के लिए, दो-स्तरीय आकारिकी [3] ), शब्दार्थ (जैसे, लेस्क एल्गोरिथ्म ), संदर्भ पर शोध शामिल थे। (उदाहरण के लिए, सेंटरिंग थ्योरी [4] के भीतर ) और प्राकृतिक भाषा समझ के अन्य क्षेत्रों (जैसे, अलंकारिक संरचना सिद्धांत में )। अनुसंधान की अन्य पंक्तियों को जारी रखा गया था, उदाहरण के लिए, रैक्टर और जैबरवैकी के साथ चैटरबॉट्स का विकास । इस अवधि में मात्रात्मक मूल्यांकन का बढ़ता महत्व एक महत्वपूर्ण विकास (जिससे अंततः 1990 के दशक में सांख्यिकीय मोड़ आया) था। [५]
सांख्यिकीय एनएलपी (1990s - 2010s)
1980 के दशक तक, अधिकांश प्राकृतिक भाषा प्रसंस्करण प्रणालियाँ हस्तलिखित नियमों के जटिल सेटों पर आधारित थीं। हालाँकि, 1980 के दशक के उत्तरार्ध में, भाषा प्रसंस्करण के लिए मशीन लर्निंग एल्गोरिदम की शुरुआत के साथ प्राकृतिक भाषा प्रसंस्करण में एक क्रांति हुई । यह कम्प्यूटेशनल शक्ति में लगातार वृद्धि ( मूर के नियम देखें ) और भाषाविज्ञान (जैसे परिवर्तनकारी व्याकरण ) के चोम्स्कीयन सिद्धांतों के प्रभुत्व के क्रमिक रूप से कम होने के कारण था , जिसके सैद्धांतिक आधार ने मशीन-लर्निंग दृष्टिकोण को रेखांकित करने वाले कॉर्पस भाषाविज्ञान के प्रकार को हतोत्साहित किया। भाषा प्रसंस्करण के लिए। [6]
- 1990 का दशक : एनएलपी में सांख्यिकीय विधियों पर कई उल्लेखनीय प्रारंभिक सफलता मशीन अनुवाद के क्षेत्र में हुई , विशेष रूप से आईबीएम रिसर्च में काम करने के कारण। ये प्रणालियाँ मौजूदा बहुभाषी पाठ्य निगम का लाभ उठाने में सक्षम थीं, जो कि सरकार की संबंधित प्रणालियों की सभी आधिकारिक भाषाओं में सभी सरकारी कार्यवाही के अनुवाद के लिए बुलाए जाने वाले कानूनों के परिणामस्वरूप कनाडा और यूरोपीय संघ की संसद द्वारा तैयार की गई थी। हालांकि, इन प्रणालियों द्वारा कार्यान्वित कार्यों के लिए विशेष रूप से विकसित निगम पर निर्भर अधिकांश अन्य प्रणालियां, जो इन प्रणालियों की सफलता में एक प्रमुख बाधा थी (और अक्सर बनी रहती है)। नतीजतन, सीमित मात्रा में डेटा से अधिक प्रभावी ढंग से सीखने के तरीकों में बहुत अधिक शोध हुआ है।
- २००० का दशक : वेब के विकास के साथ, १९९० के दशक के मध्य से कच्चे (अननोटेड) भाषा डेटा की बढ़ती मात्रा उपलब्ध हो गई है। इस प्रकार अनुसंधान ने गैर -पर्यवेक्षित और अर्ध-पर्यवेक्षित शिक्षण एल्गोरिदम पर अधिक ध्यान केंद्रित किया है। ऐसे एल्गोरिदम डेटा से सीख सकते हैं जिसे वांछित उत्तरों के साथ हाथ से एनोटेट नहीं किया गया है या एनोटेट और गैर-एनोटेटेड डेटा के संयोजन का उपयोग कर रहा है। आम तौर पर, यह कार्य पर्यवेक्षित शिक्षण की तुलना में बहुत अधिक कठिन होता है , और आमतौर पर इनपुट डेटा की एक निश्चित मात्रा के लिए कम सटीक परिणाम देता है। हालांकि, गैर-एनोटेटेड डेटा की एक बड़ी मात्रा उपलब्ध है (अन्य बातों के अलावा, वर्ल्ड वाइड वेब की संपूर्ण सामग्री सहित ), जो अक्सर निम्न परिणामों के लिए बना सकता है यदि उपयोग किए गए एल्गोरिदम में कम समय की जटिलता है व्यावहारिक हो।
तंत्रिका एनएलपी (वर्तमान)
2010 के दशक में, प्रतिनिधित्व सीखने और गहरे तंत्रिका नेटवर्क- शैली मशीन सीखने के तरीके प्राकृतिक भाषा प्रसंस्करण में व्यापक हो गए, क्योंकि कुछ हद तक परिणाम दिखाते हैं कि ऐसी तकनीकें [7] [8] अत्याधुनिक परिणाम प्राप्त कर सकती हैं। कई प्राकृतिक भाषा कार्यों में, उदाहरण के लिए भाषा मॉडलिंग में, [९] पार्सिंग, [१०] [११] और कई अन्य। यह दवा और स्वास्थ्य देखभाल में तेजी से महत्वपूर्ण है, जहां एनएलपी का उपयोग इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड में नोट्स और टेक्स्ट का विश्लेषण करने के लिए किया जा रहा है जो देखभाल में सुधार की मांग करते समय अध्ययन के लिए अन्यथा पहुंच योग्य नहीं होगा। [12]
तरीके: नियम, सांख्यिकी, तंत्रिका नेटवर्क
शुरुआती दिनों में, कई भाषा-प्रसंस्करण प्रणालियों को प्रतीकात्मक तरीकों से डिजाइन किया गया था, यानी, नियमों के एक सेट की हैंड-कोडिंग, एक शब्दकोश लुकअप के साथ: [१३] [१४] जैसे कि व्याकरण लिखना या अनुमानी नियमों को तैयार करना उपजी .
मशीन-लर्निंग एल्गोरिदम पर आधारित हाल के सिस्टम के हाथ से बनाए गए नियमों की तुलना में कई फायदे हैं:
- मशीन लर्निंग के दौरान उपयोग की जाने वाली सीखने की प्रक्रिया स्वचालित रूप से सबसे सामान्य मामलों पर ध्यान केंद्रित करती है, जबकि हाथ से नियम लिखते समय अक्सर यह बिल्कुल स्पष्ट नहीं होता है कि प्रयास कहाँ निर्देशित किया जाना चाहिए।
- स्वचालित सीखने की प्रक्रिया सांख्यिकीय अनुमान एल्गोरिदम का उपयोग ऐसे मॉडल तैयार करने के लिए कर सकती है जो अपरिचित इनपुट के लिए मजबूत हैं (उदाहरण के लिए ऐसे शब्द या संरचनाएं जिन्हें पहले नहीं देखा गया है) और गलत इनपुट (उदाहरण के लिए गलत वर्तनी वाले शब्द या शब्द गलती से छोड़े गए)। आम तौर पर, इस तरह के इनपुट को हस्तलिखित नियमों के साथ सुंदर ढंग से संभालना, या अधिक आम तौर पर, हस्तलिखित नियमों की प्रणाली बनाना जो नरम निर्णय लेते हैं, बेहद कठिन, त्रुटि-प्रवण और समय लेने वाला होता है।
- नियमों को स्वचालित रूप से सीखने पर आधारित सिस्टम को अधिक इनपुट डेटा की आपूर्ति करके अधिक सटीक बनाया जा सकता है। हालाँकि, हस्तलिखित नियमों पर आधारित प्रणालियों को नियमों की जटिलता को बढ़ाकर ही अधिक सटीक बनाया जा सकता है, जो कि कहीं अधिक कठिन कार्य है। विशेष रूप से, हस्तलिखित नियमों के आधार पर सिस्टम की जटिलता की एक सीमा होती है, जिसके आगे सिस्टम अधिक से अधिक अप्रबंधनीय हो जाते हैं। हालांकि, मशीन-लर्निंग सिस्टम में इनपुट के लिए अधिक डेटा बनाने के लिए केवल काम किए गए मानव-घंटे की संख्या में एक समान वृद्धि की आवश्यकता होती है, आमतौर पर एनोटेशन प्रक्रिया की जटिलता में उल्लेखनीय वृद्धि के बिना।
एनएलपी अनुसंधान में मशीन लर्निंग की लोकप्रियता के बावजूद, प्रतीकात्मक तरीके अभी भी (2020) आमतौर पर उपयोग किए जाते हैं
- जब मशीन लर्निंग विधियों को सफलतापूर्वक लागू करने के लिए प्रशिक्षण डेटा की मात्रा अपर्याप्त है, उदाहरण के लिए, एपर्टियम सिस्टम द्वारा प्रदान की गई निम्न-संसाधन भाषाओं के मशीनी अनुवाद के लिए ,
- एनएलपी पाइपलाइनों में प्रीप्रोसेसिंग के लिए, उदाहरण के लिए, टोकनकरण , या,
- एनएलपी पाइपलाइनों के आउटपुट को पोस्टप्रोसेसिंग और बदलने के लिए, उदाहरण के लिए, वाक्यात्मक पार्स से ज्ञान निष्कर्षण के लिए ।
सांख्यिकीय पद्धतियां
1980 के दशक के अंत और 1990 के दशक के मध्य में तथाकथित "सांख्यिकीय क्रांति" [१५] [१६] के बाद से, बहुत से प्राकृतिक भाषा प्रसंस्करण अनुसंधान मशीन सीखने पर बहुत अधिक निर्भर हैं। बजाय प्रयोग करने के लिए मशीन-लर्निंग प्रतिमान कॉल सांख्यिकीय निष्कर्ष करने के लिए स्वचालित रूप से बड़े के विश्लेषण के माध्यम इस तरह के नियमों को जानने के कॉर्पोरा (का बहुवचन रूप कोष ठेठ वास्तविक दुनिया उदाहरण के, संभवतः मानव या कंप्यूटर एनोटेशन के साथ, दस्तावेजों का एक सेट है)।
मशीन-लर्निंग एल्गोरिदम के कई अलग-अलग वर्ग प्राकृतिक-भाषा-प्रसंस्करण कार्यों के लिए लागू किए गए हैं। ये एल्गोरिदम इनपुट डेटा से उत्पन्न "फीचर्स" का एक बड़ा सेट इनपुट के रूप में लेते हैं। हालांकि, तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है , जो प्रत्येक इनपुट सुविधा के लिए वास्तविक-मूल्यवान भार को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। ऐसे मॉडलों का यह लाभ है कि वे केवल एक के बजाय कई अलग-अलग संभावित उत्तरों की सापेक्ष निश्चितता व्यक्त कर सकते हैं, जब ऐसे मॉडल को एक बड़ी प्रणाली के घटक के रूप में शामिल किया जाता है तो अधिक विश्वसनीय परिणाम उत्पन्न होते हैं।
जल्द से जल्द उपयोग किए जाने वाले मशीन लर्निंग एल्गोरिदम में से कुछ, जैसे कि निर्णय पेड़ , मौजूदा हस्त-लिखित नियमों के समान कठोर यदि-तब नियम के सिस्टम का उत्पादन करते हैं। हालाँकि, पार्ट-ऑफ-स्पीच टैगिंग ने प्राकृतिक भाषा प्रसंस्करण के लिए छिपे हुए मार्कोव मॉडल के उपयोग की शुरुआत की , और तेजी से, अनुसंधान ने सांख्यिकीय मॉडल पर ध्यान केंद्रित किया है , जो इनपुट बनाने वाली सुविधाओं के लिए वास्तविक-मूल्यवान भार को जोड़ने के आधार पर नरम, संभाव्य निर्णय लेते हैं। डेटा। कैश भाषा मॉडल जिस पर कई भाषण मान्यता सिस्टम अब भरोसा इस तरह के सांख्यिकीय मॉडल के उदाहरण हैं। अपरिचित इनपुट दिए जाने पर ऐसे मॉडल आम तौर पर अधिक मजबूत होते हैं, विशेष रूप से इनपुट जिसमें त्रुटियां होती हैं (जैसा कि वास्तविक दुनिया के डेटा के लिए बहुत सामान्य है), और कई उप-कार्यों वाले बड़े सिस्टम में एकीकृत होने पर अधिक विश्वसनीय परिणाम उत्पन्न करते हैं।
तंत्रिका मोड़ के बाद से, एनएलपी अनुसंधान में सांख्यिकीय विधियों को बड़े पैमाने पर तंत्रिका नेटवर्क द्वारा प्रतिस्थापित किया गया है। हालांकि, वे उन संदर्भों के लिए प्रासंगिक बने रहते हैं जिनमें सांख्यिकीय व्याख्या और पारदर्शिता की आवश्यकता होती है।
तंत्रिका जाल
सांख्यिकीय विधियों का एक बड़ा दोष यह है कि उन्हें विस्तृत फीचर इंजीनियरिंग की आवश्यकता होती है। २०१५ के बाद से, [१७] इस क्षेत्र ने बड़े पैमाने पर सांख्यिकीय तरीकों को छोड़ दिया है और मशीन सीखने के लिए तंत्रिका नेटवर्क में स्थानांतरित कर दिया है । लोकप्रिय तकनीकों में शब्दों के शब्दार्थ गुणों को पकड़ने के लिए शब्द एम्बेडिंग का उपयोग , और अलग-अलग मध्यवर्ती कार्यों की एक पाइपलाइन पर निर्भर होने के बजाय एक उच्च-स्तरीय कार्य (जैसे, प्रश्न का उत्तर देना) की एंड-टू-एंड लर्निंग में वृद्धि शामिल है। पार्ट-ऑफ-स्पीच टैगिंग और डिपेंडेंसी पार्सिंग)। कुछ क्षेत्रों में, इस बदलाव ने एनएलपी सिस्टम को कैसे डिजाइन किया है, इसमें पर्याप्त बदलाव आया है, जैसे कि गहरे तंत्रिका नेटवर्क-आधारित दृष्टिकोण को सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण से अलग एक नए प्रतिमान के रूप में देखा जा सकता है। उदाहरण के लिए, न्यूरल मशीन ट्रांसलेशन (NMT) शब्द इस तथ्य पर जोर देता है कि मशीन अनुवाद के लिए गहन शिक्षण-आधारित दृष्टिकोण सीधे अनुक्रम-से-अनुक्रम परिवर्तन सीखते हैं , शब्द संरेखण और भाषा मॉडलिंग जैसे मध्यवर्ती चरणों की आवश्यकता को समाप्त करते हैं जो सांख्यिकीय में उपयोग किए गए थे। मशीनी अनुवाद (एसएमटी)। नवीनतम कार्य उचित तंत्रिका नेटवर्क के निर्माण के लिए किसी दिए गए कार्य की गैर-तकनीकी संरचना का उपयोग करते हैं। [18]
सामान्य एनएलपी कार्य
प्राकृतिक भाषा प्रसंस्करण में सबसे अधिक शोध किए गए कार्यों में से कुछ की सूची निम्नलिखित है। इनमें से कुछ कार्यों में प्रत्यक्ष वास्तविक दुनिया के अनुप्रयोग होते हैं, जबकि अन्य आमतौर पर उप-कार्यों के रूप में कार्य करते हैं जिनका उपयोग बड़े कार्यों को हल करने में सहायता के लिए किया जाता है।
यद्यपि प्राकृतिक भाषा प्रसंस्करण कार्य आपस में घनिष्ठ रूप से जुड़े हुए हैं, उन्हें सुविधा के लिए श्रेणियों में विभाजित किया जा सकता है। एक मोटा विभाजन नीचे दिया गया है।
पाठ और भाषण प्रसंस्करण
- ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर)
- मुद्रित पाठ का प्रतिनिधित्व करने वाली छवि को देखते हुए, संबंधित पाठ का निर्धारण करें।
- वाक् पहचान
- किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, भाषण का शाब्दिक प्रतिनिधित्व निर्धारित करें। यह टेक्स्ट टू स्पीच के विपरीत है और बोलचाल की भाषा में " एआई-कम्प्लीट " (ऊपर देखें) कहे जाने वाली अत्यंत कठिन समस्याओं में से एक है । में प्राकृतिक भाषण वहाँ लगातार शब्दों के बीच शायद ही कोई रुक जाता है, और इस तरह कर रहे हैं भाषण विभाजन है वाक् पहचान का एक आवश्यक उपकार्य (नीचे देखें)। अधिकांश बोली जाने वाली भाषाओं में, क्रमिक अक्षरों का प्रतिनिधित्व करने वाली ध्वनियाँ एक दूसरे में एक प्रक्रिया में मिश्रित होती हैं , जिसे कॉर्टिक्यूलेशन कहा जाता है , इसलिए एनालॉग सिग्नल को असतत वर्णों में बदलना एक बहुत ही कठिन प्रक्रिया हो सकती है। इसके अलावा, यह देखते हुए कि एक ही भाषा में शब्द अलग-अलग उच्चारण वाले लोगों द्वारा बोले जाते हैं, वाक् पहचान सॉफ्टवेयर को विभिन्न प्रकार के इनपुट को एक दूसरे के समान पाठ्य समकक्ष के रूप में पहचानने में सक्षम होना चाहिए।
- भाषण विभाजन
- किसी व्यक्ति या बोलने वाले लोगों की ध्वनि क्लिप को देखते हुए, उसे शब्दों में विभाजित करें। वाक् पहचान का एक उप-कार्य और आमतौर पर इसके साथ समूहीकृत।
- भाषण के पाठ
- एक पाठ को देखते हुए, उन इकाइयों को रूपांतरित करें और एक मौखिक प्रतिनिधित्व तैयार करें। दृष्टिबाधित लोगों की सहायता के लिए टेक्स्ट-टू-स्पीच का उपयोग किया जा सकता है। [19]
- शब्द विभाजन ( टोकनाइजेशन )
- निरंतर पाठ के एक हिस्से को अलग-अलग शब्दों में अलग करें। अंग्रेजी जैसी भाषा के लिए , यह काफी तुच्छ है, क्योंकि शब्द आमतौर पर रिक्त स्थान से अलग होते हैं। हालाँकि, कुछ लिखित भाषाएँ जैसे चीनी , जापानी और थाई इस तरह से शब्द सीमाओं को चिह्नित नहीं करते हैं, और उन भाषाओं में पाठ विभाजन एक महत्वपूर्ण कार्य है जिसके लिए भाषा में शब्दों की शब्दावली और आकारिकी के ज्ञान की आवश्यकता होती है । कभी-कभी इस प्रक्रिया का उपयोग डेटा माइनिंग में बैग ऑफ वर्ड्स (BOW) निर्माण जैसे मामलों में भी किया जाता है ।
रूपात्मक विश्लेषण
- लेमेटाइज़ेशन
- केवल विभक्ति अंत को हटाने और एक शब्द के मूल शब्दकोश रूप को वापस करने का कार्य जिसे लेम्मा के रूप में भी जाना जाता है। शब्दों को उनके सामान्यीकृत रूप में कम करने के लिए Lemmatization एक और तकनीक है। लेकिन इस मामले में, रूपांतरण वास्तव में शब्दों को उनके वास्तविक रूप में मैप करने के लिए एक शब्दकोश का उपयोग करता है। [20]
- रूपात्मक विभाजन
- शब्दों को अलग-अलग morphemes में अलग करें और morphemes के वर्ग की पहचान करें। इस कार्य की कठिनाई काफी हद तक विचार की जा रही भाषा की आकृति विज्ञान ( अर्थात शब्दों की संरचना) की जटिलता पर निर्भर करती है । अंग्रेजी में काफी सरल आकृति विज्ञान है, विशेष रूप से विभक्ति आकारिकी , और इस प्रकार इस कार्य को पूरी तरह से अनदेखा करना और एक शब्द के सभी संभावित रूपों ( उदाहरण के लिए , "खुला, खुलता है, खोला, खोलना") को अलग-अलग शब्दों के रूप में मॉडल करना संभव है । तुर्की या मेइती जैसी भाषाओं में , [२१] एक अत्यधिक समृद्ध भारतीय भाषा, हालांकि, ऐसा दृष्टिकोण संभव नहीं है, क्योंकि प्रत्येक शब्दकोश प्रविष्टि में हजारों संभावित शब्द रूप हैं।
- पार्ट-ऑफ़-स्पीच टैगिंग
- एक वाक्य को देखते हुए, प्रत्येक शब्द के लिए भाषण का भाग (पीओएस) निर्धारित करें । कई शब्द, विशेष रूप से सामान्य, भाषण के कई हिस्सों के रूप में काम कर सकते हैं । उदाहरण के लिए, "पुस्तक" एक संज्ञा ("टेबल पर पुस्तक") या क्रिया ("एक उड़ान बुक करने के लिए") हो सकती है; "सेट" एक संज्ञा , क्रिया या विशेषण हो सकता है ; और "बाहर" भाषण के कम से कम पांच अलग-अलग हिस्सों में से कोई भी हो सकता है।
- स्टेमिंग
- विभक्त (या कभी-कभी व्युत्पन्न) शब्दों को आधार रूप में कम करने की प्रक्रिया ( उदाहरण के लिए , "बंद", "बंद", "बंद", "करीब", "करीब" आदि के लिए मूल होगा)। स्टेमिंग से लेमेटाइजेशन के समान परिणाम मिलते हैं, लेकिन नियमों के आधार पर ऐसा होता है, शब्दकोश नहीं।
वाक्यात्मक विश्लेषण
- व्याकरण प्रेरण [22]
- एक औपचारिक व्याकरण उत्पन्न करें जो किसी भाषा के सिंटैक्स का वर्णन करता है।
- सेंटेंस ब्रेकिंग (जिसे " वाक्य सीमा असंबद्धता " भी कहा जाता है )
- पाठ के एक भाग को देखते हुए, वाक्य की सीमाएँ ज्ञात कीजिए। वाक्य सीमाएं अक्सर द्वारा चिह्नित कर रहे हैं अवधि या अन्य विराम चिह्न है, लेकिन ये एक ही अक्षर के अन्य प्रयोजनों (सेवा कर सकते हैं जैसे , अंकन संक्षिप्त रूपों )।
- पदच्छेद
- किसी दिए गए वाक्य का पार्स ट्री (व्याकरणिक विश्लेषण) निर्धारित करें । व्याकरण के लिए प्राकृतिक भाषाओं है अस्पष्ट और ठेठ वाक्य कई संभव विश्लेषण है: शायद आश्चर्य की बात, एक ठेठ वाक्य के लिए वहाँ की क्षमता को पार्स करता है के हजारों (जिनमें से अधिकांश पूरी तरह से एक इंसान को अतर्कसंगत लगेगा) हो सकता है। पार्सिंग के दो प्राथमिक प्रकार हैं: डिपेंडेंसी पार्सिंग और निर्वाचन क्षेत्र पार्सिंग । निर्भरता पार्सिंग एक वाक्य में शब्दों के बीच संबंधों पर केंद्रित है (प्राथमिक वस्तुओं और विधेय जैसी चीजों को चिह्नित करना), जबकि निर्वाचन क्षेत्र पार्सिंग एक संभाव्य संदर्भ-मुक्त व्याकरण (पीसीएफजी) ( स्टोकेस्टिक व्याकरण भी देखें) का उपयोग करके पार्स पेड़ के निर्माण पर केंद्रित है ।
लेक्सिकल सेमेन्टिक्स (संदर्भ में अलग-अलग शब्दों का)
- लेक्सिकल सेमेन्टिक्स
- संदर्भ में अलग-अलग शब्दों का कम्प्यूटेशनल अर्थ क्या है?
- वितरण शब्दार्थ
- हम डेटा से सिमेंटिक अभ्यावेदन कैसे सीख सकते हैं?
- नामित इकाई पहचान (एनईआर)
- पाठ की एक धारा को देखते हुए, यह निर्धारित करें कि पाठ मानचित्र में कौन से आइटम उचित नामों से हैं, जैसे कि लोग या स्थान, और ऐसे प्रत्येक नाम का प्रकार क्या है (जैसे व्यक्ति, स्थान, संगठन)। हालांकि पूंजीकरण अंग्रेजी जैसी भाषाओं में नामित संस्थाओं को पहचानने में सहायता कर सकता है, यह जानकारी नामित इकाई के प्रकार को निर्धारित करने में सहायता नहीं कर सकती है , और किसी भी मामले में, अक्सर गलत या अपर्याप्त होती है। उदाहरण के लिए, एक वाक्य के पहले अक्षर को भी बड़े अक्षरों में लिखा जाता है, और नामित इकाइयाँ अक्सर कई शब्दों का विस्तार करती हैं, जिनमें से केवल कुछ ही बड़े अक्षरों में होती हैं। इसके अलावा, गैर-पश्चिमी लिपियों (जैसे चीनी या अरबी ) में कई अन्य भाषाओं में कोई पूंजीकरण नहीं है, और यहां तक कि पूंजीकरण वाली भाषाएं भी नामों को अलग करने के लिए लगातार इसका उपयोग नहीं कर सकती हैं। उदाहरण के लिए, जर्मन सभी संज्ञाओं को कैपिटलाइज़ करता है , चाहे वे नाम हों या नहीं, और फ़्रेंच और स्पैनिश उन नामों को कैपिटलाइज़ नहीं करते हैं जो विशेषण के रूप में काम करते हैं ।
- सेंटीमेंट एनालिसिस ( मल्टीमॉडल सेंटीमेंट एनालिसिस भी देखें )
- विशिष्ट वस्तुओं के बारे में "ध्रुवीयता" निर्धारित करने के लिए अक्सर ऑनलाइन समीक्षाओं का उपयोग करते हुए, दस्तावेजों के एक सेट से व्यक्तिपरक जानकारी निकालें। यह सोशल मीडिया में, मार्केटिंग के लिए जनमत के रुझानों की पहचान करने के लिए विशेष रूप से उपयोगी है।
- शब्दावली निष्कर्षण
- शब्दावली निष्कर्षण का लक्ष्य किसी दिए गए कोष से प्रासंगिक शब्दों को स्वचालित रूप से निकालना है।
- शब्द अर्थ की अस्पष्टता
- कई शब्दों के एक से अधिक अर्थ होते हैं ; हमें उस अर्थ का चयन करना होगा जो संदर्भ में सबसे अधिक समझ में आता है। इस समस्या के लिए, हमें आम तौर पर शब्दों और संबंधित शब्द इंद्रियों की एक सूची दी जाती है, उदाहरण के लिए एक शब्दकोश या एक ऑनलाइन संसाधन जैसे वर्डनेट से ।
संबंधपरक शब्दार्थ (व्यक्तिगत वाक्यों के शब्दार्थ)
- संबंध निष्कर्षण
- पाठ के एक हिस्से को देखते हुए, नामित संस्थाओं के बीच संबंधों की पहचान करें (उदाहरण के लिए किससे शादी की है)।
- सिमेंटिक पार्सिंग
- पाठ के एक टुकड़े (आमतौर पर एक वाक्य) को देखते हुए, इसके शब्दार्थ का एक औपचारिक प्रतिनिधित्व, या तो एक ग्राफ के रूप में (जैसे, एएमआर पार्सिंग में ) या एक तार्किक औपचारिकता के अनुसार (जैसे, डीआरटी पार्सिंग में ) प्रस्तुत करें। इस चुनौती में आम तौर पर शब्दार्थ से कई और प्राथमिक एनएलपी कार्यों के पहलू शामिल होते हैं (उदाहरण के लिए, शब्दार्थ भूमिका लेबलिंग, शब्द अर्थ असंबद्धता) और इसे पूर्ण प्रवचन विश्लेषण (जैसे, प्रवचन विश्लेषण, कोरफेरेंस; नीचे प्राकृतिक भाषा समझ देखें) को शामिल करने के लिए बढ़ाया जा सकता है ।
- सिमेंटिक रोल लेबलिंग (नीचे निहित सिमेंटिक रोल लेबलिंग भी देखें)
- एक वाक्य को देखते हुए, सिमेंटिक विधेय (जैसे, मौखिक फ्रेम ) को पहचानें और उन्हें अलग करें , फिर फ्रेम तत्वों ( अर्थात् भूमिकाएं ) को पहचानें और वर्गीकृत करें ।
प्रवचन (व्यक्तिगत वाक्यों से परे शब्दार्थ)
- कोरफेरेंस संकल्प
- एक वाक्य या पाठ के बड़े हिस्से को देखते हुए, निर्धारित करें कि कौन से शब्द ("उल्लेख") समान वस्तुओं ("इकाई") को संदर्भित करते हैं। अनाफोरा संकल्प इस कार्य का एक विशिष्ट उदाहरण है, और विशेष रूप से उन संज्ञाओं या नामों के साथ सर्वनामों के मिलान से संबंधित है जिनका वे उल्लेख करते हैं। कोरफेरेंस रिज़ॉल्यूशन के अधिक सामान्य कार्य में तथाकथित "ब्रिजिंग रिलेशनशिप" की पहचान करना शामिल है जिसमें रेफ़रिंग एक्सप्रेशन शामिल हैं । उदाहरण के लिए, एक वाक्य में जैसे "वह सामने के दरवाजे से जॉन के घर में प्रवेश किया", "सामने का दरवाजा" एक संदर्भित अभिव्यक्ति है और पहचानने के लिए ब्रिजिंग संबंध यह तथ्य है कि जिस दरवाजे को संदर्भित किया जा रहा है वह जॉन के सामने का दरवाजा है घर (किसी अन्य संरचना के बजाय जिसे संदर्भित किया जा सकता है)।
- भाषण का विश्लेषण
- इस रूब्रिक में कई संबंधित कार्य शामिल हैं। एक कार्य प्रवचन को पार्स करना है, अर्थात, एक जुड़े हुए पाठ की प्रवचन संरचना की पहचान करना , अर्थात वाक्यों के बीच प्रवचन संबंधों की प्रकृति (जैसे विस्तार, स्पष्टीकरण, कंट्रास्ट)। एक अन्य संभावित कार्य भाषण कृत्यों को पाठ के एक हिस्से में पहचानना और वर्गीकृत करना है (उदाहरण के लिए हाँ-नहीं प्रश्न, सामग्री प्रश्न, कथन, दावा, आदि)।
- निहित अर्थपूर्ण भूमिका लेबलिंग
- एक वाक्य को देखते हुए, सिमेंटिक विधेय (जैसे, मौखिक फ्रेम ) और वर्तमान वाक्य में उनकी स्पष्ट अर्थ संबंधी भूमिकाओं को पहचानें और उन्हें अलग करें ( ऊपर सिमेंटिक रोल लेबलिंग देखें )। फिर, अर्थपूर्ण भूमिकाओं की पहचान करें जिन्हें वर्तमान वाक्य में स्पष्ट रूप से महसूस नहीं किया गया है, उन्हें उन तर्कों में वर्गीकृत करें जिन्हें पाठ में कहीं और स्पष्ट रूप से महसूस किया गया है और जिन्हें निर्दिष्ट नहीं किया गया है, और स्थानीय पाठ के विरुद्ध पूर्व को हल करें। एक निकट से संबंधित कार्य शून्य अनाफोरा रिज़ॉल्यूशन है, अर्थात, प्रो-ड्रॉप भाषाओं के लिए कोरफेरेंस रिज़ॉल्यूशन का विस्तार ।
- शाब्दिक जुड़ाव को पहचानना
- दो पाठ अंशों को देखते हुए, यह निर्धारित करें कि क्या एक सत्य होने के कारण दूसरे का निषेध होता है, या दूसरे को सत्य या गलत होने की अनुमति देता है। [23]
- विषय विभाजन और मान्यता
- पाठ के एक हिस्से को देखते हुए, इसे खंडों में अलग करें, जिनमें से प्रत्येक एक विषय के लिए समर्पित है, और खंड के विषय की पहचान करें।
- तर्क खनन
- तर्क खनन का लक्ष्य कंप्यूटर प्रोग्राम की सहायता से प्राकृतिक भाषा पाठ से तर्कपूर्ण संरचनाओं का स्वत: निष्कर्षण और पहचान है । [२४] इस तरह की तर्कपूर्ण संरचनाओं में आधार, निष्कर्ष, तर्क योजना और मुख्य और सहायक तर्क के बीच संबंध, या प्रवचन के भीतर मुख्य और प्रतिवाद शामिल हैं। [25] [26]
उच्च स्तरीय एनएलपी अनुप्रयोग
- स्वचालित संक्षेपण (पाठ सारांश)
- पाठ के एक हिस्से का एक पठनीय सारांश तैयार करें। अक्सर एक ज्ञात प्रकार के पाठ का सारांश प्रदान करने के लिए उपयोग किया जाता है, जैसे शोध पत्र, समाचार पत्र के वित्तीय अनुभाग में लेख।
- पुस्तक निर्माण
- एक एनएलपी कार्य उचित नहीं है, लेकिन प्राकृतिक भाषा निर्माण और अन्य एनएलपी कार्यों का विस्तार पूर्ण पुस्तकों का निर्माण है। पहली मशीन-जनित पुस्तक 1984 में एक नियम-आधारित प्रणाली द्वारा बनाई गई थी (Racter, The Policeman 's Beard is आधा-निर्मित )। [२७] न्यूरल नेटवर्क द्वारा पहला प्रकाशित काम २०१८ में प्रकाशित हुआ था, १ द रोड , एक उपन्यास के रूप में विपणन किया गया, जिसमें साठ मिलियन शब्द हैं। ये दोनों प्रणालियां मूल रूप से विस्तृत लेकिन गैर-संवेदी (शब्दार्थ-मुक्त) भाषा मॉडल हैं । पहली मशीन जनित विज्ञान पुस्तक 2019 (बीटा लेखक, लिथियम-आयन बैटरी , स्प्रिंगर, चाम) में प्रकाशित हुई थी । [२८] रैक्टर और १ द रोड के विपरीत , यह तथ्यात्मक ज्ञान पर आधारित है और पाठ के सारांश पर आधारित है।
- संवाद प्रबंधन
- कंप्यूटर सिस्टम का उद्देश्य मानव के साथ बातचीत करना है।
- दस्तावेज़ एआई
- एक दस्तावेज़ एआई प्लेटफ़ॉर्म एनएलपी तकनीक के शीर्ष पर बैठता है जो उपयोगकर्ताओं को कृत्रिम बुद्धिमत्ता, मशीन लर्निंग या एनएलपी के बिना किसी पूर्व अनुभव के सक्षम बनाता है ताकि वे विभिन्न दस्तावेज़ प्रकारों से आवश्यक विशिष्ट डेटा निकालने के लिए कंप्यूटर को त्वरित रूप से प्रशिक्षित कर सकें। एनएलपी-संचालित दस्तावेज़ एआई गैर-तकनीकी टीमों को दस्तावेज़ों में छिपी जानकारी, उदाहरण के लिए, वकीलों, व्यापार विश्लेषकों और एकाउंटेंट तक त्वरित रूप से पहुंचने में सक्षम बनाता है। [29]
- व्याकरण संबंधी त्रुटि सुधार
- व्याकरण संबंधी त्रुटि का पता लगाने और सुधार में भाषाई विश्लेषण के सभी स्तरों पर समस्याओं की एक बड़ी बैंड-चौड़ाई शामिल है (ध्वनि विज्ञान / शब्दावली, आकृति विज्ञान, वाक्य रचना, शब्दार्थ, व्यावहारिकता)। व्याकरण संबंधी त्रुटि सुधार प्रभावशाली है क्योंकि यह उन करोड़ों लोगों को प्रभावित करता है जो दूसरी भाषा के रूप में अंग्रेजी का उपयोग करते हैं या प्राप्त करते हैं। इस प्रकार यह २०११ के बाद से कई साझा कार्यों के अधीन रहा है। [३०] [३१] [३२] जहाँ तक शब्दावली, आकृति विज्ञान, वाक्य रचना और शब्दार्थ के कुछ पहलुओं का संबंध है, और शक्तिशाली तंत्रिका भाषा मॉडल के विकास के कारण जैसे GPT-2 के रूप में , इसे अब (2019) एक बड़े पैमाने पर हल की गई समस्या माना जा सकता है और विभिन्न व्यावसायिक अनुप्रयोगों में इसका विपणन किया जा रहा है। [33]
- मशीन अनुवाद
- टेक्स्ट को एक मानव भाषा से दूसरी भाषा में स्वचालित रूप से अनुवाद करें। यह सबसे कठिन समस्याओं में से एक है, और समस्याओं के एक वर्ग का सदस्य है जिसे बोलचाल की भाषा में " एआई-पूर्ण " कहा जाता है , यानी मनुष्यों के पास विभिन्न प्रकार के ज्ञान की आवश्यकता होती है (व्याकरण, शब्दार्थ, वास्तविक दुनिया के बारे में तथ्य, आदि) ।) ठीक से हल करने के लिए।
- प्राकृतिक भाषा पीढ़ी (एनएलजी):
- कंप्यूटर डेटाबेस या सिमेंटिक इंटेंट से जानकारी को पठनीय मानव भाषा में परिवर्तित करें।
- प्राकृतिक भाषा समझ (एनएलयू)
- पाठ के टुकड़ों को अधिक औपचारिक अभ्यावेदन में परिवर्तित करें जैसे कि प्रथम-क्रम तर्क संरचनाएं जो कंप्यूटर प्रोग्राम में हेरफेर करने के लिए आसान हैं । प्राकृतिक भाषा की समझ में कई संभावित शब्दार्थों से इच्छित शब्दार्थ की पहचान शामिल होती है जो एक प्राकृतिक भाषा अभिव्यक्ति से प्राप्त की जा सकती है जो आमतौर पर प्राकृतिक भाषा अवधारणाओं के संगठित संकेतन का रूप लेती है। भाषा मेटामॉडल और ऑन्कोलॉजी का परिचय और निर्माण कुशल हालांकि अनुभवजन्य समाधान हैं। बंद-विश्व धारणा (सीडब्ल्यूए) बनाम खुली दुनिया की धारणा , या व्यक्तिपरक हां/नहीं बनाम उद्देश्य जैसी अंतर्निहित धारणाओं के साथ भ्रम के बिना प्राकृतिक भाषा अर्थशास्त्र का एक स्पष्ट औपचारिकरण अर्थशास्त्र औपचारिकता के आधार के निर्माण के लिए सही/गलत की उम्मीद है . [34]
- प्रश्न उत्तर
- एक मानव-भाषा के प्रश्न को देखते हुए, उसका उत्तर निर्धारित करें। विशिष्ट प्रश्नों का एक विशिष्ट सही उत्तर होता है (जैसे "कनाडा की राजधानी क्या है?"), लेकिन कभी-कभी खुले प्रश्नों पर भी विचार किया जाता है (जैसे "जीवन का अर्थ क्या है?")।
सामान्य प्रवृत्तियाँ और (संभव) भविष्य की दिशाएँ
क्षेत्र में लंबे समय से चल रहे रुझानों के आधार पर, एनएलपी के भविष्य के निर्देशों को एक्सट्रपलेशन करना संभव है। २०२० तक, CoNLL साझा कार्यों की लंबे समय से चली आ रही श्रृंखला के विषयों में तीन रुझान देखे जा सकते हैं: [३५]
- प्राकृतिक भाषा के तेजी से सार, "संज्ञानात्मक" पहलुओं पर रुचि (१९९९-२००१: उथले पार्सिंग, २००२-०३: नामित इकाई मान्यता, २००६-०९/२०१७-१८: निर्भरता वाक्यविन्यास, २००४-०५/२००८-०९ शब्दार्थ भूमिका लेबलिंग, 2011-12 कोरफेरेंस, 2015-16: डिस्कोर्स पार्सिंग, 2019: सिमेंटिक पार्सिंग)।
- बहुभाषा में बढ़ती रुचि, और, संभावित रूप से, बहुविधता (1999 से अंग्रेजी; 2002 से स्पेनिश, डच; 2003 से जर्मन; 2006 से बल्गेरियाई, डेनिश, जापानी, पुर्तगाली, स्लोवेनियाई, स्वीडिश, तुर्की; बास्क, कैटलन, चीनी, ग्रीक, हंगेरियन , 2007 से इतालवी, तुर्की; 2009 से चेक; 2012 से अरबी; 2017: 40+ भाषाएँ; 2018: 60+/100+ भाषाएँ)
- प्रतीकात्मक अभ्यावेदन का उन्मूलन (कमजोर पर्यवेक्षित विधियों, प्रतिनिधित्व सीखने और एंड-टू-एंड सिस्टम की ओर पर्यवेक्षित नियम-आधारित)
अनुभूति और एनएलपी
अधिकांश उच्च-स्तरीय एनएलपी अनुप्रयोगों में ऐसे पहलू शामिल होते हैं जो बुद्धिमान व्यवहार और प्राकृतिक भाषा की स्पष्ट समझ का अनुकरण करते हैं। अधिक व्यापक रूप से बोलते हुए, संज्ञानात्मक व्यवहार के तेजी से उन्नत पहलुओं का तकनीकी संचालन एनएलपी के विकास पथों में से एक का प्रतिनिधित्व करता है (उपरोक्त सीओएनएलएल साझा कार्यों के बीच रुझान देखें)।
अनुभूति "विचार, अनुभव और इंद्रियों के माध्यम से ज्ञान और समझ प्राप्त करने की मानसिक क्रिया या प्रक्रिया" को संदर्भित करती है। [३६] संज्ञानात्मक विज्ञान मन और उसकी प्रक्रियाओं का अंतःविषय, वैज्ञानिक अध्ययन है। [३७] संज्ञानात्मक भाषाविज्ञान भाषाविज्ञान की एक अंतःविषय शाखा है, जो मनोविज्ञान और भाषाविज्ञान दोनों से ज्ञान और अनुसंधान को जोड़ती है। [३८] विशेष रूप से प्रतीकात्मक एनएलपी के युग के दौरान , कम्प्यूटेशनल भाषाविज्ञान के क्षेत्र ने संज्ञानात्मक अध्ययन के साथ मजबूत संबंध बनाए रखा।
एक उदाहरण के रूप में, जॉर्ज लैकॉफ संज्ञानात्मक विज्ञान के परिप्रेक्ष्य के माध्यम से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) एल्गोरिदम बनाने के लिए एक पद्धति प्रदान करता है , साथ ही संज्ञानात्मक भाषाविज्ञान के निष्कर्षों के साथ , [३९] दो परिभाषित पहलुओं के साथ:
- लैकॉफ द्वारा "एक विचार की समझ, दूसरे के संदर्भ में" के रूप में समझाया गया वैचारिक रूपक के सिद्धांत को लागू करें , जो लेखक के इरादे का एक विचार प्रदान करता है। [४०] उदाहरण के लिए, अंग्रेजी शब्द "बिग" पर विचार करें । जब तुलना ( "वह एक बड़ा पेड़ है" ) में उपयोग किया जाता है , तो लेखक का इरादा यह है कि पेड़ अन्य पेड़ों या लेखकों के अनुभव के सापेक्ष "शारीरिक रूप से बड़ा" है। जब लाक्षणिक रूप से इस्तेमाल किया जाता है ( "कल एक बड़ा दिन है" ), लेखक का इरादा "महत्व" को इंगित करना है । अन्य उपयोगों के पीछे की मंशा, जैसे "वह एक बड़ी व्यक्ति है" अतिरिक्त जानकारी के बिना एक व्यक्ति और एक संज्ञानात्मक एनएलपी एल्गोरिथम के लिए कुछ हद तक अस्पष्ट रहेगा।
- विश्लेषण किए जा रहे पाठ के पहले और बाद में प्रस्तुत जानकारी के आधार पर किसी शब्द, वाक्यांश, वाक्य या पाठ के अर्थ के सापेक्ष माप को असाइन करें, उदाहरण के लिए, एक संभाव्य संदर्भ-मुक्त व्याकरण (PCFG) के माध्यम से। ऐसे एल्गोरिदम के लिए गणितीय समीकरण यूएस पेटेंट 9269353 . में प्रस्तुत किया गया है:
- कहा पे,
- RMM , अर्थ का सापेक्ष माप है
- टोकन , टेक्स्ट, वाक्य, वाक्यांश या शब्द का कोई भी ब्लॉक है
- एन , विश्लेषण किए जा रहे टोकन की संख्या है
- पीएमएम , एक निगम के आधार पर अर्थ का संभावित उपाय है
- d , N-1 टोकन के अनुक्रम के साथ टोकन का स्थान है
- पीएफ , एक भाषा के लिए विशिष्ट संभाव्यता कार्य है
- कहा पे,
संज्ञानात्मक भाषाविज्ञान के साथ संबंध एनएलपी की ऐतिहासिक विरासत का हिस्सा हैं, लेकिन 1990 के दशक के दौरान सांख्यिकीय मोड़ के बाद से उन्हें कम बार संबोधित किया गया है। फिर भी, तकनीकी रूप से परिचालन योग्य ढांचे के प्रति संज्ञानात्मक मॉडल विकसित करने के दृष्टिकोण को विभिन्न ढांचे के संदर्भ में अपनाया गया है, उदाहरण के लिए, संज्ञानात्मक व्याकरण, [४१] कार्यात्मक व्याकरण, [४२] निर्माण व्याकरण, [४३] कम्प्यूटेशनल मनोविज्ञान और संज्ञानात्मक तंत्रिका विज्ञान (जैसे, एसीटी-आर ), हालांकि, मुख्यधारा के एनएलपी में सीमित उठाव के साथ (जैसा कि एसीएल के प्रमुख सम्मेलनों [४४] में उपस्थिति से मापा जाता है )। हाल ही में, संज्ञानात्मक एनएलपी के विचारों को व्याख्यात्मकता प्राप्त करने के लिए एक दृष्टिकोण के रूप में पुनर्जीवित किया गया है , उदाहरण के लिए, "संज्ञानात्मक एआई" की धारणा के तहत। [४५] इसी तरह, संज्ञानात्मक एनएलपी के विचार तंत्रिका मॉडल मल्टीमॉडल एनएलपी (हालांकि शायद ही कभी स्पष्ट किए गए) में निहित हैं। [46]
यह सभी देखें
- १ सड़क
- स्वचालित निबंध स्कोरिंग
- बायोमेडिकल टेक्स्ट माइनिंग
- कंपाउंड टर्म प्रोसेसिंग
- अभिकलनात्मक भाषाविज्ञान
- कंप्यूटर से सहायता प्राप्त समीक्षा
- नियंत्रित प्राकृतिक भाषा
- ध्यान लगा के पढ़ना या सीखना
- गहरी भाषाई प्रसंस्करण
- वितरण शब्दार्थ
- विदेशी भाषा पढ़ने की सहायता
- विदेशी भाषा लेखन सहायता
- सूचना निष्कर्षण
- सूचना की पुनर्प्राप्ति
- भाषा और संचार प्रौद्योगिकी
- भाषा प्रौद्योगिकी
- अव्यक्त शब्दार्थ अनुक्रमण
- मूल-भाषा की पहचान
- प्राकृतिक भाषा प्रोग्रामिंग
- प्राकृतिक भाषा खोज
- प्राकृतिक भाषा प्रसंस्करण की रूपरेखा
- प्रश्न विस्तार
- प्रश्न समझ
- संशोधन (भाषाविज्ञान)
- भाषण प्रसंस्करण
- स्पोकन डायलॉग सिस्टम
- टेक्स्ट-प्रूफिंग
- पाठ सरलीकरण
- ट्रांसफार्मर (मशीन लर्निंग मॉडल)
- ट्रूकेसिंग
- प्रश्न उत्तर
- Word2vec
संदर्भ
- ^ कोंगथॉन, अलीसा; संगकीत्रकर्ण, चचावल; कोंगयॉन्ग, सरवूट; हारुचैयासक, चूचार्ट (अक्टूबर २७-३०, २००९)। संवादी एजेंट पर आधारित एक ऑनलाइन हेल्प डेस्क प्रणाली लागू करना । MEDES '09: इमर्जेंट डिजिटल इकोसिस्टम के प्रबंधन पर अंतर्राष्ट्रीय सम्मेलन। फ्रांस: एसीएम। डोई : 10.1145/1643823.1643908 ।
- ^ हचिन्स, जे। (2005)। "संक्षेप में मशीनी अनुवाद का इतिहास" (पीडीएफ) ।[ स्वयं प्रकाशित स्रोत ]
- ^ कोस्केनेमी, किमो (1983), टू-लेवल मॉर्फोलॉजी: ए जनरल कम्प्यूटेशनल मॉडल ऑफ वर्ड-फॉर्म रिकग्निशन एंड प्रोडक्शन (पीडीएफ) , सामान्य भाषाविज्ञान विभाग, हेलसिंकी विश्वविद्यालय
- ^ जोशी, एके, और वीनस्टीन, एस. (1981, अगस्त)। अनुमान का नियंत्रण: प्रवचन के कुछ पहलुओं की भूमिका संरचना-केंद्रित । में IJCAI (पीपी। 385-387)।
- ^ गुइडा, जी.; मौरी, जी. (जुलाई 1986)। "प्राकृतिक भाषा प्रसंस्करण प्रणालियों का मूल्यांकन: मुद्दे और दृष्टिकोण"। आईईईई की कार्यवाही । ७४ (७): १०२६–१०३५। डोई : 10.1109/PROC.1986.13580 । आईएसएसएन 1558-2256 । S2CID 30688575 ।
- ^ चॉम्स्कीयन भाषाविज्ञान " कोने के मामलों "की जांच को प्रोत्साहितकरता है जो इसके सैद्धांतिक मॉडल (गणित में रोग संबंधी घटनाओं कीतुलनामें)की सीमाओं पर जोर देते हैं, आमतौर परवास्तविक दुनिया के डेटा में होने वाली विशिष्ट घटनाओं की व्यवस्थित जांच के बजाय विचार प्रयोगों का उपयोग करके बनाया जाता है , जैसा कि कॉर्पस भाषाविज्ञान में होता है । वास्तविक दुनिया के डेटाके ऐसे निगम कानिर्माण और उपयोगप्राकृतिक भाषा प्रसंस्करण के लिए मशीन-लर्निंग एल्गोरिदम का एक मूलभूत हिस्सा है। इसके अलावा, तथाकथित " उत्तेजना की गरीबी " तर्कजैसे चॉम्स्की भाषाविज्ञान के सैद्धांतिक आधार यह कहते हैंकि सामान्य शिक्षण एल्गोरिदम, जैसा कि आमतौर पर मशीन सीखने में उपयोग किया जाता है, भाषा प्रसंस्करण में सफल नहीं हो सकता है। नतीजतन, चॉम्स्कीयन प्रतिमान ने भाषा प्रसंस्करण के लिए ऐसे मॉडलों के आवेदन को हतोत्साहित किया।
- ^ गोल्डबर्ग, योव (2016)। "प्राकृतिक भाषा प्रसंस्करण के लिए तंत्रिका नेटवर्क मॉडल पर एक प्राइमर"। जर्नल ऑफ आर्टिफिशियल इंटेलिजेंस रिसर्च । 57 : 345–420। आर्क्सिव : १८०७.१०८५४ । डोई : 10.1613/जेयर.4992 । S2CID 8273530 ।
- ^ गुडफेलो, इयान; बेंगियो, योशुआ; कौरविल, आरोन (2016)। डीप लर्निंग । एमआईटी प्रेस.
- ^ जोज़ेफोविक्ज़, रफाल; विनाइल, ओरिओल; शूस्टर, माइक; शज़ीर, नोआम; वू, योंगहुई (2016)। भाषा मॉडलिंग की सीमाओं की खोज । arXiv : १६०२.०२४१० . बिबकोड : 2016arXiv160202410J ।
- ^ चो, डू कूक; चार्निएक, यूजीन। "भाषा मॉडलिंग के रूप में पार्सिंग" । एमएनएलपी 2016 ।
- ^ विनाइल, ओरिओल; और अन्य। (2014)। "व्याकरण एक विदेशी भाषा के रूप में" (पीडीएफ) । निप्स2015 । आर्क्सिव : १४१२.७४४९ । बिबकोड : 2014arXiv1412.7449V ।
- ^ टर्चिन, अलेक्जेंडर; फ्लोरेज़ बुइल्स, लुइसा एफ। (2021-03-19)। "मधुमेह देखभाल की गुणवत्ता को मापने और सुधारने के लिए प्राकृतिक भाषा प्रसंस्करण का उपयोग करना: एक व्यवस्थित समीक्षा" । जर्नल ऑफ डायबिटीज साइंस एंड टेक्नोलॉजी । १५ (३): ५५३–५६०। डोई : 10.1177/19322968211000831 । आईएसएसएन १ ९३२-२९६८ । पीएमआईडी 33736486 ।
- ^ विनोग्राद, टेरी (1971)। प्राकृतिक भाषा (थीसिस) को समझने के लिए कंप्यूटर प्रोग्राम में डेटा के प्रतिनिधित्व के रूप में प्रक्रियाएं ।
- ^ शैंक, रोजर सी.; एबेलसन, रॉबर्ट पी. (1977)। लिपियों, योजनाओं, लक्ष्यों और समझ: मानव ज्ञान संरचनाओं में एक जांच । हिल्सडेल: एर्लबाम। आईएसबीएन 0-470-99033-3.
- ^ मार्क जॉनसन। सांख्यिकीय क्रांति कैसे बदलती है (कम्प्यूटेशनल) भाषाविज्ञान। भाषाविज्ञान और कम्प्यूटेशनल भाषाविज्ञान के बीच बातचीत पर ईएसीएल 2009 कार्यशाला की कार्यवाही।
- ^ फिलिप रेसनिक। चार क्रांतियाँ। भाषा लॉग, 5 फरवरी, 2011।
- ^ सोचर, रिचर्ड। "एनएलपी-एसीएल 2012 ट्यूटोरियल के लिए डीप लर्निंग" । www.socher.org । 2020-08-17 को लिया गया ।यह एसीएल 2012 में एक प्रारंभिक डीप लर्निंग ट्यूटोरियल था और अधिकांश प्रतिभागियों द्वारा रुचि और (उस समय) संदेह दोनों के साथ मुलाकात की। उस समय तक, सांख्यिकीय व्याख्या की कमी के कारण तंत्रिका सीखने को मूल रूप से खारिज कर दिया गया था। 2015 तक, गहरी शिक्षा एनएलपी के प्रमुख ढांचे में विकसित हुई थी।
- ^ अन्नामोरदनेजाद, आई. (२०२०)। कोलबर्ट: ह्यूमर डिटेक्शन के लिए बर्ट वाक्य एम्बेडिंग का उपयोग करना । arXiv प्रीप्रिंट arXiv:2004.12765.
- ^ यी, चुकाई; तियान, यिंगली (2012), "अंधे व्यक्तियों के लिए जटिल पृष्ठभूमि से सहायक पाठ पढ़ना", कैमरा-आधारित दस्तावेज़ विश्लेषण और मान्यता , स्प्रिंगर बर्लिन हीडलबर्ग, पीपी. 15–28, साइटसेरएक्स 10.1.1.668.869 , दोई : 10.1007/978- 3-642-29364-1_2 , आईएसबीएन ९७८३६४२२९३६३४
- ^ "प्राकृतिक भाषा प्रसंस्करण क्या है? मशीन लर्निंग में एनएलपी का परिचय" । ज्ञानसेतु! . 2020-12-06 । 2021-01-09 को पुनः प्राप्त .
- ^ किशोरजीत, एन.; विद्या, राज आरके .; निर्मल, वाई.; शिवाजी, बी (2012)। "मणिपुरी मोर्फेम पहचान" (पीडीएफ) । दक्षिण और दक्षिण पूर्व एशियाई प्राकृतिक भाषा प्रसंस्करण (एसएएनएलपी) पर तीसरी कार्यशाला की कार्यवाही । कोलिंग २०१२, मुंबई, दिसंबर २०१२: ९५-१०८।CS1 रखरखाव: स्थान ( लिंक )
- ^ क्लेन, डैन; मैनिंग, क्रिस्टोफर डी. (2002)। "एक घटक-संदर्भ मॉडल का उपयोग कर प्राकृतिक भाषा व्याकरण प्रेरण" (पीडीएफ) । तंत्रिका सूचना प्रसंस्करण प्रणाली में अग्रिम ।
- ^ पास्कल रिकॉग्निजिंग टेक्स्टुअल एंटेलमेंट चैलेंज (RTE-7) https://tac.nist.gov//2011/RTE/
- ^ लिपि, मार्को; टोरोनी, पाओलो (2016-04-20)। "आर्ग्युमेंटेशन माइनिंग: स्टेट ऑफ़ द आर्ट एंड इमर्जिंग ट्रेंड्स" । इंटरनेट प्रौद्योगिकी पर एसीएम लेनदेन । १६ (२): १-२५। डोई : 10.1145/2850417 । आईएसएसएन १५३३-५३९९ । S2CID 9561587 ।
- ^ "तर्क खनन - IJCAI2016 ट्यूटोरियल" । www.i3s.unice.fr । 2021-03-09 को पुनः प्राप्त .
- ^ "एनएलपी कम्प्यूटेशनल तर्क के लिए दृष्टिकोण - एसीएल 2016, बर्लिन" । 2021-03-09 को पुनः प्राप्त .
- ^ "यूबीयूवेब :: रैकर" । www.ubu.com . 2020-08-17 को लिया गया ।
- ^ लेखक, बीटा (2019)। लिथियम-आयन बैटरी । डोई : 10.1007/978-3-030-16800-1 । आईएसबीएन 978-3-030-16799-8.
- ^ "डॉक्यूमेंट अंडरस्टैंडिंग एआई ऑन गूगल क्लाउड (क्लाउड नेक्स्ट '19) - यूट्यूब" । www.youtube.com . 2021-01-11 को लिया गया ।
- ^ शासन प्रबंध। "भाषा प्रौद्योगिकी केंद्र (सीएलटी)" । मैक्वेरी विश्वविद्यालय । 2021-01-11 को लिया गया ।
- ^ "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार" । www.comp.nus.edu.sg । 2021-01-11 को लिया गया ।
- ^ "साझा कार्य: व्याकरण संबंधी त्रुटि सुधार" । www.comp.nus.edu.sg । 2021-01-11 को लिया गया ।
- ^ "हमारे बारे में | व्याकरण" । www.grammarly.com । 2021-01-11 को लिया गया ।
- ^ डुआन, युकोंग; क्रूज़, क्रिस्टोफ़ (2011)। "अस्तित्व से संकल्पना के माध्यम से प्राकृतिक भाषा के शब्दार्थ को औपचारिक बनाना" । नवाचार, प्रबंधन और प्रौद्योगिकी के अंतर्राष्ट्रीय जर्नल । २ (१): ३७-४२. से संग्रहीत मूल 2011-10-09 पर।
- ^ "पिछला साझा कार्य | CoNLL" . www.conll.org । 2021-01-11 को लिया गया ।
- ^ "संज्ञान" । लेक्सिको । ऑक्सफोर्ड यूनिवर्सिटी प्रेस और Dictionary.com । 6 मई 2020 को लिया गया ।
- ^ "संज्ञानात्मक वैज्ञानिक से पूछें" । अमेरिकन फेडरेशन ऑफ टीचर्स । 8 अगस्त 2014।
संज्ञानात्मक विज्ञान भाषाविज्ञान, मनोविज्ञान, तंत्रिका विज्ञान, दर्शन, कंप्यूटर विज्ञान और मानव विज्ञान के शोधकर्ताओं का एक अंतःविषय क्षेत्र है जो मन को समझना चाहते हैं।
- ^ रॉबिन्सन, पीटर (2008)। संज्ञानात्मक भाषाविज्ञान और दूसरी भाषा अधिग्रहण की पुस्तिका । रूटलेज। पीपी. 3-8. आईएसबीएन 978-0-805-85352-0.
- ^ लैकॉफ, जॉर्ज (1999)। फिलॉसफी इन द फ्लेश: द एबॉडीड माइंड एंड इट्स चैलेंज टू वेस्टर्न फिलॉसफी; परिशिष्ट: भाषा प्रतिमान का तंत्रिका सिद्धांत । न्यूयॉर्क बेसिक बुक्स। पीपी. 569-583। आईएसबीएन 978-0-465-05674-3.
- ^ स्ट्रॉस, क्लाउडिया (1999). सांस्कृतिक अर्थ का एक संज्ञानात्मक सिद्धांत । कैम्ब्रिज यूनिवर्सिटी प्रेस। पीपी 156-164। आईएसबीएन 978-0-521-59541-4.
- ^ "सार्वभौमिक अवधारणात्मक संज्ञानात्मक एनोटेशन (यूसीसीए)" । यूनिवर्सल कॉन्सेप्टुअल कॉग्निटिव एनोटेशन (यूसीसीए) । 2021-01-11 को लिया गया ।
- ^ रोड्रिग्ज, एफसी, और मैरल-उसन, आर। (2016)। एक आरआरजी कम्प्यूटेशनल व्याकरण का निर्माण । ओनोमेज़िन , (34), 86-117.
- ^ "द्रव निर्माण व्याकरण - निर्माण व्याकरण के लिए एक पूरी तरह से परिचालन प्रसंस्करण प्रणाली" । 2021-01-11 को लिया गया ।
- ^ "एसीएल सदस्य पोर्टल | कम्प्यूटेशनल भाषाविज्ञान सदस्य पोर्टल के लिए एसोसिएशन" । www.aclweb.org । 2021-01-11 को लिया गया ।
- ^ "हिस्सा और नियम" । www.w3.org । 2021-01-11 को लिया गया ।
- ^ सोचर, रिचर्ड; करपथी, लेडी; ले, क्वोक वी.; मैनिंग, क्रिस्टोफर डी.; एनजी, एंड्रयू वाई। (2014)। "वाक्यों के साथ छवियों को खोजने और उनका वर्णन करने के लिए ग्राउंडेड कंपोज़िशनल सिमेंटिक्स" । कम्प्यूटेशनल भाषाविज्ञान के लिए एसोसिएशन के लेनदेन । २ : २०७-२१८। डोई : 10.1162/tacl_a_00177 । एस २ सीआईडी २३१७८५८ ।
अग्रिम पठन
- बेट्स, एम (1995)। "प्राकृतिक भाषा समझ के मॉडल" । संयुक्त राज्य अमेरिका के नेशनल एकेडमी ऑफ साइंसेज की कार्यवाही । ९२ (२२): ९९७७-९९८२। बिबकोड : १ ९९५पीएनएएस...९२.९९७७बी । डोई : 10.1073/पीएनएएस.92.22.9977 । पीएमसी 40721 । पीएमआईडी 7479812 ।
- स्टीवन बर्ड, इवान क्लेन, और एडवर्ड लोपर (2009)। पायथन के साथ प्राकृतिक भाषा प्रसंस्करण । ओ'रेली मीडिया। आईएसबीएन 978-0-596-51649-9 ।
- डैनियल जुराफस्की और जेम्स एच। मार्टिन (2008)। भाषण और भाषा प्रसंस्करण , दूसरा संस्करण। पियर्सन अप्रेंटिस हॉल। आईएसबीएन 978-0-13-187321-6 ।
- मोहम्मद जकारिया कुर्दी (2016)। प्राकृतिक भाषा प्रसंस्करण और कम्प्यूटेशनल भाषाविज्ञान: भाषण, आकृति विज्ञान, और वाक्य रचना , खंड 1. ISTE-विले। आईएसबीएन 978-1848218482 ।
- मोहम्मद जकारिया कुर्दी (2017)। प्राकृतिक भाषा प्रसंस्करण और कम्प्यूटेशनल भाषाविज्ञान: शब्दार्थ, प्रवचन, और अनुप्रयोग , खंड 2. ISTE-विले। आईएसबीएन 978-1848219212 ।
- क्रिस्टोफर डी. मैनिंग, प्रभाकर राघवन, और हेनरिक शुट्ज़ (2008)। सूचना पुनर्प्राप्ति का परिचय । कैम्ब्रिज यूनिवर्सिटी प्रेस। आईएसबीएन 978-0-521-86571-5 । आधिकारिक एचटीएमएल और पीडीएफ संस्करण बिना किसी शुल्क के उपलब्ध हैं।
- क्रिस्टोफर डी. मैनिंग और हेनरिक शुट्ज़ (1999)। सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण की नींव । एमआईटी प्रेस। आईएसबीएन 978-0-262-13360-9 ।
- डेविड मेगावाट पॉवर्स और क्रिस्टोफर सीआर तुर्क (1989)। प्राकृतिक भाषा की मशीन लर्निंग । स्प्रिंगर-वेरलाग। आईएसबीएन 978-0-387-19557-5 ।