Caste census data and its technical aspects

पहली दफा 1931 की जनगणना में जाति जनगणना की गई थी। आजादी के बाद यह सिर्फ अनूसूचित जातियों और जनजातियों की गणना तक सीमित रही। हालांकि सहस्राब्दी जनगणना (2001) के वक्त देश के तत्कालीन महापंजियक और जनगणना आयुक्त ने जाति जनगणना को फिर लागू करना चाहा, जो खारिज कर दी गई। लेकिन राजनैतिक हवा तो उठ चुकी थी और लगता है फिर कभी बैठी नहीं।

उसके बाद देश में सभी परिवारों की जाति की गणना की व्यापक कवायद सामाजिक आर्थिक और जाति जनगणना, 2011 (एसईसीसी-2011) के जरिए की गई। परिवारों के सामाजिक-आर्थिक के साथ उनके वंचित होने के आंकड़ों का इस्तेमाल गरीबी के बहुआयामी पहलुओं के आधार पर गरीब परिवारों की पहचान के लिए और उसके आधार पर सरकार के गरीबी-उन्मूलन कार्यक्रमों पर अमल किया गया है।

हालांकि जाति के आंकड़े विभिन्न वजहों से जाहिर नहीं किए गए, लेकिन मुख्य वजह तकनीकी खामियां बताई गईं, जो सुप्रीम कोर्ट में सरकार द्वारा प्रस्तुत हलफनामे में दिखाई दी। उसके अनुसार एसईसीसी का जाति/जनजाति का मूल डेटा इसे अनुपयोगी बनाता था। एसईसीसी-2011 का जाति डेटा के अनुपयोगी होने के पीछे निम्न कमियां बताई गईं:

(क) 1931 में भारत में हुई पहली जनगणना के दौरान जातियों की कुल संख्या 4,147 थी। जबकि वर्तमान आंकड़े 46 लाख से अधिक विभिन्न जातियों को दर्शाते हैं। यह मानते हुए कि कुछ जातियां उप-जातियों में विभाजित हो सकती हैं, इसकी कुल संख्या मूल संख्या से ज्यादा नहीं हो सकती। इस भ्रम का एक कारण यह भी दिखा कि हर घर का दौरा करने वाले जनगणना कर्मी ने हर जाति को अलग-अलग तरीके से लिखा। जैसे, केरल के मलाबार क्षेत्र में ‘माप्पिलस’ जाति को हर कर्मी ने अपने ढंग से लिखा, जिससे 40 अलग-अलग तरीके से इसे लिखा गया। इसका नतीजा यह हुआ कि 40 अलग जातियों गिनती में आ गईं। एक और उदाहरण ‘पंवार’ और ‘पोवार’ का है। बोलने में एक जैसे लगने के कारण इन्हें एक ही समूह में रखा गया, जबकि केवल पवार ही ओबीसी होते हैं।

(ख) कई मामलों में, परिवारों ने अपनी जाति बताने से इनकार कर दिया। जनगणना कर्मी ने जाति कॉलम में ‘x’ चिन्हित कर दिया, जिसका मतलब था, या तो जातियों का निर्धारण नहीं किया जा सकता या परिवार ने इस बारे में बताने से मना कर दिया।

(ग) कई मामलों में पाया गया कि जाति के कॉलम में जाति के नाम के आगे या तो संख्या या प्रतीक चिह्न का उल्लेख किया गया था। 2011 की जनगणना से पहले जाति की कोई रजिस्ट्री तैयार नहीं की गई थी।

अब इन सारी कमियों को एआई/एमएल प्रौद्योगिकियों और नेचरल लैंग्वेज प्रोसेसिंग के उपयोग से बेहतर ढंग से सुधारा जा सकता है। एक अरब से अधिक रिकॉर्ड से संबंधित डेटा, मशीन लर्निंग के लिए उत्कृष्ट प्रशिक्षण डेटा हो सकता है। एसईसीसी-2011 में अलग-अलग तरह से उच्चारित की गई एसईसीसी-2011 में चिन्हित की गई सभी 46 लाख जातियों को विभिन्न जातियों और उप-जातियों में वर्गीकृत किया जा सकता है।

कहा जा रहा है कि 2023 की आगामी जनगणना के लिए मकान की सूची बनाने का काम पूरा कर लिया गया है। प्रश्नावली में 31 क्षेत्रों का डाटा संग्रहण के लिए पीने के पानी, बिजली, खाना पकाने के लिए मुख्य ईंधन, इंटरनेट का उपयोग, लैपटॉप, मोबाइल फोन आदि को समाहित किया गया है। इस स्तर पर जाति से संबंधित कुछ डेटा क्षेत्रों को जोड़ना मुश्किल नहीं होगा। और न ही उच्चारण के माध्यम से जाति संबंधित विवरण को प्राप्त करना। प्रशिक्षित एल्गोरिदम डाटा को ज्यादा सटीक करके गलतियों की संभावना को कम किया जा सकता है।

जाति जनगणना न केवल सामाजिक वैज्ञानिकों के लिए, बल्कि नीति-निर्धारकों और सरकार के लिए भी महत्वपूर्ण है। और अंततः एक बार जब जाति जनगणना हो जाएगी, तो गुब्बारा खुद ब खुद बैठ जाएगा।

(लेखक डाटा साइंटिस्ट और नीति आयोग के पूर्व वरिष्ठ कंसल्टेंट हैं)