कोर्स
Python में डेटा क्लीनिंग
मध्यमकौशल स्तर
अपडेट किया गया 12/2025
PythonData Preparation4 घंटे13 वीडियो44 अभ्यास3,500 XP150K+उपलब्धि का प्रमाण पत्र
अपना मुफ़्त खाता बनाएं
Google के साथ जारी रखेंअधिक विकल्प दिखाएँया
जारी रखने पर, आप हमारी उपयोग की शर्तें, हमारी गोपनीयता नीति को स्वीकार करते हैं और यह भी कि आपका डेटा संयुक्त राज्य अमेरिका में संग्रहीत किया जाता है।
हजारों कंपनियों के शिक्षार्थियों द्वारा पसंद किया गया
टीम को ट्रेनिंग देना चाहते हैं?
व्यवसाय के लिए आज़माएँपाठ्यक्रम विवरण
जानें Python में डेटा कैसे साफ़ करें
यह आमतौर पर कहा जाता है कि डेटा वैज्ञानिक अपना 80% समय डेटा को साफ़ करने और उसमें हेरफेर करने में बिताते हैं और केवल 20% समय उसका विश्लेषण करने में। डेटा सफाई हर डेटा वैज्ञानिक के लिए एक आवश्यक कदम है, क्योंकि गंदे डेटा का विश्लेषण गलत निष्कर्षों तक ले जा सकता है।इस पाठ्यक्रम में, आप Python में विभिन्न डेटा सफाई समस्याओं की पहचान, निदान और समाधान करना सीखेंगे, जो सरल से लेकर उन्नत स्तर तक होंगी। आप गलत डेटा प्रकारों से निपटेंगे, यह जांचेंगे कि आपका डेटा सही सीमा में है, अनुपस्थित डेटा को संभालेंगे, रिकॉर्ड लिंकिंग करेंगे, और भी बहुत कुछ!
विभिन्न डेटा प्रकारों को साफ़ करना सीखें
पाठ्यक्रम का पहला अध्याय सामान्य डेटा समस्याओं और उन्हें कैसे ठीक किया जा सकता है, इसकी पड़ताल करता है. आप पहले बुनियादी डेटा प्रकारों को समझेंगे और यह भी सीखेंगे कि उनके साथ अलग-अलग कैसे काम करना है। इसके बाद, आप रेंज बाधाएँ लागू करेंगे और डुप्लिकेट डेटा बिंदुओं को हटाएँगे।अंतिम अध्याय रिकॉर्ड लिंकिंग की पड़ताल करता है, जो कई डेटासेट्स को एकीकृत करने का एक शक्तिशाली उपकरण है। आप सीखेंगे कि स्ट्रिंग्स के बीच समानता की गणना करके रिकॉर्ड्स को कैसे लिंक किया जाए। अंत में, आप अपने नए कौशल का उपयोग करके दो रेस्टोरेंट समीक्षा डेटासेट को एक साफ़ मास्टर डेटासेट में जोड़ेंगे।
डेटा साफ़ करने में आत्मविश्वास हासिल करें
पाठ्यक्रम के अंत तक, आप विभिन्न प्रकार के डेटा को साफ़ करने और कई डेटासेट को मर्ज करने के लिए रिकॉर्ड लिंकिंग का उपयोग करने का आत्मविश्वास हासिल कर लेंगे। डेटा वैज्ञानिकों के लिए डेटा साफ़ करना एक आवश्यक कौशल है। यदि आप Python में डेटा साफ़ करने और उसके अनुप्रयोगों के बारे में अधिक जानना चाहते हैं, तो निम्नलिखित ट्रैक्स देखें: Python के साथ डेटा वैज्ञानिक और Python के साथ डेटा आयात एवं साफ़ करना।पूर्व आवश्यकताएं
Python ToolboxJoining Data with pandas1
आम डेटा समस्याएँ
इस अध्याय में, आप कुछ सबसे आम गंदे डेटा समस्याओं से निपटना सीखेंगे। आप डेटा टाइप्स कनवर्ट करेंगे, भविष्य की तिथियों जैसे पॉइंट्स हटाने के लिए रेंज constraints लागू करेंगे, और डुप्लीकेटेड डेटा पॉइंट्स हटाएँगे ताकि डबल-काउंटिंग से बचा जा सके।
2
टेक्स्ट और श्रेणीगत डेटा से जुड़ी समस्याएँ
अनस्ट्रक्चर्ड प्रकृति के कारण, श्रेणीगत और टेक्स्ट डेटा अक्सर किसी भी डेटासेट के सबसे गंदे हिस्से होते हैं। इस अध्याय में, आप कैटेगरी लेबल्स में whitespace और कैपिटलाइज़ेशन की असंगतियों को ठीक करना, कई कैटेगरीज को मिलाकर एक बनाना, और consistency के लिए strings को रीफ़ॉर्मैट करना सीखेंगे।
3
एडवांस्ड डेटा समस्याएँ
इस अध्याय में, आप और अधिक एडवांस्ड डेटा क्लीनिंग समस्याओं में गहराई से जाएँगे, जैसे यह सुनिश्चित करना कि वज़न पाउंड्स की बजाय सभी किलोग्राम में लिखे हों। आप वे अहम स्किल्स भी सीखेंगे जो यह सत्यापित करने में मदद करती हैं कि मान सही तरह से जोड़े गए हैं, और मिसिंग वैल्यूज़ आपके विश्लेषण पर नकारात्मक प्रभाव न डालें।
4
रिकॉर्ड लिंकेज
रिकॉर्ड लिंकेज एक शक्तिशाली तकनीक है जिसका उपयोग कई डेटासेट्स को आपस में मर्ज करने के लिए किया जाता है, खासकर जब मानों में टाइपो या अलग-अलग स्पेलिंग हों। इस अध्याय में, आप strings के बीच similarity की गणना करके रिकॉर्ड्स को लिंक करना सीखेंगे—फिर आप अपनी नई स्किल्स का उपयोग करके दो रेस्तरां रिव्यू डेटासेट्स को जोड़कर एक साफ़ मास्टर डेटासेट बनाएँगे।
Python में डेटा क्लीनिंग
पाठ्यक्रम पूर्ण
उपलब्धि का प्रमाण पत्र अर्जित करें
इस प्रमाण पत्र को अपनी LinkedIn प्रोफ़ाइल, रिज्यूमे या CV में जोड़ेंइसे सोशल मीडिया पर और अपनी प्रदर्शन समीक्षा में साझा करेंअभी नामांकन करें
19 मिलियन से अधिक शिक्षार्थियों के साथ जुड़ें और आज ही Python में डेटा क्लीनिंग शुरू करें!
अपना मुफ़्त खाता बनाएं
Google के साथ जारी रखेंअधिक विकल्प दिखाएँया
जारी रखने पर, आप हमारी उपयोग की शर्तें, हमारी गोपनीयता नीति को स्वीकार करते हैं और यह भी कि आपका डेटा संयुक्त राज्य अमेरिका में संग्रहीत किया जाता है।
मोबाइल के लिए DataCamp के साथ अपने डेटा कौशल को बढ़ाएं
हमारे मोबाइल कोर्स और दैनिक 5 मिनट की कोडिंग चुनौतियों के साथ चलते-फिरते प्रगति करें।