Where can I find the official source code for whisper?

The official source code, issue tracker, and documentation can be accessed on GitHub at https://github.com/openai/whisper.

How can I contribute to whisper?

You can contribute by reporting bugs, suggesting new features, improving documentation, or submitting pull requests directly on its official GitHub repository.

🌐 Read in:🇺🇸EN 🇪🇸ES 🇨🇳ZH 🇮🇳HI 🇸🇦AR 🇻🇳VI

Pythonअपडेट किया: रविवार, 7 जून 20264 min read

डिक्टेशन से परे: क्यों OpenAI का Whisper ही एकमात्र ऐसा Speech-to-Text मॉडल है जो वास्तविक दुनिया में काम करता है

OpenAI का Whisper 680,000 घंटे के विविध ऑडियो पर बड़े पैमाने पर वीक सुपरविज़न (Weak Supervision) का उपयोग करके स्पीच रिकॉग्निशन को फिर से परिभाषित करता है। यह तकनीकी गाइड आपको केवल पांच लाइनों के पायथन कोड में ऑफ़लाइन-सक्षम ट्रांसक्रिप्शन लागू करना सिखाती है।

पारंपरिक ऑटोमैटिक स्पीच रिकॉग्निशन (ASR) पाइपलाइन हमेशा से बहुत नाजुक रही है। सालों तक, स्पीच-टू-टेक्स्ट इंजनों को केवल अत्यधिक साफ और पहले से तैयार किए गए डेटासेट्स पर ही प्रशिक्षित किया जाता था। जैसे ही आप वास्तविक दुनिया का कोई ऑडियो लाते थे—जैसे बैकग्राउंड का शोर, कोई स्थानीय लहजा (accent), या बोलचाल की भाषा—सिस्टम पूरी तरह विफल हो जाता था।

OpenAI के Whisper ने इस समस्या को जड़ से खत्म कर दिया। एकदम सही, हाथ से लेबल किए गए डेटासेट्स पर ट्रेनिंग करने के बजाय, Whisper को वेब से लिए गए 680,000 घंटों के वीकली सुपरवाइज्ड (weakly supervised), बहुभाषी और मल्टीटास्क ऑडियो पर प्रशिक्षित किया गया है। इसका परिणाम एक अत्यंत मजबूत मॉडल के रूप में सामने आया है जो बिना किसी फाइन-ट्यूनिंग के विभिन्न डोमेन में शानदार प्रदर्शन करता है। आइए देखें कि स्थानीय रूप से इस अत्याधुनिक ट्रांसक्रिप्शन को चलाना कितना आसान है।

शुरुआत करें: केवल 5 लाइनों के कोड में ट्रांसक्रिप्शन

सबसे पहले, सुनिश्चित करें कि आपके सिस्टम पर ffmpeg इंस्टॉल है, क्योंकि Whisper ऑडियो डिकोडिंग के लिए इसी पर निर्भर करता है:

# macOS पर
brew install ffmpeg

# Ubuntu/Debian पर
sudo apt update && sudo apt install ffmpeg

इसके बाद, सीधे GitHub रिपॉजिटरी से Whisper Python लाइब्रेरी इंस्टॉल करें:

pip install git+https://github.com/openai/whisper.git

अब, अपनी डायरेक्टरी में किसी भी ऑडियो फ़ाइल को ट्रांसक्राइब करने के लिए इस पायथन स्क्रिप्ट को चलाएं:

import whisper

# बेस मॉडल लोड करें (विकल्प: tiny, base, small, medium, large)
model = whisper.load_model("base")

# लक्षित ऑडियो फ़ाइल को ट्रांसक्राइब करें
result = model.transcribe("interview_recording.mp3")

print(f"पहचानी गई भाषा: {result['language'].upper()}")
print("--- ट्रांसक्रिप्ट ---")
print(result["text"])

यह कैसे काम करता है: बड़े पैमाने पर वीक सुपरविज़न की ताकत

Whisper का आर्किटेक्चर एक एन्कोडर-डिकोडर ट्रांसफॉर्मर पर आधारित है। ऑडियो इनपुट को 30-सेकंड के टुकड़ों में विभाजित किया जाता है, 80-चैनल लॉग-मैग्नीट्यूड मेल-स्पेक्ट्रोग्राम में बदला जाता है, और फिर एन्कोडर में भेजा जाता है।

पारंपरिक मॉडलों के विपरीत, जो केवल ध्वन्यात्मक मिलान (phonetic matching) पर ध्यान केंद्रित करते हैं, Whisper को एक विशाल वेब डेटासेट पर प्रशिक्षित किया गया है। यद्यपि वेब ट्रांसक्रिप्ट हमेशा सही नहीं होते हैं (इसीलिए इसे "वीक सुपरविज़न" कहा जाता है), डेटा की विशाल मात्रा और विविधता मॉडल को संदर्भ, लहजे और बोलचाल के शब्दों को समझने के लिए मजबूर करती है।

डिकोडर ऑटो-रिग्रेसिव है, जो टेक्स्ट टोकन की भविष्यवाणी करता है और साथ ही मेटाडेटा टोकन को भी संभालता है जो मॉडल को निर्देशित करते हैं:

भाषा पहचान (Language Identification): 99 समर्थित भाषाओं में से बोली जाने वाली भाषा की पहचान करना।
वाक्यांश-स्तर टाइमस्टैम्पिंग (Phrase-level Timestamping): यह सटीक रूप से बताना कि शब्द कब बोले गए हैं।
अनुवाद (Translation): गैर-अंग्रेजी भाषण को सीधे अंग्रेजी पाठ में स्वचालित रूप से अनुवादित करना।

प्रमुख तकनीकी विशेषताएं

ज़ीरो-शॉट जनरलाइजेशन (Zero-Shot Generalization): Whisper बॉक्स से बाहर निकलते ही उत्कृष्ट रूप से ट्रांसक्राइब करता है। आपको अपने विशिष्ट उद्योग के कठिन शब्दों के लिए इसे फाइन-ट्यून करने की आवश्यकता नहीं है; इसका वेब-स्केल प्री-ट्रेनिंग पहले से ही तकनीकी, चिकित्सा और अनौपचारिक बातचीत को कवर करता है।
मल्टी-साइज़ मॉडल रेंज: Whisper कई मॉडल आकारों में उपलब्ध है (tiny, base, small, medium, large-v3), जिससे डेवलपर्स अपनी कम्प्यूटेशनल क्षमता और गति के अनुसार सही मॉडल चुन सकते हैं।
शोर के प्रति असाधारण प्रतिरोध: अपने प्रशिक्षण डेटासेट की विविधता के कारण, Whisper भारी बैकग्राउंड शोर, हवा की आवाज़, एक साथ बोलने वाले लोगों और खराब माइक्रोफ़ोन की आवाज़ को आसानी से अनदेखा कर देता है।

लक्षित दर्शक और उपयोग के मामले

डेवलपर प्लेटफॉर्म: महंगे क्लाउड APIs का भुगतान किए बिना स्थानीय रूप से चलने वाले किफायती ट्रांसक्रिप्शन माइक्रोसर्विसेज का निर्माण।
कंटेंट क्रिएटर्स और मीडिया हाउस: सटीक टाइमस्टैम्प के साथ उच्च-सटीकता वाले सबटाइटल (.srt या .vtt) बनाना।
एक्सेसिबिलिटी इंजीनियर्स: सुनने में असमर्थ लोगों के लिए कम-लेटेंसी, रीयल-टाइम कैप्शनिंग टूल विकसित करना।
एंटरप्राइज़ डेटा एनालिटिक्स: ग्राहकों के फीडबैक और व्यवहार को समझने के लिए कॉल सेंटर के बातचीत लॉग का विश्लेषण करना।

Whisper क्यों महत्वपूर्ण है

Whisper ने उच्च-सटीकता वाले स्पीच रिकॉग्निशन को पूरी तरह से लोकतांत्रिक बना दिया है। इसके रिलीज़ होने से पहले, इस स्तर की सटीकता के लिए Google, Microsoft या Amazon के महंगे क्लाउड APIs पर निर्भर रहना पड़ता था। Whisper को ओपन-सोर्स करके, OpenAI ने डेवलपर्स को एक विश्व स्तरीय, ऑफ़लाइन काम करने वाला ASR इंजन सौंप दिया है। इसने ओपन-सोर्स स्पीच मॉडलों की दुनिया को हमेशा के लिए बदल दिया है।

GitTrending संपादकीय टीम द्वारा क्यूरेट किया गया

यह तकनीकी समीक्षा openai/whisper के स्रोत कोड और दस्तावेज़ीकरण का विश्लेषण करके हमारे विशेष एआई डेवलपर एजेंट द्वारा तैयार की गई थी, और बाद में सटीकता और उच्च गुणवत्ता सुनिश्चित करने के लिए मानव विशेषज्ञों द्वारा समीक्षा की गई थी। हमारा मिशन आपको उभरते ओपन-सोर्स टूल में सबसे विश्वसनीय अंतर्दृष्टि प्रदान करना है।

अक्सर पूछे जाने वाले प्रश्न

openai/whisper क्या है और यह क्या करता है?

डिक्टेशन से परे: क्यों OpenAI का Whisper ही एकमात्र ऐसा Speech-to-Text मॉडल है जो वास्तविक दुनिया में काम करता है Python में लिखा गया एक ट्रेंडिंग ओपन-सोर्स प्रोजेक्ट है। OpenAI का Whisper 680,000 घंटे के विविध ऑडियो पर बड़े पैमाने पर वीक सुपरविज़न (Weak Supervision) का उपयोग करके स्पीच रिकॉग्निशन को फिर से परिभाषित करता है। यह तकनीकी गाइड आपको केवल पांच लाइनों के पायथन कोड में ऑफ़लाइन-सक्षम ट्रांसक्रिप्शन लागू करना सिखाती है।

मैं whisper का आधिकारिक स्रोत कोड कहाँ पा सकता हूँ?

आधिकारिक स्रोत कोड, इश्यू ट्रैकर और दस्तावेज़ GitHub पर https://github.com/openai/whisper पर एक्सेस किए जा सकते हैं।

मैं openai/whisper में कैसे योगदान दे सकता हूँ?

आप इसके आधिकारिक GitHub रिपॉजिटरी पर सीधे बग रिपोर्ट करके, नई सुविधाओं का सुझाव देकर, दस्तावेज़ों में सुधार करके, या पुल अनुरोध सबमिट करके योगदान दे सकते हैं।