您好,登錄后才能下訂單哦!
這篇文章主要介紹了python語音識別whisper如何使用的相關知識,內容詳細易懂,操作簡單快捷,具有一定借鑒價值,相信大家閱讀完這篇python語音識別whisper如何使用文章都會有所收獲,下面我們一起來看看吧。
Whisper 是一種通用的語音識別模型。它在不同音頻的大型數據集上進行訓練,也是一個多任務模型,可以執行多語言語音識別以及語音翻譯和語言識別。
stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代碼發布,生成更準確的階段時間切換,并在無須額外推介的情況下獲得申領
安裝
pip install openai-whisper pip install stable-ts
Size | Parameters | English-only model | Multilingual model | Required VRAM | Relative speed |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
模型越大,越精確,相應話費的時間越長
自帶語言識別功能,language最好加上,下面歌曲識別為英語,加后為中文
stable_whisper 是 whisper 進化版
import whisper import stable_whisper as whisper class WhisperTranscriber(object): def __init__(self, model_name): self.model = whisper.load_model(model_name) def whisper_transcribe(self, audio_path): audio = self.model.transcribe(audio_path, fp16=False, language='Chinese') return audio['text'] if __name__ == '__main__': transcriber = WhisperTranscriber("base") text = transcriber.whisper_transcribe("257853511.mp3") print(text)
可能是伴奏聲音過大,你才出來這是什么歌了嗎?stable_whisper 別的用法、生成字幕
import stable_whisper model = stable_whisper.load_model('base') results = model.transcribe('257853511.mp3', fp16=False, language='Chinese') stable_whisper.results_to_sentence_srt(results, 'audio') stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')
buzz
如果遇到簡繁轉換可以石下面
pip install zhconv
zh-cn 大陸簡體
zh-hant 繁體
from zhconv import convert convert('Python是一種動態的、面向對象的腳本語言', 'zh-hant') 'Python是一種動態的、面向對象的腳本語言'
關于“python語音識別whisper如何使用”這篇文章的內容就介紹到這里,感謝各位的閱讀!相信大家對“python語音識別whisper如何使用”知識都有一定的了解,大家如果還想學習更多知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。