您好,登錄后才能下訂單哦!
本篇內容介紹了“Python自然語言包有哪些”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
談論Python中的nlp庫,不能不提NLTK。它是最著名的Python NLP庫,它在這個領域中取得了令人難以置信的突破。NLTK負責征服許多文本分析的問題,NLTK也頗受教育與研究界的青睞。在自己的網站上,NLTK自稱是“一個令人驚嘆的自然語言庫。”
在我們的經驗中,關鍵詞是“玩”。NLTK在50個語料庫和詞典,9個詞干器,以及幾十種可選的算法。它是一個學術研究者的主題公園。
然而,這也是NLTK一個主要的缺點。它是沉重的,滑滑的,它有一個陡峭的學習曲線。第二個主要缺點是緩慢而不是生產準備就緒。
textblob坐在巨人肩上,與此類似的另一個庫是Pattern。事實上,我們推薦textblob而不是Pattern。
textblob使文本處理提供一個直觀的界面,簡單化的NLTK。因為它有一個溫和的學習曲線,同時擁有驚人的功能,使其成為Python最受歡迎的自然語言庫。
例如,假設你想找到一個文本的情感分數。你可以:
from textblob import TextBlob opinion = TextBlob("EliteDataScience.com is dope.")opinion.sentiment
默認情況下,情緒分析儀是從模式庫的patternanalyzer。但如果你想使用樸素貝葉斯分析?你可以很容易地轉換到一個使用nltk訓練好的analyzer。
from textblob import TextBlobfrom textblob.sentiments import NaiveBayesAnalyzer opinion = TextBlob("EliteDataScience.com is dope!", analyzer=NaiveBayesAnalyzer())opinion.sentiment
textblob是一種簡單、有趣的庫,使得文本分析是一種輕松愉快的事情。我們可以用textblob對付所有NLP的初始原型。
Stanford corenlp庫是自然語言分析生產準備階段的工具套件。它包括詞性(POS)標注,實體解析,模式識別,學習等。 “雇傭軍”實際上是用Java寫而不是Python寫的。
許多組織使用corenlp來實現其產品。它幾乎能夠準確的支持幾個主要的語言。
Spacy是一個新生事物,它一經推出就轟動業界。市場定位于運行效率的Python自然語言庫。
Spacy是很輕很小的,它的哲學是對每一個問題只提出一種算法(最好的一種)。你不必做出選擇,你可以專注于富有成效。
內核是Cpython,所以Spacy運行很快。它的主要缺點是它目前只支持英語。
Spacy是很新的,所以其支持社區不象其他庫那么大。然而,它的NLP的方法是如此引人注目,似乎未來可以取代NLTK。
如果你正在建設一個新的應用程序或改造舊的(你只需要英語的支持),那么我們強烈建議使用Spacy。
最后但并非最不重要的,我們有gensim庫。gensim不解決所有nlp領域,它只做一部分,并將其做好。你不會把你的海軍上將派到陸戰場景,同理你也不會用gensim去解決nlp的所有領域和情景。
gensim是一個很好的主題建模和文檔相似性分析優化庫。在這里列出的Python NLP庫中,它是最專業的。
即便如此,這還是一個有價值的工具來添加你的曲目。它的主題建模算法,如潛在的狄利克雷分配(LDA)實現,是所有庫中最棒的。此外,它強健、高效、可擴展。
另外,子字段語義分析(或主題建模)是現代自然語言處理中最令人興奮的領域之一。
“Python自然語言包有哪些”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。