您好,登錄后才能下訂單哦!
本文小編為大家詳細介紹“Extracting, transforming和selecting features的使用方法是什么”,內容詳細,步驟清晰,細節處理妥當,希望這篇“Extracting, transforming和selecting features的使用方法是什么”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學習新知識吧。
Table of Contents
Feature Extractors 特征提取
TF-IDF
Word2Vec
CountVectorizer
Feature Transformers 特征變換
Tokenizer 分詞器
StopWordsRemover 停用字清除
nn-gram
Binarizer 二元化方法
PCA 主成成分分析
PolynomialExpansion 多項式擴展
Discrete Cosine Transform (DCT-離散余弦變換)
StringIndexer 字符串-索引變換
IndexToString 索引-字符串變換
OneHotEncoder 獨熱編碼
VectorIndexer 向量類型索引化
Interaction
Normalizer 范數p-norm規范化
StandardScaler 標準化 基于特征矩陣的列,將屬性值轉換至服從正態分布
MinMaxScaler 最大-最小歸一化[0,1]
MaxAbsScaler 絕對值歸一化[-1,1]
Bucketizer 分箱器
ElementwiseProduct Hadamard乘積
SQLTransformer SQL變換
VectorAssembler 特征向量合并
QuantileDiscretizer 分位數離散化
Imputer
Feature Selectors 特征選擇
VectorSlicer 向量選擇
RFormula R模型公式
ChiSqSelector 卡方特征選擇
Locality Sensitive Hashing 局部哈希敏感
Bucketed Random Projection for Euclidean Distance 歐式距離分桶隨機投影
MinHash for Jaccard Distance 杰卡德距離
Feature Transformation 特征轉換
Approximate Similarity Join 近似相似聯接
Approximate Nearest Neighbor Search 近似最近鄰搜索
LSH Operations
LSH Algorithms
詞頻-逆向文件頻率(TF-IDF)是一種特征向量化方法,廣泛用于文本挖掘中,以反映詞語對語料庫中文檔的重要性。 用tt表示詞語,用dd表示文檔,用DD表示語料庫。 詞語頻率TF(t,d)TF(t,d)
是詞語tt在文檔dd中出現的次數,而文檔頻率DF(t,D)DF(t,D)
是包含詞語的文檔數量 tt。 如果我們僅使用詞語頻率來衡量重要性,則很容易過分強調那些經常出現但幾乎沒有有關文檔信息的詞語,e.g. “a”, “the”, and “of”。 如果一個詞語在整個語料庫中經常出現,則表示該詞語不包含有關特定文檔的重要信息。 反向文檔頻率是一個詞語提供多少信息的數字度量:
IDF(t,D)=log|D|+1DF(t,D)+1,
D
是語料庫中文檔的總數。由于使用了log函數,如果某個詞語出現在所有文檔中,則其IDF值將變為0。加1是為了避免分母為0的情況。TF-IDF 度量值表示如下:
TFIDF(t,d,D)=TF(t,d)?IDF(t,D).
在 MLlib ,TF-IDF被分成兩部分:TF 和 IDF,這樣會更靈活。
TF: HashingTF和CountVectorizer都可以用來生成詞語頻率向量。.
HashingTF是一個轉換器,它接受詞條并將這些術語集轉換為固定長度的特征向量。在文本處理中,一個詞袋模型。HashingTF utilizes the hashing trick.原始特征使用hash 函數映射成為索引。這里hash函數是MurmurHash 3。然后根據映射的索引計算詞頻。這種方法避免了需要計算一個全局 term-to-index 地圖,在映射大量語料庫時需要花費更長的時間。但是存在的哈希沖突,即哈希后,不同的原始特征可能會是同一個詞。為了減少碰撞的機會,我們可以增加特征維度,i.e., 提高hash表的桶數。由于使用了簡單的模將哈希函數轉換為列索引,建議使用2的冪作為特征維,否則,要素將不會均勻地映射到列。默認的特征維度是218=262,144218=262,144。可選的binary toggle parameter控制項頻率計數。設置為true時,所有非零頻率計數都設置為1。這對于模擬二進制計數而非整數計數的離散概率模型特別有用。
將文本文檔轉換為詞語計數的向量。 有關更多詳細信息,請參考 CountVectorizer。.
IDF: IDF是一個Estimator,在一個數據集上應用它的fit()方法,產生一個IDFModel。 該IDFModel 接收特征向量(由HashingTF產生),然后計算每一個詞在文檔中出現的頻次。IDF會減少那些在語料庫中出現頻率較高的詞的權重。
Note: spark.ml
沒有提供文本分割工具。 We refer users to the Stanford NLP Group and scalanlp/chalk.
讀到這里,這篇“Extracting, transforming和selecting features的使用方法是什么”文章已經介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領會,如果想了解更多相關內容的文章,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。