Cora、Citeseer和Pubmed是三個常用的圖分類數據集,用于研究和評估圖分類算法。
-
Cora數據集:
- 由Cornell大學研究人員創建。
- 包含文獻數據庫中的2708篇科研論文,分為7個領域。
- 每篇論文由一個128維度的詞袋模型表示。
- 論文之間的邊表示引用關系。
-
Citeseer數據集:
- 由Cornell大學研究人員創建。
- 包含3327篇科研論文,分為6個領域。
- 每篇論文由一個3703維度的詞袋模型表示。
- 論文之間的邊表示引用關系。
-
Pubmed數據集:
- 由美國國立衛生研究院創建。
- 包含19717篇生物醫學論文,分為3個領域。
- 每篇論文由一個500維度的詞袋模型表示。
- 論文之間的邊表示共同作者關系。
這些數據集常用于圖分類任務,其中圖分類是指根據節點的屬性和連接方式,將圖中的節點劃分到不同的類別中。這些數據集對于研究者來說是非常有用的,因為它們提供了現實世界中各種領域的真實數據,可以用來評估和比較不同的圖分類算法的性能。