在Pig中進行數據過濾操作通常使用FILTER關鍵字。可以通過指定一個條件表達式來過濾出符合條件的數據。
例如,假設我們有一個包含學生信息的數據集,包括學生姓名和分數,我們想要過濾出分數大于等于60的學生數據,可以使用以下語句:
student_data = LOAD 'input/student_data' USING PigStorage(',') AS (name:chararray, score:int);
filtered_data = FILTER student_data BY score >= 60;
DUMP filtered_data;
上面的代碼首先加載學生數據,并將其存儲在名為student_data的關系中。然后使用FILTER關鍵字過濾出分數大于等于60的學生數據,并將結果存儲在名為filtered_data的關系中。最后使用DUMP語句將過濾后的數據輸出到控制臺。