您好,登錄后才能下訂單哦!
php爬蟲如何運行?這個問題可能是我們日常學習或工作經常見到的。希望通過這個問題能讓你收獲頗深。下面是小編給大家帶來的參考內容,讓我們一起來看看吧!
說到做爬蟲,大家都可能第一時間想到的是python,其實php也是可以用來寫爬蟲程序的。php一貫簡潔、易用,親測使用PHPspider框架能寫出一個簡單的爬蟲。
匹配方式使用XPach語法。
<?php require '/vendor/autoload.php'; use phpspider\core\phpspider; /* Do NOT delete this comment */ /* 不要刪除這段注釋 */ $configs = array( 'name' => '簡書', 'log_show' =>false, 'tasknum' => 1, //數據庫配置 'db_config' => array( 'host' => '127.0.0.1', 'port' => 3306, 'user' => 'root', 'pass' => '', 'name' => 'demo', ), 'export' => array( 'type' => 'db', 'table' => 'jianshu', // 如果數據表沒有數據新增請檢查表結構和字段名是否匹配 ), //爬取的域名列表 'domains' => array( 'jianshu', 'www.jianshu.com' ), //抓取的起點 'scan_urls' => array( 'https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop' ), //列表頁實例 'list_url_regexes' => array( "https://www.jianshu.com/c/\d+" ), //內容頁實例 // \d+ 指的是變量 'content_url_regexes' => array( "https://www.jianshu.com/p/\d+", ), 'max_try' => 5, 'fields' => array( array( 'name' => "title", 'selector' => "//h2[@class='title']", 'required' => true, ), array( 'name' => "content", 'selector' => "//div[@class='show-content-free']", 'required' => true, ), ), ); $spider = new phpspider($configs); $spider->start();
打完代碼后,記得根據要抓取的內容建立對應的數據庫、數據表,字段要能對對上。
接著cmd,輸入
php -f d:\jianshu\spider.php
運行如下
感謝各位的閱讀!看完上述內容,你們對php爬蟲如何運行大概了解了嗎?希望文章內容對大家有所幫助。如果想了解更多相關文章內容,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。