php提取網頁正文內容的例子_PHP教程
推薦:PHP官方Windows擴展列表發現很多學PHP的同學常常因為找不到PHP在windows下對應的擴展而抓破頭,因此分享一下PHP Windows所有可以找到的擴展索引資源: PHP 5.2/5.3的Windows擴展索引站點: 在這里你可以找到諸如php_oci8.dll, php_memcache.dll, php_mongo.dll, php_apc.dll等常用的Windows擴
因為難點在于如何去識別并保留網頁中的文章部分,而且刪除其它無用的信息,并且要做到通用化,不能像火車頭那樣根據目標站來制定采集規則,因為搜索引擎結果中有各種的網頁。
抓回一個頁面的數據,如何匹配出正文部分,鄭曉在下班路上想了個思路是:
1. 提取出body標簽部分–>剔除所有鏈接–>剔除所有script、注釋–>剔除所有空白標簽(包括標簽內不含中文的)–>獲取結果。
2. 直接匹配出非鏈接的、 符合在div、p、h標簽中的中文部分???
還是會有不少其它多余信息啊,比如底部信息等。。 如何搞?不知道大家有木有什么思路或建議?
這個類是從網上找到的一個php實現的提取網頁正文部分的算法,鄭曉在本地也測試了下,準確率非常高。
使用起來也非常簡單,實例化時傳入網頁的html源碼和相應的編碼,然后直接調用其getContent方法即可返回提取到的正文部分,提取出的文章中可能還會含有少部分鏈接,可以自己后期再修改
分享:修改php.ini中的max_input_vars參數限制提交的表單數量折騰了半天,發現了這個奧秘,原來php小版本升級引起的不兼容, php.ini 文件里的 max_input_vars 默認值為 1000, 正常情況下夠用,偶爾遇到我這種提交2000多個表單的情況還是比較少見的,不過,如果發現提交表單個數不全的情況,可以試試修改這個配置。 修改后重啟ph
- phpmyadmin安裝教程 phpmyadmin安裝配置
- PHP程序員必須遵循的PHP編程準則
- PHP官方Windows擴展列表
- 修改php.ini中的max_input_vars參數限制提交的表單數量
- 快速找出php中可能導致cpu飆升問題的代碼行
- php驗證URL是否合法的函數
- PHP中排列組合及性能對比
- PHP合并2個數字鍵數組的值的程序
- php方法重寫:Declaration of should be compatible with that
- PHP通過內置函數memory_get_usage()獲取內存使用情況
- IIS下PHP的三種配置方式對比
- PHP超時處理應用場合及解決方案全面總結
- 相關鏈接:
- 教程說明:
PHP教程-php提取網頁正文內容的例子
。