======================================
這次還是針對RegularExpression來說明
請看以下的表達式唄
======================================
一般來說Sitemap是用來表示一個網站的架構,也就是網站地圖,
所以網站內部的網頁(前台)似乎都會放置於此文件之中(不知是否有例外,尚待確認!?)
因為包仔必須於Sitemap中取得網站的網頁,所以才決定由此文件獲取必要資訊。
======================================
先介紹一下包仔要搜尋的SiteMap結構如何:
在包仔低SiteMap裡面可以看出有三個網頁,第一層的首頁裡面包含兩個頁面,包仔欲從此文件找出這三張網頁!
請看以下之RegularExpression
正規式:<\w*\s+\w*=["']+([^" >]+)["']?\s+\w*=["']+([^" >]+)["']?
規則解釋如下:
< :這是起點符號 <
\w* :表示出現的是字元且出現次數為零次以上
\s+ :表示出現為空格且出現為一次以上
["']+ :判斷符號單引號或是雙引號且出現一次以上;後面接的如果為?則為判斷後中斷擷取之此符號
[^" >]+ :除了雙引號之外所有出現一次以上的字元
() :搜尋結果群組化
= :為=之符號
...