2007年7月10日 星期二

SiteMap網頁搜尋方法

======================================


這次還是針對RegularExpression來說明


請看以下的表達式唄



======================================


一般來說Sitemap是用來表示一個網站的架構,也就是網站地圖,


所以網站內部的網頁(前台)似乎都會放置於此文件之中(不知是否有例外,尚待確認!?)


因為包仔必須於Sitemap中取得網站的網頁,所以才決定由此文件獲取必要資訊。


======================================


先介紹一下包仔要搜尋的SiteMap結構如何:




在包仔低SiteMap裡面可以看出有三個網頁,第一層的首頁裡面包含兩個頁面,包仔欲從此文件找出這三張網頁!


請看以下之RegularExpression


正規式:<\w*\s+\w*=["']+([^" >]+)["']?\s+\w*=["']+([^" >]+)["']?




規則解釋如下:


< :這是起點符號 <


\w* :表示出現的是字元且出現次數為零次以上


\s+ :表示出現為空格且出現為一次以上


["']+ :判斷符號單引號或是雙引號且出現一次以上;後面接的如果為?則為判斷後中斷擷取之此符號


[^" >]+ :除了雙引號之外所有出現一次以上的字元


() :搜尋結果群組化


= :為=之符號

HEMiDEMi Technorati Del.icio.us MyShare個人書籤 Yahoo

0 意見: