一起草最新网址_日韩一区二区麻豆国产_91视频婷婷_日本一区二区视频在线_日韩激情一区二区三区_国产另类第一区_成人免费在线播放视频_亚洲永久精品ww.7491进入_久久这里有精品视频_久久精品一级片_日韩av在线网页_波多野结衣不卡视频

基于Lucene/XML的站內全文檢索的解決方案_Xml教程

編輯Tag賺U幣
教程Tag:暫無Tag,歡迎添加,賺取U幣!

推薦:解析XML數據庫
----------------------------------概述---------------------------- XML數據庫(廣義) = XML-enabled數據庫 + native-XML數據庫 XML-enabled數據庫 = 內部不以XML格式存儲數據 native-XML數據庫 = 內部以XML格式存儲數據 --------------------------

版權聲明:可以任意轉載,轉載時請務必以超鏈接形式標明文章原始出處和作者信息及本聲明
http://www.chedong.com/tech/weblucene.html

內容摘要:
為Lucene做一個通用XML接口一直是我最大的心愿:更方便的在WEB應用中嵌入全文檢索功能

提供了XML的數據輸入接口:適合將原有基于各種數據庫的數據源導入到全文索引中,保證了數據源的平臺無關性;
通過了基于XML的搜索結果輸出:方便了通過XSLT進行前臺的結果顯示;
MySQL \ / JSP Oracle - DB - ==> XML ==> (Lucene Index) ==> XML - ASP MSSQL / - PHP MS Word / \ / XHTML PDF / =XSLT=> - TEXT \ XML \_________WebLucene__________/ 使用過程如下:
將數據用腳本導出成XML格式;
將XML數據源導入LUCENE索引;
從WEB界面得到XML結果輸出,并通過XSLT生成HTML頁面

站內全文檢索的必要性
雖然大型搜索引擎的功能已經越來越強大了,很多站點都使用了Google的站內檢索site:domain.com代替了自己的站內數據庫“全文”檢索。但依靠GOOGLE這樣的大型搜索引擎做站內檢索會有以下弊端:

數量有限:搜索引擎并不會深度遍歷一個網站,而將網站所有的內容都索引進去,比如Google就喜歡靜態網頁,而且是最新更新的,而不喜歡帶?的動態網頁,Google甚至會定期將缺少入口的網站內容逐漸拋棄;
更新慢:搜索引擎針對站點的更新頻率也是有一定周期的,很多內容需要一定時間后才能進入GOOGLE的索引:目前Google Dance的周期是21天左右;
內容不精確:搜索引擎需要通過頁面內容提取技術將導航條,頁頭頁尾等內容過濾掉,反而不如直接從后臺數據庫提取數據來得直接,這種摘要和排重機制是很難實現的;
無法控制輸出:也許有更多的輸出需求,按時間排序,按價格,按點擊量,按類目過濾等
系統的搭建
下載:
http://sourceforge.net/projects/weblucene/

XML數據源的導入:

只要數據源可以導出成3層的XML結構,就都可以用IndexRunner這個命令行工具導入:

比如從數據庫導出:news_dump.xml
<?xml version="1.0" encoding="GB2312"?>
<Table>
<Record>
<Title>標題</Title>
<Author>作者</Author>
<Content>內容</Content>
<PubTime>2003-06-29</PubTime>
</Record>
<Record>
<Title>My Title</Title>
<Author>chedong</Author>
<Content>abc</Content>
<PubTime>2003-06-30</PubTime>
</Record>
...
</Table>

IndexRunner -i news_dump.xml -o c:\index -t Title,Content -n Author
-i news_dump.xml: 以news_dump.xml為數據源
-o c:\index 索引庫建立在c:\index目錄下
索引建立Title Author Content PubTime這幾個字段外,按以下規則建立索引:
-t Title,Content 一個進行分詞的全文索引TokenIndex:數據是Title Content這2個字段
-n Author 一個不分詞的索引:NoTokenIndex:數據源是Author這個字段。

對于RSS數據源:
<?xml version="1.0"?>
<rss version="0.92">
<channel>
<title>Amazon: Books Arts &amp; Photography</title>
<link>http://www.lockergnome.com/</link>
<description>Amazon RSS Feed</description>
<lastBuildDate>Sun, 29 Jun 2003 01:05:01 GMT</lastBuildDate>
<docs>http://www.lockergnome.com/</docs>
<webMaster>amazonfeed@lockergnome.com (Lockergnome RSS Generator)</webMaster>
<item>
<title>The Artist's Way: A Spiritual Path to Higher Creativity - 11.17</title>
<link>http://www.amazon.com/exec/obidos/ASIN/1585421464/lockergnomedigit/?ref=nosim&amp;dev-it=D34HUVGKB34YFX</link>
<description>http://www.lockergnome.com/ </description>
</item>
...
</channel>

IndexRunner -i http://www.example.com/rss.xml -o c:\index -t title,description -n link -l 4
-l 4 表示拿第4層節點作為字段映射,

IndexRunner還提供了-a -m這兩個選項:用于增量索引和批量索引優化。
-a 增量索引,表示在原有索引的基礎上擴展
-m mergeFactor 在Lucene中mergeFactor是一個針對批量索引的優化參數,控制多少條處理完多少條記錄(Document)后,寫入一次索引,寫入頻率越高,內存使用越少,但索引速度越慢,所以在大批量數據導入時需要增大文件寫入的間隔,多讓索引在內存中操作。

搜索結果輸出:


以下是系統設計過程中一些設計的思路:

做為工業標準的XML
記得以前有關于肯德基的炸薯條斷頓的報道。從這個事件報道中我們可以看到一種更高效的管理體系:對于快餐店這樣全球性的企業來說,要保證各地提供的薯條品質,成本最低的方法肯定是依靠機器而不是廚師,如果要求薯條機能夠處理各種形狀不一的土豆,機器的復雜程度和維護成本都會很高。所以土豆必須嚴格符合工業標準才能讓結構比較簡單的薯條機生產出符合標準的薯條,因此,薯條的加工機械會嚴格按照土豆協會的土豆工業標準設計。高質量的原料可以大大降低后期加工設備的成本,因此從總體成本上講還是合算的。
對于軟件應用開發者來說:應用和應用之間,企業和企業之間交換的數據好比就是土豆,白菜,按照嚴格的XML標準設計的接口作為企業之間后臺數據交換的工業標準,雖然不如簡單的CSV格式高效,但缺能大大簡化下游工序的后期加工成本。


不難想象為什么處理HTML的瀏覽器:IE和Mozilla等瀏覽器軟件大小都在10M以上,但一般處理XML的解析器一般都在幾百K。除了沒有界面外,HTML瀏覽器需要為太多不規范的HTML代碼提供大量容錯處理也是一個很重要的原因,而語法嚴格,規則簡單的XML處理器就可以做的很簡短,高效,體積越“小”就意味著適應性越廣:這點在手機這樣的硬件配置比較低的設備環境中顯得尤其重要。

雖然XML在后臺數據交換方面,有著巨大的潛力。在前臺表現方面,XML并不會馬上代替HTML,很多通過XSLT輸出的HTML仍然需要結合CSS來進行表現。XML ==XSLT==> HTML + CSS。但是由于太多的網頁都是用HTML做的,相信XML沒有必要馬上代替這些已有的機制。

此外在應用的國際化支持方面XML和Java簡直是絕配:XML數據源用Java解析后是UNICODE,這樣無論是日文,繁體中文還是德文的內容我們都可以在一個索引庫中同時進行搜索。這樣針對其他語言的支持只是設計各種語言界面的問題了。

GBK \ / BIG5 BIG5 - UNICODE ====> Unicode - GB2312 SJIS - (XML) (XML) - SJIS ISO-8859-1 / \ ISO-8859-1
使用XML的另外一個額外好處在于:開發人員一般都沒有仔細理解Java的字符集(其實上是JVM的缺省file.encoding屬性)受系統本地化設置的影響,基于XML的輸入使得數據的字符解碼過程變得透明:不用再和用戶解釋需要如何解碼,編碼數據源。不過,XML的學習成本還是比較高的,假設你HTML的學習成本是1,XML則可能為10,而XSLT的學習成本則可能高達100。

傳統數據庫應用的全文檢索加速
讓數據庫負責精確匹配,將模糊匹配用獨立的系統實現
一個站點內容積累在萬級以上,站內全文檢索就會是用戶定位最主要的手段,而關鍵詞檢索是用戶最熟悉的方法。因此基于數據庫的傳統WEB應用在全文檢索需求還是很大的。

但是可怕的%like%數據庫操作可能會吃掉數據庫服務器90%以上的CPU。Oracle MSSQL等數據庫服務器中數據庫內置的全文檢索基本上都不太適合WEB應用。而數據庫另外一個的弊端在于對于條件簡單的查詢返回結果集非常大:數據庫并不知道如何面向用戶最關心的的頭100條結果進行優化。根據以前的統計:頭100條結果往往已經可以滿足95%以上用戶需求。

需要緩存設計:根據我們的經驗,在應用設計中沒有必要進行內置的結果緩存設計:讓前臺的應用服務器內置的緩存機制或者反相代理緩存服務器進行緩存就夠了。

數據同步策略
總體上講,全文檢索和數據庫其實是2種根本不同的應用模式,全文檢索系統其實往往也沒有必要和數據庫那么高的實時同步機制,如果按照:低更新,高緩存的模式進行設計:數據庫數據到全文索引的同步過程一般都可以通過腳本定期將數據庫的數據導出成XML,然后進入Lucene的全文索引。而針對原有數據記錄的更新和刪除,其實一般可以通過定期的重建索引解決。WebLucene其中索引部分是一個IndexRunner的命令行程序實現的。

結果排序策略
站內全文索引另外一個很重要的需求是可定制的排序:按時間,按價格,按點擊量……Lucene全文索引缺省只提供了根據關鍵詞在原文中的匹配度排序,而任何根據某個字段的值進行排序的都無法避免再次遍歷數據,從而導致性能有數量級的下降(等于又是做%Like%檢索),而在索引中,除了匹配度SCORE外,唯一能用來排序的就是索引記錄的ID,所以一個比較高效率實現定制排序的方法時:在索引時,讓進入Lucene全文的順序對應著一定規則:比如時間,然后在搜索時,讓搜索結果按照索引記錄的ID進行排序(或倒排)。

搜索結果關鍵詞標引的實現
搜索結果中關鍵詞通過紅色或者黑體字標記出來,為了能夠更恰當的顯示相關上下文的問題,標引是通過限制了一個掃描范圍,然后根據一個分析器將指定的詞流式的讀取出來,然后

全文檢索和其他應用的集成
其實核心的是一個Lucene的XML接口:SAX方式的數據導入和DOM方式的結果輸出。

XML的數據源定義:
只要是能夠映射成表=》記錄=》字段這樣層次結構的都可以。因此WebLucene索引的設計比較靈活,甚至可以直接用來索引RSS。

XML結果定義:參考了Google的XML接口的設計

如果沒有SERVLET界面,提供XML輸出的DOMSearcher也可以很方便集成到各種應用系統中。


參考資料:

系統設計中使用的一些模塊:
Jakarta Lucene:
http://jakarta.apache.org/lucene/

Xerces / Xalan
http://xml.apache.org/

Log4j
http://jakarta.apache.org/log4j/


Google的XML接口定義:
http://www.google.com/google.dtd

 

分享:解析xslt的用途
adun今天問我xslt到底有什么用。相對于其他技術,它有什么存在的必要性。 xslt的主要作用是對xml結構的轉換,即它是一種描述結構變換規則的語言。不過也可以將它與我們更熟悉的用于生成html(結構)的模板語言作一個對比。 1. 兩者都能直接生成xml格式的文本(

來源:模板無憂//所屬分類:Xml教程/更新時間:2010-03-24
相關Xml教程
最近国语视频在线观看免费播放| 精品国产av 无码一区二区三区| 亚洲精品一区二区久| 国产精品初高中精品久久| 91传媒久久久| 国产视频第二页| 欧美日韩极品在线观看一区| 久一视频在线观看| 欧美高清视频免费观看| 精品午夜福利在线观看| 国产精品高清免费在线观看| 亚洲国产日韩一级| 午夜成人免费影院| 亚洲黄色片免费看| 国产日韩中文字幕在线| 色综合久久久久久| 精品蜜桃传媒| 美女视频一区免费观看| 久久艹中文字幕| 丁香六月婷婷综合| 亚洲欧洲综合另类| 2020国产精品久久精品不卡| 久久高清内射无套| 久久一区二区三区四区五区| 亚洲欧美日韩一区二区在线| 国产探花在线视频| 欧美成人午夜激情在线| 朝桐光av在线一区二区三区| 九九热最新视频//这里只有精品| 91在线播放观看| 国产亚洲精品高潮| 日韩精品 欧美| 国产精品欧美一区喷水| 久久久久久久久亚洲| 中文字幕一区二区久久人妻网站 | 日韩视频免费看| 一区二区美女视频| 亚洲一区三区电影在线观看| 欧美视频日韩视频| 亚洲精品18p| 欧美精品免费在线观看| 日本人妖一区二区| 性欧美精品一区二区三区在线播放 | 日韩欧美亚洲国产精品字幕久久久| 国产精品无码电影| 日韩在线观看av| 国产十八熟妇av成人一区| 久久伊人精品一区二区三区| 国产伦精品一区二区三区| 国产一区二区三区在线看麻豆| 成人福利网站在线观看11| 精品人妻伦一二三区久久| 精品日韩美女| 刘玥91精选国产在线观看| 97精品视频在线播放| 成人一级片在线观看| 亚洲av无码一区东京热久久| 欧美麻豆久久久久久中文 | 性久久久久久久久久久久| 大肉大捧一进一出好爽动态图| 日韩美女av在线| 99国产精品99久久久久久| 亚洲精品无码久久久久久久| 国产a级片免费看| 黄色99视频| 欧美日韩国产天堂| 中国女人真人一级毛片| 51国偷自产一区二区三区的来源 | 久久高清视频免费| 一区二区三区日韩欧美精品| 亚洲小说欧美另类激情| av在线不卡网| 轻点好疼好大好爽视频| www亚洲一区| 国产精品嫩草影院桃色| 国产欧美日韩小视频| 日韩久久久精品| 久久精品一区蜜桃臀影院| 99在线精品免费| 成人网男人的天堂| 日韩成人精品在线| 日韩和欧美一区二区| 亚洲久久久久久久| 国产精品日韩高清| 欧美精品久久99久久在免费线| 中文天堂在线视频| 国产麻豆天美果冻无码视频| 97高清免费视频| 国产精品玖玖玖| 99re资源| 亚洲乱码国产乱码精品精98午夜 | 精品无码久久久久久久动漫| 午夜久久电影网| 狠狠色丁香久久婷婷综| 91av久久久| 毛片毛片女人毛片毛片| 好吊操这里只有精品| 亚洲视屏在线观看| 国产性猛交╳xxx乱大交| 日韩av综合在线观看| 欧美国产视频一区二区| 久久一日本道色综合| 国产一级18片视频| 亚洲 激情 在线| 亚洲国产成人久久综合| 男人天堂视频网| 国产91一区二区三区| 国产精品免费aⅴ片在线观看| 亚洲天堂一区在线观看| 国产野外作爱视频播放| 色综合老司机第九色激情| 欧美日韩中字一区| 在线视频你懂得一区二区三区| 色综合网色综合| 日韩欧美国产综合一区 | 性生活在线视频| 水蜜桃色314在线观看| 亚洲一区二区三区成人在线视频精品 | 中文字幕第一页久久| 国产成人亚洲精品自产在线 | 国产精品亚发布| 成人永久免费| 亚洲欧美一区二区三区在线| 色欧美日韩亚洲| 99精品久久久久久| 深田咏美中文字幕| 免费精品99久久国产综合精品应用| 人人妻人人澡人人爽欧美一区双| 国产3p在线播放| 精品99久久久久成人网站免费| 国产又粗又长又黄| 三级不卡在线观看| 日韩av在线播放中文字幕| 中文字幕一区二区免费| 女人扒开腿免费视频app| 亚洲精品一区二区三区四区五区| 国产国语videosex另类| 欧美日韩国产bt| 精品一区二区三区久久| 日韩欧美三级视频| 日韩精品成人一区二区三区| 国产美女激情视频| 亚洲三区在线观看| 日本免费在线视频观看| 51ⅴ精品国产91久久久久久| 欧美亚洲国产一卡| 亚洲一区二区三区在线看| 国产精品一区一区三区| 555www色欧美视频| 国产精品美女主播| 手机看片一级片| 久久久久久91亚洲精品中文字幕| 国内自拍视频在线播放| 免费视频网站www| 久久久视频6r| 中文字幕国产专区| bl动漫在线观看| 妺妺窝人体色www聚色窝仙踪| 欧美色图色综合| 国产伦精品一区二区三区精品视频| 欧美日韩国产乱码电影| 成人黄色av电影| 国产精品玖玖玖| 疯狂揉花蒂控制高潮h| 国产精成人品免费观看| 交换做爰国语对白| 久久黄色一级视频| 欧美成人aaaaⅴ片在线看| 国产99久久久久久免费看农村| 欧美影视一区二区三区| 国产精品美女视频网站| 人妻有码中文字幕| 97人人模人人爽人人澡| 国产免费无码一区二区| 国产成人精品一区二区三区在线观看 | 久久最新免费视频| 国产精品日韩在线| 久久精品视频一| 日韩欧美国产三级电影视频| 在线免费观看羞羞视频一区二区| 99re这里只有精品视频首页| 日本sm残虐另类| 久久精品一区二区| 色偷偷久久一区二区三区| 97色在线视频| 美女少妇一区二区| 午夜在线视频免费| 在线91免费看| 国产精品久久久久免费| 欧美日本韩国国产| 一区二区三区精品国产| 激情图片中文字幕| 免费看黄色一级大片| 午夜精品一区二区三区在线观看| 国产在线精品一区二区三区| 国产精品一区二区av| 久久久久国产一区二区三区| 国产成人+综合亚洲+天堂| 国产精品xxx在线观看www| 日本黑人久久| 无遮挡亚洲一区| 日韩伦理在线免费观看| 午夜激情视频在线播放| 久久综合资源网| 国产欧美一区在线| 狠狠躁夜夜躁人人爽天天天天97| 日韩视频在线免费观看| 日韩成人av网| 91久久中文字幕| 午夜视频在线瓜伦| 国产高清精品软件丝瓜软件| 亚洲精品视频在线观看视频| 国产一级做a爰片久久| 天堂v在线观看| 亚洲国产精久久久久久| 伊人再见免费在线观看高清版 | 国产精品成人无码专区| 日本aaa视频| 久久久久久免费观看| 欧美一级高潮片| 色一情一乱一区二区三区| 91麻豆精品国产| 国产精品一区二区欧美黑人喷潮水| 欧美精品欧美精品系列c| 中文字幕在线视频播放| 日本激情视频网站| 99久久精品国产导航| 亚洲啪啪综合av一区二区三区| 综合欧美国产视频二区| 一区不卡字幕| 久久精品久久99精品久久| 色与欲影视天天看综合网| 小早川怜子久久精品中文字幕| 国产欧美日韩卡一| 91视频99| 乳色吐息在线观看| 日韩**一区毛片| 一本到高清视频免费精品| 欧洲亚洲妇女av| 国产欧美一区二| www.国产毛片| 热久久免费视频| 富二代精品短视频| bt天堂新版中文在线地址| 天天躁日日躁狠狠躁伊人| 久久久精品国产99久久精品芒果| 久久久久久香蕉网| 国产三级生活片| 国产小视频一区| 91视频xxxx| 国产成人精品国内自产拍免费看| the porn av| 亚洲视频一二三区| 最新视频 - x88av| 久久久五月婷婷| 中文字幕中文字幕在线中一区高清 | 日韩三级久久久| 91婷婷韩国欧美一区二区| 欧美在线亚洲在线| 国产精品自在自线| 国产成人精品一区二三区| 国产日韩欧美精品在线| 国产综合视频在线观看| 好吊色在线视频| 亚洲精品成人悠悠色影视| 国产精品视频一区国模私拍| 熟女高潮一区二区三区| 天堂av手机版| 欧美顶级少妇做爰| 欧美大黑帍在线播放| 色婷婷激情五月| 国内精品一区二区三区四区| 极品蜜桃臀肥臀-x88av| 欧美日韩激情在线| 偷拍视频一区二区| 国产伦精品一区二区三区视频我| 亚洲一级片在线观看| 国产视频一区二区不卡| 一区二区三区四区欧美日韩| 日韩精品乱码久久久久久| 国产亚洲人成网站| 国产一区二区久久精品| 国产女同无遮挡互慰高潮91| 婷婷成人激情在线网| 日本手机在线视频| 天天操天天干天天爽| 欧美成人免费大片| 国产wwwwxxxx| 337p粉嫩大胆色噜噜噜噜亚洲| 亚洲精品视频在线播放| 亚洲精品天堂网| 在线观看视频一区二区| 日本一区二区免费视频| 亚洲精品小视频| 国产精品呻吟久久| 国产精品91视频| 色呦呦中文字幕| 日本精品性网站在线观看| 婷婷社区五月天| 国产精品传媒在线| 国新精品乱码一区二区三区18| 国产夫妻在线观看| 日韩在线激情视频| 亚洲欧美日韩偷拍| 高清久久久久久| 最好看的2019年中文视频| 三级在线视频观看| 日韩天堂在线观看| 久久视频免费看| 欧美日本韩国一区二区三区视频| 亚洲一区二区高清视频| 欧美激情黑白配| 亚洲一区二区美女| 亚洲欧美日韩综合一区| 懂色av中文字幕一区二区三区| 日韩啊v在线| 中文字幕免费播放| 欧美日韩精品系列| 91黄色免费视频| 精品中文字幕久久久久久| 午夜av中文字幕| 一区二区三区在线视频看| 桥本有菜av在线| 黄色一级在线视频| 欧美精品久久久久久久久25p| 三大队在线观看| av黄色免费在线观看| 亚洲不卡视频在线观看| 亚洲精华国产精华精华液网站| 蜜桃av一区二区在线观看| 成人av电影在线播放| 最新国产成人在线观看| 欧美综合天天夜夜久久| 亚洲国产日韩欧美在线动漫| 麻豆国产va免费精品高清在线| 日韩av电影手机在线观看| 精品高清视频| 国产一二三在线视频| 色91精品久久久久久久久| 久久久久久国产免费a片| av资源免费观看| 久久亚洲影院| 国产亚洲精品中文字幕| 日本韩国精品在线| 亚洲美女久久久| 国产精品69久久| 亚洲精品一卡二卡三卡四卡| 国产一级特黄a大片免费| 粉嫩av蜜桃av蜜臀av| 国产精品国产三级国产专区52| 国产1区在线观看| 99在线精品视频| 在线免费观看一区| 日韩色av导航| 91久久久一线二线三线品牌| a级网站在线观看| 91精品国产高清91久久久久久| 精国产品一区二区三区a片| 丰满熟妇乱又伦| 国产日韩亚洲欧美综合| 欧美日韩精品一区二区三区蜜桃| 久久久精品免费| 黑人巨大精品欧美一区二区小视频 | 亚洲一区二区在| 超碰91在线播放| 中国一级特黄毛片| 视频一区在线视频| 亚洲欧美乱综合| 日韩成人小视频| 国产精品1234| 免费看日b视频| 受虐m奴xxx在线观看| 在线观看国产精品入口男同| 国产成人午夜精品影院观看视频| 激情成人在线视频| 日韩在线观看高清| 女女同性女同一区二区三区91| 日本成人黄色网| 久久久久久久9999| 美国欧美日韩国产在线播放 | 精品久久久久久国产| 国产亚洲精品久久久久久| 亚洲一区二区三区在线免费观看 | 欧美激情第一区| 欧美亚韩一区二区三区| 日韩av高清在线观看| 亚洲国产一区二区在线播放| 亚洲偷欧美偷国内偷| 国产精品区免费视频| 色婷婷.com| 欧美男人天堂网| 久久一夜天堂av一区二区三区| 欧美一区二区三区婷婷月色| 国产成人精品久久久| 精品久久久久久久久久中文字幕| 国产午夜手机精彩视频| 蜜桃精品视频在线观看| 色琪琪一区二区三区亚洲区| 欧美激情极品视频| 米仓穗香在线观看| 久久久99999| 精品中文字幕一区二区| 在线观看一区二区精品视频| 91精品国产电影| 国产亚洲欧美在线视频| 日韩成人免费在线视频| 91女厕偷拍女厕偷拍高清| 国产丝袜视频一区| 欧美亚洲免费高清在线观看| 成都免费高清电影|