您好,登錄后才能下訂單哦!
這篇文章給大家介紹怎么使用Solr7對結構化csv文件建立全文索引,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
小編將介紹如何使用Solr對csv文件建立全文索引。
1.本次測試準備生成一個1GB左右大小的csv文件,該數據文件共有十個字段,其中有int、double、string、date以及中文文本和英文文本等類型,多一些數據類型方便測試,下面是生成數據的Java代碼
https://github.com/fayson/cdhproject/blob/master/generatedata/src/main/java/com/cloudera/solr/GenerateSolrTestData.java
生成的數據一共60W條,大小1.1GB,十個字段分別為number,firstDouble,firstNo,secondDouble,secondNo,jarName,enText,cnText,firstTime,secondTime
在Solr Web頁面,選擇左側的【Collections】,然后單擊【Add collection】。創建一個Collection
Collection創建成功
將準備好的csv文件導入到Solr中,Solr自帶的post.jar提供了這個功能,下面是post.jar的用法
參考help命令,使用下面的命令將csv文件導入到Solr中,并建立全文索引
java -Durl=http://localhost:8983/solr/test0723/update -Dtype=text/csv -Dc=test0723 -jar post.jar /tmp/solr/file/data.csv
csv文件導入成功,下一步在Solr上進行查詢驗證
1.進入query界面
2.根據單個字段查詢
number
jarName
時間字段范圍查詢
3.根據英文文本中的內容查找
4.根據中文文本中的內容進行查找
5.使用字段的組合進行查找
在某個時間范圍內的number在1到10000之間的英文文本中包含Cloudera的記錄
在number30000到40000的記錄中,firstDouble大于200,secondDouble小于500的記錄
jarName以spark開頭,且中文文本中包含“查詢”的記錄
1.與上篇文檔中使用的dataimport的方式導入數據建立索引不同,本文檔使用Solr自帶的post.jar將csv文件導入并創建索引,經過查詢測試,該方式能夠正常使用。
2.Solr在使用時間格式進行查詢時,只能使用UTC格式,Solr只能識別這種格式的時間,例如2018-03-06T02:37:02Z。
3.在使用多條件查詢時,可以使用fq,在fq中可以添加多個檢索條件,其中范圍檢索可以使用{}、[]、TO搭配來實現,例如firstTime:[2018-01-01T00:00:00Z TO 2018-01-31T23:59:59Z],表示firstTime在1月1日到1月31日之間的數據。
4.Solr的query頁面還有許多參數可以使用,例如sort可以對字段進行排序,start、rows可以定義分頁的數量,wt可以指定檢索結果的格式等等。
關于怎么使用Solr7對結構化csv文件建立全文索引就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。