Datafari:面向企業的開源搜索引擎

徽標數據集

數據法裡 是使用 Apache Solr 的開源企業搜索軟件 用於索引和搜索階段。 它結合了 Apache ManifoldCF、Apache Solr 和 Apache Cassandra。 基於 HTML5、CSS3 和 jQuery。

從某種意義上說,這是一個打包的搜索引擎 提出與數據源的連接、索引、搜索和系統的圖形管理 並使用 SolrCloud 進行分發。

數據法裡 是法國人創建的 Labs. France Labs 尋找開源搜索軟件,以通過新的內聯網相關性算法增強其研發。

該團隊發現在 Apache 許可證下沒有任何東西可以得到良好維護和使用,因此創建了 Datafari。

他開始獨立於算法的研究,認為算法本身就有搜索價值。

關於Datafari

這個搜索引擎 使員工能夠隨時隨地安全可靠地查找數據.

更具體地說,Datafari 從不同來源和文件格式檢索數據和文檔並為其建立索引,並允許搜索內部文檔和元數據。

此外,以及它有開源版本(稱為 Datafari 社區版)和專有版本(稱為 Datafari 企業版)。

如上所述,它是一個商業搜索引擎。

您的目標與網絡搜索引擎不同,技術挑戰也不同。

對於商業搜索引擎來說,它需要是多源、多格式和管理安全性的。

此外,您必須有權管理該工具。 在免費版本中,我們可以在管理方面:

  • 包括布爾運算符的文本搜索
  • 基於 Apache ManifoldCF 的爬蟲,允許對 CMS、網站、文件共享(Netapp、Samba、Windows)、電子郵件、數據庫、HDFS 建立索引。
  • “全文”分析和插件系統,用於在索引和搜索階段添加轉換過濾器
  • HTML5 和 javascript 中的圖形界面,使用 HTML 小部件,採用響應式設計
  • 使用 Apache Tika 從各種類型的文檔(MSOffice、OpenOffice、HTML、XML、PDF、RTF、TXT、ZIP、EXIF、MP3...)中解析和提取內容和元數據
  • 電子郵件警報系統以推送模式(接收信息)而不是拉取模式接收新結果的通知。

datafari-搜索支持

對於搜索引擎管理員

  • 用戶搜索查詢圖形分析工具。
  • Datafari 中使用的 Solr 管理工具。
  • 用於分析查詢的產量和計算相關性的工具。
  • 連接 AD 或 LDAP 的安全管理工具。
  • 管理同義詞的工具。
  • 管理促銷鏈接的工具,允許針對已識別的關鍵字顯示不在索引中的數據。
  • 用於管理爬網連接器的工具,具有多個商業數據源(Sharepoint、文件共享、電子郵件、網站、CMIS...)以及創建新數據源的能力。

如何獲取Datafari?

對於那些有興趣獲得此搜索引擎以進一步了解它並了解是否可以在其企業或公司中實施它的人,必須遵循以下步驟。

數據法裡 我們可以找到它通過虛擬機或 docker 容器預先打包,或者您可以下載 Debian 或 Redhat 的安裝 (RHEL 僅適用於 Datafari 企業版。)

Debian、Ubuntu 或衍生系統的用戶 他們可以使用開發人員從項目官方網站提供的 deb 包。

他們應該打開終端並執行以下命令:

wget https://www.datafari.com/files/debian/datafari.deb

下載完成後,我們繼續安裝該軟件包:

sudo dpkg -i datafari.deb

所有其他 Linux 發行版都可以藉助 docker 容器安裝在其係統上 因此,為了安裝它,他們必須支持它並使用以下命令進行安裝:

docker pull datafari/datafari

要立即開始,最好是 請遵循快速入門指南。


發表您的評論

您的電子郵件地址將不會被發表。 必填字段標有 *

*

*

  1. 負責資料:AB Internet Networks 2008 SL
  2. 數據用途:控制垃圾郵件,註釋管理。
  3. 合法性:您的同意
  4. 數據通訊:除非有法律義務,否則不會將數據傳達給第三方。
  5. 數據存儲:Occentus Networks(EU)託管的數據庫
  6. 權利:您可以隨時限制,恢復和刪除您的信息。