🪶 Apache Tika 提取
本教程由社群提供,並未由 Open WebUI 團隊支援。它僅用於展示如何根據特定使用場景自訂 Open WebUI。想要貢獻?請查看貢獻教程。
🪶 Apache Tika 提取
本文檔提供了將 Apache Tika 整合到 Open WebUI 的逐步指南。Apache Tika 是一種內容分析工具包,可用於從超過一千種不同的檔案類型中檢測和提取元資料和文本內容。所有這些檔案類型都可以通過單一介面進行解析,使得 Tika 在搜索引擎索引、內容分析、翻譯等方面非常有用。
前置條件
- Open WebUI 實例
- 系統已安裝 Docker
- 為 Open WebUI 設置的 Docker 網路
整合步驟
步驟 1:創建 Docker Compose 檔案或執行 Docker 命令以啟動 Apache Tika
您有兩種方式運行 Apache Tika:
選項 1:使用 Docker Compose
在與 Open WebUI 實例相同的目錄下創建一個名為 docker-compose.yml
的新檔案。將以下設定新增到檔案中:
services:
tika:
image: apache/tika:latest-full
container_name: tika
ports:
- "9998:9998"
restart: unless-stopped
運行下列命令執行 Docker Compose 檔案:
docker-compose up -d
選項 2:使用 Docker Run 命令
或者,您可以使用以下 Docker 命令運行 Apache Tika:
docker run -d --name tika \
-p 9998:9998 \
--restart unless-stopped \
apache/tika:latest-full
請注意,如果選擇使用 Docker 運行命令,並希望容器與 Open WebUI 實例位於同一網路中,則需要指定 --network
標誌。
步驟 2:配置 Open WebUI 使用 Apache Tika
要在 Open WebUI 中將 Apache Tika 用作上下文提取引擎,請按以下步驟操作:
- 登錄到您的 Open WebUI 實例。
- 前往
管理面板
的設定菜單。 - 點擊
設定
。 - 點擊
文檔
標籤。 - 將
預設
內容提取引擎下拉選單更改為Tika
。 - 將上下文提取引擎 URL 更新為
http://tika:9998
。 - 保存更改。
驗證 Docker 中的 Apache Tika
要驗證 Apache Tika 在 Docker 環境中是否正常運行,您可以按照以下步驟操作:
1. 啟動 Apache Tika Docker 容器
首先,確保 Apache Tika Docker 容器正在運行。您可以使用以下命令啟動它:
docker run -p 9998:9998 apache/tika
此命令啟動 Apache Tika 容器,並將容器的 9998 埠映射到本地機器的 9998 埠。
2. 驗證伺服器正在運行
您可以通過發送 GET 請求來驗證 Apache Tika 伺服器是否正在運行:
curl -X GET http://localhost:9998/tika
此命令應返回以下響應:
This is Tika Server. Please PUT
3. 驗證整合
另外,您也可以嘗試發送檔案進行分析以測試整合。您可以使用 curl
命令測試 Apache Tika:
curl -T test.txt http://localhost:9998/tika
將 test.txt
替換為本地機器上一個文本檔案的路徑。
Apache Tika 將返回檔案的檢測元資料和內容類型。