Перейти к основному содержимому

🐤 Извлечение документов с помощью Docling

warning

Этот учебник является вкладом сообщества и не поддерживается командой Open WebUI. Он служит только как демонстрация того, как кастомизировать Open WebUI для ваших конкретных задач. Хотите внести вклад? Ознакомьтесь с учебником по внесению изменений.

🐤 Извлечение документов с помощью Docling

Эта документация предоставляет пошаговое руководство по интеграции Docling с Open WebUI. Docling — это библиотека обработки документов, предназначенная для преобразования широкого спектра форматов файлов, включая PDF, документы Word, таблицы, HTML и изображения, в структурированные данные, такие как JSON или Markdown. С встроенной поддержкой распознавания структуры, парсинга таблиц и обработки с учетом языка, Docling упрощает подготовку документов для ИИ-приложений, таких как поиск, обобщение и генерация с использованием дополнительных данных, через единый и расширяемый интерфейс.

Необходимые условия

  • Экземпляр Open WebUI
  • Установленный Docker на вашем компьютере
  • Настроенная сеть Docker для Open WebUI

Шаги интеграции

Шаг 1: Запустите команду Docker для Docling-Serve

docker run -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve

*С поддержкой GPU:

docker run --gpus all -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve

Шаг 2: Настройте Open WebUI для использования Docling

  • Войдите в свой экземпляр Open WebUI.
  • Перейдите в меню настроек Административной панели.
  • Нажмите на Настройки.
  • Нажмите на вкладку Документы.
  • Измените выпадающий список движка извлечения контента По умолчанию на Docling.
  • Обновите URL контекстного движка извлечения на http://host.docker.internal:5001.
  • Сохраните изменения.

Проверка работы Docling в Docker

Чтобы убедиться, что Docling работает корректно в окружении Docker, вы можете выполнить следующие шаги:

1. Запустите Docker-контейнер Docling

Сначала убедитесь, что Docker-контейнер Docling работает. Вы можете запустить его с помощью следующей команды:

docker run -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve

Эта команда запускает контейнер Docling и сопоставляет порт 5001 в контейнере с портом 5001 на вашем локальном компьютере.

2. Убедитесь, что сервер работает

  • Перейдите на http://127.0.0.1:5001/ui/
  • URL должен привести вас к интерфейсу для использования Docling

3. Проверьте интеграцию

  • Вы можете попробовать загрузить некоторые файлы через интерфейс, и он должен вернуть выходные данные в формате MD или в вашем предпочтительном формате

Заключение

Интеграция Docling с Open WebUI — это простой и эффективный способ улучшить возможности обработки документов и извлечения контента. Следуя шагам в данном руководстве, вы можете настроить Docling как основной движок извлечения и убедиться, что он работает гладко в окружении Docker. После настройки Docling предоставляет мощный, независимый от формата анализ документов, поддерживающий более продвинутые функции ИИ в Open WebUI.