Перейти к основному содержимому

Извлечение документов в Open WebUI

Open WebUI предоставляет мощные возможности извлечения документов, которые позволяют обрабатывать и анализировать различные виды документов в рамках рабочих процессов RAG (Retrieval Augmented Generation). Извлечение документов необходимо для преобразования неструктурированного содержимого документов в структурированные данные, которые могут быть эффективно использованы языковыми моделями.

Что такое извлечение документов?

Извлечение документов относится к процессу автоматической идентификации и извлечения текста и данных из различных форматов файлов, включая:

  • PDF (как текстовые, так и сканированные)
  • Изображения с текстом
  • Документы, написанные вручную
  • И многое другое

Благодаря правильному извлечению документов Open WebUI может помочь вам:

  • Конвертировать документы на основе изображений в текст, доступный для поиска
  • Сохранять структуру документа и информацию о макете
  • Извлекать данные в структурированном формате для дальнейшей обработки
  • Поддерживать распознавание многоязычного контента

Доступные методы извлечения

Open WebUI поддерживает несколько механизмов извлечения документов, чтобы удовлетворить различные потребности и типы документов. Каждый метод извлечения имеет свои преимущества и подходит для различных сценариев.

Изучите документацию для каждого доступного метода извлечения, чтобы узнать, как его настроить и эффективно использовать с вашим экземпляром Open WebUI.