SkyLab | OpenAI-GPT • DeepSeek • Claude • Midjourney

GPT-4 Vision является мощным инструментом и может использоваться во многих ситуациях, но важно понимать ограничения модели. Вот некоторые из ограничений:

Медицинские изображения: модель не подходит для интерпретации специализированных медицинских изображений, таких как компьютерная томография, и ее не следует использовать для получения медицинских рекомендаций.

Не на английском языке: модель может работать некорректно при обработке изображений с текстом из нелатинских алфавитов, таких как японский или корейский.

Большой текст: увеличьте текст внутри изображения, чтобы улучшить читаемость, но избегайте обрезки важных деталей.

Вращение: модель может неправильно интерпретировать повернутый / перевернутый текст или изображения.

Визуальные элементы: Модели может быть сложно понимать графики или текст, в которых различаются цвета или стили, такие как сплошные, пунктирные или пунктирные линии.

Пространственное мышление: модель справляется с задачами, требующими точной пространственной локализации, такими как определение шахматных позиций.

Точность: В определенных сценариях модель может генерировать неправильные описания или подписи.

Форма изображения: модель не справляется с панорамными изображениями и изображениями "рыбий глаз".

Метаданные и изменение размера: модель не обрабатывает исходные имена файлов или метаданные, а размеры изображений изменяются перед анализом, что влияет на их исходные размеры.

Подсчет: может давать приблизительные подсчеты объектов на изображениях.

CAPTCHAS: В целях безопасности мы внедрили систему, блокирующую отправку CAPTCHAS.