GPT-4 Vision является мощным инструментом и может использоваться во многих ситуациях, но важно понимать ограничения модели. Вот некоторые из ограничений:



Медицинские изображения: модель не подходит для интерпретации специализированных медицинских изображений, таких как компьютерная томография, и ее не следует использовать для получения медицинских рекомендаций.



Не на английском языке: модель может работать некорректно при обработке изображений с текстом из нелатинских алфавитов, таких как японский или корейский.



Большой текст: увеличьте текст внутри изображения, чтобы улучшить читаемость, но избегайте обрезки важных деталей.



Вращение: модель может неправильно интерпретировать повернутый / перевернутый текст или изображения.



Визуальные элементы: Модели может быть сложно понимать графики или текст, в которых различаются цвета или стили, такие как сплошные, пунктирные или пунктирные линии.



Пространственное мышление: модель справляется с задачами, требующими точной пространственной локализации, такими как определение шахматных позиций.



Точность: В определенных сценариях модель может генерировать неправильные описания или подписи.



Форма изображения: модель не справляется с панорамными изображениями и изображениями "рыбий глаз".



Метаданные и изменение размера: модель не обрабатывает исходные имена файлов или метаданные, а размеры изображений изменяются перед анализом, что влияет на их исходные размеры.



Подсчет: может давать приблизительные подсчеты объектов на изображениях.



CAPTCHAS: В целях безопасности мы внедрили систему, блокирующую отправку CAPTCHAS.