Новый прогресс достигнут в области обнаружения аномалий с нулевой выборкойСеть оборудования машин Xingwangbao

Исследовательская группа Ван Цюань из Сианьского института оптических машин Китайской академии наук добилась новых успехов в области обнаружения и локализации аномалий с нулевой выборкой в области компьютерного зрения, результаты были получены на конференции по компьютерному зрению и распознаванию образов (CVPR 2026). Первым автором диссертации является Ху Мин, аспирант класса 2024 в Сианьском институте оптических машин, а автором связи является д - р Ху Цун из больницы Чжуннань в Уханьском университете, исследователь Ху Бинлян из Сианьского института оптических машин и исследователь Ван Цюань. Сианьский институт оптических машин является первым подразделением связи.

С постоянно растущим спросом на промышленный контроль качества и анализ медицинских изображений технология обнаружения аномалий привлекает все большее внимание. Тем не менее, аномальные образцы в реальных сценариях часто скудны или даже трудно получить, а традиционные методы обучения надзору, которые полагаются на маркированные данные, сталкиваются с узкими местами.

Метод обнаружения аномалий с нулевой выборкой, основанный на визуально - языковой модели, с крупномасштабными знаниями предварительной подготовки, без аномальной маркировки для достижения обнаружения, но в задачах обнаружения аномалий с тонкой гранулометрией этот метод по - прежнему сталкивается с тремя основными проблемами: во - первых, модель трудно отличить перспективную цель от сложного фона, аномальные характеристики легко смешиваются с фоном, влияя на точность обнаружения; Во - вторых, полагаться на одно текстовое представление, семантическая выразительная способность ограничена, трудно обеспечить тонкую основу для определения аномалий; В - третьих, в процессе кросс - модального выравнивания семантическое соответствие изображения и текста имеет неопределенность, которая ограничивает улучшение производительности модели.

В ответ на эти вопросы команда предложила новую структуру - FB - CLIP (Foreground - Background Disentangled CLIP). Эта рамочная программа предусматривает три уровня инноваций:

В текстовом моделировании предлагается многостратегический метод слияния текстовых характеристик, в сочетании с представлением уровня предложения, глобальной контекстной информацией и взвешенными характеристиками внимания, чтобы построить более богатое семантическое представление восприятия задачи, улучшить понимание модели аномальной семантики;

В визуальном моделировании, разработка многоугольного перспективно - фонового механизма разделения, развязывание характеристик изображения из семантических, пространственных, структурных и других измерений, а также использование стратегии подавления фона для уменьшения помех информации в сложных сценах, так что модель более точно фокусируется на аномальных областях;

При кросс - модальном выравнивании вводится регулярная ограничение семантической согласованности, что повышает способность модели распознавать аномалии путем повышения достоверности прогноза и увеличения семантического интервала между нормальными и аномальными образцами.

Эксперименты показали, что FB - CLIP добился отличных результатов во многих наборах данных промышленных испытаний и медицинских изображений, особенно в миссиях по локализации аномальных частиц, и общая производительность достигла ведущих международных уровней. Этот метод не требует маркировки аномальных образцов, чтобы достичь точного обнаружения и позиционирования крошечных аномалий в сложных сценах, имеет хорошие перспективы практического применения.

Ожидается, что результаты будут применяться в таких областях, как диагностика с помощью медицинских изображений и обнаружение промышленных дефектов.

Исследовательская группа Xi 'an Guangmachine Institute Ван Цюань уже давно занимается изучением перекрестных направлений, таких как компьютерное зрение и биомедицинская визуализация, интеллект мозга и компьютера. В последние годы в соответствующих областях был достигнут ряд важных успехов. Результаты были опубликованы в CVPR 2025 и Pattern Recognition.

Конференция IEEE / CVF по компьютерному зрению и распознаванию образов является одной из самых влиятельных международных научных конференций в области компьютерного зрения и была оценена Китайским компьютерным обществом (CCF) как конференция класса А.