Мастер-класс «Как искусственный интеллект распознает изображения: магия нейронных сетей»

Разделы: Информатика, Технология, Внеклассная работа, Дополнительное образование, Мастер-класс

Ключевые слова: Искусственный интеллект


Цель: дать общее представление об искусственном интеллекте и его способностях в распознании изображений.

Возрастная категория: обучающиеся 14-17 лет.

Минимальное техническое и ПО оснащение: компьютер/ноутбук с проектором или проекционная панель для демонстрации презентации, сценарий мастер-класса (Приложение 1), презентация (Приложение 2).

Рекомендованное время: 60-90 минут.

Теоретический материал. Тезаурус.

Искусственный интеллект (ИИ), или Artificial Intelligence (AI), — это свойство компьютерных систем выполнять задачи, которые обычно требуют человеческого интеллекта, такие как обучение, решение проблем и принятие решений. Это область компьютерных наук, занимающаяся созданием таких систем. ИИ включает в себя различные методы и технологии, включая машинное обучение, обработку естественного языка и компьютерное зрение.

Основные понятия и направления в ИИ:

Машинное обучение (ML):

  • Позволяет компьютерам обучаться на данных без явного программирования. Алгоритмы ML адаптируются и улучшают свою работу по мере обработки большего объема информации.

Глубокое обучение:

  • Особый тип машинного обучения, использующий многослойные нейронные сети для анализа сложных данных, таких как изображения и звук.

Обработка естественного языка (NLP):

  • Направлена на то, чтобы компьютеры могли понимать, интерпретировать и генерировать человеческий язык.

Компьютерное зрение:

  • Позволяет компьютерам "видеть" и интерпретировать изображения и видео, как это делает человек.

AGI (Общий искусственный интеллект):

  • Теоретическая концепция ИИ, способного выполнять любые интеллектуальные задачи, которые может выполнить человек, даже если эти задачи не были специально предусмотрены при обучении.

Применение ИИ

ИИ находит применение в самых разных областях, включая:

  • Образование: персонализированные программы обучения, автоматизированная проверка знаний.
  • Медицина: диагностика заболеваний, разработка лекарств, роботизированная хирургия.
  • Финансы: обнаружение мошенничества, автоматизированная торговля, оценка рисков.
  • Транспорт: беспилотные автомобили, оптимизация маршрутов, управление воздушным движением.
  • Производство: роботизация, оптимизация процессов, предсказательное обслуживание.
  • Развлечения: Генерация музыки и изображений, чат-боты, персонализированный контент.

Будущее ИИ

Ожидается, что ИИ продолжит развиваться и проникать во все сферы жизни. Исследования направлены на создание более мощных и универсальных систем ИИ, включая AGI, а также на решение этических и социальных вопросов, связанных с распространением ИИ.

Нейронная сеть (нейросеть) — математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации нервных сетей (биологических нейронных сетей) — сетей нервных клеток (нейронов) живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке смоделировать эти процессы. Первой такой попыткой были нейронные сети У.Маккалока и У.Питтса. После разработки алгоритмов обучения получаемые модели стали использовать в практических целях: в задачах прогнозирования, для распознавания образов, в задачах управления и др.

Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными и выходными данными, а также выполнять обобщение. Это значит, что в случае успешного обучения сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке, а также неполных и/или «зашумлённых», частично искажённых данных.

Сегодня сфера искусственного интеллекта переживает бурный рост. Развитие машинного обучения, нейронных сетей и больших данных позволяет создавать системы, способные решать задачи, которые раньше считались невозможными для ЭВМ. Со стороны это кажется магией. Но волшебству есть научное объяснение. Ниже, простыми словами, рассказано о сложном, и содержатся ответы на самые популярные вопросы о новых технологиях.

Чем нейросеть отличается от искусственного интеллекта? Это одно и то же или нет?

Нейросеть — это математическая модель, которая имитирует работу человеческого мозга. А искусственный интеллект — технология, которая использует эти модели, чтобы решить задачу пользователя. Помимо нейросетей ИИ использует и другие инструменты: машинное обучение (Machine Learning), глубокое обучение (Deep Learning) и другие.

Так что нейросеть — это инструмент искусственного интеллекта. Она фокусируется на реализации конкретных задач. ИИ, в свою очередь, стремится к созданию систем, способных мыслить и действовать как люди.

Как устроена нейросеть?

Нейронная сеть состоит из искусственных нейронов, которые сделаны по подобию человеческих. Они связаны между собой и могут передавать сигналы друг другу.

Чтобы нейросеть "заработала", нужно ее обучить. Например, перед тем, как она сумеет опознавать кота на фотографии, необходимо показать ей миллионы изображений этого животного, в разных позах и условиях.

Чтобы математическая модель решала задачи быстро, разработчики придумали располагать нейроны на разных слоях. Если загрузить в нейросеть, к примеру, картинку с котом из мультика "Том и Джерри", то работа слоев будет выглядеть так:

Входной слой — получает данные. Здесь картинку разложат пиксели, каждый из которых поступит на отдельный нейрон.

Скрытые слои — решает задачу. В этом месте происходит обработка данных. Нейросеть узнает характерные черты персонажа мультсериала. Чем больше скрытых слоев, тем быстрее и точнее результат.

Выходной слой — выдает результат. Нейросеть собирает пазл воедино и отвечает: "Это известный кадр из мультсериала "Том и Джерри", из 5 серии".

Может ли одна и та же нейросеть генерировать текст и рисовать картинки?

Нет. У каждой свое назначение и представление искусственных нейронов. Вот три широко используемых типа:

Перцептрон — самый фундаментальный и старый тип. Состоит из одного нейрона, который принимает входные данные и практически сразу выдает результат. У классического варианта этой нейросети нет скрытых слоев, поэтому она может разделять данные только на две категории. Примером использования перцептрона может быть задача классификации почтовых отправлений на спам и не спам.

Однако существуют также перцептроны с дополнительными скрытыми слоями. Их могут использовать для такой задачи, как распознавание голоса.

Рекуррентные нейронные сети

Именно этот тип нейросетей помогает генерировать текст и переводить его. Их отличительная особенность — наличие памяти. Модель передает данные вперед и назад между слоями, так что процессы передачи и хранения данных цикличны. Поэтому сеть может запомнить все данные. Это помогает ей понять контекст входных данных и выдать осмысленный результат.

Сверточные нейронные сети

Их используют для распознавания изображений, видео, объектов и лиц. Она имеет не три, а пять слоев: входной, сверточный, объединяющий, связанный и выходной. Это особенно важно в условиях изменения масштаба и угла наклона картинки. Каждый слой исследует определенный аспект изображения, а затем соединяет всю информацию вместе на выходе.

К примеру, для того, чтобы распознать лицо на фотографии, нейросети сначала нужно обнаружить лицо на фотографии, затем — глаза и нос, потом идентифицировать другие детали лица, повернуть данные в соответствии с заданным алгоритмом, а затем обработать и выдать результат.

В чем разница между машинным и глубоким обучением ИИ?

Под машинным обучением понимается любое обучение искусственного интеллекта за счет решения множества сходных задач. А глубокое обучение — передовая методология машинного. С помощью нее ИИ получает информацию из множества источников и анализирует ее без вмешательства человека.

Глубокое обучение используется, к примеру, в беспилотных автомобилях для автоматического обнаружения дорожных знаков и пешеходов. Также его могут задействовать в анализе медицинских изображений для обнаружения раковых клеток.

Одна из самых популярных и перспективных задач нейросетей – технологии распознавания образов.

Они либо по отдельности, либо в интегрированном виде используются в таких сферах, как безопасность и наблюдение, сканирование и создание изображений, маркетинг и реклама, дополненная реальность и поиск изображений.

Сегодня создаются и уже используются сети, в которых машины способны распознавать символы на бумаге и банковских картах, подписи на официальных документах, детектировать объекты и т.д. Эти функции облегчают труд человека и повышают точность и надежность различных рабочих процессов благодаря исключению из задачи человеческого фактора. Но научить компьютер распознавать объекты не так уж и просто.

Одна из сложностей заключается в том, что компьютер видит не так же, как люди. У компьютера нет жизненного опыта и способности так же, как человеческий мозг идентифицировать объекты на изображения и видео. Изначально он не способен отличить дом от дерева, не имея каких‑то исходных данных. Чтобы научить компьютер видеть и понимать, что находится на изображении, люди используют технологии машинного обучения.

Для этого собирают большие базы данных, из которых формируют дата‑сеты. Выделив признаки и их комбинации для идентификации похожих объектов, можно натренировать модель машинного обучения распознавать нужные типы закономерностей. Конечно, даже после загрузки нескольких дата‑сетов модели могут неверно распознавать некоторые объекты. Если такое случается, модели «дообучают» на новых наборах данных.

Если, например, рассматривать сферу видеонаблюдения, то ее основой является анализ, первой фазой которого будет распознавание изображения (объекта). Затем искусственный интеллект с помощью машинного обучения распознает действия и классифицирует их. Но для того, чтобы распознать изображение, нейронная сеть должна быть прежде обучена на данных. Это очень похоже на нейронные связи в человеческом мозге — мы обладаем определенными знаниями, получаемыми в течение жизни, видим объект, анализируем его и идентифицируем. Также нейросети очень требовательны к размеру и качеству датасета, на котором она будет обучаться. Датасет можно загрузить из открытых источников или собрать самостоятельно. На практике это означает, что до определённого предела чем больше скрытых слоев в нейронной сети, тем точнее будет распознано изображение. Как это реализуется: картинка разбивается на маленькие участки, вплоть до нескольких пикселей, каждый из которых будет входным нейроном. С помощью синапсов сигналы передаются от одного слоя к другому. Во время этого процесса сотни тысяч нейронов с миллионами параметров сравнивают полученные сигналы с уже обработанными данными.

Другими словами, если мы просим машину распознать фотографию кошки, мы разобьем фото на маленькие кусочки и будем сравнивать эти слои с миллионами уже имеющихся изображений кошек, значения признаков которых сеть выучила.

Распознавание образов — важная задача компьютерного зрения, используемая для обнаружения экземпляров визуальных объектов определенных классов (например, людей, животных, автомобилей и зданий) в цифровых изображениях, таких как фотографии или видеокадры. Целью обнаружения объектов является разработка вычислительных моделей, которые предоставляют наиболее фундаментальную информацию, необходимую приложениям компьютерного зрения: «Какие объекты находятся где?».

Как работает распознавание образов

Распознавание образов может выполняться с использованием либо традиционных (1) методов обработки изображений, либо современных (2) сетей глубокого обучения.

1) Методы обработки изображений, как правило, не требуют исторических данных для обучения и по своей природе неконтролируемы. OpenCV — популярный инструмент для задач обработки изображений.

  • Плюсы: следовательно, эти задачи не требуют аннотированных изображений, где люди маркировали данные вручную (для контролируемого обучения).
  • Минусы: эти методы ограничены несколькими факторами, такими как сложные сценарии (без одноцветного фона), окклюзия (частично скрытые объекты), освещение и тени, и эффект беспорядка.

2) Методы глубокого обучения обычно зависят от контролируемого или неконтролируемого обучения, при этом контролируемые методы являются стандартом в задачах компьютерного зрения. Производительность ограничена вычислительной мощностью графических процессоров, которая стремительно растет с каждым годом.

  • Плюсы: Обнаружение объектов с помощью глубокого обучения значительно более устойчиво к окклюзии, сложным сценам и сложному освещению.
  • Минусы: требуется огромное количество обучающих данных; процесс аннотации изображений является трудоемким и дорогостоящим. Например, маркировка 500 000 изображений для обучения пользовательского алгоритма обнаружения объектов глубокого обучения считается небольшим набором данных. Однако многие эталонные наборы данных (MS COCO, Caltech, KITTI, PASCAL VOC, V5) обеспечивают доступность помеченных данных.

Сегодня обнаружение объектов глубокого обучения широко признано исследователями и используется компаниями, занимающимися компьютерным зрением, для создания коммерческих продуктов.

Где используется распознавание образов

Распознавание лиц и людей

Большинство систем распознавания лиц основаны на распознавании объектов. Его можно использовать для обнаружения лиц, классификации эмоций или выражений и подачи полученного поля в систему поиска изображений для идентификации конкретного человека из группы.

Обнаружение лица — один из самых популярных вариантов использования обнаружения объектов, и вы, вероятно, уже используете его всякий раз, когда разблокируете телефон своим лицом.

Обнаружение людей также обычно используется для подсчета количества людей в розничных магазинах или обеспечения показателей социального дистанцирования.

Интеллектуальная видео аналитика

Обнаружение объектов используется в интеллектуальной видеоаналитики (IVA) везде, где в торговых точках присутствуют камеры видеонаблюдения, чтобы понять, как покупатели взаимодействуют с продуктами. Эти видеопотоки проходят через конвейер анонимизации, чтобы размыть лица людей и обезличить их. Некоторые варианты использования IVA сохраняют конфиденциальность, глядя только на обувь людей, размещая камеры ниже уровня колен и гарантируя, что система фиксирует присутствие человека, без необходимости непосредственно смотреть на его идентифицируемые черты. IVA часто используется на заводах, в аэропортах и транспортных узлах для отслеживания длины очередей и доступа в зоны ограниченного доступа.

Автономные транспортные средства

Беспилотные автомобили используют обнаружение объектов, чтобы обнаруживать пешеходов, другие автомобили и препятствия на дороге, чтобы безопасно передвигаться. Автономные транспортные средства, оснащенные LIDAR, иногда используют 3D-обнаружение объектов, при котором вокруг объектов применяются прямоугольные формы.

Интеллектуальная видео хирургия

Хирургическое видео — это очень зашумленные данные, которые снимаются с эндоскопов во время ответственных операций. Обнаружение объектов можно использовать для обнаружения трудно различимых объектов, таких как полипы или поражения, которые требуют немедленного вмешательства хирурга. Он также используется для информирования персонала больницы о статусе операции.

Проверка дефектов

Компании-производители могут использовать обнаружение объектов для выявления дефектов на производственной линии. Нейронные сети можно научить обнаруживать мельчайшие дефекты, от складок на ткани до вмятин или вспышек в литьевых пластмассах.

В отличие от традиционных подходов к машинному обучению, обнаружение объектов на основе глубокого обучения также может обнаруживать дефекты в сильно различающихся объектах, таких как продукты питания.

Обнаружение пешеходов

Это одна из важнейших задач компьютерного зрения, которая применяется в робототехнике, видеонаблюдении и автомобильной безопасности. Обнаружение пешеходов играет ключевую роль в исследованиях обнаружения объектов, поскольку оно предоставляет фундаментальную информацию для семантического понимания видеоматериалов.

Однако несмотря на относительно высокую производительность, эта технология по-прежнему сталкивается с такими проблемами, как различные стили одежды по внешнему виду или наличие закрывающих аксессуаров, которые снижают точность существующих детекторов.

AI-навигация дрона

В наши дни дроны оснащены невероятными камерами и могут использовать модели, размещенные в облаке, для оценки любого объекта, с которым они сталкиваются.

Например, их можно использовать для осмотра труднодоступных участков мостов на наличие трещин и других структурных повреждений или для осмотра линий электропередач, заменяя опасные рутинные вертолетные операции.

Используемая литература

  1. Искусственный интеллект - https://ru.wikipedia.org/wiki/%D0%98%D1%81%D0%
    BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%
    D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82
  2. Обзор от ИИ -https://www.google.com/search?q=%D0%B8%D1%81%D0%BA%D1%83%D1%
    81%D1%81%D1%82%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9+%D0%B8%D0%BD%
    D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D1%82&sca_esv=35b79497141ac1f1&ei=
    v7FRaM63IMeOxc8PyZXE2Aw&ved=0ahUKEwiOk-PziPmNAxVHR_EDHckKEcsQ4dUDCBA&uact=
    5&oq=%D0%B8%D1%81%D0%BA%
    D1%83%D1%81%D1%81%D1%82%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9+
    %D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%B5%D0%BA%D1%82&gs_lp=
    Egxnd3Mtd2l6LXNlcnAiKdC40YHQutGD0YHRgdGC0LXQvdC90YvQuSDQuNC90YL
    QtdC70LXQutGCMg0QABiABBixAxiDARgNMgoQABiABBixAxgNMgcQABiABBgNM
    gcQABiABBgNMgoQABiABBixAxgNMgcQABiABBgNMg0QLhiABBixAxjUAhgNMgc
    QABiABBgNMgcQABiABBgNMgcQABiABBgNSJg_UJIIWLg8cAR4AJABAJgBiAGgA
    ccVqgEEMi4yMrgBA8gBAPgBAZgCHKACrheoAhTCAh0QABiABBi0AhjUAxjlAhi3Axi
    KBRjqAhiKA9gBAcICEBAAGAMYtAIY6gIYjwHYAQLCAhAQLhgDGLQCGOoCGI8
    B2AECwgIKEAAYgAQYQxiKBcICDRAuGIAEGEMY1AIYigXCAhAQABiABBixAxhD
    GIMBGIoFwgIIEC4YgAQYsQPCAhAQLhiABBixAxhDGNQCGIoFwgINEAAYgAQYs
    QMYQxiKBcICCBAAGIAEGLEDwgIKEC4YgAQYsQMYDcICBxAuGIAEGA3CAgo
    QABiABBixAxgKwgIHEAAYgAQYCpgDC_EFH9n-lUZJNjq6BgQIARgHugYGCAIQARgKkgcENC4yNKAHp7oDsgcEMC4yNLgHjxfCB
    wgwLjMuMTYuOcgHzwE&sclient=gws-wiz-serp
  3. Нейронная сеть -https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%
    D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D1%81%D0%B5%D1%82%D1%8C
  4. Простыми словами о сложном: как устроены ИИ и нейросети - https://volga.news/article/702827.html
  5. Распознавание образов с помощью искусственного интеллекта - https://habr.com/ru/articles/709432/