Q&A: как математика помогает раскрыть суть глубокого обучения в искусственном интеллекте

Искусственный интеллект (ИИ) становится всё более распространённым, интегрируясь в мобильные приложения, поисковые системы и социальные сети, а также поддерживая многочисленные исследовательские приложения. В последние десятилетия особый интерес представляет тип машинного обучения, называемый глубоким обучением (deep learning), который имеет структуру, вдохновлённую нейронными сетями человеческого мозга.

Глубокое обучение лежит в основе больших языковых моделей, используемых, например, в OpenAI ChatGPT и Microsoft Copilot. Более специализированные модели глубокого обучения поддерживают широкий спектр научных исследований, включая исследования, удостоенные Нобелевской премии в области химии в 2024 году, для прогнозирования сложной структуры белков.

Одним из преимуществ глубокого обучения является его способность распознавать закономерности или особенности без явного программирования со стороны человека, однако этот процесс может быть непрозрачным. Такая «чёрная коробочка» глубокого обучения поднимает вопросы о том, как именно работают модели, и усложняет их проверку и оптимизацию.

Профессор математики Университета штата Пенсильвания Леонид Берлянд и аспирант Алексей Крупчицкий рассказывают о применении математических принципов для объяснения природы «чёрного ящика» глубокого обучения.

Берлянд: «Глубокое обучение — это тип машинного обучения, который использует искусственные нейронные сети (ИНС) для обучения на основе данных, подобно тому как учатся люди. Эти сети, также называемые ИНС, были первоначально разработаны учёными-компьютерщиками и вдохновлены структурой человеческого мозга. ИНС состоит из узлов, соединённых рёбрами, которые обычно располагаются слоями».

Крупчицкий: «ИНС особенно хороши в анализе больших объёмов неструктурированных данных, таких как изображения и текст. Они широко используются в чат-ботах, распознавании изображений, например, для беспилотных автомобилей, и в рекомендательных сервисах, подобных тем, что используются платформами потокового видео».

Берлянд: «Между входным и выходным слоями искусственные нейронные сети имеют множество скрытых слоёв. Например, если у вас есть модель, классифицирующая цифры от 0 до 9, один слой может фокусироваться на краях изображения, другой — на темноте определённых пикселей, причём каждый слой выявляет всё более сложные особенности. Было замечено, что эмпирически добавление всё новых и новых слоёв повышает точность ИНС и позволяет нам отвечать на более сложные вопросы. Модель с большим количеством слоёв считается «более глубокой», отсюда и термин «глубокое обучение».

Крупчицкий: «Модели глубокого обучения могут иметь сотни таких слоёв и миллионы и триллионы параметров. С помощью глубокого обучения люди не программируют явно каждую связь между слоями — модель устанавливает эти функции сама, автоматически обнаруживая релевантные особенности. Такой тип модели часто называют «чёрной коробочкой», потому что мы не знаем точно, что происходит. Одна из наших целей — применить математические инструменты, чтобы лучше понять, что на самом деле делают эти модели, чтобы мы могли обеспечить их надёжность и в конечном итоге улучшить их производительность».

Берлянд: «Глубокое обучение было создано и развито в основном учёными-компьютерщиками и инженерами. Мой коллега по Университету штата Пенсильвания Пьер-Эммануэль Жабин, заслуженный профессор математики, и я хотели предоставить строгое математическое обоснование различным критериям производительности ИНС, таким как стабильность и сходимость алгоритмов обучения, или когда алгоритмы можно считать «обученными». Эта мотивация побудила нас написать простой вводный учебник для студентов-математиков, где определения и концепции из глубокого обучения представлены в точной математической форме».

Берлянд: «Я говорю своим студентам: вы можете быть гонщиком и знать, как управлять автомобилем, но если вы не знаете, что находится внутри, вы не сможете его улучшить или спроектировать новый. Аналогично, математическое понимание глубокого обучения приведёт к повышению точности прогнозирования и улучшению производительности ИНС».

Крупчицкий: «Существует множество различных вариантов использования глубокого обучения, но лежащая в его основе математика одинакова для всех них. Фундаментальное понимание глубокого обучения важно для создания надёжных, интерпретируемых и устойчивых сетей».

Берлянд: «Учёные-компьютерщики и инженеры имеют множество инструментов для повышения производительности ИНС, которые в значительной степени основаны на эмпирических наблюдениях. Мы предлагаем богатые математические теории, которые разрабатывались десятилетиями или даже веками и применялись и совершенствовались в различных областях, таких как физика, материаловедение и науки о жизни. Использование математики в глубоком обучении помогает нам понять, какие типы задач наиболее подходят для ИНС, как лучше всего структурировать сети, как долго их следует обучать и в целом может помочь повысить стабильность».

Предоставлено Университетом штата Пенсильвания.

Источник