Синтетические данные — это данные, искусственно созданные алгоритмами для имитации статистических свойств реальных данных, не содержащие информации из реальных источников. Хотя точные цифры трудно определить, некоторые оценки показывают, что более 60 процентов данных, используемых для приложений искусственного интеллекта в 2024 году, были синтетическими, и ожидается, что эта цифра будет расти в разных отраслях.
Поскольку синтетические данные не содержат информации из реального мира, они обещают защитить конфиденциальность, одновременно снижая затраты и увеличивая скорость разработки новых моделей искусственного интеллекта. Однако использование синтетических данных требует тщательной оценки, планирования и балансировки, чтобы предотвратить потерю производительности при внедрении моделей искусственного интеллекта.
Вопросы и ответы
Вопрос: как создаются синтетические данные?
Ответ: синтетические данные создаются алгоритмически, но не из реальных ситуаций. Их ценность заключается в статистическом сходстве с реальными данными. Например, если мы говорим о языке, синтетические данные выглядят так, будто их написал человек. Исследователи создавали синтетические данные долгое время, но то, что изменилось за последние несколько лет, — это наша способность создавать генеративные модели из данных и использовать их для создания реалистичных синтетических данных.
Мы можем взять немного реальных данных и построить из них генеративную модель, которую затем используем для создания любого количества синтетических данных. Модель создаёт синтетические данные таким образом, что улавливает все основные правила и бесконечные закономерности, существующие в реальных данных.
Существует четыре основных модальности данных: язык, видео или изображения, аудио и табличные данные. Все они имеют несколько разные способы построения генеративных моделей для создания синтетических данных. Например, LLM (большие языковые модели) — это не что иное, как генеративная модель, из которой вы извлекаете синтетические данные, когда задаёте ей вопрос.
Многие языковые и графические данные общедоступны в интернете. Но табличные данные, которые собираются при взаимодействии с физическими и социальными системами, часто оказываются за корпоративными брандмауэрами. Большая их часть является конфиденциальной или частной, например, транзакции клиентов, хранящиеся в банке. Для этого типа данных платформы, такие как Synthetic Data Vault, предоставляют программное обеспечение, которое можно использовать для создания генеративных моделей. Эти модели затем создают синтетические данные, которые сохраняют конфиденциальность клиентов и могут быть более широко распространены.
Одним из мощных аспектов этого подхода к генеративному моделированию для синтеза данных является то, что предприятия теперь могут создавать индивидуальную локальную модель для своих данных. Генеративный искусственный интеллект автоматизирует то, что раньше было ручным процессом.
Вопрос: каковы преимущества использования синтетических данных и для каких случаев и приложений они особенно хорошо подходят?
Ответ: одно из основных приложений, которое значительно выросло за последнее десятилетие, — это использование синтетических данных для тестирования программных приложений. За многими программными приложениями стоит логическая составляющая, основанная на данных, поэтому вам нужны данные для тестирования этого программного обеспечения и его функциональности. В прошлом люди прибегали к ручному созданию данных, но теперь мы можем использовать генеративные модели для создания столько данных, сколько нам нужно.
Пользователи также могут создавать специальные данные для тестирования приложений. Например, если я работаю в компании электронной коммерции, я могу генерировать синтетические данные, имитирующие реальных клиентов из Огайо, которые совершили транзакции, связанные с одним конкретным продуктом в феврале или марте.
Поскольку синтетические данные не взяты из реальных ситуаций, они также обеспечивают сохранение конфиденциальности. Одной из самых больших проблем при тестировании программного обеспечения был доступ к конфиденциальным реальным данным для тестирования программного обеспечения в непроизводственных средах из-за проблем конфиденциальности.
Ещё одним непосредственным преимуществом является тестирование производительности. Вы можете создать миллиард транзакций из генеративной модели и протестировать, как быстро ваша система сможет их обработать.
Другое приложение, где синтетические данные имеют большой потенциал, — это обучение моделей машинного обучения. Иногда мы хотим, чтобы модель искусственного интеллекта помогала нам предсказывать менее частые события. Банк может захотеть использовать модель искусственного интеллекта для прогнозирования мошеннических транзакций, но реальных примеров может быть слишком мало, чтобы обучить модель, которая сможет точно идентифицировать мошенничество.
Синтетические данные обеспечивают аугментацию данных — дополнительные примеры данных, похожие на реальные. Это может значительно повысить точность моделей искусственного интеллекта. Также иногда у пользователей нет времени или финансовых ресурсов для сбора всех данных. Например, сбор данных о намерениях клиентов потребовал бы проведения множества опросов. Если вы в итоге получите ограниченный объём данных, а затем попытаетесь обучить модель, она не будет работать хорошо. Вы можете дополнить модель, добавив синтетические данные для лучшего обучения.
Вопрос: каковы риски и потенциальные подводные камни использования синтетических данных, и есть ли шаги, которые пользователи могут предпринять, чтобы предотвратить или смягчить эти проблемы?
Ответ: один из самых больших вопросов, который часто задают люди, — если данные созданы синтетически, почему я должен им доверять? Определение того, можно ли доверять данным, часто сводится к оценке общей системы, в которой вы их используете.
Существуют аспекты синтетических данных, которые мы могли оценивать долгое время. Например, существуют методы измерения того, насколько синтетические данные близки к реальным данным, и мы можем измерить их качество и сохранение конфиденциальности. Но есть и другие важные соображения, если вы используете эти синтетические данные для обучения модели машинного обучения для нового варианта использования.
Новые показатели эффективности появляются, и акцент теперь делается на эффективности для конкретной задачи. Вы должны тщательно изучить свой рабочий процесс, чтобы убедиться, что синтетические данные, которые вы добавляете в систему, по-прежнему позволяют вам делать обоснованные выводы. Это то, что нужно делать осторожно для каждого приложения.
Смещение также может быть проблемой. Поскольку оно создано из небольшого количества реальных данных, то же смещение, которое существует в реальных данных, может перейти в синтетические данные. Как и в случае с реальными данными, вам нужно будет специально убедиться, что смещение устранено с помощью различных методов выборки, которые могут создать сбалансированные наборы данных. Это требует тщательного планирования, но вы можете откалибровать генерацию данных, чтобы предотвратить распространение смещения.
Чтобы помочь в процессе оценки, наша группа создала библиотеку синтетических данных (Synthetic Data Metrics Library). Мы обеспокоены тем, что люди будут использовать синтетические данные в своей среде, и это приведёт к другим выводам в реальном мире. Мы создали библиотеку метрик и оценок, чтобы обеспечить проверку и баланс.
Сообщество машинного обучения столкнулось со многими проблемами, пытаясь обеспечить обобщение моделей для новых ситуаций. Использование синтетических данных добавляет к этой проблеме новое измерение.
Я ожидаю, что старые системы работы с данными, будь то создание программных приложений, ответы на аналитические вопросы или обучение моделей, кардинально изменятся, поскольку мы станем более искусными в создании этих генеративных моделей. Многие вещи, которые мы раньше не могли сделать, теперь станут возможными.
Вопрос: какие методы используются для оценки качества синтетических данных и их соответствия реальным данным?
Ответ: качество синтетических данных можно оценить с помощью методов измерения их близости к реальным данным. Однако существуют и другие важные аспекты, такие как эффективность для конкретной задачи и устранение смещения. Для этого можно использовать различные методы выборки, которые создают сбалансированные наборы данных. Чтобы помочь в процессе оценки, была создана библиотека синтетических данных (Synthetic Data Metrics Library), которая предоставляет метрики и оценки для проверки и балансировки синтетических данных.
Вопрос: в каких случаях использование синтетических данных может привести к потере производительности моделей искусственного интеллекта?
Ответ: использование синтетических данных может привести к потере производительности моделей искусственного интеллекта, если не провести тщательную оценку и планирование. Например, смещение, которое существует в реальных данных, может перейти в синтетические данные. Чтобы предотвратить распространение смещения, необходимо специально убедиться, что оно устранено с помощью методов выборки. Также важно изучить рабочий процесс и убедиться, что синтетические данные позволяют делать обоснованные выводы.
Вопрос: какие примеры использования синтетических данных в тестировании программного обеспечения и обучении моделей машинного обучения приведены в статье?
Ответ: в статье приведены следующие примеры использования синтетических данных:
* Тестирование программных приложений: синтетические данные используются для тестирования программных приложений, особенно в случаях, когда нужны большие объёмы данных для тестирования функциональности. Например, можно создать синтетические данные, имитирующие реальных клиентов, для тестирования приложений электронной коммерции.
* Обучение моделей машинного обучения: синтетические данные обеспечивают аугментацию данных — дополнительные примеры данных, похожие на реальные. Это может значительно повысить точность моделей искусственного интеллекта. Например, банк может использовать синтетические данные для обучения модели искусственного интеллекта для прогнозирования мошеннических транзакций.