Конфиденциальное машинное обучение oneFactor: уйти от data-паранойи

Данные представляют для любой компании значительную ценность. Рисковать их утечкой, и тем более делиться ими, готовы немногие. Однако часто встречается ситуация, когда объединение данных разных компаний идет на пользу создаваемым математическим моделям. Решить эту проблему позволяет платформа конфиденциального совместного машинного обучения, реализованная компанией oneFactor. Она дает возможность безопасно провести обучение и исполнение моделей на данных нескольких поставщиков, сохранив данные владельцев в неприкосновенности. О реализации этого проекта рассказывает Виктор Стрелков, директор по разработке oneFactor и номинант премии Data Award.

- В чем суть платформы конфиденциального совместного машинного обучения?

Это платформа, которая дает возможность обучиться на данных любого количества поставщиков без раскрытия этих данных. Мы предоставляем платформу, которая включает в себя набор инструментов, типовых для дата-сайентиста, и даем возможность подключить к ней произвольное количество поставщиков данных. При этом поставщиком данных может быть тот же самый клиент, который хочет обучиться совместно на наших данных, своих данных и данных какого-нибудь третьего лица, при этом не раскрывая эти данные. Фактически данные представляют собой набор хэшей — совершенно нечитаемую информацию для дата-сайентиста. Он сможет обучить модель и исполнить на этой же платформе, но при этом не сможет сделать никаких выводов о данных, не получить никаких инсайтов, не говоря уже о скачивании и сохранении.

- Почему это важно?

С одной стороны, повсеместно наблюдается спрос на защиту данных — начиная от частных и заканчивая корпоративными, и он будет усиливаться. Каждый обладатель данных все яснее понимает, что данные — это большая ценность, которую демонстрировать в раскрытом виде не следует. С другой стороны, наблюдаются попытки использовать машинное обучение в процессах всех отраслей. Объединение данных из различных источников — и это доказано нашим исследованием — дает сильный прирост в качестве машинного обучения. Мы объединяем два этих тренда в своем решении.

- Как родилась идея платформы конфиденциального совместного машинного обучения?

Как это часто бывает в таких случаях, изначально решение создавалось в первую очередь для себя. Около пяти лет назад мы делали финансовый скоринг для сервисов финтеха. Сначала только на собственных данных, которые не надо было никому показывать; так было проще. Но аппетиты растут, все хотят повышать точность своих моделей: это напрямую отражается на затратах финансовых организаций, на количестве резервов, на размере прибыли и т.д. То есть точность используемых моделей напрямую влияет на эффективность бизнеса. Мы постоянно проводим исследования с точки зрения улучшения моделей и нашли поставщика данных, нового для нас, — это один из провайдеров финансовых услуг. Работы с данными провайдера проводили в закрытой переговорке на ноутбуке с запаянными USB-портами, с камерами, без допуска в туалет — высший уровень физической изоляции. После обучения модели на объединенных данных получили сильный прирост точности — до 10–15%, это очень много.

Но как запустить полноценное решение? И мы создали внутреннюю платформу, в которую партнер загружал данные в зашифрованном виде. На этих данных удалось обучить и запустить в эксплуатацию модель, дающую большой прирост точности скоринга. Накопив опыт внутреннего использования в 2020–2021 годах, мы признали, что это отличное решение, достойное вывода на внешний рынок. Такие запросы уже были: приобретая у нас скоринг, банки задавали вопрос, можно ли для улучшения модели добавить собственные данные. В третьем квартале 2021 года мы создали MVP платформы с интерфейсами, возможностью подключения новых поставщиков, шифрованием данных и т.д. И сейчас готовы предложить ее рынку.

- Что технически представляет собой созданное решение?

Краеугольный камень защищенных вычислений — это технология Intel Software Guard Extensions (SGX), которая позволяет защитить область памяти от любого несанкционированного доступа, в том числе имея привилегии администратора. Даже имея физический доступ к серверу, у человека нет доступа к данным. Было важно защититься от трех сценариев атаки: чтобы данные не мог получить ни администратор сервера, ни аналитик, который обучает модели, ни поставщик данных. Технология SGX закрывает все три вероятных сценария компрометации данных.

- Откуда берутся кросс-индустриальные данные, с которыми ведется конфиденциальная работа?

Кросс-индустриальные данные состоят из трех больших блоков. На предлагаемой нами платформе уже есть наши данные и данные провайдера финансовых услуг. Третья составляющая — это данные самого клиента.

Рассмотрим, например, лидогенерацию на платную подписку. Есть гипотеза, что платную подписку больше покупают люди, у которых в окружении есть человек, уже купивший ее. У компаний, занимающихся электронной коммерцией, есть данные людей, которые купили подписку, но у них нет данных о связях этих людей. А в других индустриях эти связи есть, но их ни в коем случае нельзя выдавать. С согласия конечных пользователей клиент может загрузить свои данные, не раскрывая их, и путем объединения с данными на нашей платформе получить результат — с какой вероятностью новый человек купит платную подписку.

- Кто является целевой аудиторией вашего решения?

Пользователи платформы — дата-сайентисты, а клиенты — это крупные компании и иногда представители СМБ. Это компании, у которых уже разработаны модели машинного обучения на своих транзакционных данных, у которых есть цикл улучшения их бизнеса через дата-сайенс и машинное обучение, которые хотят повысить эффективность процессов со встроенными в них моделями машинного обучения. Мы добавляем этим компаниям новые для них данные, c помощью которых можно осуществить качественное улучшение точности моделей, и даем возможность проводить эксперименты.

- Каких результатов удалось достичь?

В первую очередь, это наш проект, называемый «совместный скоринг» — когда мы с партнерами делаем новый продукт и продаем его. С одним из клиентов выходим на промышленную эксплуатацию. И в разной степени внедрения находятся проекты в нескольких крупных банках, два-три из них планируется запустить в эксплуатацию в этом году.

- Насколько сильный прирост качества моделей дает совместное машинное обучение?

Показательный пример — удалось достичь показателей до 15% увеличения точности модели банковского и рискового скоринга. Очень значимый результат, потому что это примерно три пункта коэффициента Джини. Увеличение этого коэффициента хотя бы на один пункт — уже веский повод для внедрения системы. А когда речь идет о росте на три пункта Джини, заказчик часто готов даже на сложные и затратные проекты.

- Способно ли ваше решение повлиять на будущее рынка платформ машинного обучения?

Да, мы рассчитываем снять барьер data-паранойи, и дать машинному обучению развиваться. Компании должны получать рост эффективность без оглядки на опасения относительно своих данных. Есть и другие компании, которые идут в схожем направлении, но используют другие подходы.

- Какие вы видите перспективы развития платформы?

Супер-результатом было бы объединение всех решаемых нами задач на одной платформе — машинного обучения, Auto ML, подсистем лидогенерации и т.д., создание подобия «Единого окна маркетинговых коммуникаций».

Сценарий из недалекого будущего: к платформе подключается дата-сайентист, набирает себе любые источники данных, обучает модель, подключает каналы коммуникации, при необходимости проводит A/B тест, видит эффективность модели, получает достаточную конверсию, ставит Auto ML. Далее каждый день эта модель переобучается и делает компании рассылку лидов. Мы идем к этому будущему с двух сторон — с одной стороны, развиваем платформу конфиденциальных данных, а с другой стороны — систему лидогенерации и каналы коммуникаций. Важно объединить их в единое решение которое даст новые возможности для омниканальных маркетинговых коммуникаций.

Машинное обучение многими, особенно обывателями, воспринимается как нечто очень сложное, непонятное и далекое от каждодневной жизни. Мы как профессионалы видим, с какой скоростью развиваются ML-решения, как быстро они проникают во все стороны нашей жизни и помогают нам получать именно ту информацию и услуги, которые нам нужны. Мы гордимся, когда технологически передовые продукты делают наши инженеры, это гарантирует развитие отечественной ИТ-индустрии. Конечно, нахождение на переднем крае технологий, в настоящее время, ставит перед инженерными командами дополнительный набор требований, связанных с безопасностью. И эти требования по безопасности делают создание продуктов для бизнеса еще более интересными для разработчиков, а сами продукты востребованными рынком.

Статьи с Хабра