Сбер решил выложить датасет Golos в открытый доступ

Услуги >> 22.05.2021

Сбер выложил в открытый доступ самый большой набор речевых данных Golos. Он был размечен специалистами кредитной организации вручную. Датасет включает в себя 1 240 часов аудиоинформации и модель распознавания речи. Банк выложил датасет Golos на GitHub.

Бизнес сможет использовать данные датасета для синтеза и распознавания речи. Они будут предоставляться госбанком по лицензии, предполагающей возможность использования их в коммерческих и исследовательских целях.

Датасет был создан разработчиками подразделения SberDevices. Они сгенерировали свыше 1 240 часов человеческой речи. В датасет вошли размеченные вручную обезличенные записи.

По словам CTO подразделения SberDevices Д. Филиппова, публикация датасета на GitHub является важным шагом на пути развития в России речевых технологий. Сбер решил поделиться имеющимися у него наработками с представителями научного сообщества и разработчиками. Доступ к Golos позволит им продвинуться дальше в совершенствовании речевых технологий.

Ранее Г. Греф сообщил, что Сбер решил сделать свою экосистему открытой. В скором времени доступ к ней будет предоставлен другим участникам рынка.