Константин Черноусов: "Мы автоматизируем процесс так называемого краудсорсинга, когда за счет нашего решения становится возможным проанализировать каждую отдельную идею".

На наши вопросы отвечает Константин Черноусов, заместитель генерального директора VESOLV.
Константин Черноусов — Чем вызвано Ваше решение о начале сотрудничества с Yandex Data Factory?

Мы занимаемся анализом неструктурированных данных на базе подхода текстовой аналитики уже продолжительное время. За это время изучили и поняли возможности различных платформ: как с открытым кодом, так и коммерческих от различных вендоров, в том числе и решение от Yandex Data Factory. У каждой платформы свои преимущества и недостатки, возможности и ограничения.
 
Когда мы готовили продукт для коммерческого сектора, нам пришлось еще раз пересмотреть показатели платформ, поскольку значение здесь имеет не только стоимость владения решением, но и значительную роль играет сложность внедрения на предприятии, возможности по встраиванию во внутреннюю инфраструктуру, уровень знаний персонала, использующего продукт, и, конечно, качество работы с русским языком.

Мы видели, что платформа Yandex Data Factory обладает необходимым функционалом, который позволяет кастомизировать решение в соответствии с потребностями  конкретной организации. Нам удалось достичь взаимовыгодных условий с руководством Yandex Data Factory и объединить компетенции специалистов Yandex Data Factory и VESOLV.

— Проводились сравнения между результатами, получаемыми после «ручных» (традиционных) методов получения информации об удовлетворенности и мнениях клиентов и посредством Вашей платформы VESOLV VoC?

Во-первых, обучение решения на ограниченной выборке данных (~1500 отзывов) проводилось вручную. Во-вторых, решения класса «Текстовая аналитика» пока не достигли уровня, когда можно говорить о 100% достоверности распознавания данных (а можно ли вообще говорить всегда о 100% даже при естественном общении?). Мы говорим о параметре «достоверность распознавания», когда эксперт проверяющий качество работы машинного алгоритма соглашается, что машина отработала верно. Другой параметр — «порог достоверности» — позволяет нам сортировать входящую информацию на два выходных потока: достоверно распознанную информацию и для ручного разбора.  «Достоверно распознанная» информация используется для сценариев реального времени и для построения отчетов, а второй поток после ручного разбора используется для обучения системы.

Такой подход позволяет повысить производительность работы экспертов на 2-3 порядка и существенно сократить издержки в цепочке взаимодействия с клиентом. Эксперты компании больше времени тратят на основные задачи: общение с клиентом, анализ продуктовой матрицы, понимание источника проблемы, вместо изучения большого объема информации.
Если говорить о цифрах, то достоверность сильно зависит от многих факторов: обсуждаемого продукта, региона клиента, возраста клиента, уровня образования. Мы оцениваем средний уровень достоверности по информации об удовлетворенности и по мнениям (как среднюю температуру по больнице) как 82%. По правилу «3 сигм» диапазон достоверности — от 76% до 92% по количеству отзывов.

— Может Ваша система распознавать и учитывать «троллей» — людей, которые специально, за деньги, создают негативный или позитивный образ? Ведь они могут значительно искажать реальный фон потребительского настроения в сети.

На текущий момент у нас накоплен еще недостаточный объем данных, чтобы можно было говорить о значительном прогрессе в данном направлении. Мы не можем с высокой степенью достоверности отличить «сложного» тролля от обычного человека. С ботами проще, хотя бывают достаточно сложные алгоритмы. Но таких троллей и ботов, как правило, сложно выделить и опытному эксперту. Мы лишь извлекаем значимую информацию из большого объема данных и позволяем клиентам делать это эффективно — быстро и дешево.
Сейчас мы работаем в данном направлении. В своих тестах уже получили неплохие результаты по выделению элементарных троллей и ботов. И на большом объеме информации, как правило, их влияние оказывается незаметным.
 
Также обращу внимание, что мы не фильтруем подобную информацию, а маркируем ее признаками «тролль/бот» с какой-то степенью достоверности. Таким образом, предоставляя экспертам дополнительную информацию для анализа деятельности троллей и ботов.

— Вы ожидаете реальный интерес со стороны государственных организаций к Вашему новому продукту, выпуск которого запланирован на 2017 год? Может быть у Вас уже есть предварительные заказы? Бытует мнение, что работой многих государственных структур больше недовольны, чем довольны, и об этом не очень хочется знать тем чиновникам, которые  могут влиять на эту ситуацию.

Мы обсуждаем несколько интересных идей, как со стороны частных организаций, так и государственных структур. Дело в том, что мы говорим не о стоимости подобного решения, а о ценности, которую сможем принести для социального развития. Основная идея состоит в сокращении времени от идеи до реализации (например, от идеи до закона или от идеи до закупки). Условия времени требуют повышения эффективности работы государственной машины, и мы предоставляем инструмент, позволяющий вывести отдельные функции на качественно новый уровень.

Относительно недовольства той или иной структуры мы говорим, в первую очередь, не о недовольстве в общем, а о недовольстве конкретными направлениями, событиями и фактами. Мы делаем возможным анализировать весь объем доступной информации по различным категориям в зависимости от планов развития того или иного ведомства, а не только ее часть.
С другой стороны мы автоматизируем процесс так называемого краудсорсинга, когда за счет нашего решения становится возможным проанализировать каждую отдельную идею. И использовать эти идеи как для стратегического планирования, так и для оперативного реагирования на значимые события.

  • npsod,
  • 1980
  • 0