Обработка неструктурированных данных

Учет дополнительных источников данных в рейтинговой модели при оценке Клиента Банка

Реализован пилот Системы (по заказу ВТБ), которая при оценке Клиента в рейтинговой модели учитывает данные, находящиеся в различных слабоструктурированных объектах (файлах). Используемые в данной задаче данные оформлены как XML файлы, но с неизвестной и разнообразной содержательной семантикой, созданных как с использованием различных XML схем, так и без-схемные XML. Система предусматривает возможность использования файлов других форматов, документов, pdf и т.д., поступающих в систему, размещаются в хранилище и после предварительной настройки нового типа файла могут быть использованы при расчётах и анализе. В результате была реализована возможность учета показателей, хранящихся в неструктурированных файлах в рейтинговых моделях.

Сбор информации из открытых источников для обогащения данных о персонах и объектах

Для заранее выбранных персон и связанных с ними объектов (объекты собственности, родственники, друзья и т.д.) была реализована возможность обогащать справки о персонах путем анализа социальных сетей и других доступных источников, загружая данные в хранилище Data Pool и обрабатывая их настраиваемыми алгоритмами по выбранным показателям и выражениям. Для «просеивания» интернета был использован поисковик интернет-энджин Компании «Аналитические бизнес-решения» с последующей загрузкой полученных данных в хранилище Data Pool.

Например:

  • отзывы пользователей соцсетей об Иванове Иване Ивановиче положительны на 75%. Вывод делается на основе тональности высказываний пользователей;

  • более сложный случай, установка маркера того, что персона или объект упоминается в связи с другой персоной или объектом.

При выборе решения для обоих приведенных примеров инструментом обработки и хранения больших объемов данных, представленных в их оригинальном в т.ч. и неструктурированном виде, была выбрана парадигма Data Lake и реализована на ее частном решении - на технологии Data Pool.

Выбор решения был обусловлен следующими соображениями:

Data Pool способен хранить и обрабатывать строго-структурированные (таблицы баз данных, строки, колонки) и полу-структурированные данные (CSV, лог файлы, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf) и бинарные данные (видео, аудио, графические файлы).

Data Pool обрабатывает данные в рамках следующих стадий:

  • Ingest, получение информации из различных источников. Извлечение данных из источников может происходить в любых форматах и по любым протоколам (file, db query to xml/json, web service).

  • Digest, определение типа и классификация полученной информации, опциональная верификация. Возможно также проведение предварительной обработки с целью выявления и фиксации различных характеристик входных данных.

  • Absorb & store, размещение/сохранение данных в хранилищах. В основу Data pool положена модульная концепция хранения данных для разных требований и видов (форматов) данных. Таким образом для каждого определённого формата используется наиболее подходящая система хранения: Hadoop HDFS, MongoDB, BASEX, Solr/Elastic+file storage, Postgres и т. д. Система также может проводить индексирование информации для ускорения поиска данных специализированными и полнотекстовыми индексами.

  • Adapt, опциональное адаптированные данных под возможные варианты применения может включать в себя трансформацию данных, предварительное извлечение определённых элементов из данных. Дополнительно может происходить обогащение данных дополнительной информацией.

  • Apply, извлечение и применение данных в вычислениях и анализе. Извлечение и использование данных происходит в аналитических расчётах (формулах) непосредственно посредством доступа к файлу, а также с использованием различных языков запросов XQuery, MongoDB Query, Solr Query и т.д. Данные также могут поступать в расчёты в push режиме непосредственно при поступлении их в систему.

Любой файл, поступающий в систему, может быть размещён в Data Pool и таким образом данные из него могут быть использованы при расчётах и анализе. Архитектура Data Pool, по сути, позволяет анализировать любые данные, появляющиеся в организации и использовать их в расчётах. Используя при этом недорогое оборудование.

Описанные выше примеры были реализованы на базе СУБД Oracle.

Компания завершила перевод реализованного ПО на СУБД PostgreSQL.

Назад