Чем отличаются большие данные?
Чтобы отличить большие данные от традиционных источников данных, мы представим некоторые их особенности. Большие данные не обязательно удовлетворяют всем перечисленным ниже характеристикам, но большинству из них. Эти особенности:
- Большие данные часто генерируются автоматически:

Традиционные источники данных вовлекают человека в их создание, подумайте о банковских транзакциях, оплате счетов, телефонных записях и т. д.
С другой стороны, автоматическая генерация данных подразумевает, что данные генерируются машинами без вмешательства человека, рассмотрите данные, собранные устройствами IoT, умными часами, веб-блогами, отслеживающими поведение пользователей в Интернете, и другими данными в реальном времени, генерируемыми датчиками, контролирующими оборудование. Например: большой адронный коллайдер в ЦЕРНе генерирует 40 терабайт данных каждую секунду во время экспериментов.
2) Большие данные обычно возникают из нового источника данных:

Если мы посмотрим, например, на банковские транзакции, совершаемые в Интернете, они принципиально не отличаются от транзакций, выполняемых традиционно. Однако сделка состоялась в новом канале.
3) Многие источники больших данных запутаны, уродливы и недружелюбны:

Подумайте о твитах: мы не можем заставить пользователей следовать строгим правилам грамматики, количеству запрещенных символов или структуре абзаца в твиттере. С другой стороны, большинство традиционных источников данных предназначены для того, чтобы быть чистыми и легко управляемыми, чтобы их можно было легко хранить и манипулировать ими.
Традиционно источники данных были ограничены и четко определены, так что включались только ценные данные, но с уменьшением стоимости места для хранения и неопределенным характером источников больших данных мы обычно храним все полученные данные и беспокоимся о том, что из них нужно. значение данных позже, это позволяет нам уловить все тонкости данных, и ничего не будет упущено, однако это делает процесс анализа данных более болезненным.
Технологии не обходятся без риска, вот некоторые из рисков, связанных с большими данными:
- Хранение данных стоит денег, по мере накопления данных тратятся деньги на их хранение и обслуживание. Следовательно, при работе с большими данными должна быть реализована разумная стратегия. Нет необходимости фиксировать каждый бит передаваемых данных, вместо этого мы можем выбрать некоторые данные, посмотреть и применить исследовательский анализ, чтобы определить, какие источники имеют отношение к организации и как каждый источник может быть использован. После этого можно работать с интересующими источниками данных в больших масштабах.

2) Самый большой риск, связанный с большими данными, — это, вероятно, конфиденциальность. Различные лица и корпорации могут использовать большие данные пользователей без их согласия. Обратитесь к делу Cambridge Analytica, чтобы получить пугающее представление о рисках для конфиденциальности, связанных с большими данными.

Структура больших данных
Как правило, существует три типа данных: структурированные, неструктурированные и полуструктурированные данные. Часто говорят, что традиционные данные структурированы, а большие данные неструктурированы. Чтобы проверить правильность этого утверждения, давайте рассмотрим типы структур данных.
Структурированные данные: большинство традиционных источников данных структурированы, это означает, что данные поступают в предопределенном формате, который четко определен в конкретной схеме, характеристики данных известны и ожидаются заранее.

Неструктурированные данные: это данные, которые мы почти не можем контролировать, такие как текст, аудио и видеоданные. Например, изображение состоит из отдельных пикселей, ограничений на содержание этих пикселей, размерность изображений или их размер нет. Они бывают всех вкусов.

Полуструктурированные данные: большинство данных поступают в этом формате, этот тип данных следует логическому формату, который можно понять, но он не удобен для пользователя. Обычно это смешивается с большим количеством шума, и это обычно требует дополнительного времени и усилий для определения набора правил, определяющих, как считывается каждый фрагмент информации. Этот тип данных часто называют многоструктурными данными. Примером полуструктурированных данных являются блоги.

Изучение больших данных
Для изучения больших данных они собираются и представляются команде аналитиков. Эмпирическое правило гласит, что от 70 до 80 процентов времени тратится на сбор данных, а остальные 20-30 процентов — на фактический их анализ. Это приемлемо, поскольку идентификация частей больших данных, содержащих большую часть ценности, требует времени и усилий. Следует отметить, что большая часть данных не имеет ценности, некоторые данные имеют долгосрочную стратегическую ценность, а некоторые будут полезны для немедленного или тактического использования. Ключевой частью процесса исследования данных является идентификация этих отдельных частей.
В большинстве случаев необработанные данные хранятся в течение определенного периода времени, что позволяет извлекать дополнительные данные, которые были упущены при их первой обработке. Примерами этого являются методы, используемые веб-сайтами для отслеживания поведения пользователей, такие как методологии на основе тегов и журналов. В этих методологиях данные не выбрасываются заранее, они используются и хранятся до тех пор, пока это экономически эффективно, в зависимости как от размера потока данных, так и от объема доступного хранилища.
Что такое «Big Data»?
Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

С развитием технологий количество данных стало увеличиваться в геометрической прогрессии. Традиционные инструменты перестали покрывать потребность в обработке и хранении информации. Для обработки данных, объем которых превышает сотни терабайт и постоянно увеличивается, были созданы специальные алгоритмы. Их принято называть «big data».
Сегодня информация собирается огромными объемами из разных источников: интернет, контакт-центры, мобильные устройства и т.д. Чаще всего такие данные не имеют четкой структуры и упорядоченности, поэтому человек не может использовать их для какой-либо деятельности. Для автоматизации анализа применяют технологии «big data».
Когда появились первые большие данные?
Большие данные появились в 60-70 годах прошлого столетия вместе с первыми ЦОД (центры обработки данных). В 2005 году компании начали понимать масштабы создаваемого контента пользователями интернет-сервисов (Facebook, YouTube и др.). Тогда же начала работу первая платформа, предназначенная для взаимодействия с большими наборами данных, — Hadoop. Сегодня она представляет собой большой стек технологий для обработки информации. Чуть позже популярность начала набирать NoSQL — совокупность методов для создания систем управления большими данными.
Объем генерируемой информации стал увеличиваться с появлением крупных интернет-сервисов. Пользователи загружают фотографии, просматривают контент, ставят «лайки» и т.п. Вся эта информация собирается в больших объемах для дальнейшего анализа, после которого можно вносить улучшения в работу сервисов. Например, социальные сети используют большие данные для показа пользователям релевантной рекламы (то есть той, которая соответствует их потребностям и интересам) в таргете. Это позволяет соцсетям продавать бизнесу возможность проведения точных рекламных кампаний.
Основные свойства больших данных
В самом начале статьи мы определили три основных свойства больших данных из общепринятого определения. Давайте раскроем их более подробно:
- Объем. Из названия «большие данные» становится понятно, что они содержат в себе много информации. И это действительно так: компании могут ежедневно получать десятки терабайт различных данных, некоторые — сотни петабайт. То есть «большие данные» не были бы таковыми без объема.
- Скорость. Большие данные поступают и обрабатываются из разных источников с высокой скоростью. При отсутствии этого свойства информацию уже нельзя будет назвать «big data». А еще они генерируются без остановки.
- Разнообразие. Большие данные содержат в себе информацию, относящуюся к разным типам. Это одно из главных отличий от простых данных — они всегда структурированы и могут быть сразу сохранены в базе данных.
Как с ними работают?
Большие данные несут в себе много полезной информации, на основе которой компании создают новые возможности и формируют бизнес-модели. Работа с большими данными делится на 3 этапа: интеграция, управление и анализ.
1 этап. Интеграция
На этом этапе компания интегрирует в свою работу технологии и системы, позволяющие собирать большие объемы информации из разных источников. Внедряются механизмы обработки и форматирования данных для упрощения работы аналитиков с «big data».
2 этап. Управление
Полученные данные нужно где-то хранить, этот вопрос решается до начала работы с ними. Решение принимается на основе множества критериев, главными из которых считаются предпочтения по формату и технологии обработки. Как правило, для хранения компании используют локальные хранилища, публичные или частные облачные сервисы.
3 этап. Анализ
Большие данные начинают приносить пользу после анализа. Это заключительный этап взаимодействия с ними. Для этого применяют машинное обучение, ассоциацию правил обучения, генетические алгоритмы и другие технологии. После анализа данных остается только самое ценное для бизнеса.
Примеры использования больших данных
В общих чертах с «big data» разобрались. Но остался важный вопрос — где их можно применять практически? Ответ: в любой сфере деятельности, которая оперирует необходимыми для анализа данными. Давайте рассмотрим несколько реальных примеров. Это позволит лучше понять, для чего нужны большие данные и как от них можно получить пользу.
Big Data в банках
В российской банковской сфере большие данные первым начал использовать «Сбербанк». На основе «big data» и биометрической системы в 2014 году они разработали систему идентификации личности клиента по фотографии. Принцип работы очень простой: сравнение текущего снимка с фотографией из базы, которую делают сотрудники при выдаче банковской карты. Новая система сократила случаи мошенничества в 10 раз.
Сегодня «Сбербанк» продолжает использовать большие данные в работе: сбор и анализ информации позволяет управлять рисками, бороться с мошенничеством, оценивать кредитоспособность клиентов, управлять очередями в отделениях и многое другое.
Еще один пример из российского банковского сектора — ВТБ24. Внедрять «big data» компания начала чуть позже «Сбербанка». Сегодня они используют большие данные для сегментации и управления оттоком клиентов, формирования финансовой отчетности, анализа отзывов в интернете и многого другого.
«Альфа-Банку» большие данные помогают контролировать репутацию бренда в интернете, оценивать кредитоспособность новых клиентов, персонализировать контент, управлять рисками и т.п.
Большие данные в бизнесе
Многие ошибочно полагают, что работа с большими данными актуальна только для банковского сектора и ИТ-компаний. Это опровергает пример «Магнитогорского металлургического комбината», который разработал сервис «Снайпер» для снижения расходов сырья в производстве. Технология собирает большие объемы информации, анализирует их и дает рекомендации по оптимизации расходов материалов.
«Сургутнефтегаз» использует специальную систему для отслеживания основных бизнес-процессов в режиме реального времени. Это помогает в автоматизации учета продукции, ценообразовании, обеспечении персонала нужными данными и т.п.
Big Data в маркетинге
Маркетологи используют большие данные для прогнозирования результатов рекламных кампаний. Также анализ помогает в определении наиболее заинтересованной аудитории. Яркий пример «big data» в маркетинге — Google Trends. В систему поступает огромное количество данных, а после анализа пользователь может оценить сезонность того или иного товара (работы, услуги).
Сложности при использовании
Где есть большие возможности, там поджидают и большие трудности. Это правило не обошло стороной big data.
Первая сложность, с которой сталкиваются компании, — большие данные занимают много места. Да, технологии хранения постоянно улучшаются, но при этом и объем данных неуклонно растет (в среднем в два раза каждые два года).
Приобретение огромного хранилища не решает всех проблем. От простого хранения данных толку не будет, с ними нужно работать для получения выгоды. Отсюда вытекает другая сложность — налаживание обработки получаемых больших данных.
Сейчас аналитики тратят 50-80% рабочего времени для приведения информации в приемлемый для клиента вид. Компаниям приходится нанимать больше специалистов, что увеличивает расходы.
И еще одна проблема — стремительное развитие больших данных. Регулярно появляются новые инструменты и сервисы для работы (например, Hbase). Бизнесу приходится тратить много времени и средств, чтобы «быть в тренде» и не отставать от развития.
Таким образом, big data — это совокупность технологий обработки больших объемов информации (сотни терабайтов и более) и сегодня мало кто отрицает их важность в будущем. Их популярность будет расти и распространение в бизнесе увеличиваться. Впоследствии разработают технологии по автоматизации анализа и с big data будут работать не только крупные компании, но и средние с маленькими.
Что такое big data: зачем нужны большие данные, как их собирают и обрабатывают
Все вокруг говорят о больших данных: что с их помощью можно анализировать бизнес-процессы, предсказывать поведение клиентов, управлять производством и даже разрабатывать искусственный интеллект. Разберемся, что это, для чего они нужны и как работают.
Что такое большие данные
Если обобщить, то биг дата — это большой объем информации, который компания собирает и хранит для последующего использования. Еще когда говорят, что компания использует большие данные, часто имеют в виду не сами данные, а технологии для их обработки.
Какие данные можно считать большими
Чтобы отделить большие данные от обычных, нужно ответить на вопрос: «big data — это сколько?». Таблица в Экселе на 500 000 строк — это большие данные? А если строк миллиард? Текстовый файл на тысячи слов, который весит 2 мегабайта, — это много? А распечатки графиков температуры всех метеостанций Архангельской области — много или еще недостаточно?
Тут многие скажут, что эти примеры представляют собой довольно внушительное количество информации. Действительно, с такой точки зрения, все перечисленное — большие данные. Но что вы скажете про таблицу в Экселе на миллиард строк? Это тоже большие данные — и куда побольше тех!
На интуитивном уровне специалисты, далекие от big data, привыкли называть большими данными любой объем информации, который сложно удержать в голове и/или который занимает много места. И такое интуитивное определение, конечно же, неправильно.
Однозначно отделить формат больших данных от обычных помогут три критерия.
Данные должны быть цифровыми. Книги в национальной библиотеке или стопки документов в архиве компании — это данные, и часто их много. Но термин big data означает только цифровые данные, которые хранятся на серверах.
Данные должны поступать в объективно больших объемах и быстро накапливаться. Например, база заказов интернет-магазина по продаже колясок может быть большой: 10 миллионов заказов за 20 лет, но пополняется она со скоростью 100 заказов в сутки — это не большие данные. Фильм в высоком качестве может занимать десятки гигов, но со временем его размер не растет — это тоже не big data.
А вот записи показателей пары сенсоров в двигателе Боинга, поступающие в количестве несколько гигабайт в час и загружаемые на диагностический сервер производителя авиатехники — это уже big data.
Данные должны быть разнородными и слабо структурированными. Заказы в онлайн-магазине упорядочены, из них легко извлечь дополнительные статистические параметры, например, средний чек или самые популярные товары. Поэтому эти данные не относят к big data.
Показания датчиков температуры с корпуса самолета, записанные за последние 6 месяцев, — информация, в которой есть польза, но не очень понятно, как ее извлечь. Можно, конечно, рассчитать средние значения температуры за бортом самолета за полгода, но какой в этом смысл? А если погрузиться в анализ этих данных глубоко — можно вытащить много неочевидной информации. Например, о длительности перелетов, скорости набора высоты, климатических условиях за бортом и так далее. Информация интересная и полезная, но трудноизвлекаемая, значит, это большие данные.
Этот критерий не всегда обязательный. Иногда большие объемы структурированных данных, которые постоянно пополняются, относят к формату big data, особенно если их используют для машинного обучения или выявления неочевидных закономерностей. То есть если к структурированным данным применяют методы анализа big data, можно сказать, что это они и есть.
Итак, большие данные — это трудноанализируемая цифровая информация, накапливаемая со временем и поступающая к вам солидными порциями
Зачем нужна big data
Когда в любом IT-проекте начинают работать с данными, в первую очередь анализируют наиболее очевидные, значимые и понятные показатели. Так, если речь идет об онлайн-торговле, сначала смотрят на средние чеки заказов, топ продаж и объемы складских запасов. Когда речь идет о самолетах — смотрят скорость, высоту, расход топлива.
Сбор и анализ очевидных метрик позволяет вносить в систему простые и понятные корректировки. Такие улучшения практически сразу дают ощутимый результат. Это называется «сбор фруктов с нижних веток дерева».
По мере эволюции системы инженеры прорабатывают все видимые узкие места в проекте. После этого начинается стагнация продукта: для поиска новых путей развития нужно лезть выше, чтобы собрать плоды с более высоких веток. Инженеры и аналитики начинают собирать и анализировать косвенные данные, напрямую не связанные с основными метриками проектов.
Например, в онлайн-торговле можно собирать со страниц магазина данные о перемещении курсора (или пальца) по экрану. Или собирать данные с большого числа сенсоров самолета, например: число оборотов двигателя, состав топливно-воздушной смеси, забортную температуру и температуру выхлопа. Или анализировать слова в комментариях клиентов в соцсетях для оценки их лояльности.
Такие данные напрямую не связаны с основными метриками IT-системы и бизнеса, но при правильном анализе могут рассказать много интересного о возможных точках оптимизации в проекте. Работа с такими данными — как поиск нефти. Нужно пробовать разные места, применять различные стратегии поиска и извлечения скрытых ресурсов, спрятанных в данных. Далеко не все попытки будут успешны, но в итоге находки могут принести массу выгоды.
Большие данные в основном помогают решать четыре задачи:
Анализировать текущее положение дел и оптимизировать бизнес-процессы. С помощью больших данных можно понять, какие товары предпочитают покупатели, оптимально ли работают станки на производстве, нет ли проблем с поставками товаров. Обычно для этого ищут закономерности в данных, строят графики и диаграммы, формируют отчеты.
Делать прогнозы. Данные о прошлом помогают сделать выводы о будущем. Например, примерно прикинуть продажи в новом году или предсказать поломку оборудования до того, как оно действительно сломается. Чем больше данных, тем точнее предсказания.
Строить модели. На основе больших данных можно собрать компьютерную модель магазина, оборудования или нефтяной скважины. Потом с этой моделью можно экспериментировать: что-то в ней изменять, отслеживать разные показатели, ускорять или замедлять разные процессы для их анализа.
Автоматизировать рутину. На больших данных учатся автоматические программы, которые умеют выполнять определенные задачи, например, сортировать документы или общаться в чатах. Это могут быть как примитивные алгоритмы, так и искусственный интеллект: голосовые помощники или нейросети.
Больше интересных кейсов использования big data читайте в статье «Зачем вам большие данные: примеры использования big data в 8 отраслях».
Технологии работы с большими данными
Мы разобрались, что такое большие данные и какую пользу они могут принести. Теперь посмотрим, как в общих чертах работают системы анализа больших данных и какие инструменты нужны для их работы.
Упрощенно работа с big data происходит по следующей схеме: информацию собирают из разных источников → данные помещают на хранение в базы и хранилища → данные обрабатывают и анализируют → обработанные данные выводят с помощью средств визуализации или используют для машинного обучения.
Для технологий, которые работают с большими данными, базовым принципом считают горизонтальную масштабируемость, то есть возможность обрабатывать данные сразу на множестве узлов (серверов, компьютеров). Если обрабатывать такой массив информации на одном узле, это займет слишком много времени.
Итак, к основным технологиям для работы с большими данными относят:
- MapReduce. Это модель распределенных вычислений, разработанная Google. Ее суть в том, что обработка больших объемов информации происходит на большом количестве серверов (узлов), которые образуют кластер. На каждом сервере производятся одинаковые элементарные задания по обработке, потом все результаты обработки сводят вместе. Если копнуть чуть глубже, мы увидим, что в основе технологии лежат две процедуры функционального программирования. Первая — map, она применяет нужную функцию к каждому элементу данных. Вторая — reduce, она объединяет результаты работы. Такой подход позволяет быстрее обрабатывать большие данные. — термин расшифровывается как Not Only SQL, «не только SQL». Это подход к реализации систем управления базами данных. В общих чертах — особенность в том, что для хранения информации в базах данных NoSQL не требуется заранее заданная схема данных. Это значит, что любые данные можно легко помещать в хранилище и быстро извлекать оттуда. Когда у вас большое количество разнородных данных, именно это и нужно.
- Hadoop — инструмент для разработки решений, которые работают по модели MapReduce. По сути, это конструктор, из которого можно создавать хранилища данных под потребности бизнеса. Технология лежит в основе многих облачных решений для обработки больших данных. Например, сервис для анализа big data от Mail.ru Cloud Solutions построен на базе Hadoop, Spark и ClickHouse.
- R. Язык программирования для работы с графикой и статистической обработки данных. Стандарт для создания аналитических и статистических программ, без которых по определению невозможен анализ big data. Еще аналитики часто используют языки Python, Scala, Java.
McKinsey также включает в этот список технологии Business Intelligence и реляционные системы управления базами данных с поддержкой языка SQL
Рынок big data в мире и в России
По данным отчетов, в 2020 году мировой рынок big data составляет 138,9 млрд долларов, к 2025 году он вырастет до 229,4 млрд долларов — будет расти по 10,6% в год. Вплоть до 2025 года лидерство на рынке будет удерживать Северная Америка, в частности США.
В основном такой рост вызван повышением интереса к IoT — сейчас к интернету вещей подключено 30,73 млрд устройств, а к 2025 году их будет 75,44 млрд. Кроме того, уже сейчас без больших данных компании не выдерживают конкуренцию с теми, кто использует big data, так как не могут обеспечивать достаточный уровень клиентского сервиса.
По российскому рынку данных за 2020 год пока нет. В 2018 году отечественному рынку прогнозировали рост до 1,4 млрд долларов. По оценкам 2019 года, за счет больших данных ВВП России вырастет на 1,94 трлн рублей, а к 2024 эта сумма увеличится до 4,2 трлн. Особенно большой выигрыш от больших данных в России получат отрасли добычи полезных ископаемых, торговли, ремонта и строительства.
Что такое большие данные (big data), чем они отличаются от обычных данных и в чем состоит проблема правового регулирования big data
Закон.Ру – официально зарегистрированное СМИ. Ссылка на настоящую статью будет выглядеть следующим образом: Рожкова М.А. Что такое большие данные (big data), чем они отличаются от обычных данных и в чем состоит проблема правового регулирования big data [Электронный ресурс] // Закон.ру. 2019. 22 апреля. URL: https://zakon.ru/blog/2019/4/22/chto_takoe_bolshie_dannye_big_data_chem_oni_otlichayutsya_ot_obychnyh_dannyh_i_v_chem_sostoit_proble
Последнее время на разных по тематике конференциях весьма активно обсуждается проблематика больших данных (далее – big data), и многие эксперты начинают или заканчивают свои выступления тезисом в духе «big data – это новый вызов, стоящий перед юридическим сообществом». В рамках настоящей статьи попробуем разобраться в принципиальных различиях между big data и «просто» данными, а также оценить значимость этих различий для целей правового регулирования.
На сегодняшний день большинство юристов понимает big data как огромные массивы разнообразной информации (данных). Формированию такого понимания во многом способствовало растиражированное во многих публикациях употребление Клиффордом Линчем[1] этого термина применительно к взрывному росту мировых объемов информации и многообразию данных. Поэтому традиционная трактовка big data – «много, много разных данных» 🙂
На самом деле огромный физический объем и разнообразие типов данных –общеизвестные характеристики big data – представляют собой только одну сторону даже не медали, а многогранника. В рамках настоящей работы будут рассмотрены некоторые черты big data, значимые для уяснения сущности этого многоаспектного явления.
- Динамичность прироста, потребовавшая созданияметодов сбора, накопления и хранения, альтернативных традиционным системам управления базами данных
В отечественном ГК нашел отражение подход, согласно которому данные представляют собой некие информационные единицы, статично хранящиеся в электронных таблицах или базах данных. Правда, при разработке части четвертой ГК это понимание несколько модифицировалось: данные было предложено понимать в качестве «самостоятельных материалов (статей, расчетов, нормативных актов, судебных решений и иных подобных материалов)» (п. 2 ст. 1260 ГК [2]). Это, вероятно, стало следствием того, что для разработчиков Кодекса ориентиром служили исключительно базы известных справочно-правовых систем.
Применительно к big data нет никаких оснований говорить о статике: это динамичный, безостановочный процесс появления новых данных, часть которых изначально не структурирована и не обработана иным образом, а часть уже выступала предметом обработки. То есть прежде всего big data представляют собой постоянный поток огромных объемов информации, непрерывно поступающей из различных источников. Как отмечается во многих публикациях, к категории big data относится большинство потоков данных свыше 100 Гб в день.
Этот непрекращающийся поток данных поступает из различных источников, которые можно условно объединить в две основные группы:
– во-первых, технические источники, которые создают порядка 90% всей новой информации. Эта группа охватывает, в частности, интернет вещей (англ. Internet of Things, IoT, включающий в свой состав и промышленный интернет вещей (англ. Industrial Internet of Things, IIoT)), который «поставляет» информацию со всевозможных действующих датчиков, котроллеров, приборов учета потребления, устройств, устройств аудио- и видеорегистрации, измерительных комплексов и проч.; искусственный интеллект (англ. Artificial Intelligence, AI) и машинное обучение (англ. Machine Learning, ML).
– во-вторых, социальные источники, включающие, в частности, социальные медиа (англ. social media), под которыми понимаются разнообразные способы электронной коммуникации, позволяющие людям обмениваться информацией: социальные сети, виртуальные миры, специализированные форумы, профессиональные соцсети, блоги, фотохостинги, сайты отзывов, сайты знакомств и проч. (информация образуется из потока постов, комментариев, лайков, поисковых запросов, оценок, фото, аудио- и видеозаписей, отзывов и проч.); розничную торговлю (англ. retail), предоставляющую информацию о совершенных транзакциях, сведения из товарных чеков, из дисконтных карт и карт лояльности покупателей, из RFID-меток и проч.; здравоохранение, собирающее сведения о поставленных диагнозах и предложенных методиках лечения, восприимчивости пациентов к медицинским препаратам, оценке эффективности этих препаратов и проч., что находит отражение в медицинских картах, результатах лабораторных исследований и так далее.
Непрерывное появление – постоянным потоком – огромных объемов упомянутой информации потребовало разработки принципиально других методов сбора, накопления, обработки и хранения, нежели привычные базы данных, подразумевающие упорядоченную («по строкам и столбцам») организацию собранных сведений. Кроме того, в отличие от традиционных баз данных, в которых данные измеряются количеством информационных единиц («материалов» в терминологии разработчиков отечественного ГК), применительно к big data традиционно говорят о 3Vs: volume (физическом объеме); velocity (скорости прироста); variety (многообразию самих данных, их источников и проч.).
Итогом этого стало то, что современные подходы, инструменты и методы сбора, накопления, обработки и хранения big data характеризуются как альтернативные традиционным системам управления базами данных. И с технической точки зрения big data рассматривают именно как новые технологии, используемые для сбора, накопления, хранения и обработки данных.
Изложенные факты, на мой взгляд, значимы для целей права и приводят к тому, что нормы авторского и смежных прав, регламентирующие базы данных, уже не годятся для регулирования отношений, связанных со сбором, накоплением, обработкой и хранением big data. Поясняя это заключение, можно указать следующее.
В отечественном законодательстве база данных определена как совокупность самостоятельных материалов, систематизированных так, что они могут быть найдены и обработаны компьютером (п. 2 ст. 1260 ГК РФ). При этом авторско-правовой охране подлежит не содержание, а форма базы данных.
Как я уже писала в параграфе 3.4.3. своей статьи об имущественных правах на нематериальные объекты, базы данных отнесены к числу РИД и могут стать объектами авторских и (или) смежных прав. Вместе с тем правовая охрана распространяется не на все без исключения базы данных: являясь таковой в техническом смысле[3], база данных может не получить правовую охрану в качестве объекта интеллектуальных прав (подобно тому, как изобретение, не подтвержденное патентом, не признается изобретением с правовой точки зрения). А для того, чтобы база данных рассматривалась как объект авторских или смежных прав, она должна соответствовать установленным законом критериям.
- База данных может стать объектом авторскихправ и получить правовую охрану в соответствии с положениями гл. 70 ГК «Авторское право», если она признается составным произведением – если при подборе и компоновке ее составляющих (то есть по сути при определенииструктурыбазы данных) был реализован новаторский подход, использовались оригинальные творческие идеи, креативность (отсюда появилось название «креативная база данных»). В том случае, если база компилировалась безо всяких творческих усилий (например, составление осуществлялось исключительно в алфавитном и хронологическом порядке), то такая база не может быть причислена к составным произведениям и соответственно не является объектом авторского права. То есть гл. 70 ГК охраняет не содержание баз данных, а порядок подбора и компоновки ее составляющих (вследствие этого всякое иное лицо не может использовать тот же порядок при структурировании своей базы данных).
Применительно к сбору, накоплению, обработке и хранению big data не идет речи о каком-либо подборе и компоновке – современные системы допускают сбор, накопление, обработку и хранение данных как структурированных, так и неструктурированных[4] (англ. unstructured data; к которым относят, в частности, данные из соцсетей, видео- и аудиофайлы, данные GPS, спутниковые изображения, данные о перемещении мобильного абонента, данные с серверов, файлы PDF и проч.). Вследствие этого за хранилищами big data сложно усмотреть значение базы данных в смысле гл. 70 ГК.
- База данных может стать объектом смежных прав и получить правовую охрану в соответствии с положениями гл. 71 ГК «Права, смежные с авторскими» (см. § 5 гл. 71 «Право изготовителя базы данных»), если будет признано, что она является результатом существенных финансовых, материальных, организационных или иных вложений (инвестиций) изготовителя базы в ее создание (отсюда распространенное название – «инвестиционная база данных»). Инвестиционной может быть признана всякая база данных, которая содержит не менее 10 000 «самостоятельных информационных элементов (материалов)» (п. 1 ст. 1334 ГК), причем не имеет абсолютно никакого значения, какие данные включены в эту базу. Важно заметить, что нормами § 5 гл. 71 ГК охраняется не содержание, а по сути целостность базы данных с тем, чтобы защитить инвестиции, вложенные в ее создание (иникакое лицо не имеет право без согласия правообладателя извлекать из базы данных материалы и осуществлять их последующее использование в любой форме и любым способом).
Применительно к хранилищам big data прежде всего надо отметить проблематичность их отнесения к базам данных (с учетом сказанного выше). Да и допустимость распространения положений § 5 гл. 71 ГК на хранилища big data вызывает серьезные вопросы. Это, в частности, связано с тем, что множество лиц может одновременно собирать и хранить данные, полученные из одних и тех же открытых источников, – в этих условиях не представляется возможным определить, права какого лица будут подлежать защите в соответствии с положениями § 5 гл. 71 ГК.
Таким образом, можно заключить, что нормы об интеллектуальной собственности, по всей видимости, не предназначены для правовой охраны big data – регулирование отношений по поводу big data должно осуществляться по другим правилам.
- Вторичность и возможность многократного использования big data для достижения разнообразных целей
Другая особенность big data, которая является весьма значимой, состоит в том, что эти данные не создаются специально для проведения анализа, а возникают естественным образом: упомянутый поток данных – это результат непрерывной генерации данных, которые появляются в процессе осуществления различной деятельности и/или при решении разных задач. Иными словами, под big data как правило понимают вторичные данные, которые первоначально предназначались для других целей, их рассматривают как побочный результат различных процессов.
Так, пользователи соцсетей размещают в своих аккаунтах личную информацию и фото, преследуя цель поведать о себе миру; автоматическое сообщение контроллером сведений о состоянии и работоспособности технического узла предназначено для предотвращения нарушений его работы; онлайн-отзывы о ресторане/гостинице/прокате авто обычно направлены на улучшение качества услуг соответствующих компаний; передача с метеостанции данных о температуре воздуха, осадках, снежном покрове нацелена на генерацию необходимых сведений о метеорологических условиях и т.д. Вместе с тем вся эта информация вливается в бесконечный поток big data.
Как указывалось выше, вначале идет сбор и накопление таких данных с их последующим хранением (например, Uber накопил данные о более чем 5 млрд. поездок, а Tesla – о вождении на совокупной дистанции более чем 2 млрд. км). Эти накопленные данные уже рассматриваются как некий экономический актив компаний.
И тут-то вспоминается прозвучавшая еще в 2006 году и ставшая афоризмом фраза «Данные – это новая нефть!» (англ. “Data is the new oil!”), которая приписывается британскому математику Клайву Хамби[5].
Примечательно, что смысл этой фразы не в признании равноценности данных и нефти, а в констатации того, что, как и сырая нефть, необработанные (сырые) данные не представляют собой особой ценности: для того, чтобы данные создавали прибыль, они должны быть использованы – подвергнуты анализу, визуализированы, интегрированы и т.д. для принятия того или иного решения. Иными словами, огромные объемы собранной и накопленной информации, требующие существенных затрат на хранение, имеют только потенциальную коммерческую ценность. Реальную коммерческую ценность данные, полученные из потоков big data, могут приобрести лишь тогда, когда они используются для решения той или иной научной/социальной/коммерческой задачи.
Говоря об использовании big data, под ним понимают прежде всего аналитику больших данных (англ. big data analytics), которая признается «новой формой производства знаний» и предполагает обработку и структуризацию данных, создание алгоритмов анализа данных, агрегацию и анализ данных, выявление связей между данными, установление закономерностей и скрытых тенденций, построение прогнозов и т.п. При этом, по моему мнению, внимания заслуживают следующие моменты:
1) для целей big data analytics используются данные, собранные в разном контексте и полученные из разнообразных источников – технических и социальных. И сами данные уже не подразделяются строго на относящиеся только к узко предметной профессиональной сфере (например, медицинской, географической или финансовой) или четко определенной области – для решения поставленной задачи может быть задействована самая различная информация.
Так, современные автомобили сегодня накапливают данные о водителе, погоде и окружающей среде, самом авто и допущенных системой ошибок, подключенных устройствах и др.[6] Предполагается, что в дальнейшем использование этих данных позволит системе, в частности, своевременно оповестить водителя о плохих дорожных условиях, а также автоматически активировать программы, необходимые для обеспечения безопасности поездки.
Другой пример: компания Spaceknow обращается к использованию снимков из космоса для прогнозирования цены на нефть: алгоритмы анализа способны определять уровень заполнения крупнейших нефтехранилищ в мире, отталкиваясь от угла падения тени[7].
2) big data analytics предполагает создание специальных алгоритмов анализа данных и иных инструментов. Вследствие этого big data рассматривается уже не как совокупность данных, а как техническое решение, алгоритм. Иными словами, применительно к процессу big data analytics значимость приобретает уже не столько объем данных, сколько специально разрабатываемые инструменты и технологические решения, которые позволяют решить поставленную задачу.
В качестве примера можно привести разработку российского стартапа Synqera[8]. Созданная им вычислительная платформа анализирует информацию о покупателе – историю его покупок, покупательские предпочтения, возраст, пол и даже настроение (на кассах магазинов сенсорные экраны с датчиками распознают эмоции покупателей). Полученный результат обогащается бизнес-информацией об акциях или скидках магазина, а также данными из открытых источников (из соцсетей или о погоде[9]). А по итогам покупателю отправляются таргетированные сообщения, предоставляются персональные скидки и специальные предложения и т.п. Примечательно, что анализ данных осуществляется в течение 40 секунд – времени ожидания, которые покупатель в среднем проводит на кассе в ожидании оплаты товаров. Основанием для разработки платформы стало исследование, подтверждающее, что покупатели тратят миллионы на импульсные покупки, поэтому время, проведенное на кассе, и было предложено использовать для стимуляции таких импульсных покупок.
Здесь же нельзя не вспомнить курьезный случай, когда алгоритм, разработанный для сети магазинов Target, на основании обработанных данных установил беременность американской школьницы до того, как об этом узнала она сама и ее родители, и начал предлагать скидки на детские товары и памперсы[10]. Примечательно, что в результате этого случая было принято решение скорректировать алгоритм применительно к несовершеннолетним.
3) big data analytics допускает использование одних и тех же данных для достижения различных целей: для этого они соответствующим образом трансформируются и агрегируются – с добавлением новых наборов данных или без таковых. То есть анализу могут быть подвергнуты все доступные для аналитики данные либо выборки из собранных и накопленных компанией данних – в зависимости от поставленной задачи. Причем упомянутые данные перемещаются непредсказуемо, могут использоваться бесконечное число раз и в целях, которые заранее сложно предвидеть.
Изложенное позволяет акцентировать внимание на том, что неверно понимать big data только как огромные объемы многообразной информации[11].
Применительно к сбору, накоплению, обработке и хранению данных термин «big data» используется для обозначения, во-первых, огромных объемов разнообразной информации, и, во-вторых, технологий сбора, накопления, обработки и хранения, которые признаются альтернативой системам управления базами данных. Применительно к аналитике больших данных термин «big data» употребляется обычно для обозначения именно алгоритмов (всевозможных технических решений), тогда как объемы данных уходят на второй план, что демонстрируют приведенные примеры.
Исходя из сказанного завершить эту часть статьи представляется правильным ответом на вопрос, можно ли рассматривать результаты использования big data в качестве РИД (такое мнение иногда высказывается в публикациях). На мой взгляд, ответ очевиден: учитывая, что big data analytics осуществляется машиной посредством применения специальных алгоритмов анализа данных и разнообразных технических решений, нет никаких оснований говорить о творческой деятельности человека и возникновении РИД. Создание самого алгоритма – это уже другой вопрос, который представляется крайне интересным, но не будет рассматриваться в настоящей статье.
- Персональные данные как составляющая big data
В развитие вышесказанного хотелось бы обратить внимание и на еще один момент. О создании данных речь идет применительно к тем случаям, когда они генерируются техническими источниками (интернет вещей, искусственный интеллект, машинное обучение). В отношении данных из социальных источников, по всей видимости, следует говорить не о создании, а о накоплении / сборе данных. Этот момент весьма значим для решения вопроса о том, кто может рассматриваться в качестве правообладателя («владельца») данных того или иного вида. И здесь мы вплотную подходим к проблеме соотношения big data и персональных данных.
Достаточно часто в литературе встречаются утверждения о тонкой грани или недостаточной четкости разграничения big data и персональных данных.
На самом деле такой грани/разграничения вовсе не существует: в потоке поступающей из разных социальных источников информации, разумеется, содержатся и личные сведения (персональные данные), представляющие собой весьма разнообразную информацию, о чем я писала ранее. Причем при сравнительно небольшом объеме (см. выше о процентном соотношении объемов данных, поступающих из технических и социальных источников) именно персональные данные обладают наибольшей коммерческой ценностью.
Данное обстоятельство как раз и является объяснением тому факту, что в обсуждениях проблематики big data эксперты нередко уходят в сферу персональных данных, и получение согласия на (многократное) использование персональных данных – самый животрепещущий вопрос.
Таким образом, еще одной весьма значимой характеристикой big data является то, что персональные данные свободно вливаются в потоки big data, становясь их составляющими. И именно их присутствие в составе big data вызывает большинство вопросов, не возникающих применительно к данным, поступающим из технических источников. Да и проблемы, требующие законодательного урегулирования, – это проблемы именно персональных данных, тогда отношения по поводу big data, на мой взгляд, не нуждаются в подробном правовом регулировании.
P.S. лента новостей IP CLUB в сфере права интеллектуальной собственности и цифрового права (IP & Digital Law) в:
[1] Редактор журнала “Nature”, которому приписывается введение этого термина в обиход в 2008 г. См.: https://www.nature.com/articles/455001a
[2] В п. 2 ст. 1260 ГК база данных определена как «представленная в объективной форме совокупность самостоятельных материалов (статей, расчетов, нормативных актов, судебных решений и иных подобных материалов), систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью электронной вычислительной машины (ЭВМ)»
[3] В информатике под базами понимается совокупность данных, предназначенная для длительного хранения в особом, организованном виде, который определяется структурой (схемой) этой базы данных и правилами ее управления.
[4] Выделяют также и полуструктурированные данные.
[6] В публикациях встречаются указания на то, что каждое транспортное средство наподобие электромобилей Tesla вскоре будет генерировать до 25 Гб данных за час.
[9] Американский телеканал The Weather Channel создал data-платформу, с помощью которой отслеживается влияние местной погоды на настроение аудитории. По результатам обработки данных специалисты телеканала отправляют рекламодателям рекомендации о том, как и когда показывать рекламу, чтобы она была наиболее эффективной.