Для таких веб-служб, как социальные сети, веб-аналитика и интеллектуальная электронная коммерция, нередко требуется управление данными в таких масштабах, которые слишком велики для традиционной базы данных. Сложность этой задачи возрастает по мере увеличения масштабов и требований, и поэтому большие данные — это не просто дубликат реляционных баз данных или развертывание новомодной технологии. Правда, масштабируемость и простота не исключают друг друга, а лишь требуют разных подходов. Для хранения и обработки данных в системах больших данных используется много работающих параллельно машин, и это представляет главные трудности, незнакомые большинству разработчиков. В этой книге поясняется, как строить подобные системы на основе архитектуры, в которой выгодно используется кластерное оборудование наряду с инструментальными средствами, специально предназначенными для фиксации и анализа данных в масштабе веб. В ней описывается масштабируемый и легко понятный подход к системам больших данных, которые может построить и сопровождать небольшая команда специалистов. Теория построения систем больших данных подается в этой книге на реальных примерах их реализации на практике. Большие данные не требуют предварительного раскрытия для анализа крупномасштабных данных или инструментальных средств типа NoSQL. Знакомство с традиционными базами данных полезно, хотя и не обязательно. Цель данной книги — помочь читателю научиться анализировать информационные системы, разделяя сложные задачи на простые решения. Мы начнем изложение материала данной книги с рассмотрения основных принципов, а затем перейдем к необходимым свойствам каждого компонента архитектуры.
|