Технология Big Data
Что такое Big Data и как это работает?
Любой обмен информацией в социальных сетях неизбежно предполагает её дальнейшую обработку, анализ и активное использование данных компаниями. Мы генерируем статистику. Любое подключенное устройство отправляет материал на центральные серверы. Если Big data —технология, то мы её ресурсы.
Когда возникла технология Big Data: конец 2000-х годов
Ключевые характеристики:
- децентрализованный способ хранения
- нетрадиционный формат структурирования данных
- полуструктурированные данные
- неструктурированные данные
- горизонтальная модель хранения и обработки данных
- слабая взаимосвязь элементов
Лидеры по объёму по объёму создаваемых данных за последние 12 месяцев: Китай
Прогнозирование: рынок аналитики Big Data будет расти на 35,9% ежегодно
Преимущества технологии Big Data:
- Наиболее рациональное использование ресурсов
- Фундаментальное изучение портрета клиентской базы
- Предотвращение мошенничества и профилактика хакерских атак
Big Data используют для углублённого взаимодействия с целевой аудиторией. Так, технология оптимизирует операции и предотвращает угрозу взлома программ. За последние несколько лет Google, Uber и Amazon открыли сотни вакансий для специалистов Data science.
С чего начать?
Big data — это различные инструменты, подходы и методы обработки структурированных и неструктурированных данных для решения конкретных целей и задач.
Неструктурированные данные — данные, которые находятся в хранилище организации без какого-либо намерения их оркестровки, структурирования или категоризации. Как правило, анализ неструктурированных данных включает анализ каждого объекта. К ним относятся документы, медиа-файлы и изображения. Анализ неструктурированных данных обычно проводится для поиска информации, скрытых тенденций и взаимосвязей внутри элементов информационного потока.
Когда и для чего?
Хотя термин «Big Data» является относительно новым, сам процесс сбора и хранения больших объемов информации для дальнейшего анализа получил развитие в начале 2000-х годов, когда отраслевой аналитик Даг Лейни сформулировал основное определение составляющих Big Data:
- Объем. Организации собирают данные из различных источников, включая бизнес-транзакции и социальные сети. Раньше хранение было бы проблемой, но новые технологии (такие как Hadoop) облегчили эту задачу.
Hadoop — свободно распространяемый набор утилит, библиотек и фреймворк для разработки и выполнения программ распределенных вычислений.
- Скорость. Данные поступают с беспрецедентной скоростью и должны обрабатываться своевременно. RFID-метки, датчики и интеллектуальные измерения приводят к необходимости обрабатывать потоки данных в реальном времени.
- Разнообразие. Данные поступают во всех типах форматов: от структурированных числовых данных в традиционных базах до неструктурированных текстовых документов, электронной почты, видео, аудио, биржевых данных и финансовых транзакций.
Новые измерения
В SAS рассматривается два дополнительных измерения Big data:
- Изменчивость. Помимо увеличения скорости и разнообразия данных, потоки данных могут сильно не соответствовать периодическим пикам. Ежедневные, сезонные и вызванные событиями пиковые нагрузки данных могут быть сложными в управлении. В частности, если речь идёт о неструктурированных данных.
- Сложность. Сегодняшние данные поступают из разных источников. Это затрудняет их связывание и преобразование в разных системах.
SAS Visual Analytics – это высокопроизводительное решение in-memory для анализа Big Data.
Хочу работать с Big Data! Как понять, что я подхожу?
Разделим сферу Big Data на два основных направления:
- Big Data engineering
- Big Data Analytics (Scientist)
Big data engineering занимается проектированием систем, над которыми должны выполняться вычисления. Работа в этой сфере подойдёт людям с хорошими навыками программирования, но без интереса к статистике и математике.
Big data Analytics включает в себя расширенные вычисления по данным. Если вы с лёгкостью решаете задачи по высшей математике, знакомы с теорией вероятностей и аналитической геометрией — эта область для вас.
Ресурсы для обучения:
Bash Scripting
Java
- Введение в программирование с помощью Java 1: Базовый уровень Java Udemy (eng).
- Продвинутое программирование на Java от Udemy (eng).
Cloud
Как с помощью лайков выиграть выборы президента в США ?
Современные аналитические программы способны обрабатывать огромное количество информации и узнавать...
Законопроект о «больших данных» хочет описать процессы, которые в этом...
Ассоциация больших данных, в которую входят «МегаФон», «Ростелеком», Mail.ru Group,...
16 мар 2019 в 20:07
16 мар 2019 в 20:24