Большие данные: сколько данных — это большие данные?

Делиться заботой!

Вот сколько данных на самом деле представляют собой большие данные:

Проще говоря, большие данные — это любая сумма данных, которая слишком велика для ваших текущих систем.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Если вам нужно инвестировать в большее количество или лучшие компьютеры, это большие данные.

Если вам нужно изменить то, как вы работаете со своими данными, это определенно большие данные.

Если вам нужны цифры, большие данные обычно начинаются примерно с 1 терабайта.

Поэтому, если вы хотите узнать все о том, сколько данных требуется именно для того, чтобы их можно было квалифицировать как большие данные, то вы попали по адресу.

Давайте начнем!

Большие данные: сколько данных — это большие данные?  (Все, что нужно знать)

Что такое большие данные?

Прежде чем мы перейдем к техническим определениям, давайте поговорим об общей концепции больших данных.

Вы, наверное, слышали этот термин более чем несколько раз.

Это в статьях для бизнеса во всем мире.

Просто просмотрите Forbes или BusinessInsider в течение нескольких минут, и вы, вероятно, увидите больше, чем несколько упоминаний о больших данных, Интернете вещей, расширенной аналитике и множестве связанных тем.

О чем все это говорит на самом деле?

Как следует из названия, большие данные — это сбор и обработка данных в очень больших объемах.

Вообще говоря, это объемы данных, которые слишком велики для обработки на одном персональном компьютере.

Большие данные также обычно включают генерацию данных из нескольких местоположений и ресурсов.

Во всем этом есть смысл.

Идея состоит в том, что когда у вас есть достаточно большие объемы информации, наблюдаемые вами тенденции более значимы и надежны.

Разрушение идеи больших средних

Это проникает в мысль очень большие средние.

Наличие большого количества данных вводит идею инерции в ваши данные и аналитику.

Что это значит?

Задумайтесь на минуту о средних оценках.

Независимо от того, была ли школа давным-давно или вы учитесь в настоящее время, для класса вполне нормально усреднить кучу разных оценок, чтобы дать вам среднее значение по курсу.

Таким образом, если у класса колледжа есть три оценки за тесты и ничего больше, каждая отдельная оценка оказывает огромное влияние на ваш итоговый средний балл.

Хорошая или плохая успеваемость только в одном тесте может полностью изменить вашу итоговую оценку.

С другой стороны, если вы получаете домашнее задание каждую ночь, то в течение семестра ни одна оценка за домашнее задание не будет иметь большого значения.

Среднее значение имеет больше отдельных точек данных, поэтому оно не так сильно зависит от одной оценки.

Какая система оценивания лучше отражает вашу успеваемость в классе?

Сторонники больших данных сказали бы, что чем стабильнее среднее, тем лучше.

Теперь распространите эту идею на крупный бизнес.

Представьте, как Google может использовать данные и средние значения, чтобы выяснить, как ранжировать поисковые запросы.

Миллиарды поисковых запросов выполняются через Google каждый день, поэтому ни один поиск не сможет полностью изменить работу поискового рейтинга.

Это обеспечивает большую стабильность при обработке чисел, но за это приходится платить.

Как вы обрабатываете миллиарды поисковых запросов, которые проходят через Google каждый день?

Вот и вся концепция больших данных.

Это выяснение того, как собирать и обрабатывать больше данных, чтобы ваши средние значения были более стабильными и надежными.

Как работают большие данные? (3 балла)

Окончательный ответ на вопрос, сколько данных является большими данными, может иметь смысл при более глубоком понимании самих больших данных.

Для этого мы можем разделить процессы больших данных на три столпа: сбор, хранение и обработка.

#1 Сбор данных

Первым из трех столпов является сбор данных.

Чтобы иметь большие данные, в первую очередь вам нужно много чисел (или точек данных).

Существует множество способов сбора информации, но парочку из них легко понять.

Для любого бизнеса транзакции вполне нормальны.

Независимо от того, является ли ваш бизнес Walmart, продающим бесчисленное количество товаров в тысячах точек каждый день, или юридической фирмой, выставляющей счета клиентам каждый месяц, деньги переходят из рук в руки.

Большинство компаний стараются хорошо отслеживать деньги, которые они зарабатывают и тратят, поэтому это простой способ получить данные.

Вы можете создавать квитанцию ​​о транзакции каждый раз, когда деньги переходят из рук в руки, и существует множество современных систем, которые автоматизируют этот процесс.

Еще один простой способ генерировать данные — использовать веб-сайты.

Каждый раз, когда кто-то посещает ваш сайт, они взаимодействуют с ним.

Компьютеры могут отслеживать, что они делают, и это генерирует массу данных.

В конечном счете, сбор данных ограничен только творческим подходом, но пока у вас нет инфраструктуры для сбора данных, все остальное бессмысленно.

# 2 Хранение данных

Когда у вас много данных, их нужно где-то хранить.

Поскольку мы говорим о больших данных, маловероятно, что вы сможете хранить все в физической картотеке или даже на одном персональном компьютере.

Большие данные обычно предполагают использование серверов.

В конечном счете, серверы — это мощные компьютерные системы, предназначенные для обработки гораздо больших объемов данных и обработки, чем персональные устройства.

Таким образом, большинство игроков в области больших данных либо строят большие серверы, либо заключают контракты с технологическими компаниями для управления ими.

Вы услышите такие термины, как «облако».

В конечном счете, облачные сервисы — это способ аутсорсинга управления серверами, поэтому все сводится к одной и той же корневой концепции.

Вам нужен доступ к мощным серверам для хранения ваших больших данных.

#3 Обработка данных

Наконец, большие данные бессмысленны, если вы не проанализируете их.

Обработка такого большого количества информации с помощью вычислений и алгоритмов — непростая задача, поэтому для анализа больших данных обычно требуются мощные вычислительные ресурсы.

Опять же, серверы выполняют большую часть работы.

Как я только что сказал, серверы могут обрабатывать гораздо большие вычислительные нагрузки, чем персональные компьютеры.

Это означает, что они могут выполнять гораздо больше вычислений, чем ваш смартфон или ноутбук, и это помогает им сортировать огромные хранилища данных, которые мы сегодня обсуждаем.

Когда данные становятся достаточно большими, вы даже можете использовать несколько серверов или групп серверов, чтобы пройти через все это.

Вы можете быть уверены, что такая компания, как Google, тратит столько ресурсов на данные, что они даже не могут поместиться в одном хранилище.

В настоящее время компания имеет 23 центра обработки данных.

Каждая локация наполнена большей вычислительной мощностью, чем это обычно имеет смысл.

Вот моя попытка попытаться представить это в перспективе.

Занимает миллиарды галлонов воды просто для охлаждения компьютеров в этих центрах обработки данных каждый год.

Излишне говорить, что мощность, необходимая для запуска самой популярной в мире поисковой системы, просто смехотворна.

Сколько данных требуется, чтобы квалифицироваться как большие данные?

Хорошо.

Теперь, когда у вас есть более четкое представление о том, что связано с большими данными, давайте вернемся к первоначальному вопросу.

Сколько данных — это большие данные?

Если вы спросите сотню технических экспертов, вы можете получить сотню ответов.

Я хочу остановиться только на двух.

Первый исходит от Пшемека Хоецки, доктора философии из Оксфорда. и специалист по информатике.

По словам Хоецкогобольшие данные относятся к любому «набору данных, который слишком велик или сложен для обработки обычными вычислительными устройствами».

Таким образом, это будет означать, что количество данных, необходимых для квалификации в качестве больших данных, меняется по мере того, как компьютеры становятся более мощными и сложными.

Используя это определение, по сегодняшним меркам большие данные начинают действовать, когда они занимают более терабайта дискового пространства (я расскажу об этом через минуту).

Другое определение, которое я не могу приписать ни одному эксперту, заключается в том, что большие данные применимы к любой ситуации, которая требует инновационных решений, чтобы справиться со всем этим.

Итак, если вы не можете обрабатывать свои данные с помощью инструментов, которые у вас уже есть, значит, вы имеете дело с большими данными.

Обе эти идеи имеют большой смысл.

Если ваш компьютер (или компьютеры) под рукой не может обрабатывать данные, значит, они большие. Это довольно легко, верно?

Но чтобы прояснить, нам, вероятно, следует изучить еще несколько идей.

Во-первых, я собираюсь объяснить размеры данных немного подробнее.

Понимание размеров данных

Если терабайты данных — это то, что квалифицируется как большие данные, то что такое терабайт?

Ну, это единица измерения компьютерной информации.

На базовом уровне компьютеры хранят информацию в биты.

Бит — это набор единиц и нулей, который представляет собой единый фрагмент информации для компьютера.

Итак, если вы отслеживаете транзакции, одна продажа может храниться как один бит.

Но по мере усложнения информации биты больше не выполняют свою функцию.

Они по-прежнему являются основным строительным блоком, но вы соединяете их вместе, чтобы сформировать байты.

В частности, байт состоит из восьми битов, поэтому байт может содержать гораздо больше данных, чем просто бит.

Тем не менее, мы говорим здесь об огромных объемах данных, поэтому даже один байт не приближается к тому, что вам нужно для обработки больших данных.

Вместо этого он измеряется в терабайтах (или даже в значительно больших единицах).

Для простоты терабайт равен 1 триллиону байтов.

Это много байтов, но без контекста это мало что значит.

Вы можете посмотреть на это таким образом.

Если вы когда-либо смотрели Netflix, то вы передавали много байтов, чтобы просмотреть одно видео.

Если вы смотрю в 1080p (стандартное высокое разрешение), то час видео занимает около 3 гигабайт данных.

В сверхвысоком разрешении (4k) один час видео занимает около 7 гигабайт.

Терабайт — это 1 тысяча гигабайт, поэтому вы просматриваете более 300 часов потоковой передачи Netflix в высоком разрешении, прежде чем наткнетесь на одно из наших определений больших данных.

Надеюсь, это поможет представить это в перспективе.

Какие виды инноваций управляют большими данными? (3 вещи)

Второе определение больших данных интересно, потому что оно заставляет нас взглянуть на то, как большие данные меняют мир.

Поскольку большие данные требуют инноваций, какие инновации мы уже видим?

Я собираюсь провести вас через три больших.

Когда мы закончим, у вас, надеюсь, будет хорошее представление о том, что значит иметь так много данных, что это требует инноваций.

№1 Искусственный интеллект

Когда вы думаете об ошеломляющих объемах обрабатываемых данных, очевидно, что это слишком много для того, чтобы люди могли делать это вручную.

На самом деле это слишком много для обычных компьютеров, отсюда и наше определение, согласно которому большие данные требуют инноваций.

Для обработки тонн данных одним из самых полезных нововведений является искусственный интеллект.

В частности, машинное обучение становится лучше и точнее, когда у него есть доступ к большему количеству данных.

По сути, машинное обучение использует чрезвычайно сложные математические формулы для просеивания огромных груд данных, которые мы обсуждаем.

С помощью этих формул он может упростить анализ и производить значимые экстраполяции намного быстрее, чем другие аналитические методы.

Цена этого в том, что обычные компьютеры не могут справиться с расширенным машинным обучением.

Это требует слишком большой вычислительной мощности.

Но когда вы решаете проблему обработки, искусственный интеллект помогает сортировать большие данные с гораздо меньшим контролем со стороны человека.

#2 Децентрализованная обработка

Если больших данных слишком много для одного компьютера, то само собой разумеющееся, что вы могли бы разобраться с ними на множестве компьютеров, верно?

Это концепция децентрализованной обработки.

Это немного упрощение, но суть в том, что вы можете где-то хранить все данные на сервере.

Затем вы можете предоставить целому ряду устройств доступ к данным.

Каждое устройство вносит свой вклад, и при наличии достаточного количества устройств вы можете анализировать даже эти огромные груды информации.

Хорошим примером этого является блокчейн.

Блокчейн требует огромного количества вычислений для работы.

Вместо того, чтобы делать суперкомпьютер для всего этого, блокчейн позволяет любому, кто хочет внести свой вклад в вычисления.

При достаточном количестве участников вы можете выполнять расчеты, и система работает.

№3 Интернет вещей

Еще одна интересная инновация с большими данными — Интернет вещей.

Это крылатая фраза, описывающая системы, предназначенные для сбора тонн данных.

Таким образом, с Интернетом вещей вы можете установить датчики с подключением к Интернету в холодильники.

Затем эти датчики сообщают центральному серверу о работе холодильников.

Производитель может просмотреть эти данные и получить представление о том, какие конструктивные изменения им, возможно, потребуется внести, чтобы улучшить следующую модель.

Это конкретный пример, но идея в том, что с большим количеством подключенных к Интернету датчиков вы можете генерировать данные практически для всего, что хотите проанализировать.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *