Зачем вам нужно интегрированное решение для жизненного цикла данных

Зачем вам нужно интегрированное решение для жизненного цикла данных
                Casi todas las empresas que han pasado por una transformación digital han luchado por hacer el mejor uso de la gran cantidad de datos recopilados.  De hecho, estimamos que para la mayoría de las empresas, el 85-95% de los datos nunca se utilizan por completo y, por lo tanto, se desperdician.
В жизненном цикле данных есть много этапов, включая сбор данных, создание наборов данных/инженерию данных для осмысления необработанных данных, массовое хранение данных для последующего использования/анализа, создание базы данных для изучения данных и, наконец, возможность их использования. расширенная аналитика и/или машинное обучение для извлечения информации из недоступных данных с помощью простых отчетов, обеспечивая при этом безопасность данных и полное соответствие нормативным требованиям. Проблема для многих организаций состоит в том, как наилучшим образом настроить такую ​​систему, сохраняя при этом разумные затраты и сводя к минимуму время развертывания/эксплуатации, а также проблему представления данных осмысленным образом, чтобы люди могли извлечь из них ценную информацию. Что необходимо, так это способ управления всем жизненным циклом данных, от сбора до анализа и понимания, сохраняя при этом преимущества и удобство использования открытого исходного кода. «Родные локальные и/или гибридные или облачные вычисления. Хранилища данных существуют уже некоторое время и могут обеспечивать хранение и доставку, но они не обеспечивают полного решения. Многие организации внедрили облака данных либо с помощью полностью открытого исходного кода (например, Apache Hadoop), либо в виде коммерческих продуктов (например, Talend, Informatica, Amazon Redshift, IBM, SAP, Oracle и т. д.), но это не решает жизненный цикл набора данных. сложной задачей и часто требует использования множества разрозненных плагинов, которые нелегко интегрировать.
                Casi todas las empresas que han pasado por una transformación digital han luchado por hacer el mejor uso de la gran cantidad de datos recopilados.  De hecho, estimamos que para la mayoría de las empresas, el 85-95% de los datos nunca se utilizan por completo y, por lo tanto, se desperdician.
В жизненном цикле данных есть много этапов, включая сбор данных, создание наборов данных/инженерию данных для осмысления необработанных данных, массовое хранение данных для последующего использования/анализа, создание базы данных для изучения данных и, наконец, возможность их использования. расширенная аналитика и/или машинное обучение для извлечения информации из недоступных данных с помощью простых отчетов, обеспечивая при этом безопасность данных и полное соответствие нормативным требованиям. Проблема для многих организаций состоит в том, как наилучшим образом настроить такую ​​систему, сохраняя при этом разумные затраты и сводя к минимуму время развертывания/эксплуатации, а также проблему представления данных осмысленным образом, чтобы люди могли извлечь из них ценную информацию. Что необходимо, так это способ управления всем жизненным циклом данных, от сбора до анализа и понимания, сохраняя при этом преимущества и удобство использования открытого исходного кода. «Родные локальные и/или гибридные или облачные вычисления. Хранилища данных существуют уже некоторое время и могут обеспечивать хранение и доставку, но они не обеспечивают полного решения. Многие организации внедрили облака данных либо с открытым исходным кодом (например, Apache Hadoop), либо в виде коммерческих продуктов (например, Talend, Informatica, Amazon Redshift, IBM, SAP, Oracle и т. д.), но это не решает проблему жизненного цикла набора данных. сложной задачей и часто требует использования множества разрозненных плагинов, которые нелегко интегрировать. В то время как системы/программы с открытым исходным кодом кажутся очень привлекательными, особенно с точки зрения затрат, подход «сделай сам» к реализации работающего решения часто сложен, а «бесплатно» на самом деле не «бесплатно». Полное время безотказной работы значительно сокращается при выборе комплексного решения, как и сложность текущей поддержки и эксплуатации. Такой подход может сэкономить десятки миллионов долларов при развертывании предприятия в долгосрочной перспективе. По нашим оценкам, проблемы сложности и интеграции приводят к сбою 50–65 % всех бизнес-систем или к сбою всех вместе. Кроме того, текущие расходы на обслуживание неоптимизированных систем оказывают значительное влияние на операционный бюджет, и, по нашим оценкам, они могут в 2-5 раз превышать стоимость полностью интегрированных и пакетных решений. Проблема со всем этим, помимо стоимости и потребности в многочисленных технических навыках и доступных ресурсах, заключается в том, что желаемый конечный результат, время, необходимое для понимания, затягиваются и могут никогда не быть полностью достигнуты. Этот период размышлений очень дорог. Гораздо эффективнее найти решение с открытым исходным кодом, но со всеми необходимыми интеграциями для создания полноценной системы, которую можно легко и быстро развернуть и в конечном итоге эффективно поддерживать. В качестве примера более комплексного решения для жизненного цикла данных компания Cloudera разработала интегрированный подход со своей платформой данных Cloudera (CDP), которая включает не только сбор и хранение данных, но также обеспечивает «машинное обучение» и сокращает время на понимание, в то время как включая многоуровневый профиль подхода к защите данных. Он объединяет сбор данных, поток данных, разработку данных, хранилище данных, базу данных и машинное обучение (ML) в одну расширяемую структуру и позволяет интегрировать дополнительные возможности, необходимые для расширяющейся партнерской экосистемы. Он работает локально, в гибридном облаке или в общедоступном облаке, а при развертывании в виде облачного развертывания может практически устранить задержки, связанные с развертыванием отдельных компонентов, потенциально экономя месяцы на анализе данных. Это важно для многих предприятий, где задержки могут дорого обойтись и/или нанести ущерб. Например, задержка обнаружения мошенничества на несколько минут или часов может привести к огромным потерям в долгосрочной перспективе. Согласно Отчету о расследовании мошенничества с депозитными счетами Американской ассоциации банкиров за 2019 г., банки США UU. В 22.300 году они предотвратили попытки мошенничества с депозитными счетами на сумму 2018 миллиарда долларов, а общая сумма попыток мошенничества составила 25,1 миллиарда евро. Даже при таком высоком уровне предотвращения вполне вероятно, что более активный и своевременный анализ мог бы остановить большую часть оставшихся 2.8 миллиардов евро мошенничества. И хотя анализ финансового мошенничества часто представляют в качестве главного кандидата для таких систем анализа данных, это лишь верхушка айсберга. Несвоевременный анализ данных/тенденций в области здравоохранения может создать возможность для того, чтобы болезнь распространилась незамеченной и заразила гораздо больше людей, как мы видели во время нынешнего пандемического кризиса, а также создать проблемы из-за отсутствия надлежащей диагностики и последующего лечения. По мере того, как мы движемся к более широкому использованию удаленных сеансов телемедицины и большей зависимости от мониторинга дистанционного зондирования и более автоматизированной медицинской аналитики, критически важны точно собранные данные, поскольку любой неверный диагноз из-за ошибочных данных может иметь большие затраты как для отдельных лиц, так и для систем доставки. По разным оценкам, стоимость ошибочного диагноза достигает 30% от общей стоимости медицинского обслуживания. В 2018 году Соединенные Штаты потратили на здравоохранение около 3.6 трлн евро, что в среднем составляет около 11,000 XNUMX евро на человека. Переход к более инклюзивной роли удаленных систем здравоохранения требует наличия гораздо более мощных возможностей жизненного цикла данных, чем в настоящее время доступно во многих учреждениях, чтобы исключить или, по крайней мере, значительно уменьшить количество ошибок. диагностика и сопутствующие проблемы. Кроме того, способ обмена личными данными между различными организациями, чтобы лучше оценивать тенденции и предоставлять более широкие категории людей для анализа на конфиденциальной основе, является еще одной причиной для процесса управления бизнес-циклами. Увеличенный срок службы данных может защитить конфиденциальность и соответствовать всем соответствующим критериям. Вопросы соблюдения нормативных требований имеют решающее значение. Другие отрасли, такие как розничная торговля, производство, фармацевтика, транспорт и многие другие, выиграют от этого подхода к управлению жизненным циклом данных. Вывод: более всеобъемлющая платформа для полного управления жизненным циклом данных необходима по мере того, как мы движемся к более управляемому данными и цифровому преобразованному миру. Во многих компаниях данные скоропортящиеся, так как любое отсутствие своевременной информации может нанести значительный физический или финансовый ущерб. Предприятиям следует использовать платформенный подход к управлению жизненным циклом данных, который не требует глубокой внутренней интеграции или длительного цикла развертывания, будь то крупные межкорпоративные проекты или отдельные или текущие проекты. небольшие группы.