У дома железария Голямо желязо, посрещнете големи данни: освобождаване на мейнфрейм данни с хадоп и искра

Голямо желязо, посрещнете големи данни: освобождаване на мейнфрейм данни с хадоп и искра

Anonim

От персонала на Техопедия, 2 юни 2016 г.

Отнемане: Екосистемата Hadoop се използва в мейнфреймите за бърза и ефикасна обработка на големи данни.

В момента не сте влезли. Моля, влезте или се регистрирайте, за да видите видеото.

Ерик Кавана: Добре дами и господа, в четвъртък е четири часа източно, а в наши дни това означава, че разбира се е време за горещи технологии. Да, наистина се казвам Ерик Кавана. Ще бъда ваш модератор за днешния уеб семинар. Хубави неща, хора, „Голямо желязо, запознайте се с големи данни“ - просто обичам това заглавие - „Освобождаване на мейнфрейм данни с Hadoop и Spark.“ Ще говорим за стари срещи с нови. Еха! Ние обхващаме спектъра на всичко, за което говорихме през последните 50 години на ИТ на предприятията. Spark отговаря на мейнфрейм, обичам го.

Има място за вашето наистина и достатъчно за мен. Годината е гореща. В тази поредица говорим за горещи теми, защото наистина се опитваме да помогнем на хората да разберат определени дисциплини, определени пространства. Какво означава например да имате аналитична платформа? Какво означава освобождаването на големи данни от мейнфреймите? Какво означава всичко това? Опитваме се да ви помогнем да разберете конкретни видове технологии, къде се вписват в сместа и как можете да ги използвате.

Днес имаме двама анализатори и след това, разбира се, Tendü Yogurtçu от Syncsort. Тя е визионер в нашето пространство, много й е приятно, че я има онлайн днес, с нашите собствени Дез Бланчфийлд и д-р Робин Блур. Ще кажа само няколко бързи думи. Едното е, че хора, вие играете голяма роля в този процес, така че, моля, не се срамувайте да задавате добри въпроси. Бихме искали да стигнем до тях по време на Q&A компонента на уеб предаването, което обикновено е в края на шоуто. И трябва само да кажа, че имаме много добро съдържание, така че съм развълнуван да чуя какво трябва да кажат тези момчета. И с това ще го предам на Дез Бланчфийлд. Дез, подът е твой, махни го.

Дез Бланчфийлд: Благодаря ти, Ерик, и благодаря на всички, че присъстваха днес. Така се вълнувам доста, когато получа шанс да говоря за едно от любимите си неща в света, мейнфреймите. Те не получават много любов в наши дни. Според мен мейнфреймът беше оригиналната платформа за големи данни. Някои биха спорили, че те са били единственият компютър по онова време и това е справедлив момент, но вече повече от 60 години те наистина са били машинното отделение на онези големи данни, които напоследък са били популярни. И аз ще ви отведа на малко пътешествие, защо вярвам, че това е така.

Видяхме пътуване в технологичните хардуерни стекове в контекста на мейнфреймите да се изместват от изображението, което виждате на екрана сега. Това е стар мейнфрейм на FACOM, един от любимите ми. Преминахме в голямата желязна фаза, края на деветдесетте години и дот-ком бума. Това е Sun Microsystems E10000. Това нещо беше абсолютно чудовище при 96 процесора. Първоначално 64, но може да бъде надстроен до 96 процесора. Всеки процесор може да изпълнява 1024 нишки. Всяка нишка би могла да бъде едновременно с норма на приложение. Беше просто чудовищно и всъщност даде тласък на дот-ком бума. Това са всички големи еднорози, както ги наричаме, сега работим и не само големите предприятия, някои от големите уебсайтове.

И след това завършихме с този често срещан модел за пазарни компютри на пазара. Току-що свързахме много евтини машини заедно и създадохме клъстер и се спряхме на голямото предизвикателство с желязо и това, което стана големи данни, особено под формата на проекта Hadoop, който произтича от търсещата машина с отворен код, Nutch. И по същество пресъздадохме мейнфрейм и много малки процесори, които бяха залепени заедно и могат да действат като L-пътеки и под формата на изпълнение на отделни задачи или части от задания и те бяха доста ефективни по много начини. По-евтино, ако сте започнали по-малки, но неизменно много от тези големи клъстери са се скъпили от мейнфрейм.

Моето мнение за тези неща е, че в бързината от бумът на dot-com до това, което стана Web 2.0 и сега гони еднорози, забравихме, че има тази платформа, която все още захранва много от най-големите ни критично важни системи там. Когато мислим за това какво работи на мейнфрейм платформите там. Това са много големите данни, по-специално работният кон, но със сигурност големи данни. Традиционните корпоративни и правителствени системи като банковото дело и управлението на богатството и в частност застраховането, които използваме всеки ден

Системи за резервации и управление на полети, по-специално управление на полети, където в реално време е от решаващо значение. Почти всяко щатско и федерално правителство в даден момент е имало мейнфрейм и неизменно мнозина все още ги имат. Търговия на дребно и производство. Някои от стария софтуер, който току-що беше наоколо и никога не е заминавал. Просто продължава да захранва производствени среди и със сигурност на дребно в мащаби. Медицински системи. Системи за отбрана, със сигурност отбранителни системи.

Последните няколко седмици прочетох много статии за факта, че някои от системите за управление на ракети все още работят на стари мейнфрейми, за които се борят да намерят части. Измислят как да надграждат нови мейнфрейми. Транспортни и логистични системи. Те може да не звучат като секси теми, но това са теми, с които се занимаваме ежедневно в редовете. А някои много големи телекомуникационни среди все още се изпълняват на мейнфрейм платформи.

Когато мислите за видовете данни, които се намират там, всички те са от решаващо значение. Те са наистина важни платформи и платформи, които приемаме за даденост всеки ден и в много отношения правят живота възможен. И така, кой все още използва мейнфрейм и кои са всички тези хора, които държат на тези големи платформи и притежават всички тези данни? Е, както казах тук, вярвам, че е лесно да се заблудиш от преминаването на медиите от голямо желязо към стелажи от обикновени клъстери или от евтини компютри или x86 машини, в мисълта, че мейнфреймът умря и си отиде. Но данните казват, че мейнфреймът никога не е изчезнал и всъщност той е тук, за да остане.

Изследванията, които събрах тук през последните няколко седмици, показват, че 70 процента от предприятията, особено големи предприятия, всъщност все още се намират в мейнфрейм от някаква форма. Седемдесет и един процент от Fortune 500s все още някъде работят основни бизнес системи на мейнфрейми. Всъщност тук, в Австралия, имаме редица организации, които имат център за данни в средата на един град. Това е действително подземен компютър ефективно и броят на основните мейдъри, които просто работят там, тиктакат и щастливо си вършат работата. И много малко хора знаят, че разхождайки се по улиците, точно под краката им в една определена част на града има този огромен център за данни, пълен с мейнфрейми. Деветдесет и две от 100 от банките по света, 100-те най-добри банки, все още управляват банкови системи на мейнфрейм. Двадесет и три от първите 25 търговски вериги по света използват мейнфрейм, за да продължат да управляват своите системи за управление на дребно в EIP и BI платформи.

Интересно е, че 10 от топ 10 застрахователи все още управляват платформите си на мейнфрейм и всъщност захранват облачните си услуги на мейнфрейм. Ако използвате уеб интерфейс или мобилно приложение някъде, където има междинен софтуер, това всъщност говори за нещо наистина тежко и голямо в задния край.

Открих над 225 държавни и местни държавни агенции по целия свят, работещи на мейнфрейм платформи. Сигурен съм, че има много причина за това. Може би нямат бюджет да обмислят ново желязо, но това е огромен отпечатък от много големи среди, работещи на мейнфрейм с някои много критични данни. И както споменах по-рано, повечето държави все още управляват своите ключови системи за отбрана на мейнфрейм. Сигурен съм, че по много начини те се опитват да слязат оттам, но ето там.

През 2015 г. IDC проведе проучване и 350 от анкетираните CIO съобщиха, че все още притежават и управляват голямо желязо под формата на мейнфрейми. И ме впечатли, че вероятно е повече от броя на мащабните клъстери от Hadoop, които в момента работят в световен мащаб в производството - интересна малка статистика там. Ще продължа напред и ще го потвърдя, но това беше голям брой. Триста и петдесет CIO съобщиха, че имат една или повече мейнфрейми, които все още са в производство.

Миналата година, 2015 г., IBM ни даде мощния Z13, 13 -та итерация на тяхната мейнфрейм платформа. Медиите полудяха по този въпрос, защото бяха изумени, че IBM все още прави мейнфрейми. Когато вдигнаха качулката и разгледаха какво се крие под това нещо, те разбраха, че всъщност тя е наравно с почти всяка съвременна платформа, от която се вълнувахме под формата на големи данни, Hadoop и със сигурност клъстерите. Това нещо управлява Spark и сега Hadoop родно. Можете да стартирате хиляди и хиляди Linux машини на него и изглеждаше и се чувстваше като всеки друг клъстер. Беше доста изумителна машина.

Редица организации се заеха с тези неща и всъщност направих някои данни за това колко от тези машини се заемат. Сега имах мнение, че текстовият терминал 3270 е заменен от уеб браузъри и мобилни приложения от известно време и има много данни, които го поддържат. Мисля, че сега навлизаме в ера, в която разбрахме, че тези мейнфрейми не отминават и има значително количество данни за тях. И така, това, което правим сега, е просто да добавим онова, което наричам извънборсови инструменти за анализи. Това не са приложения по поръчка. Това са неща, които са еднократни. Това са неща, които можете буквално просто да купите в опакована кутия сама по себе си и да включите в основната си рамка и да направите някои анализи.

Както казах преди, всъщност мейнфреймът съществува повече от 60 години. Когато мислим за това колко дълго е това, това е по-дълго, отколкото кариерата на повечето живи ИТ специалисти всъщност се простира. И всъщност вероятно част от живота им, дори. През 2002 г. IBM продаде 2300 мейнфрейми. През 2013 г. това нарасна до 2700 мейнфрейм. Това са 2700 продажби на мейнфрейми за една година през 2013 г. Не можах да получа точни данни за 2015 г., но си представям, че бързо се доближава до 3000 продадени бройки годишно през 2015, 2013 г. И с нетърпение очаквам да успея да потвърдя това.

С пускането на Z13, 13 -ата итерация на мейнфрейм платформа, която според мен им струваше около 1, 2 или 1, 3 милиарда долара, за да се развият от нулата, IBM, тоест, тук е машина, която изглежда и се чувства като всеки друг клъстер, който имаме днес и местно управлява Hadoop и Spark. И със сигурност може да бъде свързан с други инструменти за анализи и големи данни или неизменно да бъде свързан с някой от съществуващите или новите ви групи Hadoop. Имам това мнение, че включването на мейнфрейм платформата във вашата стратегия за големи данни е задължително. Очевидно е, че ако имате такъв, имате много данни и искате да разберете как да го прехвърлите там. И те са оставени да събират прах по много начини, психически и емоционално, докъдето върви бизнесът, но те са тук, за да останат.

Свързаността и интерфейсите за всички ваши инструменти за анализиране на данни, хоствани в мейнфрейм, трябва да бъдат ключова част от вашето предприятие и по-специално правителствените планове за големи данни. И неизменно сега софтуерът ги забелязва, разглежда ги добре и осъзнава какво е вътре в тези неща и свързва умовете, които започват да придобиват малко представа и малко усещане за това, което всъщност е под капака. И с това ще предам на моя скъп колега, д-р Робин Блур и той ще добави към това малко пътуване. Робин, отнеси го.

Робин Блур: Е, благодаря. Добре, тъй като Dez изпя песента на мейнфрейм, ще вляза в това, което смятам, че се случва по отношение на стария свят на мейнфрейм и новия свят на Hadoop. Предполагам, че големият въпрос тук е как да управлявате всички тези данни? Не мисля, че мейнфреймът е предизвикан по отношение на голямата си способност за пренос на данни - способността му за големи данни е изключително, както Дез посочи, че е изключително способна. Всъщност можете да поставите Hadoop клъстери върху него. Където е оспорвано е от гледна точка на неговата екосистема и по някакъв начин ще се спра на това.

Ето някои позиции на мейнфрейм. Той има висока входна цена и това, което всъщност се е случило в миналото, тъй като от средата на 90-те години, когато популярността на мейнфреймите започна да намалява, тенденцията е загубила ниския си край, тези хора, които купуваха евтини мейнфрейми и не беше така Наистина е особено икономичен за тези хора. Но по-високо всъщност в средния и високия диапазон на мейнфрейм, той все още всъщност беше, и това е демонстративно всъщност, невероятно евтини изчисления.

Това беше, трябва да се каже, спасено от Linux, защото Linux, реализиран на мейнфрейм, даде възможност, разбира се, да стартирате всички приложения на Linux. Доста Linux приложения отидоха там, преди големите данни да са дори дума или две думи, предполагам. Всъщност това е доста отлична платформа за частен облак. Поради това той може да участва в хибридни облачни разполагания. Един от проблемите е, че уменията за мейнфрейм не са достатъчни. Съществуващите умения за основни рамки всъщност остаряват в смисъл, че хората напускат индустрията за пенсиониране година след година и те просто се заменят само по отношение на броя на хората. Така че това е проблем. Но все пак това е евтино изчисление.

Районът, където това е предизвикано, разбира се, е цялото това нещо Hadoop. Това е снимка на Doug Cutting с оригиналния слон Hadoop. Екосистемата Hadoop е - и тя ще остане - доминиращата екосистема с големи данни. Той предлага по-добър мащаб, отколкото мейнфреймът може действително да постигне и е по-ниска цена като съхраняване на данни по дълъг път. Екосистемата Hadoop се развива. Най-добрият начин да мислите за това е веднъж определена хардуерна платформа и операционната среда с нея стане доминираща, тогава екосистемата просто оживява. И това се случи с мейнфрейм на IBM. Е, по-късно се случи с Digital VAX, случи се със сървърите на Sun, случи се с Windows, случи се с Linux.

И това, което се случи, е, че Hadoop, който винаги мисля или обичам да мисля като вид разпределена среда за данни, екосистемата се развива с невероятна скорост. Искам да кажа, ако просто споменете различните впечатляващи приноси, които са с отворен код, Spark, Flink, Kafka, Presto и след това добавите към това някои от базите данни, възможностите NoSQL и SQL, които сега седят на Hadoop. Hadoop е най-активната екосистема, която действително съществува там, със сигурност в корпоративните изчисления. Но ако искате да го третирате като база данни, то в момента просто не носи никакво сравнение с това, което аз съм склонна да смятам за реални бази данни, особено в пространството за съхранение на данни. И това обяснява до известна степен успеха на редица големи бази данни NoSQL, които не работят на Hadoop като CouchDB и т.н.

Като езеро с данни той има далеч по-богата екосистема от която и да е друга платформа и няма да бъде изместен от това. Нейната екосистема не е само отворената. Вече има драматичен брой софтуерни членове, които имат продукти, които са изградени по принцип за Hadoop или са внесени в Hadoop. И току-що създадоха екосистема, която няма нищо, което да може да се конкурира с нея по отношение на нейната широчина. Това означава, че наистина се превръща в платформата за иновации на големи данни. Но според мен все още е незрял и бихме могли да водим дълги дискусии за това какво е и не е, да речем, оперативно зрял с Hadoop, но мисля, че повечето хора, които гледат в тази конкретна област, са добре наясно, че Hadoop е десетилетия зад основната рамка по отношение на оперативната способност.

Развиващото се езеро с данни. Data Lake е платформа по всякаква дефиниция и ако мислите, че съществува корпоративен изчислителен слой, сега е много лесно да го мислите по отношение на фиксираните бази данни плюс езерото от данни, съставляващи слоя данни. Приложенията на езерото за данни са много и разнообразни. Тук имам диаграма, която просто преминава през различните неща, преодоляни с данни, които трябва да се направят, ако използвате Hadoop като зона за поставяне или Hadoop и Spark като зона за поставяне. И вие имате всичко - линейни данни, изчистване на данни, управление на метаданни, откриване на метаданни - може да се използва за самия ETL, но често изисква ETL да въвежда данните. Главно управление на данните, бизнес дефиниции на данни, управление на услуги на какво се случва в Hadoop, управление на жизнения цикъл на данните и ETL извън Hadoop, а също така имате приложения за директни анализи, които можете да стартирате на Hadoop.

И затова става много мощен и там, където е внедрен и внедрен успешно, обикновено има поне колекция от подобни видове приложения, работещи отгоре. И повечето от тези приложения, особено тези, за които бях запознат, те просто не са налични в мейнфрейм в момента. Но бихте могли да ги изпълните на мейнфрейм, на клъстер Hadoop, който се изпълняваше в дял на мейнфрейм.

Според мен езерото от данни се превръща в естествената зона за бързо анализиране на бази данни и за BI. Той става мястото, където поемате данните, независимо дали това са корпоративни данни или външни данни, обърквайте се с тях, докато, да речем, е достатъчно чист за използване и добре структуриран за използване и след това го предавате. И всичко това все още е в начален стадий.

Според мен идеята за съвместно съществуване на мейнфрейм / Hadoop, първото нещо е, че големите компании едва ли ще се откажат от мейнфрейм. Всъщност показанията, които видях наскоро, предполагат, че има инвестиция в мейнфрейм. Но те също няма да игнорират екосистемата Hadoop. Виждам цифри на 60 процента от големите компании, които използват Hadoop, дори ако много от тях всъщност са само прототипиране и експериментиране.

След това главоблъсканица е: „Как да накарате тези две неща да съществуват съвместно?“, Защото те ще трябва да споделят данни. Данните, които се въвеждат в езерото с данни, те трябва да прехвърлят в мейнфрейм. Данните, които са в мейнфрейм, може да се наложи да отидат до езерото с данни или през езерото с данни, за да бъдат присъединени към други данни. И това ще стане. А това означава, че изисква бърз трансфер на данни / възможност за ETL. Малко вероятно е работните натоварвания да се споделят динамично в, да речем, среда на мейнфрейм или с нещо в Hadoop среда. Това ще бъдат споделени данни. И по-голямата част от данните неминуемо ще пребивават в Hadoop, просто защото това е платформата с най-ниска цена. И вероятно аналитичната обработка от край до край ще пребивава и там.

В обобщение, в крайна сметка трябва да мислим по отношение на корпоративен слой данни, който за много компании ще включва мейнфрейм. И този слой данни трябва да се управлява активно. В противен случай двете няма да съществуват добре. Мога да предам топката обратно на теб Ерик.

Ерик Кавана: Отново, Тендю, току-що те направих презентатор, така че го отнеси.

Tendü Yogurtçu: Благодаря ти, Ерик. Благодаря ти, че ме прие. Здравейте всички. Ще говоря за опита на Syncsort с клиентите във връзка с това как ние виждаме данните като актив в организацията, изравнен от мейнфрейм към големи данни на аналитичните платформи. И се надявам, че и ние ще имаме време в края на сесията да имаме въпроси от публиката, защото това наистина е най-ценната част от тези уеб предавания.

Само за хора, които не знаят какво прави Syncsort, Syncsort е софтуерна компания. Всъщност сме около 40 години. Стартирани от страна на мейнфрейм и нашите продукти се простират от мейнфрейм към Unix до големи платформи за данни, включително Hadoop, Spark, Splunk, както в помещението, така и в облака. Нашият фокус винаги е бил върху продуктите за данни, обработката на данни и продуктите за интегриране на данни.

Стратегията ни по отношение на големите данни и Hadoop наистина беше да станем част от екосистемата от първия ден. Като притежатели на доставчици, които наистина бяха фокусирани върху обработката на данни с много леки двигатели, решихме, че има голяма възможност да участваме в Hadoop да стане платформа за обработка на данни и да бъдем част от това архитектура за съхранение на данни от следващото поколение за организацията. Ние участваме в проектите с отворен код Apache от 2011 г., започвайки от MapReduce. Бяха в челната десетка за Hadoop Версия 2 и всъщност участваха в множество проекти, включително Spark пакети, някои от нашите конектори са публикувани в Spark пакети.

Ние използваме нашия много лек двигател за обработка на данни, който е напълно плосък базиран на метаданни и се отличава много добре с разпределените файлови системи като Hadoop Distributed File System. И ние използваме нашето наследство на мейнфрейм, нашата експертиза с алгоритми, докато излагаме нашите продукти с големи данни. И ние си партнираме много тясно с основните доставчици, основни играчи тук, включително Hortonworks, Cloudera, MapR, Splunk. Наскоро Hortonworks обявиха, че ще препродават нашия продукт за ETL на борда с Hadoop. С Dell и Cloudera имаме много тясно партньорство, което също препродава нашия ETL продукт като част от техния уред за големи данни. И всъщност със Splunk публикуваме данни за телеметрията и сигурността на мейнфрейма в таблата за управление на Splunk. Имаме тясно партньорство.

Какво има в ума на всеки изпълнителен директор на ниво С? Наистина е, „Как да използвам своите активи за данни?“ Всички говорят за големи данни. Всички говорят за Hadoop, Spark, следващата компютърна платформа, която може да ми помогне да създам бизнес ловкост и да отворя нови трансформативни приложения. Нови възможности за предлагане на пазара. Всеки един изпълнителен директор си мисли: „Каква е моята стратегия за данни, каква е моята инициатива за данни и как да направя така, че да не оставам зад конкуренцията си и все още съм на този пазар през следващите три години?“ Вижте това, докато говорим с нашите клиенти, както говорим с нашата глобална клиентска база, която е доста голяма, както можете да си представите, тъй като сме от известно време.

Докато говорим с всички тези организации, ние виждаме това и в стека на технологиите в прекъсването, което се случи с Hadoop. Наистина, за да се задоволи това търсене на данни като актив. Използване на всички активи на данни, които една организация има. И видяхме, че архитектурата на хранилището на предприятието се развива така, че Hadoop сега е новият център на съвременната архитектура на данни. И повечето от нашите клиенти, независимо дали става въпрос за финансови услуги, независимо дали е застраховка, telco на дребно, инициативите обикновено са или ние откриваме, че Hadoop като услуга или данни като услуга. Тъй като всички се опитват да направят активите на данните достъпни или за своите външни или вътрешни клиенти. И в някои от организациите виждаме инициативи като почти пазар на данни за своите клиенти.

И една от първите стъпки за постигане на това е всичко от създаването на център за данни на предприятието. Понякога хората ще го наричат ​​езеро с данни. Създаването на този център за данни на предприятието всъщност не е толкова лесно, колкото звучи, защото наистина изисква достъп и събиране на почти всички данни в предприятието. И тези данни вече са от всички нови източници като мобилни сензори, както и от наследени бази данни и те са в пакетен и в поточен режим. Интеграцията на данни винаги е била предизвикателство, но с броя и разнообразието от източници на данни и различните стилове на доставка, независимо дали е пакетно или поточно в реално време, е още по-голямо предизвикателство в сравнение с преди пет години, преди десет години. Понякога го наричаме „Не е вече ETL на баща ти“.

Така че ние говорим за различните активи на данни. Тъй като предприятията се опитват да осмислят новите данни, данните, които събират от мобилните устройства, независимо дали сензорите на производител на автомобили или това са потребителските данни за компания за мобилни игри, те често се нуждаят от препратка към най-критичните активи на данни в например предприятието, което е информация за клиента. Тези най-критични активи за данни често живеят в мейнфрейм. Съпоставянето на данните на мейнфрейм с тези нововъзникващи нови източници, събрани в облака, събрани чрез мобилни устройства, събрани на производствената линия на японска компания за автомобили или интернет на приложения за неща, трябва да имат смисъл от тези нови данни, като препращат към техните наследени набори от данни. И тези наследствени набори от данни често са на мейнфрейм.

И ако тези компании не са в състояние да направят това, не са в състояние да използват данните на мейнфрейм, тогава има пропусната възможност. Тогава данните като услуга или използване на всички данни на предприятието всъщност не са най-важните активи в организацията. Има и част от данни за телеметрията и сигурността, защото почти всички транзакционни данни живеят в мейнфрейм.

Представете си, че отивате на банкомат, мисля, че един от присъстващите изпрати съобщение до участниците тук за защита на банковата система, когато прекарвате картата си, че данните за транзакциите са почти в глобален мащаб. И осигуряването и събирането на данните за сигурността и телеметричните данни от мейнфреймите и предоставянето им на разположение чрез табла за управление на Splunk или други, Spark, SQL, става по-критично сега от всякога поради обема на данните и разнообразието от данни.

Наборите от умения са едно от най-големите предизвикателства. Тъй като от една страна имате бързо променящ се стек с големи данни, не знаете кой проект ще оцелее, кой проект няма да оцелее, трябва ли да наема разработчици на Hive или Pig? Трябва ли да инвестирам в MapReduce или Spark? Или следващото нещо, Флинк, някой каза. Трябва ли да инвестирам в една от тези компютърни платформи? От една страна, да бъдеш в крак с бързо променящата се екосистема е предизвикателство, а от друга - ти имаш тези наследени източници на данни. Новите набори от умения всъщност не съвпадат и може да имате проблем, защото тези ресурси всъщност могат да се оттеглят. Има голяма пропаст по отношение на наборите от умения на хора, които разбират тези наследствени набори от данни и разбират нововъзникващите технологии.

Второто предизвикателство е управлението. Когато наистина получавате достъп до всички данни на предприятието в платформи, имаме клиенти, които изразиха опасения, че „Не искам моите данни да се приземяват. Не искам моите данни да се копират на много места, защото искам да избегна възможно най-многото копия. Искам да имам достъп от край до край, без да го кацам в средата. “Управлението на тези данни става предизвикателство. И другото парче е, че ако имате достъп до данни, които са в тесните места, ако събирате по-голямата част от данните си в облака и имате достъп до и препращате към наследени данни, мрежовата честотна лента се превръща в проблем, клъстерна платформа. Има много предизвикателства по отношение на тази инициатива за големи данни и усъвършенствани платформи за анализи и все пак да се използват всички данни за предприятието.

Това, което Syncsort предлага е, ние сме наричани „просто най-добрите”, не защото ние просто сме най-добрите, но клиентите ни се отнасят като просто най-добрите при достъпа и интегрирането на данни от мейнфрейм. Поддържаме всички формати на данни от мейнфрейм и ги предоставяме за анализ на големи данни. Независимо дали е на Hadoop или Spark или на следващата компютърна платформа. Тъй като нашите продукти наистина изолират сложността на компютърната платформа. Вие като разработчик потенциално се развивате на лаптоп, съсредоточавате се върху тръбопровода за данни и какви са подготовката за данни, стъпките, за да направите тези данни създадени за анализи, следващата фаза и вземете същото приложение в MapReduce или вземете това същото приложение наоколо в Spark.

Помогнахме на нашите клиенти да направят това, когато YARN стана достъпна и те трябваше да преместят своите приложения от MapReduce версия 1 в YARN. Помагаме им да направят същото с Apache Spark. Нашият продукт, новата версия 9 работи и със Spark и се доставя с динамична оптимизация, която ще изолира тези приложения за бъдещи компютърни рамки.

Така че ние имаме достъп до данните на мейнфрейм, независимо дали това е VSAM файлове, дали е DB2, или дали телеметрични данни, като SMF записи или Log4j или syslogs, които трябва да се визуализират чрез Splunk табла за управление. И докато правите това, тъй като организацията може да използва съществуващите си инженер за данни или набор от умения за ETL, времето за развитие значително се намалява. Всъщност с Dell и Cloudera имаше независим бенчмарк, спонсориран и този показател, фокусиран върху времето за разработка, което е необходимо, ако правите ръчно кодиране или използвате други инструменти като Syncsort, и беше около 60, 70 процента намаляване на времето за разработка, Преодоляването на уменията определя пропастта в групите, между тези хостове на файлове с данни, както и тези хостове на файлове с данни по отношение на хората.

Обикновено екипът с големи данни или екипът за приемане на данни или екипът, който има за задача да разработи тези данни като архитектура на услуги, не е задължително да говорят с екипа на мейнфрейм. Те искат да намалят това взаимодействие почти в много от организациите. Затваряйки тази празнина, ние сме напреднали. И най-важната част е наистина осигуряването на целия процес. Защото в предприятието, когато се занимавате с този вид чувствителни данни, има много изисквания.

В силно регулирани отрасли като застраховане и банкиране нашите клиенти питат, те казаха: „Вие предлагате този достъп до данни от мейнфрейм и това е чудесно. Можете ли да ми предложите да направя този формат на записа, кодиран от EBCDIC, да се съхранява в оригиналния му формат, така че да мога да задоволя изискванията си за одит? “Така че караме Hadoop и Apache Spark да разбират данните от мейнфрейм. Можете да запазите данните в оригиналния си формат на запис, да направите вашата обработка и нива на компютърна платформа за разпространение и ако трябва да върнете това, можете да покажете, че записът не е променен и форматът на записа не е променен, можете да спазвате регулаторните изисквания,

И повечето от организациите, тъй като създават център за данни или езеро за данни, те също се опитват да направят това с едно щракване, за да могат да картографират метаданни от стотици схеми в база данни на Oracle в таблици на Hive или ORC или Parquet файлове става необходимо. Ние доставяме инструменти и предоставяме инструменти, за да направим това еднократен достъп до данни, автоматично генериране на задания или движение на данни и автоматично генериране на задания, за да направим картографирането на данните.

Говорихме за частта за свързаност, спазването, управлението и обработката на данните. Нашите продукти се предлагат както в помещението, така и в облака, което го прави наистина много прост, тъй като компаниите нямат нужда да мислят какво ще се случи през следващата година или две, ако реша да отида напълно в публичен облак срещу хибрид среда, тъй като някои от клъстерите може да работят в помещение или в облака. А нашите продукти се предлагат както в Amazon Marketplace, на EC2, Elastic MapReduce, така и в контейнер Docker.

Само за да приключим, за да имаме достатъчно време за въпроси и отговори, наистина става въпрос за достъп, интегриране и спазване на управлението на данните, но същевременно прави всичко това по-просто. И докато правим това по-просто, „проектирайте веднъж и внедрете навсякъде“ в истински смисъл поради приноса ни с отворен код, нашият продукт се движи родно в потока от данни на Hadoop и родно с Spark, изолирайки организациите от бързо променящата се екосистема. И осигуряване на един тръбопровод за данни, единен интерфейс, както за партида, така и за поточно предаване.

Това също помага на организациите понякога да оценяват тези рамки, защото може да искате да създадете действително приложения и просто да стартирате на MapReduce срещу Spark и да се уверите сами, да, Spark има това обещание и осигурява целия аванс на итеративните алгоритми за най-добро машинно обучение и приложенията за прогнозна анализа работят с Spark, мога ли да провеждам натоварванията си за поточно и пакетно натоварване на тази компютърна рамка? Можете да тествате различни компютърни платформи, като използвате нашите продукти. А динамичната оптимизация, независимо дали работите на самостоятелен сървър, на вашия лаптоп, в Google Cloud срещу Apache Spark, е наистина голямо предложение за нашите клиенти. И наистина беше водена от предизвикателствата, които имаше.

Само ще обхвана един от казусите. Това е Guardian Life Insurance Company. Инициативата на Guardian наистина беше да централизира активите си за данни и да ги направи достъпни за своите клиенти, да намали времето за подготовка на данни и те казаха, че всички говорят за подготовка на данни, заемайки 80 процента от цялостния тръбопровод за обработка на данни и те казаха, че всъщност става 75 до 80 процента за тях и те искаха да намалят тази подготовка на данни, времената на трансформация, времето за пускане на пазара на проекти за анализи. Създайте тази гъвкавост, когато добавят нови източници на данни. И да направи този централизиран достъп до данни достъпен за всички свои клиенти.

Тяхното решение, включително продуктите на Syncsort, е точно сега, те разполагат с пазар на данни на Amazon Marketplace, поддържан от езеро с данни, което всъщност е Hadoop и база данни NoSQL. И те използват нашите продукти, за да пренесат всички активи на данни в езерото с данни, включително DB2 на мейнфрейм, включително VSAM файлове в мейнфрейм, както и наследените източници на данни на базата данни, както и новите източници на данни. В резултат на това те са централизирали активи за данни за многократна употреба, които могат да бъдат търсени, достъпни и достъпни за своите клиенти. И наистина са в състояние да добавят новите източници на данни и да обслужват клиентите си много по-бързо и по-ефективно от преди. И инициативите за анализи дори напредват повече и в прогнозната страна. Така че ще направя пауза и се надявам това да е било полезно и ако имате някакви въпроси към мен по някоя от свързаните теми, моля, заповядайте.

Ерик Кавана: Разбира се, и Тендю, само ще го вкарам. Получих коментар от член на публиката, който просто казва: „Харесвам този„ дизайн веднъж, разгънете навсякъде. “„ Можете ли да се ровите в това как е вярно? Искам да кажа, какво направихте, за да активирате този вид ловкост и има ли данък? Както например, когато говорим за виртуализация, винаги има малко данък върху ефективността. Някои казват два процента, пет процента 10 процента. Какво сте направили, за да разрешите дизайна веднъж, разгърнете навсякъде - как го правите и има ли някакъв данък, свързан с него по отношение на експлоатационните характеристики?

Tendü Yogurtçu: Разбира се, благодаря. Не, защото за разлика от някои други доставчици, ние всъщност не генерираме Hive или Pig или някакъв друг код, който не е местен за нашите двигатели. Това е мястото, където нашите отворени източници изиграха огромна роля, тъй като ние работим с доставчици на Hadoop, Cloudera, Hortonworks и MapR много отблизо и поради нашите принос на отворен код, нашият двигател всъщност работи местно като част от потока, като част от потока Hadoop, като част от Искрата.

Това също означава, че имаме тази динамична оптимизация. Това беше нещо, което дойде в резултат на това клиентите ни да бъдат предизвикани от компютърните рамки. Тъй като те влизаха в производство с някои от приложенията, те се върнаха и казаха: „Просто стабилизирам моя клъстер Hadoop, стабилизиран в MapReduce YARN Версия 2, MapReduce версия 2, а хората говорят, че MapReduce е мъртъв, Spark is следващото нещо, а някои хора казват, че Flink ще бъде следващото нещо, как ще се справя с това? "

И тези предизвикателства наистина станаха толкова очевидни за нас, ние инвестирахме в тази динамична оптимизация, която наричаме интелигентно изпълнение. По време на изпълнение, когато задачата, когато се изпраща този тръбопровод за данни въз основа на клъстера, независимо дали е Spark, дали е MapReduce или самостоятелен сървър на Linux, решаваме как да изпълним тази работа, родно в нашия двигател, като част от това Поток на данни Hadoop или Spark. Няма режийни разходи, защото всичко се прави чрез тази динамична оптимизация, която имаме и всичко също е направено, защото нашият двигател е толкова родно интегриран заради приноса ни с отворен код. Това отговаря ли на вашия въпрос?

Ерик Кавана: Да, това е добре. И искам да задам още един въпрос там, а след това Дез, може би ще изтеглим и теб, и Робин. Току-що получих весел коментар от един от нашите присъстващи. Ще го прочета, защото наистина е доста жалко. Той пише: „Изглежда, че в историята на нещата горещо“ - разбирай? Както и IoT - „е, че колкото повече се опитваш да„ опростиш “нещо, което е наистина сложно, по-често, отколкото не по-простото, което правиш, доставя се повече висящо въже. Помислете, запитване, база данни, експлозия, многорежеща резба и т.н. ”Можете ли да коментирате този парадокс, който той споменава? Простота срещу сложност и всъщност какво всъщност се случва под завивките?

Tendü Yogurtçu: Разбира се. Мисля, че това е много валиден момент. Когато опростявате нещата и правите тези оптимизации по някакъв начин под прикритията, някой трябва да поеме сложността на това, което трябва да се случи, нали? Ако парализирате нещо или ако решавате как да изпълните определена работа по отношение на компютърната рамка, очевидно има някаква част от работата, която се натиска, независимо дали е в края на потребителя, кодиране на менюто или е в оптимизацията на двигателя. Има част от това, чрез опростяване на потребителското изживяване има огромна полза от гледна точка на възможността да се използват набори от умения, които съществуват в предприятието.

И можете да смекчите този парадокс, да смекчите това предизвикателство от „Да, но аз нямам контрол върху всичко, което се случва под капака, под капака в този двигател“, като излагате нещата на по-напредналите потребители, ако те искам да имам такъв вид контрол. Чрез инвестиране в някои от типовете за обслужване на нещата. Да може да предложи повече оперативни метаданни, повече оперативни данни, както в примера, който даде този участник, за SQL заявка, както и с работещ двигател. Надявам се, че отговорите.

Ерик Кавана: Да, това звучи добре. Дез, отнеси го.

Дез Бланшфийлд: Наистина искам да науча малко повече за вашия отпечатък в приноса с отворен код и пътуването, което сте взели от традиционния си, дългогодишен опит в мейнфрейм и собствения свят и след това преминаването към принос за отворен код и как това се случи. И другото, което искам да разбера, е мнението, което виждате, че бизнеса, не само ИТ отделите, но и предприятията понастоящем по отношение на хъбовете за данни или данните, както хората казват сега, и дали виждат тази тенденция на само едно единно, консолидирано езеро от данни или дали виждаме разпределени езера и хората използват инструменти, за да ги съберат?

Tendü Yogurtçu: Разбира се. За първото това беше много интересно пътуване като собственик на софтуерна компания, една от първите след IBM. Все пак отново всичко започна с нашите клиенти на евангелисти, които разглеждат Hadoop. Имахме компании за данни като ComScore, те бяха едни от първите, които приеха Hadoop, защото събираха цифрови данни по целия свят и не успяха да запазят данни от 90 дни, освен ако не инвестираха кутия за съхранение на данни за десет милиона долара в своята заобикаляща среда. Те започнаха да гледат на Hadoop. С това започнахме да разглеждаме и Hadoop.

И когато взехме решение и признахме, че Hadoop наистина ще бъде платформата за данни на бъдещето, ние също стигнахме до разбирането, че няма да можем да играем в тази, успешна игра в това, освен ако не са били част от екосистемата. И ние работихме много тясно с доставчици на Hadoop, с Cloudera, Hortonworks, MapR и т.н. Започнахме наистина да разговаряме с тях, защото партньорството става много важно за валидиране на стойността, която един доставчик може да донесе, а също така гарантира, че можем съвместно да отидем в предприятието и предлагат нещо по-смислено. Това изискваше много изграждане на връзки, тъй като не бяхме познати с проектите с отворен код Apache, но трябва да имам голяма подкрепа от тези доставчици на Hadoop, трябва да кажа.

Започнахме да работим заедно и да разгледаме хъба, как можем да постигнем стойност без дори нашия софтуер за собственик в пространството. Това беше важно. Не става въпрос само за поставянето на някои API-та, на които вашият продукт може да работи, а за да може да се каже, че ще инвестирам в това, защото вярвам, че Hadoop ще бъде платформа на бъдещето, така че чрез инвестиране в източниците, които искахме да направим сигурен, че отлежава и става готов за предприятие. Всъщност можем да дадем възможност за някои от случаите на използване, които не бяха налични преди нашия принос. Това ще бъде от полза за цялата екосистема и можем да развием тези партньорства много тясно.

Отне доста време. Започнахме да правим своя принос през 2011 г. и 2013 г., 21 януари - Спомням си датата, тъй като тази дата беше извършена най-големият ни принос, което означаваше, че от този момент вече можем да разполагаме с нашите продукти - отне доста време да се развият тези отношения, показват стойността, партньорите стават дизайнерски партньори с доставчиците и с ангажиментите в общността с отворен код. Но беше много забавно. За нас беше много полезно като компания да бъдем част от тази екосистема и да развием страхотно партньорство.

Вторият въпрос за хъба за данни / езерото за данни, мисля, че когато виждаме тези данни като внедряване на услуга в повечето случаи, да, може да са клъстери, физически единични или множество клъстери, но това е по-концептуално, отколкото да станете това едно място за всички данни. Тъй като в някои организации виждаме големи разгръщания на клъстери, но те също имат клъстери, например, в публичния облак, тъй като някои от данните, събрани от онлайн секции, наистина се съхраняват в облака. Възможно е да имате един тръбопровод за данни, който всъщност можете да използвате и двете, и да ги използвате като един център за данни, едно езеро за данни, става важно. Не е задължително само физическото място, но мисля, че наличието на този център за данни и езерото от данни в клъстери, през географии и може би в помещенията и облаците ще бъде много критично, според мен. Особено се движи напред. Тази година започнахме да виждаме все повече облачни внедрения. Невероятно е. Първата половина на тази година досега видяхме много облачни разполагания.

Ерик Кавана: Добре, готино. А Робин, имаш ли въпроси? Знам, че ни остават само няколко минути.

Робин Блур: Добре, добре мога да й задам въпрос. Първото нещо, което ми хрумна е, че имаше много вълнения за Кафка и се заинтересувах от мнението ти за Кафка и как се интегрираш с начина, по който хората използват Кафка?

Tendü Yogurtçu: Разбира се. Да, Кафка става доста популярна. Сред нашите клиенти виждаме, че това е вид на транспортния слой на данни и виждаме, че данните са шина. Например, един от нашите клиенти всъщност е използвал вид потребяващи данни, които се вкарват в тази Kafka сред множество, като хиляди онлайн потребители и са в състояние да класифицират това и да прокарат.

Отново Kafka е шина за данни към различните потребители на тези данни. Класифицирайте някои напреднали потребители спрямо не толкова напреднали потребители и направете нещо различно напред в този тръбопровод за данни. Как основно се интегрираме с Kafka, нашият продукт DMX-h става надежден потребител, високоефективен и надежден потребител за Kafka. Той може да чете данните и това не се различава от четенето на данни от всеки друг източник на данни за нас. Предоставяме на потребителите възможността да контролират прозореца или по отношение на изискването им за време, или по броя на съобщенията, които биха могли да консумират от шината Kafka. Тогава можем също да обогатим тези данни, тъй като преминава през нашия продукт и се връща обратно в Kafka. Тествахме това. Сравнихме го на сайта на клиента. Също сертифициран от Confluent. Ние работим в тясно сътрудничество с момчетата от Confluent и е много висококачествен и лесен за използване. Отново там API-тата се променят, но не е нужно да се притеснявате, защото продуктът наистина третира това като просто друг източник на данни, източник на поточни данни. Всъщност е доста забавно да работите с нашия продукт и с Kafka.

Робин Блур: Добре, имам още един въпрос, който е просто нещо като общ бизнес въпрос, но познавам Syncsort от доста време и винаги сте имали репутацията и доставяхте изключително бърз софтуер за ETL и мейнфрейм света. Случва ли се по-голямата част от вашия бизнес да се прехвърля в Hadoop? Случва ли се по един или друг начин да разпространите бизнеса си доста драматично от света на мейнфрейм?

Tendü Yogurtçu: Нашите мейнфрейм продукти все още изпълняват 50 процента от мейнфреймите в световен мащаб. Така че ние имаме много силна продуктова линия от мейнфрейм в допълнение към това, което правим по големите данни и Hadoop края. И ние все още сме в повечето проекти за опростяване или оптимизиране на ИТ, защото има един край, който искате да можете да докоснете до вашите мейнфрейм данни в платформите Multex с големи данни и да използвате всички корпоративни данни, но има и много критични транзакционни натоварвания която все още продължава да се изпълнява в мейнфрейм и предлагаме на тези клиенти начините наистина да направят тези приложения по-ефективни, да стартират в zIIP двигателя, така че да не консумират толкова много цикли на обработка и MIPS, да ги направят рентабилни.

Продължаваме да инвестираме в мейнфрейм продуктите и всъщност играем в това пространство, където хората преминават от мейнфрейм голямото желязо до големите данни и обхващат продуктовата линия също през тези платформи. Така че не е задължително да прехвърляме целия бизнес на една страна, ние продължаваме да имаме много успешен бизнес и от двете страни. А придобиванията са голям фокус и за нас. Тъй като това пространство за управление и обработка на данни за големите платформи за данни се развива, ние също се ангажираме да направим доста безплатни придобивания.

Робин Блур: Ами предполагам, че не мога да те попитам какви са те, защото нямаше да ми позволиш да ми кажеш. Интересува ме дали сте виждали много реализации на Hadoop или Spark всъщност на мейнфрейм или дали това е много рядко нещо.

Tendü Yogurtçu: Не сме виждали никой. Има още въпрос за това. Мисля, че Hadoop на мейнфрейм няма много смисъл поради вида на основната структура. Въпреки това Spark на мейнфрейм е доста смислен и Spark наистина е много добър с машинното обучение и прогнозната анализа и възможността да разполагате с някои от тези приложения с мейнфрейм данни наистина е много смислен. Все още не сме виждали някой да прави това, но всъщност това е полезният случай, който управлява тези неща. Ако вашият случай на използване като компания внася повече тези данни от мейнфрейм и се интегрира с останалите набори от данни в платформата за големи данни, това е една история. Това изисква достъп до данните на мейнфрейм от платформата Multex с големи данни, тъй като е малко вероятно да пренесете своите набори от данни от отворени системи и да се обадите обратно към мейнфрейм. Ако обаче имате някои данни от мейнфрейм, които искате просто да проучите и да направите малко откриване на проучване на данни, да приложите някои разширени AI и разширена анализа, тогава Spark може да е добър начин да отидете и да стартирате в мейнфрейм като такъв.

Ерик Кавана: И ето още един въпрос от публиката, всъщност още два. Ще ви дам въпрос за екип на тагове, след което ще приключим. Един от участниците пита: „Интегрира ли IBM вашите принос с отворен код в своята обществена облачна екосистема, с други думи, Bluemix?“, А друг участник направи наистина добра точка, отбелязвайки, че Syncsort е чудесен за поддържане на голямото желязо за онези, които вече го има, но ако компаниите се откажат от нови мейнфрейми в полза на това, което той нарича CE, замъгляват всичко, това вероятно ще намалее, но отбелязва, че вие ​​наистина сте добри в преместването на данни, заобикаляйки операционните системи до гигабайт в секунда. Можете ли да говорите за вашата основна сила, както той спомена и дали IBM интегрира вашите неща в Bluemix?

Tendü Yogurtçu: С IBM вече сме партньори с IBM и проведохме дискусии за техните облачни услуги за данни, предлагащи продукта. Нашите принос с отворен код са отворени за всички, които искат да ги използват. Някои от свързаността с мейнфрейм също са налични в пакети Spark, така че не само в IBM. Всеки може да ги използва. В Bluemix все още не сме направили нищо конкретно. И имаш ли против да повториш втория въпрос?

Ерик Кавана: Да, вторият въпрос беше за вашата основна област на функционалност през годините, която наистина се справяше с тесните места на ETL и очевидно това е нещо, което вие все още ще правите като мейнфрейми, а, теоретично, стойте настрана, въпреки че Dez's точка все още е вид люлеене и търкаляне там. Но участникът току-що отбеляза, че Syncsort е много добър в преместването на данни, като заобикаля операционните системи и стига до гигабайт за секунда. Можете ли просто да коментирате това?

Tendü Yogurtçu: Да, тази цялостна ефективност на ресурсите е нашата сила, а мащабируемостта и производителността са нашите сили. Ние не правим компромиси, опростяването има много значения, не правим компромиси с тях. Когато през 2014 г. хората започнаха да говорят за Hadoop, много от организациите първоначално не гледаха на представянето си. Те казваха: „О, ако нещо се случи, мога да добавя още няколко възли и ще бъда добре, изпълнението не е мое изискване.“

Докато говорехме за най-добро представяне, тъй като вече бягахме местно, дори нямахме някои от първоначалните хълцания, които Hive имаше с множество задачи на MapReduce и режийни разходи при стартирането им. Хората ни казваха: „О, това не ме притеснява, не се тревожи за това в момента.“

Когато стигнахме до 2015 г., този пейзаж се промени, защото някои от нашите клиенти вече надвишиха запасите, които имаха в производствените си клъстери. За тях стана много критично да видят какво може да предложи Syncsort. Ако вземате някои данни от база данни или мейнфрейм и пишете във формат Паркет в клъстерите, независимо дали кацате и стадирате и правите друга трансформация или просто извършвате преобразуването на светлината и целевия формат на целевия файл, направихте разлика, защото спестявате от съхранение, спестявате от мрежовата честотна лента, спестявате от натоварването в клъстера, защото не изпълнявате допълнителни задачи. Онези силни страни, които играем по отношение на това да сме много съзнателни, чувстваме ефективността на ресурсите под кожата си, изглежда.

Ето как го описваме. За нас е критично. Не го приемаме за даденост. Никога не го приемаме за даденост, така че ще продължим да сме силни с този лост в Apache Spark или следващата компютърна рамка. Това ще продължи да бъде нашето внимание. А що се отнася до частта за движение на данни и частта за достъп до данни, определено това е една от нашите силни страни и ние имаме достъп до DB2 или VSAM данни на основните междинни рамки в контекста на Hadoop или Spark.

Ерик Кавана: Е, това е чудесен начин да прекратите уебкаста, хора. Благодаря ви много за отделеното време и внимание. Благодаря на вас, Tendü и Syncsort, че влязохте в стаята за инструктажи и стъпихте в кръга, както се казва. Много страхотни въпроси от публиката. Това е една постоянно движеща се среда, хора. Ще архивираме този Hot Tech, както правим с всички останали. Можете да ни намерите в insideanalysis.com и в techopedia.com. Обикновено става нагоре след около ден. И с това ще се сбогуваме, хора. Много благодаря. Ще поговорим скоро с вас. Пази се. Чао чао.

Голямо желязо, посрещнете големи данни: освобождаване на мейнфрейм данни с хадоп и искра