• news_banner

servis

Mechanizmus čistenia dát Spark Streaming
(I) DStream a RDD
Ako vieme, výpočet Spark Streaming je založený na Spark Core a jadrom Spark Core je RDD, takže Spark Streaming musí súvisieť aj s RDD.Spark Streaming však neumožňuje používateľom používať RDD priamo, ale abstrahuje súbor konceptov DStream, DStream a RDD sú inkluzívne vzťahy, môžete to chápať ako vzor dekorácie v Jave, to znamená, že DStream je vylepšenie RDD, ale správanie je podobné ako RDD.
DStream aj RDD majú niekoľko podmienok.
(1) majú podobné transformačné akcie, ako je mapa, znižovanie pomocou kľúča atď., ale aj niektoré jedinečné, ako napríklad Window, mapWithStated atď.
(2) všetky majú akcie akcie, ako napríklad foreachRDD, count atď.
Programovací model je konzistentný.
(B) Zavedenie DStream v Spark Streaming
DSream obsahuje niekoľko tried.
(1) Triedy zdrojov údajov, ako napríklad InputDStream, špecifické ako DirectKafkaInputStream atď.
(2) Triedy konverzie, zvyčajne MappedDStream, ShuffledDStream
(3) výstupné triedy, zvyčajne ako ForEachDStream
Z vyššie uvedeného vyplýva, že údaje od začiatku (vstupu) po koniec (výstup) vykonáva systém DStream, čo znamená, že používateľ bežne nemôže priamo generovať a manipulovať s RDD, čo znamená, že DStream má možnosť a povinnosť byť zodpovedný za životný cyklus RDD.
Inými slovami, Spark Streaming máautomatické čisteniefunkciu.
(iii) Proces generovania RDD v Spark Streaming
Životný tok RDD v Spark Streaming je hrubý nasledovne.
(1) V InputDStream sa prijaté dáta transformujú do RDD, ako napríklad DirectKafkaInputStream, ktorý generuje KafkaRDD.
(2) potom cez MappedDStream a konverziu iných údajov sa tento čas priamo nazýva RDD zodpovedajúci mapovej metóde na konverziu
(3) V operácii výstupnej triedy, iba keď je RDD vystavený, môžete nechať používateľa vykonať príslušné ukladanie, iné výpočty a iné operácie.