Mikä on ongelma pienten tiedostojen kanssa Hadoopissa?
Mikä on ongelma pienten tiedostojen kanssa Hadoopissa?

Video: Mikä on ongelma pienten tiedostojen kanssa Hadoopissa?

Video: Mikä on ongelma pienten tiedostojen kanssa Hadoopissa?
Video: Как безопасно открыть неизвестный файл? 2024, Saattaa
Anonim

1) Pieni tiedosto ongelma sisään HDFS : Varastoi paljon pieniä tiedostoja jotka ovat erittäin pienempi lohkokokoa ei voida käsitellä tehokkaasti HDFS . Lukeminen läpi pieniä tiedostoja sisältää paljon hakuja ja paljon hyppyä datasolmun ja datasolmun välillä, mikä on tehotonta tietojenkäsittelyä.

Tämän lisäksi mitkä tiedostot käsittelevät pieniä tiedostoongelmia Hadoopissa?

1) HAR ( Hadoop Arkistoi) Tiedostot on esitelty käsitellä pienten tiedostojen ongelmaa . HAR on lisännyt kerroksen päälle HDFS , jotka tarjoavat käyttöliittymän tiedosto pääsy. Käyttämällä Hadoop arkistointikomento, HAR tiedostot luodaan, joka suorittaa a MapReduce työ pakata tiedostot arkistoidaan pienempi määrä HDFS-tiedostot.

Lisäksi, voinko saada useita tiedostoja HDFS:ssä käyttämään eri lohkokokoja? Oletus koko / lohko on 64 MB. sinä voi muuta sitä tarpeidesi mukaan. Kysymyksiisi liittyen kyllä sinä voi luoda useita tiedostoja vaihtelemalla lohkojen koot mutta reaaliajassa tämä tahtoa eivät suosi tuotantoa.

Lisäksi miksi HDFS ei käsittele pieniä tiedostoja optimaalisesti?

Ongelmia kanssa pieniä tiedostoja ja HDFS Joka tiedosto , hakemisto ja esto sisään HDFS on esitetään objektina nimisolmun muistissa, joista kukin vie 150 tavua, nyrkkisääntönä. Lisäksi, HDFS ei ole suunniteltu tehokkaaseen käyttöön pieniä tiedostoja : se On suunniteltu ensisijaisesti suurten käyttäjien suoratoistoon tiedostot.

Miksi Hadoop on hidas?

Hidas Prosessointinopeus Tämä levy etsii vie aikaa, mikä tekee koko prosessista hyvin hidas . Jos Hadoop käsittelee tietoja pienissä määrin, se on hyvin hidas verrattain. Se on ihanteellinen suurille tietojoukoille. Kuten Hadoop jonka ytimessä on eräkäsittelymoottori, sen nopeus reaaliaikaisessa käsittelyssä on pienempi.

Suositeltava: