Sisällysluettelo:

Mitä eri tiedostomuotoja Hadoopissa on?
Mitä eri tiedostomuotoja Hadoopissa on?

Video: Mitä eri tiedostomuotoja Hadoopissa on?

Video: Mitä eri tiedostomuotoja Hadoopissa on?
Video: CS50 2015 - Week 9 2024, Marraskuu
Anonim

Onneksi big data -yhteisö on periaatteessa päättänyt kolmesta optimoidusta tiedostomuotoja käytettäväksi Hadoop klusterit: Optimized Row Columnar (ORC), Avro ja Parketti.

Tämän jälkeen voidaan myös kysyä, mitkä ovat erityyppiset tietomuodot?

On kolme tietotyyppejä kartoitus ja GIS tietomuodot . Jokainen tyyppi käsitellään eri tavalla.

Tietomuototyypit

  • Tiedostopohjaiset - Shapefiles, Microstation Design Files (DGN), GeoTIFF-kuvat.
  • Hakemistopohjainen - ESRI ArcInfo Coverages, US Census TIGER.
  • Tietokantayhteydet - PostGIS, ESRI ArcSDE, MySQL.

Lisäksi mikä tiedostomuoto on paras pesässä? RCFile on rivi-sarake tiedosto muoto . Tämä on toinen muoto Hive tiedostomuoto joka tarjoaa korkeat rivitason pakkausasteet. Jos sinulla on vaatimus suorittaa useita rivejä kerrallaan, voit käyttää RCFileä muoto.

Kun tämä otetaan huomioon, mitkä ovat yleisimmät syöttömuodot Hadoopissa?

InputFormat luo Inputsplitin

  • Yleisimmät InputFormat ovat:
  • FileInputFormat- Se on perusluokka kaikille tiedostopohjaisilleInputFormat-muodoille.
  • TextInputFormat- Se on MapReducen oletussyöttömuoto.
  • KeyValueTextInputFormat- Se on samanlainen kuin TextInputFormat.
  • Seuraa linkkiä saadaksesi lisätietoja InputFormatista Hadoopissa.

Mikä on orc-tiedostomuoto Hadoopissa?

ORC-tiedostomuoto Optimoitu rivisarake ( ORC ) tiedosto muoto tarjoaa erittäin tehokkaan tavan tallentaa Hive-tietoja. Se oli suunniteltu voittamaan toisen Hiven rajoitukset tiedostomuodot . Käyttämällä ORC-tiedostot parantaa suorituskykyä, kun Hiveis lukee, kirjoittaa ja käsittelee tietoja.

Suositeltava: