uniq: Linuxový príkaz na nájdenie duplicitného textu

Niekedy je pravdepodobné, že máte veľmi dlhé textové súbory, medzi ktorými je ťažké nájsť určité vzory, resp riadky alebo slová, ktoré sú duplicitné, alebo možno existuje veľa malých textových súborov, ktoré chcete ľahšie spárovať, a dokonca použiť rouru a spárovať výstup príkazu. Tiež, uniq je príkaz čo to hľadáš.

S uniq môžete hľadať nadbytočné informácie veľmi jednoduchým spôsobom. Okrem toho vám tiež umožní odstrániť tieto duplikáty, ak to bude potrebné. A v tomto návode uvidíte niekoľko príkladov príkazov, ktoré sa vám môžu hodiť. Pamätajte, že je štandardne nainštalovaný vo veľkej väčšine distribúcií, takže nebudete musieť inštalovať balík...

Najprv si pozrime príklad, aby sme pochopili základy príkazu uniq a čo robí a čo nerobí. Pre ejemplo, predstavte si, že vytvoríte textový súbor s názvom test.txta do vnútra vložíte niekoľko opakovaných fráz alebo slov, ako napríklad opakovanie troch riadkov «Ahoj toto je test» a potom s ním použite uniq:

nano prueba.txt

uniq prueba.txt

No v tom prípade, výstup príkazu bude jednoducho:

Salida:

Hola, esto es una prueba

To znamená, že vložte jeden riadok «Ahoj toto je test» odstránenie ďalších 2, ktoré sú rovnaké. Ale pozor, ak znova použijete cat na zobrazenie originálu, uvidíte, že neboli odstránené zo súboru, jednoducho ich odstránil z výstupu:

cat prueba.txt

ktorého výstup by bol:

Hola, esto es una prueba

Hola, esto es una prueba

Hola, esto es una prueba

Ale príkaz uniq má k dispozícii oveľa viac možností. Napríklad vám môže povedať koľkokrát sa riadok opakujes uvedením počtu opakovaní na začiatku riadku. Pre to:

uniq -c prueba.txt

Môžete tiež len tlačiť opakované riadkya ignorujte tie, ktoré sa neopakujú:

uniq -d prueba.txt

Alebo tie, ktoré nie sú duplikované s voľbou -u:

uniq -u prueba.txt

Použitie rozlišovať veľké a malé písmená a rozlišujte malé a veľké písmená, môžete použiť možnosť -i:

uniq -i prueba.txt

Dobre a ako by sa to dalo urobiť vytvorte súbor iba s jedinečnými riadkami, čím sa odstránia všetky duplikáty naraz. Je to také jednoduché, ako pomocou potrubia na presmerovanie výstupu uniq do nového textového súboru:

uniq prueba.txt > unicas.txt


Zanechajte svoj komentár

Vaša e-mailová adresa nebude zverejnená. Povinné položky sú označené *

*

*

  1. Za údaje zodpovedá: AB Internet Networks 2008 SL
  2. Účel údajov: Kontrolný SPAM, správa komentárov.
  3. Legitimácia: Váš súhlas
  4. Oznamovanie údajov: Údaje nebudú poskytnuté tretím stranám, iba ak to vyplýva zo zákona.
  5. Ukladanie dát: Databáza hostená spoločnosťou Occentus Networks (EU)
  6. Práva: Svoje údaje môžete kedykoľvek obmedziť, obnoviť a vymazať.