Dokumentácia k programu Unit Miner

Dokumentácia k programu Unit Miner je dostupná vo formáte PDF na stiahnutie tu. (cca 200KB)

Návody

Pozrite si návody, ktoré Vám ukážu krok za krokom ako napísať Váš vlastný skript.

Návod 1 - extrakcia článku zo spravodajského portálu

Návod 2 - extrakcia zo súboru access.log

Návod 3 - sťahovanie tlačových oznamov zo stránky www.prweb.com a ukladanie do súboru

Viac ukážok extrakcie nájdete na stránke príkladov.

Príklady použitia

  • Finančné dáta
  • Nehnuteľnosti
  • Sťahovanie informácii z aukcii
  • Sťahovanie informácii zo zoznamiek
  • Vytvorenie personalizovaných správ
  • Vytvorenie nových lepších služieb

UnitMiner

je robustný, flexibilný systém, jednoduchý na používanie na monitoring, extrakciu a dolovanie z webstránok, dokumentov alebo akéhokoľvek neštrukturovaného zdroja dát.

Web Extraction Scheme
Web Extraction Scheme

Používal som UnitMiner na automatickú extrakciu informácii o stávkach. Zatiaľ som veľmi spokojný s jeho výkonom. Chcem Vám poďakovať za Vašu pomoc pri mojom projekte. Odporučím Váš softvér komukoľvek, kto bude potrebovať extrahovať akékoľvek informácie.

Služba Unit Miner

Vytvárame aplikácie na extrakciu dát podľa Vašich požiadaviek. Dáta dostanete bez akéhokoľvek softvéru, hardvéru alebo nutnosti čokoľvek inštalovať. Viac

Úvod do extrakcie z webu: Ako to funguje?

S nástupom World Wide Webu sa stalo dostupnými online obrovské množstvo dát z takmer každej oblasti. Väčšinou používatelia získavajú informácie prehliadaním stránok a hľadaním kľúčových slov. Hoci každé hľadanie bude mať výsledky, tento postup má svoje nedostatky a obmedzenia. Prehľadávanie stránok kvôli nájdeniu určitých vecí často vedie k tomu, že sa používateľ "stratí" v obrovskom množstve ďalších liniek, nehovoriac o tom, že to zaberá strašne veľa času. Vyhľadávanie pomocou kľúčových slov je trochu efektívnejšie, ale často vracia priveľa dát. Informácie z internetu nie sú štrukturované alebo usporiadané ako v databázach. Zjednodušene povedané, všetky informácie sú na internete, ale získať ich a pretransformovať na vhodný formát je mimo ľudských schopností.

Toto je čas, keď nastupuje dátova extrakcia, ktorá má schopnosť získať dáta z internetu, transformovať ich a zobraziť ich na webstránke, uložiť ich do xml súborov, databáz alebo tabuliek.

Webstránky sú rôzne. Dáta sa prezentujú mnohými spôsobmi a štruktúra dát sa podstatne mení zo stránky na stránku. Okrem toho, webstránky môžu mať rôzne kódovanie a rôzne HTML elementy na zobrazenie svojho obsahu. Toto je prvá výzva pre nástroje zaoberajúce sa extrakciou z webu: schopnosť extrahovať dáta z rôznych zdrojov.

Jeden z tradičných spôsobov ako extrahovať dáta z webu, je použiť program s názvom "wrapper". Tieto programy sú špecifické pre každú extrakciu. Dokážu namapovať dáta z webstránok,  transformovať ich a zobraziť ich na výstupe (napr. na inej webstránke, uložiť ich do xml súborov, databáz alebo tabuliek, teoreticky každého štrukturovaného typu). Hlavnou výzvou pre wrappery je zistiť, čo je dôležité (dáta, ktoré chceme extrahovať) a čo nie (kusy kódu, linky atď.), pracovať s multihierarchickou nie vždy veľmi štrukturovanou webstránkou.

Písať si vlastný wrapper má veľa nedostatkov, ktoré sú väčšinou spôsobené veľmi dlhým vývojom a údržbou. Preto sofistikované nástroje ako Unit Miner používajú skriptovací jazyk, pomocou ktorého sa radikálne zníží čas na vývoj wrapperu. Ďalšou výhodou je vysoká flexibilita - skriptovací jazyk sa dokáže prispôsobiť menším zmenám v štruktúre dokumentu, bez akejkoľvek údržby skriptu. Našim cieľom je ponúknuť extrakciu dát za rozumnú cenu. Preto sme už vytvorili základné šablóny, aby sme ešte zrýchlili vývoj aplikácii na extrakciu dát.

© 2004-2012 QualityUnit.com, All rights reserved