Extrakcia Dát z Webu je druh extrakcie informácii, ktorá vie automaticky extrahovať informácie zo štrukturovaného alebo čiastočne štrukturovaného internetového zdroja. Zistite si viac
Finančné Dáta * Nehnuteľnosti * Produkty a ich Ceny * Kopírovanie Online Databáz * Dynamický Obsah Webstránky * Vytvorenie Nových Lepších Služieb * Trendy v Predaji * Sťahovanie Informácii zo Zoznamiek * Sťahovanie Informácii z Aukcii * Sťahovanie Inzerátov z Portálov Ponúkajúcich Prácu a ešte viac. Klikni sem pre príklady jednoduchých projektov
S nástupom World Wide Webu sa stalo dostupnými online obrovské množstvo dát z takmer každej oblasti. Väčšinou používatelia získavajú informácie prehliadaním stránok a hľadaním kľúčových slov. Hoci každé hľadanie bude mať výsledky, tento postup má svoje nedostatky a obmedzenia. Informácie z internetu nie sú štrukturované alebo usporiadané ako v databázach. Získavanie a štrukturovanie dát v želanom formáte je to, o čom je extrakcia dát z webu.
Dátová extrakcia je schopnosť získať dáta z internetu, transformovať ich a zobraziť ich na webstránke, uložiť ich do xml súborov, databáz alebo tabuliek.
Webstránky sú rôzne. Dáta sa prezentujú mnohými spôsobmi a štruktúra dát sa podstatne mení zo stránky na stránku. Okrem toho, webstránky môžu mať rôzne kódovanie a rôzne HTML elementy na zobrazenie svojho obsahu. Toto je prvá výzva pre nástroje zaoberajúce sa extrakciou z webu: schopnosť extrahovať dáta z rôznych zdrojov.
Jeden z tradičných spôsobov ako extrahovať dáta z webu, je použiť program s názvom "wrapper". Použitie "Wrappera" na dešifrovanie dát (čo je žiaduce, resp. čo nie je) sa rovná metóde pokus-omyl, taktiež sa ťažko udržiava jeho presnosť.
UnitMiner je dômyselný softvér, ktorý na toto používa skriptovací jazyk, čo rapídne znižuje čas na vývoj skriptu. UnitMiner je veľmi flexibilný: skriptovací jazyk sa dokáže prispôsobiť menším zmenám v štruktúre dokumentu, bez akejkoľvek údržby skriptu. UnitMiner ponúka extrakcie dát z webu za rozumné ceny.