Die Dokumentation für UnitMiner steht Ihnen im PDF-Format als Download (ca. 200KB) zur Verfügung.
Lesen Sie die Tutorials, die Ihnen Schritt für Schritt erläutern, wie Sie Ihr eigenes Script schreiben können.
Tutorial 1 - Erfassen einer Story von einer Nachrichtenwebsite
Tutorial 2 - Parsing-Zugriff.log
Tutorial 3 - Erfassen von PR-Artikeln von www.prweb.com und Speichern in Dateien
Weitere Beispiele für Extraktionsscripts finden Sie unter unseren Live-Demos/Beispielen.
ist ein robustes, flexibles und benutzerfreundliches System zur Überwachung, Gewinnung und Verarbeitung von Inhalten in Websites, Dokumenten oder jeder beliebigen nicht-strukturierten Datenquelle.
Ich habe UnitMiner zur Automatisierung der Extraktion von Wettinformationen verwendet. Bisher bin ich mit der Leistung sehr zufrieden. Ich möchte Ihnen für all Ihre Hilfe mit meinem Projekt danken. Ich würde Ihre Software jedem empfehlen, der nach einer Lösung zur Informationsgewinnung sucht.
Wir entwickeln eine Anwendung zur Datenextraktion nach Ihren Anforderungen. Sie erhalten die gewünschten Daten, ohne dass eine Software, Hardware oder Installation erforderlich wäre. Weitere Informationen.
Mit der Explosion des World Wide Web ist eine Vielfalt von Daten zu vielerlei Themen online verfügbar geworden. Normalerweise gewinnen Benutzer Webdaten, indem Sie browsen und nach bestimmten Schlüsselwörtern suchen, diese traditionellen Methoden haben jedoch ihre Grenzen und Nachteile. Browsen ist nicht zum Auffinden bestimmter Dateninhalte geeignet, weil die Verfolgung zahlreicher Links oft dazu führt, dass man sich verirrt, ganz zu schweigen davon, dass diese Methode sehr zeitaufwändig ist. Die Suche nach Schlüsselwörtern kann effizienter sein, liefert aber häufig riesige Datenmengen. Die Daten sind im Internet nicht strukturiert wie z.B. in Datenbanken. Einfach gesagt - die Daten sind im Netz vorhanden, aber die Sammlung und Formatierung dieser Daten auf die gewünschte Art und Weise übersteigt häufig menschliche Kapazitäten.
Hier kommt die Datenextraktion mit ihrer Fähigkeit, Daten aus dem Netz zu gewinnen, sie umzuwandeln und sie auf die gewünschte Weise an Websites, xml-Dateien, Datenbanken, Datenblätter, etc. zu übertragen, ins Spiel.
Websites sind anders. Daten werden anders präsentiert und die Datenstruktur ändert sich von einer Website zur anderen in erheblichem Maße. Außerdem benutzen Websites verschiedene Verschlüsselungen und HTML-Elemente, um ihre Inhalte darzustellen. Dies ist die erste Herausforderung für Webextraktionstools: die Möglichkeit, Daten aus verschiedenen Ressourcen zu extrahieren.
Der traditionelle Ansatz zur Datenextraktion aus dem Netz besteht darin, spezielle Programme namens Wrapper zu schrieben. Diese Programme sind spezifisch für jede Extraktion. Sie ordnen tatsächlich Daten von Websites zu, wandeln sie um und stellen sie als Output bereit (z.B. in Form einer anderen Website, xml-Datei, Datenbank, als Datenblätter, Input für Anwendungen Dritter, praktisch jede strukturierte Datenquelle). Die wichtigste Herausforderung für Wrappers ist, dass sie zwischen interessanten Daten (z.B. Daten, die wir extrahieren möchten) und uninteressanten Daten (wie Code-Schipseln, Links, Werbung, etc.) unterscheiden und mit in mehrstufigen Hierarchien aufgebauten, nicht-starren Strukturen umgehen müssen, in denen Daten im Netz dargestellt sind.
Die manuelle Entwicklung von Wrappers weist viele Schwächen auf, vor allem wegen der zeitaufwändigen Entwicklung und Pflege. Deshalb verwendet hochentwickelte Software wie UnitMiner Scripting-Sprache, die den Entwicklungsprozess radikal abkürzt. Ein weiterer Vorteil ist die größere Flexibilität - Scripting-Sprachen können geringfügige Änderungen in der Dokumentstruktur ohne jede Pflege aushalten. Wir bemühen uns darum, eine Datenextraktionslösung zu einem vernünftigen Preis anbieten zu können - deshalb haben wir Standardvorlagen geschaffen, die Ihnen jetzt noch schneller bei der Entwicklung einer benutzerdefinierten Anwendung zur Webdatenextraktion helfen.