Zuerst müssen wir den Teil des HTML-Codes identifizieren, der unsere Informationen enthält. Sie können auf dem Bild sehen, welche Informationen wir aus der gewählten Quelle entnehmen möchten (mit rotem Pfeil markiert).

Die Hauptstory ist im Quellcode der Seite hervorgehoben:
Wir möchten nur den Titel der Hauptstory und den kurzen Text unter dem Bild verwenden. Wie Sie sehen, ist der Titel von den Tags <div class="cnnMainT1Hd"> … </div> umrahmt und der kurze Text befindet sich innerhalb der Tags <div class="cnnMainT1"> … </div>.
Jetzt werden wir damit beginnen, das Script zu schreiben. Zuerst werden wir den Hauptbereich definieren, der den Inhalt der Homepage von www.cnn.com herunterladen wird.
#Hauptbereich des Scripts
<Section>
#Name des Bereichs definieren
Name ourMainSection
# Inhalt laden
<Action ContentURL>
#Inhalt von der folgenden URL laden
URL http://www.cnn.com
#entfernt Newlines aus dem heruntergeladenen Inhalt zur leichteren Anpassung
RemoveNewLine
</Action>
</Section>
#Bereich mit Name “ourMainSection” laufen lassen
Main ourMainSection
Jedes Script enthält den Hauptbereich, der die Seite von einer spezifischen URL herunterlädt und führt dann einen Schritt mit den heruntergeladenen Inhalten aus. Im nächsten Schritt sehen Sie, wie die Daten aneinander angepasst werden können.
In Schritt 2 haben wir den Inhalt von der Website geladen, daher können wir nun versuchen, den Titel der Hauptstory anzupassen und es als Standard-Output auszudrucken.
#Hauptbereich des Scripts
<Section>
#Name des Bereichs definieren
Name ourMainSection
# Inhalt laden
<Action ContentURL>
#Inhalt von der folgenden URL laden
URL http://www.cnn.com
#entfernt Newlines aus dem heruntergeladenen Inhalt zur leichteren Anpassung
RemoveNewLine
</Action>
#dieses Muster sollte mit Titel der Hauptstory übereinstimmen
<Pattern>
#definiert den Begriff, der mit den Daten übereinstimmen soll
RegExp <div class="cnnMainT1Hd"><h2><a*>\
{$main_title}</a></h2></div>
</Pattern>
#übereinstimmende Daten in Standard-Output ausdrucken
<Action Print>
Text Story of the day: {$main_title}\n
</Action>
</Section>
#Bereich mit Name “ourMainSection” laufen lassen
Main ourMainSection
Um die Daten aneinander anzupassen, müssen wir ein übereinstimmendes Muster angeben. Das folgende Muster weist das System an, zwischen den Tags <div class="cnnMainT1Hd"><h2><a*>...</a></h2></div> alles anzupassen und den übereinstimmenden Wert in die Variable $main_title zu speichern.
Dann haben wir einen Vorgang definiert, der etwas mit dem Wert in dieser Variable tun wird. In unserem Fall geht es nur darum, das Ergebnis mit Hilfe des Befehls Text in den Standard-Output zu drucken. Sie können jedoch den Wert in die Datei speichern, eine Einfügung in eine Datenbank vornehmen oder den Wert zum Laden und zum Mining einer anderen Seite verwenden.
Als letzten Schritt müssen wir einen weiteren Muster-Tag hinzufügen, der mit dem kurzen Text der Hauptstory übereinstimmt.
#Hauptbereich des Scripts
<Section>
#Name des Bereichs definieren
Name ourMainSection
# Inhalt laden
<Action ContentURL>
#Inhalt von der folgenden URL laden
URL http://www.cnn.com
#entfernt Newlines aus dem heruntergeladenen Inhalt zur leichteren Anpassung
RemoveNewLine
</Action>
#dieses Muster sollte mit Titel der Hauptstory übereinstimmen
<Pattern>
#definiert den Begriff, der mit den Daten übereinstimmen soll
RegExp <div class="cnnMainT1Hd"><h2><a*>\
{$main_title}</a></h2></div>
</Pattern>
#übereinstimmende Daten in Standard-Output ausdrucken
<Action Print>
Text Story of the day: {$main_title}\n
</Action>
#kurzen Text aus Hauptstory anpassen
<Pattern>
RegExp <div class="cnnMainT1">\
{$short_text:re(.*?)}</div>
</Pattern>
#übereinstimmenden kurzen Text drucken
<Action Print>
Text Text: {$short_text}\n
</Action>
</Section>
#Bereich mit Name "ourMainSection" laufen lassen
Main ourMainSection
Hier haben wir ein weiteres Muster definiert, das alles, was sich zwischen den Tags <div class="cnnMainT1">...</div> befindet, anpassen wird und den übereinstimmenden Wert in der Variable $short_text speichern wird.
Beachten Sie, dass wir nach der Variable einen speziellen Modifier :re(.*?) verwendet haben.
:re weist das System an, den ordnungsgemäßen Begriff zu verwenden, um den Text anzupassen.
.*? ist der ordnungsgemäße Begriff, um jedes Zeichen bis zum Zeichen ‘<’ anzupassen.
Wir haben außerdem einen weiteren Vorgang definiert, der den übereinstimmenden Text in den Standard-Output druckt.