Najprv musíme identifikovať tie časti HTML kódu, ktoré obsahujú želanú informáciu. Na obrázku môžete vidieť, ktoré informácie chceme extrahovať (sú označené červenou šípkou).

Hlavný článok je vyznačený v zdrojovom kóde:
Chceli by sme extrahovať iba titulok článku a krátky text pod obrázkom. Ako vidíme, titulok je ohraničený tagmi <div class="cnnMainT1Hd"> … </div> a krátky text je medzi <div class="cnnMainT1"> … </div>
Teraz začneme písať skript. Ako prvé si zadefinujeme hlavnú sekciu, ktorá bude sťahovať obsah stránky cnn.com .
#main section of script
<Section>
#define name of section
Name ourMainSection
# Load content
<Action ContentURL>
#load content from the following URL
URL http://www.cnn.com
#removes newlines from downloaded content for easier matching
RemoveNewLine
</Action>
</Section>
#run section with name “ourMainSection”
Main ourMainSection
Každý skript obsahuje hlavnú sekciu, ktorá stiahne stránku z požadovanej URL a potom niečo spraví s jej obsahom. V nasledujúcom kroku sa pozrieme ako zachytiť dáta.
V druhom kroku sme stiahli obsah z webstránky, teraz sa pokúsime vytiahnuť titulok a vypísať ho.
#main section of script
<Section>
#define name of section
Name ourMainSection
# Load content
<Action ContentURL>
#load content from the following URL
URL http://www.cnn.com
#removes newlines from downloaded content for easier matching
RemoveNewLine
</Action>
#this pattern should match main story title
<Pattern>
#defines expression which should match the data
RegExp <div class="cnnMainT1Hd"><h2><a*>\
{$main_title}</a></h2></div>
</Pattern>
#print matched data to default output
<Action Print>
Text Story of the day: {$main_title}\n
</Action>
</Section>
#run section with name “ourMainSection”
Main ourMainSection
Aby sme správne vytiahli dáta, musíme špecifikovať porovnávajúci výraz. Nasledujúci výraz povie systému, aby vytiahol všetko medzi tagmi <div class="cnnMainT1Hd"><h2><a*>...</a></h2></div> a uložil vytiahnutý obsah do premennej $main_title
Potom si definujeme, čo spravíme s hodnotou premennej. V našom prípade ju len vypíšeme na štandardný výstup pomocou príkazu Text, no môžete si ju uložiť do súboru, spraviť insert do databázy alebo použiť túto premennú na stiahnutie ďalšej stránky.
V poslednom kroku pridáme ešte jeden Pattern tag, ktorý vytiahne krátky text z hlavného článku.
#main section of script
<Section>
#define name of section
Name ourMainSection
# Load content
<Action ContentURL>
#load content from the following URL
URL http://www.cnn.com
#removes newlines from downloaded content for easier matching
RemoveNewLine
</Action>
#this pattern should match main story title
<Pattern>
#defines expression which should match the data
RegExp <div class="cnnMainT1Hd"><h2><a*>\
{$main_title}</a></h2></div>
</Pattern>
#print matched data to default output
<Action Print>
Text Story of the day: {$main_title}\n
</Action>
#match short text from main story
<Pattern>
RegExp <div class="cnnMainT1">\
{$short_text:re(.*?)}</div>
</Pattern>
#print matched short text
<Action Print>
Text Text: {$short_text}\n
</Action>
</Section>
#run section with name “ourMainSection”
Main ourMainSection
Tu sme si zadefinovali ešte jeden výraz, ktorý vytiahne všetko medzi tagmi <div class="cnnMainT1">...</div> a uloží hodnotu do premennej $short_text.
Všimnite si, že sme použili špeciálny výraz :re(.*?) po premennej.
:re hovorí systému, že použijeme regulérny výraz na vytiahnutie textu
.*? je regulérny výraz, ktorý namapuje všetky znaky po znak ‘<’.
Tiež sme zadefinovali ešte jednu Action, ktorá vypíše vytiahnutý text na štandardný výstup.