dans un premier temps, nous devons identifier la partie codée en HTML qui contient nos informations. Vous pouvez voir sur le dessins les informations que nous souhaitons récupérer depuis la source délectionnée (marquée par une flèche rouge).

La principale nouvelle est surlignée dans le code source:
Nous voulons utiliser que le Titre de la nouvelle principale et le petit texte situé sous l'image.
Comme vous le voyez, ce dernier est encadré de tags <div class="cnnMainT1Hd"> … </div> et le texte est contenu entre les tags <div class="cnnMainT1"> … </div>
Maintenant, nous allons pouvoir commencer le script. Dans un premier temps, nous allons devoir télécharger le contenu de la page principale de www.cnn.com
#main section of script
<Section>
#define name of section
Name ourMainSection
# Load content
<Action ContentURL>
#load content from the following URL
URL http://www.cnn.com
#removes newlines from downloaded content for easier matching
RemoveNewLine
</Action>
</Section>
#run section with name “ourMainSection”
Main ourMainSection
Chaque script contient la saction principale qui télécharge la page depuis l'URL indiquée, puis réalise une action avec le contenu téléchargé. Nous allons voir comment associer les données aux étapes suivantes.
A l'étape 2 , nous avons chargé le contenu d'une page Internet. Nous pouvons maintenant essayer de faire correspondre le titre avec la principale nouvelle et l'imprimer par défaut.
#main section of script
<Section>
#define name of section
Name ourMainSection
# Load content
<Action ContentURL>
#load content from the following URL
URL http://www.cnn.com
#removes newlines from downloaded content for easier matching
RemoveNewLine
</Action>
#this pattern should match main story title
<Pattern>
#defines expression which should match the data
RegExp <div class="cnnMainT1Hd"><h2><a*>\
{$main_title}</a></h2></div>
</Pattern>
#print matched data to default output
<Action Print>
Text Story of the day: {$main_title}\n
</Action>
</Section>
#run section with name “ourMainSection”
Main ourMainSection
Pour faire correspondre les données entre elles, nous devons spécifier un schéma de correspondance spécifique. Le schéma suivant dit au système de faire correspondre le texte à la totalité du contenu compris entre les tags <div class="cnnMainT1Hd"><h2><a*>...</a></h2></div> et de stocker les corespondances sous la variable $main_title
Puis, nous avons défini une action qui effectuera quelque chose avec la valeur de cette variable. Dns notre cas, il s'agira simplement d'imprimer le résultat au moyen de la commande Text , mais nous aurions pu sauvegarder la valeur sous un fichier, l'insérer dans une base de données ou utiliser cette valeur pour charger une autre page.
Enfin, notre dernière étape consistera à ajouter un schéma ou plus pour le/les faire correspondre au texte principal.
#main section of script
<Section>
#define name of section
Name ourMainSection
# Load content
<Action ContentURL>
#load content from the following URL
URL http://www.cnn.com
#removes newlines from downloaded content for easier matching
RemoveNewLine
</Action>
#this pattern should match main story title
<Pattern>
#defines expression which should match the data
RegExp <div class="cnnMainT1Hd"><h2><a*>\
{$main_title}</a></h2></div>
</Pattern>
#print matched data to default output
<Action Print>
Text Story of the day: {$main_title}\n
</Action>
#match short text from main story
<Pattern>
RegExp <div class="cnnMainT1">\
{$short_text:re(.*?)}</div>
</Pattern>
#print matched short text
<Action Print>
Text Text: {$short_text}\n
</Action>
</Section>
#run section with name “ourMainSection”
Main ourMainSection
Nous avons défini ici un schéma supplémentaire qui correspond à tout ce qui contenu entre les tags <div class="cnnMainT1">...</div> et nous avons enregistré les valeurs correspondantes sous $short_text.
Attention! Nous avons utilisé un modificateur spécifique :re(.*?) après la variable.
:re dit au système d'utiliser une expression regulière pour coller au texte
.*? est une expression régulière qui correspond à chaque caractère suivant le caractère ‘<’.
Nous avons également défini une action qui imprime le texte associé par défaut.