mercredi 23 novembre 2011

Séance #5 - applications


Nouvelle séance, nouvelle étape du projet, nouvelle colonne!

Puisque notre but final est de travailler sur du texte, il est plus pratique d'avoir comme support un fichier texte, plutôt qu'une page html. Pour passer de l'un à l'autre, nous n'avons besoin que d'un élément: lynx, un navigateur web, qui, comme tous les autres navigateurs, permet d'accéder à des sites web, mais qui a la particularité de le faire en mode textuel uniquement, et donc par l'intermédiaire unique du clavier.
/!\ Il n'est pas installé automatiquement sur Ubuntu, il convient donc de l'installer rapidement avant de l'utiliser...

La ligne de commande essentielle que nous avons alors ajoutée est celle-ci:
lynx -dump -nolist $nom > ./DUMP-TEXT/$i/$j.txt;
Plusieurs points importants:
  • La situation: cette instruction est située à l'intérieur des deux boucles du script actuel (d'abord celle qui génère les tableaux, puis celle qui génèrent les lignes). En effet, elle doit s'appliquer à toutes les URLs de toutes les langues sur lesquelles on travaille.
  • Les options: -dump permet de ne récupérer que le contenu textuel de la page lue par lynx; -nolist permet quant à lui de ne pas récupérer les liens hypertext.
  • La redirection de flux sortant (>): nécessaire si on veut éviter que le terminal ne surchauffe l'ordinateur en se remplissant de tout le contenu textuel de toutes les URLs traitées, elle redirige le tout dans un fichier qui sera créé à l'occasion.
 Script:

(Début du) tableau généré



Quelques petites modifications du script ont également été apportées, notamment pour créer les dossiers qui doivent contenir les fichiers textes "dumpés" (mkdir ./DUMP-TEXT/$i;) ainsi que pour créer la colonne du tableau qui permet d'y accéder.

Efficacité des commandes utilisées?
Chose importante: il a d'abord fallu, cette semaine, remplacer les liens renvoyant à des pages qui ne pouvaient pas être aspirées par la commande curl (voir post précédent), et ce, à cause d'accès refusés par les serveurs en question. Résultat: et rebelote pour la recherche d'URLs contenant le mot "rêve"! [Et on maudit la cnn et le new york times.]
... et ce n'est pas fini. Il semblerait que même si la page a été aspirée avec succès par curl, il soit possible que le problème des accès se re-pose pour lynx:

Page "dumpée" par toutes les pages du telegraph:
 Malédiction? Acharnement? Complot?

Aucun commentaire:

Enregistrer un commentaire