Bash : avancées du script, egrep dans la balise meta, problèmes d'encodage et mini-grep
PêcheExcité192676
P
PêcheExcité192676
Ses blogs
Articles :
13
Depuis :
15/10/2012
Categorie :
Technologie & Science
Articles à découvrir
Cela fait près de deux semaines que nous n'avons rien publié sur notre blog, mais notre script a tout de même avancé pendant ce temps : - nous avons enfin réussi à isoler l'information sur l'encodage dans les balises meta : egrep -io "charset *=[^ \>]+" | cut -d= -f 2 | tr -d \" | tr -d \' | tr -d \> | tr -d " ") nous avons préféré procéd
Séance du 19 décembre : problèmes d'encodage sur le chinois, installation de mini-grep et du trameur
Dernière séance avant les vacances et avant-dernière séance avant la date de remise du projet. nous avons compris d'où venait le problème d'encodage des pages du chinois : file les détectait en iso-latin, et nous nous sommes aperçues en observant les balises meta que ces pages étaient en fait pour la plupart encodées en gb2312, une est en
Nous avons repris notre programme précédent, et nous y avons apporté quelques améliorations, à savoir : - nous avons amélioré la détection de l'encodage des pages en utilisant la commande file sur la page aspirée, avant d'exécuter le dump. nous avons ainsi pu repérer a priori l'encodage des pages pour pouvoir les traiter différemment gr
L'étape suivante de notre projet a consisté à sélectionner les contenu texte des pages apirées et à l'enregistrer dans un nouveau fichier. nous avons donc du rajouter une autre colonne à notre tableau contenant le lien menant à ce nouveau fichier. voici donc ce nouveau script :
#!/bin/bash read ensembleurl; read tablo; # mise en place de l'
Le résultat de notre projet sera présenté sous forme de tableau html, que nous aurons généré automatiquement. la première étape de notre travail consiste donc pour nous à obtenir un tableau contenant toutes les urls que nous avons relevées, numérotées. nous enrichirons ce tableau au cours de l'avancée de notre travail. voici donc notre
Ces dernières semaines, nous avons fait un certain nombre de modifications à notre programme : - comme annoncé dans l'article précédent, nous avons inversé l'ordre de traitement du dump des pages : nous procédons maintenant d'abord à partir des informations trouvées dans la balise méta, puis ensuite seulement à partir des informations de
Voici une deuxième version plus efficace de notre premier script. suivant les conseils donnés en cours, nous avons rajouté une boucle sur la création de chaque tableau par langue et pour éviter des copier-collers. nous avons aussi arrangé le tableau pour qu'il paraisse mieux. voilà le nouveau script avec une boucle for
#!/bin/bash # récupé
Voici notre avancé de la semaine : - nous avons finalement réussi à implémenter notre clause if sur le retour curl. - nous avons ajouté une nouvelle condition au traitement des pages dont l'encodage n'est pas de l'utf-8 : nous avons vérifié l'existence de l'encodage dans iconv pour ensuite se préparer à aller chercher plus d'information su
J'ai voulu essayer de refaire un script perl obtenant les mêmes résultats que celui réalisé avec bash jusqu'à présent. j'ai voulu aussi ajouter des sections à notre tableau, pour distinguer les quatres sous-corpus que comportent nos fichiers d'urls : conditions d'utilisation, extraits de loi, tutoriels, articles de presse. pour l'instant, je
Deuxième script : addition d'une colonne pour les pages aspirées
La deuxième étape de notre projet consiste à aspirer localement les pages dont nous avons relevé les urls, pour ensuite pouvoir les traiter et les analyser plus tard. deux possibilités s'offraient à nous : utiliser la commande wget ou utiliser la commande curl. etant donné que l'une d'entre nous travaille sur un mac, la solution la plus évi
English
Deutsch
español
italiano