PêcheExcité192676, profil chez Overblog

PêcheExcité192676

Ses blogs

a-nous-de-voir.overblog.com

PêcheExcité192676

Articles : 13

Depuis : 15/10/2012

Categorie : Technologie & Science

Articles à découvrir

Bash : avancées du script, egrep dans la balise meta, problèmes d'encodage et mini-grep

17 déc. 2012

Cela fait près de deux semaines que nous n'avons rien publié sur notre blog, mais notre script a tout de même avancé pendant ce temps : - nous avons enfin réussi à isoler l'information sur l'encodage dans les balises meta : egrep -io "charset *=[^ \>]+" | cut -d= -f 2 | tr -d \" | tr -d \' | tr -d \> | tr -d " ") nous avons préféré procéd

Séance du 19 décembre : problèmes d'encodage sur le chinois, installation de mini-grep et du trameur

19 déc. 2012

Dernière séance avant les vacances et avant-dernière séance avant la date de remise du projet. nous avons compris d'où venait le problème d'encodage des pages du chinois : file les détectait en iso-latin, et nous nous sommes aperçues en observant les balises meta que ces pages étaient en fait pour la plupart encodées en gb2312, une est en

Bash : nouvelle étape

27 nov. 2012

Nous avons repris notre programme précédent, et nous y avons apporté quelques améliorations, à savoir : - nous avons amélioré la détection de l'encodage des pages en utilisant la commande file sur la page aspirée, avant d'exécuter le dump. nous avons ainsi pu repérer a priori l'encodage des pages pour pouvoir les traiter différemment gr

Bash : script 3 dump initial des pages

20 nov. 2012

L'étape suivante de notre projet a consisté à sélectionner les contenu texte des pages apirées et à l'enregistrer dans un nouveau fichier. nous avons donc du rajouter une autre colonne à notre tableau contenant le lien menant à ce nouveau fichier. voici donc ce nouveau script : #!/bin/bash read ensembleurl; read tablo; # mise en place de l'

Premier script shell

6 nov. 2012

Le résultat de notre projet sera présenté sous forme de tableau html, que nous aurons généré automatiquement. la première étape de notre travail consiste donc pour nous à obtenir un tableau contenant toutes les urls que nous avons relevées, numérotées. nous enrichirons ce tableau au cours de l'avancée de notre travail. voici donc notre

Progrès de notre script

8 janv. 2013

Ces dernières semaines, nous avons fait un certain nombre de modifications à notre programme : - comme annoncé dans l'article précédent, nous avons inversé l'ordre de traitement du dump des pages : nous procédons maintenant d'abord à partir des informations trouvées dans la balise méta, puis ensuite seulement à partir des informations de

Script du premier tableau - version 2

11 nov. 2012

Voici une deuxième version plus efficace de notre premier script. suivant les conseils donnés en cours, nous avons rajouté une boucle sur la création de chaque tableau par langue et pour éviter des copier-collers. nous avons aussi arrangé le tableau pour qu'il paraisse mieux. voilà le nouveau script avec une boucle for #!/bin/bash # récupé

Bash : toujours plus loin

4 déc. 2012

Voici notre avancé de la semaine : - nous avons finalement réussi à implémenter notre clause if sur le retour curl. - nous avons ajouté une nouvelle condition au traitement des pages dont l'encodage n'est pas de l'utf-8 : nous avons vérifié l'existence de l'encodage dans iconv pour ensuite se préparer à aller chercher plus d'information su

Essai avec perl

19 nov. 2012

J'ai voulu essayer de refaire un script perl obtenant les mêmes résultats que celui réalisé avec bash jusqu'à présent. j'ai voulu aussi ajouter des sections à notre tableau, pour distinguer les quatres sous-corpus que comportent nos fichiers d'urls : conditions d'utilisation, extraits de loi, tutoriels, articles de presse. pour l'instant, je

Deuxième script : addition d'une colonne pour les pages aspirées

13 nov. 2012

La deuxième étape de notre projet consiste à aspirer localement les pages dont nous avons relevé les urls, pour ensuite pouvoir les traiter et les analyser plus tard. deux possibilités s'offraient à nous : utiliser la commande wget ou utiliser la commande curl. etant donné que l'une d'entre nous travaille sur un mac, la solution la plus évi