Jump to content

Extrair Texto De Html Para Txt


Skydreamer
 Share

Recommended Posts

Boa tarde!

Precisava de ajuda por parte de alguém que entenda de programação (porque disso eu sei pouco).

Tenho de extrair uma lista infindável de sequências proteicas de uma base de dados on-line. A base de dados funciona com um "link base" ao qual se adiciona um codigo à frente para obter cada sequência. Já compilei a lista de todos os códigos para colocar à frente do "link base", mas precisava de uma forma de:

- Extrair esses dados para ficheiros de texto individuais com o respectivo nome da página web; e

- Deletar algumas linhas no final e no início.

O link base é:

http://www.genome.jp/dbget-bin/www_bget?-f+-n+a+

Ao final deste link adiciona-se o código de cada linha que se encontra no ficheiro em anexo.

Quando faço save as com o internet explorer para um ficheiro de texto obtenho o seguinte (por ex):

KEGG T.brucei: Tb927.5.3800

>tbr:Tb927.5.3800 glutamine hydrolysing (not ammonia-dependent) carbomoyl phosphate synthase (EC:6.3.5.5); K01954 carbamoyl-phosphate synthase [EC:6.3.5.5] (A)

MKIGTKAELILHGGECFSGVSFGYEESVAGEVVFTTGMVGYPESLTDPSYHGQILVLTAP

MVGNYGIPPLETDPFGVTKYFESMNGEIRVSALVVCECCEEPSHWQMYETLGAWLKRNKV

PGIMMVDTRSVVLRLREMGTALGKVVINGADVPFVDPNTRNLVEEVSTIAPQSYGHGTLR

ILVIDMGVKLNSLRCLLRYDVTLTVVPHDWDITKETYDGLFISNGPGNPQLCTKTIENVR

WALTQEKPIFGVCMGNHMLALAAGGTTYKMKFGHRGQNQPSTSNQDGRVVITTQNHGFAV

DFKSLPQGDWEEYFFNPNDQCNEGLRHRTKPFSSVQFHPEGCCGPQDTEYLFGEFIDQVK

RSKTKLAAQFKPRKVLVLGAGGIVIAQAGEFDYSGSQCLKALREEGVKSILVNPNIATVQ

TDDEMADQVYFVPVTPEAVERVIEKERPDGIMLGWGGQTALNCGLQLDKLGVLKKYNVQV

LGTAISTITVTEDRELFRNALLQINEPVAKSVAVTSVAEALKAAADIGFPMMVRAAFCLG

GQGSGIVNSEEELSNKVEVALTVAPQVLLEESVAGWKEIEYEIVRDIHDNCITVCNMENF

DPMGVHTGESIVVAPSQTLTNEEYHMLRTAAIKIIRHLGVVGECNIQYGLEPHSRRYVVI

EVNARLSRSSALASKATGYPLAHVATKIALGKGLFEIKNGVTKTTMACFEPSLDYVTVKA

PRWDVAKFNMVSQEIGSMMKSVGEVMAIGRTFEEAVQKALRMVDPSNNGFDTPKRLAEMG

DKWDYMRALRVPTPDRIFAICRALKEGITVDEIHRLTRIDKFFLNKLQLLIEMQRELTTL

YRGKLDTITYDHLLAMKAHGFSDVQIAEYLQCTTDDVRKRRYKLNITPKVKQIDTVAGEY

PAAQCCYLYTTYNAQHDDVEFNDRMYAVLGCGVYRIGSSVEFDYGGVLVARELRRLGNKV

ILINYNPETVSTDYDECDRLYFEEVSEETVLDILLKEKISGVIISLGGQIVQNMALRLKE

HGLPILGTDPVNVDKAEDRNKFSKMCDQLGVPQPEWILSTSVQDVHAFCQRVGFPTLVRP

SYVLSGSAMAVISSPEDIDRYLTKASLVSGTHPVVVSKYYEGAMEYDVDIVAHHGRVLCY

AICEHLENAGVHSGDATMFLPPQHTKKEVMKRIYEAATQIAGELDVVGPMNVQFLLTKDE

QLRVIEANIRSSRSVPFVSKTLGISFPAVMVSALLSRPDSELVPIRRAKMTHIGCKAPMF

SFNRLAGADPILGVEMASTGEIGVFGCDKREVFRKAMLCQNFRYPTKGVFISSDVDAVTE

ELLPHLEKISKTLPLFASTHTGAVLTKHGIPHTVLTQRHEDGDNPTYEVELAARRFDLVI

QLRNKRKDFILRSCTRENAPPDYWVRRLAVDYNVALLTEPNVVKMFCETLDIIGDIEIEP

FRYYVPRVYHKIESNNCTMLRHHKVGLCINPTMDSKVLAIRMREEKIDLTCFHASLGGSV

TSSEAFAEEFRSLKVPVEVVDLRNEMAELAFDMVMALIAEEDNRWHLPALAEHVIGVHLL

TAMQERGVTVVAQCSSQGRKGMNFERYARMLQPKMGVYSPWRDQRMLSDFPTEAEKINFL

EKHEVKVQSAAMETHSSICGITCGLGGEVATPTPRMVLPVSKCPATPEFCSIAFRAARCV

RINDVDVTPVQALQLANEIAGRNGVGLEHTQNNEMCEAPGMTLLSKALHFIYDVCFDRGN

TDAFRMYSRHVSSMLSSRGFVERQTLSSLEAIRHLTADVDGVVDVEVNRGEVIFLKVSHV

SRPVKLRLTKIMTDEELEEVFQPGDGTFGDVQW

BLAST

Só me interessa o que está a bold, ou seja, preciso de remover as três primeiras e as três últimas linhas ao ficheiro extraído.

Se alguém tiver alguma ideia de como extrair esta informação toda, desde já muito obrigado! Caso contrário terei de demorar dias a fazer tudo à mão...

Link to comment
Share on other sites

Assim de repente sem pensar muito e sem utilizar técnicas muito leet, instalava o winHTTrack, criava um projecto chamado genome, depois metia os urls todos com os códigos

http://www.genome.jp/dbget-bin/www_bget?-f+-n+a+tbr:Tb927.5.3800

http://www.genome.jp/dbget-bin/www_bget?-f+-n+a+tbr:Tb927.5.3900

Podes utilizar o excel e o notepad para teres uma lista com os links todos facilmente.

Depois o gajo sacava as páginas todas para uma directoria do computador.

Depois renomeava todos os ficheiros html que interessam para txt e juntava-os todos num só txt gigante.

Fazia copy de tudo para o excel e eliminava as linhas que não interessavam, mas isso já depende de como queres filtrar as cenas.

Edited by HERiTAGE
Link to comment
Share on other sites

?

Isso não é ir ao "Exibir>>Cód. Fonte" no FireFox e "View>>Source" no IE ?

Isso foi o que eu fiz para sacar os códigos que estão no ficheiro, mas para automatizar o processo n da por ai.

Assim de repente sem pensar muito e sem utilizar técnicas muito leet, instalava o winHTTrack, criava um projecto chamado genome, depois metia os urls todos com os códigos

http://www.genome.jp/dbget-bin/www_bget?-f+-n+a+tbr:Tb927.5.3800

http://www.genome.jp/dbget-bin/www_bget?-f+-n+a+tbr:Tb927.5.3900

Podes utilizar o excel e o notepad para teres uma lista com os links todos facilmente.

Depois o gajo sacava as páginas todas para uma directoria do computador.

Depois renomeava todos os ficheiros html que interessam para txt e juntava-os todos num só txt gigante.

Fazia copy de tudo para o excel e eliminava as linhas que não interessavam, mas isso já depende de como queres filtrar as cenas.

Muito bem pensado ;-). Vou tentar. Muito obrigado!

Isso é bastante fácil de fazer, demora é tempo.

Em que linguagem de programação é que se faria isso? Obrigado!

Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
 Share

  • Recently Browsing   0 members

    • No registered users viewing this page.
×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.