BLAST (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。
就是说!如果你有一段序列,不管是DNA,RNA还是蛋白质序列,把它扔进blast里跑一下,就能比对出最相近的结果!也就是说,如果你不知道这段东西的是啥,blast一下你就知道啦!
原理:将你的input序列和库中的序列进行匹配度打分,分数高列出来!
首先来看看NCBI提供的在线的blast工具
可以看到,一共有五种blast!分别有什么用呢!
- 所查序列作一对一的序列比对。
- BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
- BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
- TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
- TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要用TBLASTX也可,但记住此时不考虑缺口。
另外,blast除了填入序列之外,还可以填入FASTA的编号。
接下来,试一下这段,复制一部分,blast一下。
>X03945.1 Human gene for HLA-B27 antigen
GAGCTCACTCTCTGGCATCAAGTTCTCCGTGATCAGTTTCCCTACACAAGATCCAAGAGGAGAGGTAAGG
AGTGAGAGGCAGGGAGTCCAGTTCAGGGACAGGGATTCCAGGAGGAGAAGTGAAGGGGAAGCGGGTGGGC
GCCACTGGGGGTCTCTCCCTGGTTTCCACAGACAGATCCTTGTGCCGGACTCAGGCAGACAGTGTGACAA
AGAGGCTGGTGTAGGAGAAGAGGGATCAGGACGAACGTCCAAGGCCCCGGGCGCGGTCTCAGGGTCTCAG
GCTCCGAGAGCCTTGTCTGCATTGGGGAGGCGCACAGTTGGGGATTCCCCACTCCCACGAGTTTCACTTC
TTCTCCCAACCTATGTCGGGTCCTTCTTCCAGGATACTCGTGACGCGTCCCCATTTCCCACTCCCATTGG
GTGTCGGGTGTCTAGAGAAGCCAATCAGTGTCGCCGGGGTCCCAGTTCTAAAGTCCCCACGCACCCACCC
GGACTCAGAATCTCCTCAGACGCCGAGATGCGGGTCACGGCGCCCCGAACCCTCCTCCTGCTGCTCTGGG
GGGCAGTGGCCCTGACCGAGACCTGGGCTGGTGAGTGCGGGGTCAGGCAGGGAAATGGCCTCTGTGGGGA
GGAGCCAGGGGACGCAGGCGGGGGCGCAGGACCCGGGGAGCCGCGCCGGGAGGAGGGTCGGGCGGGTCTC
AGCCCCTCCTCGCCCCCAGGCTCCCACTCCATGAGGTATTTCCACACCTCCGTGTCCCGGCCCGGCCGCG
GGGAGCCCCGCTTCATCACCGTGGGCTACGTGGACGACACGCTGTTCGTGAGGTTCGACAGCGACGCCGC
GAGTCCGAGAGAGGAGCCGCGGGCGCCGTGGATAGAGCAGGAGGGGCCGGAGTATTGGGACCGGGAGACA
CAGATCTGCAAGGCCAAGGCACAGACTGACCGAGAGGACCTGCGGACCCTGCTCCGCTACTACAACCAGA
GCGAGGCCGGTGAGTGACCCCGGCCCGGGCGCAGGTCACGACTCCCCATCCCCCACGTACGGCCCGGGTC
GCCCCGAGTCTCCGGGTCCGAGATCCGCCCCCGAGGCCGCGGGACCCGCCCAGACCCTCGACCGGCGAGA
GCCCAGGCGCGTTTACCCGGTTTCATTTTCAGTTGAGGCCAAAATCCCCGCGGTTGGTCGGGGCGGGGCG
GGGCTCGGGGGGACGGGGCTGACCGCGGGGGCGGGTCCAGGGTCTCACACCCTCCAGAATATGTATGGCT
GCGACGTGGGGCCGGACGGGCGCCTCCTCCGCGGGTACCACCAGGACGCCTACGACGGCAAGGATTACAT
CGCCCTGAACGAGGACCTGAGCTCCTGGACCGCCGCGGACACGGCGGCTCAGATCACCCAGCGCAAGTGG
GAGGCGGCCCGTGTGGCGGAGCAGCTGAGAGCCTACCTGGAGGGCGAGTGCGTGGAGTGGCTCCGCAGAT
ACCTGGAGAACGGGAAGGAGACGCTGCAGCGCGCGGGTACCAGGGGCAGTGGGGAGCCTTCCCCATCTCC
TATAGGTCGCCGGGGATGGCCTCCCACGAGAAGAGGAGGAAAATGGGATCAGCGCTAGAATGTCGCCCTC
CCTTGAATGGAGAATGGCATGAGTTTTCCTGAGTTTCCTCTGAGGGCCCCCTCTTCTCTCTAGGACAATT
AAGGGATGACGTCTCTGAGGAAATGGAGGGGAAGACAGTCCCTAGAATACTGATCAGGGGTCCCCTTTGA
CCCCTGCAGCAGCCTTGGGAACCGTGACTTTTCCTCTCAGGCCTTGTTCTCTGCCTCACACTCAGTGTGT
TTGGGGCTCTGATTCCAGCACTTCTGAGTCACTTTACCTCCACTCAGATCAGGAGCAGAAGTCCCTGTTC
CCCGCTCAGAGACTCGAACTTTCCAATGAATAGGAGATTATCCCAGGTGCCTGCGTCCAGGCTGGTGTCT
GGGTTCTGTGCCCCTTCCCCACCCCAGGTGTCCTGTCCATTCTCAGGCTGGTCACATGGGTGGTCCTAGG
GTGTCCCATGAGAGATGCAAAGCGCCTGAATTTTCTGACTCTTCCCATCAGACCCCCCAAAGACACACGT
GACCCACCACCCCATCTCTGACCATGAGGCCACCCTGAGGTGCTGGGCCCTGGGCTTCTACCCTGCGGAG
ATCACACTGACCTGGCAGCGGGATGGCGAGGACCAAACTCAGGACACTGAGCTTGTGGAGACCAGACCAG
CAGGAGATAGAACCTTCCAGAAGTGGGCAGCTGTGGTGGTGCCTTCTGGAGAAGAGCAGAGATACACATG
CCATGTACAGCATGAGGGGCTGCCGAAGCCCCTCACCCTGAGATGGGGTAAGGAGGGGGATGAGGGGTCA
TATCTCTTCTCAGGGAAAGCAGGAGCCCTTCAGCAGGTCAGGGCCCCTCATCTTCCCTTCCTTTCCCAGA
GCCGTCTTCCCAGTCCACCGTCCCCATCGTGGGCATTGTTGCTGGCCTGGCTGTCCTAGCAGTTGTGGTC
ATCGGAGCTGTGGTCGCTGCTGTGATGTGTAGGAGGAAGAGCTCAGGTAGGGAAGGGGTGAGGGGTGGGG
TCTGAGTTTTCTTGTCCCACTGGGGGTTTCAAGCCCCAGGTAGAAGTGTTCCCTGCCTCATTACTGGGAA
GCAGCATCCACACAGGGGCTAACGCAGCCTGGGACCCTGTGTGCCAGCACTTACTCTTTTGTGCAGCACA
TGTGACAATGAAGGACGGATGTATCACCTTGGTGGTTGTGGTGTTGGGGTCCTGATTCCAGCATTCATGA
GTCAGGGGAAGGTCCCTGCTAAGGACAGACCTTAGGAGGGCAGTTGGTCCAGGACCCACACTTGCTTTCC
TCGTGTTTCCTGATCCTGCCTTGGGTCTGTAGTCATACTTCTGGAAATTCCTTTTGGGTCCAAGACGAGG
AGGTTCCTCTAAGATCTCATGGCCCTGCTTCCTCCCAGTCCCCTCACAGGGAAATTTTCTTCCCACAGGT
GGAAAAGGAGGGAGCTACTCTCAGGCTGCGTGTAAGTGATGGGGGTGGGAGTGTGGAGGAGCTCACCCAC
CCCCTAATTCCTCCTGTCCCACGTCTCCTGCGGGCTCTGACCAGGTCCTGTTTTTGTTCTACTCCAGGCA
GCGACAGTGCCCAGGGCTCTGATGTGTCTCTCACAGCTTGAAAAGGTGAGATTCTTGGGGTCTAGAGTGG
GTGGGGTGGCAGGTCTGGGGGTGGGTGGGGCAGTGGGGAAAGGCCTGGGTAATGGAGATTCTTTGATTGG
GATGTTTCGCGTGTGTGGTGGGCTGTTTAGACTGTCATCACTTACCATGACTAACCAGAATTTGTTCATG
ACTGTTGTTTTCTGTAGCCTGAGACAGCTGTCTTGTGAGGGACTGAGATGCAGGATTTCTTCACGCCTCC
CCTTTGTGACTTCAAGAGCCTCTGGCATCTCTTTCTGCAAAGGCACCTGAATGTGTCTGCGTCCCTGTTA
GCATAATGTGAGGAGGTGGAGAGACCAGCCCACCCCCGTGTCCACTGTGACCCCTGTTCCCATGCTGACC
TGTGTTTCCTCCCCAGTCATCTTTCCTGTTCCAGAGAGGTGGGGCTGGATGTCTCCATCTCTGTCTCAAC
TTTATGTGCACTGAGCTGCAACTTCTTACTTCCCTACTGAAAATAAGAATCTGAATATAAATTTGTTTTC
TCAAATATTTGCTATGAGAGGTTGATGGATTAATTAAATAAGTCAATTCCTGGAATTTGAGAGAGCAAAT
AAAGACCTGAGAACCTTCCAGAATCTGCATGTTCGCTGTGCTGAGTCTGTTGCAGGTGGGGTGTGGAGAA
GGCTGTGGGGGGCCGAGTGTGGACGGGCCTGTGCCCATTTGGTGTTGAGTCCATCATGGGCTTTATGTGG
TTAGTCCTCAGCTGGGTCACCTTCACTGCTCCATTGTCCTTGTCCCTTCAGTGGAAACGTTGTCCAGCGG
GAGCTGTGACCACAGAGGCTCACACATACGCCCTGGGCGGCCCCTGCACACGGGGGTCTCTGTGCATTCT
GTTTTCAGAGCCGAATTCACCTCTTGCCCTGCTTCTAGAGCTCCTTTTCTGCTCTGCTCTCCTGCCCTCT
CTCCCTGCCCTGGTTCTAGTGATCTTGGTGCTGAATCCAATCCCAACTCATGAATCTGTAAAGCAGAGTC
TAATTTAGACTTACATTTGTCTGTGAAATTGGACCCGTCATCAAGGACTGTTCTTTCCTGAAGAGAGAAC
CTGATTGTGTGCTGCAG
然后结果就出来啦!
可以看到,找到了正确的结果!
当然!blast也可以下载到本地使用。不过最好要在本地建库!这些以后再说!