2015年1月16日 星期五

分子生物專論期末作業

期末大驗收來囉!!!!!
<期末作業的內容:>
1. 請選出一個跟你論文主題相關的基因 (gene X)

2. gene X Pubmed 或相關文獻探勘軟體,進行篇數,年代,作者趨勢分析。
3. gene X 利用 NCBI Gene 入口,獲得相關序列資訊(包括 genomic, reference sequence, peptide sequence)
4. 利用 gene X 的序列進行 Blastn Blastp,找出至少10條以上,20條以下,不同種 (species) 的序列,進行 Phylip 分析。使用方法為 NJ MLbootstrap 設定在 n = 250
5. gene X NCBI GEO profile 中尋找相關的表達資訊, 至少10個以上,20個以下。製成 tab txt file。再用 TMeV 畫出聚類分析圖形(至少三種)。
6. 將上述 5. 所得與 gene X 表達相關基因,利用 STRING 預測交互作用網路,並列出最有興趣的GO關係圖形 (CC, MF, BF) 三種。 
7. 預測 gene X 的蛋白結構圖。
8. 預測 gene X 的 micorRNA binding site。(因為我的研究是細菌,故沒有第8題喔)


以下為作業的整理:
1. 請選出一個跟你論文主題相關的基因 (gene x)
Carbon storage regulator A [Helicobacter pylori 26695]
我們實驗室主要研究細菌的致病機轉,我的研究方向是幽門桿菌(H. pyloriCsrA蛋白對於調控游動能力的機轉。CsrA (Carbon storage regulator A)蛋白,是由幽門桿菌HP1442基因encode出來的protein。CsrA蛋白中文名稱為碳源調節蛋白,目前在E. coli的文獻已報導CsrA參與細菌醣類代謝、biofilm形成、motility的調控、quorum sensing、pathogenesis等


2.  csrA gene於 Pubmed 或相關文獻探勘軟體,進行篇數,年代,作者趨勢分析。
用Pubmed搜尋幽門桿菌的CsrA基因,只有4篇文章發表。較少文獻發表也可以凸顯出我們做幽門桿菌CsrA研究的novelty。最早在2003Journal of Microbiology報導CsrA會影響quorum sensing。接著分別在20042006年的Molecular microbiology報導CsrA作為global regulator調控的層面很廣,會影響virulence factor的表現,csrA mutant株於mouse modelcolonization能力也是顯著性下降。最新的2014發表的這篇則是出自於我們實驗室的研究,報導CsrA缺失是如何影響幽門桿菌游動能力和貼附感染細胞的能力。



3. 將 gene X 利用 NCBI Gene 入口,獲得相關序列資訊(包括 genomic, reference sequence, peptide sequence)


4. 利用 gene X 的序列進行 Blastn 或 Blastp,找出至少10條以上,20條以下,不同種 (species) 的序列,進行 Phylip 分析。使用方法為 NJ 與 MLbootstrap 設定在 n = 250 
我使用的是blastn,找到跟H. pylori 26695 csrA具有高度相似的其他序列,大部分都是H. pylori同種的細菌,還有找到其他species的菌。以下我選擇了10條序列進行親緣分析,先使用Bioedit的軟體整理序列。


接著將序列匯入"Phylip"軟體進行分析,最後以TreeViewX打開分析結果。跟H. pylori 26695親緣關係比較相近的是:同species是H. pylori J99 和 H. pylori 238。



5. 將 gene X 於 NCBI GEO profile 中尋找相關的表達資訊, 至少10個以上,20個以下。製成 tab txt file。再用 TMeV 畫出聚類分析圖形(至少三種)。
使用GEO Profiles搜尋CsrA( Helicobacter pylori) 發現的資料庫是針對酸刺激(low PH value)去看H. pylori基因表現量的改變。並沒有針對csrA基因影響下游基因機制的探討。因此無法找到相關的表達資訊。



6. 將上述 5. 所得與 gene X 表達相關基因,利用 STRING 預測交互作用網路,並列出最有興趣的GO關係圖形 (CC, MF, BF) 三種。
上述GEO profile沒有找到csrA調控的基因和network,在STRING的分析中輸入CsrA(選擇物種Helicobacter pylori 26695)。得到的結果CsrA蛋白大部分是跟游動能力和chemotaxis的protien進行interaction。例如其中一個交互作用的基因HP1032 (sigma factor 28)就是flagella biosynthesis的regulator。



7. 預測 gene X 的蛋白結構圖。
首先因為幽門桿菌的CsrA蛋白尚無解出結構,因此我使用homology modeling來進行結構的預測。我使用的工具是SWISS-MODEL (http://swissmodel.expasy.org/)。
輸入CsrA的胺基酸序列後,再以Pseudomonas fluorescens的CsrA (PDB number: 2JPP) 結構作為模板進行modeling。

最後就得到了H. pylori 26695 CsrA的蛋白的預測結構了!!!!!是一個dimer形式存在的protein~~~
最後要謝謝這堂課的主課老師和所有任課老師,這學期學到很多生資預測工具對我的研究幫助頗大。



2015年1月14日 星期三

以Multiple expriment viewer工具分析microarray data

Multiple experiment viewer(MeV)主要用來分析矩陣式的資料,例如microarray、96 well孔盤、RNA seq等。可將每個資料點做相關性分群,可比較實驗組、對照組之間的差異性,計算出基因與基因間的相關性。

步驟如以下:
1. 於moodle下載MeV的軟體以及老師給的microarray data,點選"TMEV.bat"進入MeV軟體頁面。點選File > Load data > Select file loader> Browse下載好的microarray data > Add all(依序時間點) > Load


2. Load microarray data後,會出現矩陣資料標示紅色與綠色。接著進行Normalization:
Adjust data > Normalization > Ratio Statistics > Confidence interval選擇95% > OK
Normalization的目的是讓數據之間可以互相比較的前處理,原始的數據不能直接比較。


3. 進行Normalization後可以先儲存檔案,接著要看基因與基因之間的相關性:
Analysis > Clustering > HCL: Hierarchical Clustering > 直接按OK



 4. 點選HCL Tree,可以看到基因與基因間的相關性。


5. 接著點選某一子範圍的tree來進行獨立分析:
先按子cluster的tree > 按右鍵 > Launch new session


6. 獨立某個子cluster的session後,進行Visualization分析各個基因之間的相關性。
Visualization > Gene Distance Matrix > genes > OK


7. 在Matrix View中,可以點選各點看基因與基因之間的關聯性。


8. 接著設定要分群的組數,將最接近的分成一組。
Analysis > Clustering > K-means/K-Medians > 選Cluster Genes > 設定Number of clusters 和 Maximum iterations  > OK


9. 在分群結果中,可以看到Cluster的圖型和表格,接著利用密度法(CAST),依數據相關性自動分群,使用預設參數。
Analysis > Clustering > CAST 


10. 點選cluster的分析結果可以看到數據間的趨勢。


11. 最後在進行Normalization的步驟就完成了,可以讓基因之間的差異性更凸顯出來。分析的結果在all cluster中可以一起看到。

2015年1月12日 星期一

PyMol動畫製作

這次PyMol系列課程由王淑鶯老師主課,老師教我們先用RSCB data bank找出有興趣的蛋白,再用PyMol軟體立體繪圖及製作動畫。我主要研究的主題是幽門桿菌H. pylori 的CsrA蛋白,但是幽門桿菌的CsrA蛋白尚待結構發表,因此我選擇研究最為廣泛的大腸桿菌E. coli CsrA來做結構的探討。
1.首先先進入RSCB data bank的網頁(http://www.rcsb.org/pdb/home/home.do#Category-welcome)搜尋CsrA蛋白,選擇的species是E. coli 。


2. E.coli的CsrA蛋白代號是1Y00,可以看到右下角是CsrA蛋白的3D立體結構卡通圖。網站有整理出發表的文獻和作者解結構使用的方法是NMR。



3.簡單介紹一下CsrA蛋白,是一個RNA binding protein,結構為dimer form。蛋白2級結構為5個beta-sheet加1個alpha-helix。CsrA主要的角色是global regulator,在E.coli的model中已經廣泛被報導和細菌醣類代謝相關,更重要的是會影響細菌的virulence factor和pathogenesis,例如: motility. biofilm合成...等。



4.打開PyMol軟體,從Plugin → PDB Loader Service → 輸入1Y00,載入CsrA結構。
接著Hide everything>Show cartoon




5.改變結構的顏色,輸入指令: 
color gold, chain A>color red, chain B
從Display把background改成白色,按右鍵Ray讓圖像更清晰
按右下角的S可以顯示出序列



6.練習計算蛋白電性。
Action   generate  vacuum electrostatics  protein contact potential (local)
(紅色: 負電 / 白色: 中性 / 藍色: 正電)
藍色的地方可能是CsrA結合目標RNA的binding sites。


7.最後製作CsrA蛋白360旋轉的動畫,指令如下:
 (1)
定義動畫:mset 1 x120
 (2)設定旋轉360度的120個動畫:util.mroll 1,120,1
 (3)打開光線追蹤:set ray_trace_frames=1
 (4)將動畫動畫的圖片保存成編號的PNG檔案:mpng mov 
 (5)想要標定某個位置,先將原始圖存成F1>program>Y roll>8sec
 (6)標定想要呈現的位置,我標定的是CsrA的RNA binding site R44的位置
 label residue>將圖片存成F2>program>steady>2sec
 (7)將F1和F2的動畫圖片儲存PNG檔案
 (8)打開Movie Maker,將所有圖片匯入製成影片,每張圖片設定播放時間為0.05秒。







2015年1月3日 星期六

STRING於蛋白質交互作用的預測

STRING 9.1是免費線上網站,主要功能是以Network來呈現protein-protein interaction,其網址為http://string-db.org/

Step1. 進入STRING頁面,在搜尋protein name打上有興趣的蛋白名稱,我搜尋的是跟我研究有相關的CsrA蛋白,Organism選擇Helicobacter pylori 26695。點選GO!就會開始run data。

Step2. 在protein-protein interaction network中可以清楚看到與CsrA蛋白有交互作用的其他protein 。在input的表格中有簡單列出Predicted functional partners以及基因之間相關的score 。



STRING對於預測protein & protien interaction是很有用的工具。

2014年12月20日 星期六

結合miRTarBase與RNA 22的資料庫尋找miRNA的target sites


  • 這個禮拜林老師教的資料庫分析是利用miRTarBase與RNA 22的資料庫,找出我們有興趣的miRNA於調節target gene的binding sites。
  • miRTarBase的網址: http://mirtarbase.mbc.nctu.edu.tw/
  • RNA 22的網址: https://cm.jefferson.edu/rna22v2.0/
Step1. 進入miRTarBase的首頁,輸入有興趣的hsa-miRNA18a-5p做搜尋。


Step2. 點選"search"的選項後會出現predict的miRNA target genes,在列出來眾多的target genes中我選擇ATM來做分析。且ATM基因與miRNA-18a 5p的evidence較為完整。



Step3. 另一方面,進入RNA 22的首頁,點選以下紅線框選的網址"Pre-computed Predictions"。接著點選"HOMO SAPIENS"的選項。




Step4. 在欄位最下面的What輸入基因名稱"ATM",submit後會出現cDNA map。



Step5. 點選"View Predictions as cDNA map",會出現ATM基因的cDNA序列,在序列右方有欄位選項為"Choose location/miR",此欄位是表示出在ATM cDNA序列上可能會與之作interaction的miRNA。
我們想要比對的是hsa-miRNA18a-5p於ATM基因上的biniding sites,所以我們直接點選"Expert predictions as Tables (new)"


Step6.  接著此用Ctrl+F 於搜尋欄位輸入18a-5p,會找到以下ATM基因上有7個位置可能會被hsa-miRNA-5p所辨識。將可能的binding sites記錄下來後,再回到上一頁的cDNA map。


Step7.  將上一步所記錄下來的位點進行搜尋,如以下綠色箭頭表示為此位置沒有miRNA18a-5p的binding sites,因為miRNA主要binding的位置是在CDS(coding regions)的前面,故在cDNA map上不能在有CDS的位置上點選。
而紅色箭頭的部分為我找到的binding sites,因此結論為在ATM基因之cDNA的序列上,在979810416的位點可能是hsa-miRNA18a-5p調節ATM基因所結合的位置。






Step8. 最後補充一下文獻搜尋的部分:在2013年2月的Molecular Medicine Reports已經有證實ATM會受到miR-18a的調控。

2014年12月10日 星期三

VMD於研究蛋白的應用

上個禮拜梁博士教的軟體是VMD(Visual molecular dynamics),中文是視覺分子動力軟體。VMD的優點是利用3D繪圖和內建資料庫,可針對大型二分子系統提供顯示、動畫和分析功能。以下會利用VMD的軟體來建構一個被水分子包圍的蛋白質分子。

Step1. 首先,在RCSB Protein data bank的網站上搜尋一個想要分析的蛋白質分子。我的研究主題跟幽門桿菌的CsrA蛋白相關,但是在幽門桿菌的部分CsrA蛋白尚未被解出3D結構,所以我選擇homology相似的E.coli 的CsrA蛋白來做VMD的應用。


Step2.  E.coli 的CsrA蛋白在PDB的代號是1Y00,接著下載其結構格式為PDB files。

Step3. 將事先下載好的VMD軟體打開,點選File > New Molecular>Browse(點選在PDB下載的file: 1Y00) > Load。此時軟體會display CsrA蛋白的3D結構。

Step4. 一開始可以更改display的方式,先點選Graphics > Representations > 將drawing method改為NewCartoon > Apply。

Step5. 點選Extensions > Modeling > Automatic PSF Builder > Load input files > Guess and split chains using current selections > I 'm feeling lucky 。接著會跑出1Y00_autopsf.psf的file。


Step6.  點選Extensions > modeling > Add Solvation Box > 打勾Rotate to minimize volume的選項 > Box Padding 設定Min: X=5, Y=5, Z=5 ;Max: X=15, Y=15, Z=15 > Solvate 。接著會跑出solvate.psf的file。在display的3D圖形中可以看到CsrA蛋白分子周圍被水分子包圍形成像box的分子模型。



Step7.  點選Extensions > Modeling > Add Ions > Iron placement mode的預先設定是使用NaCl做neutralize > Autoionize 。接著會出現ionized.psf的file 。



使用VMD的軟體經過以上步驟就可以完成在蛋白質分子的周圍加上水分子的應用囉!!!!!