X 注冊生物鏈會員

掃描二維碼關注生物鏈
轉錄組分析的正確姿勢
來源:生信寶典   發布者:ailsa   日期:2018-04-27   今日/總瀏覽:1/10012

轉錄組分析是目前應用最廣的高通量測序分析技術之一。常見設計是不同樣品之間比較,尋找差異基因、標志基因、協同變化基因、差異剪接和新轉錄本,并進行結果可視化、功能注釋網絡分析等。

轉錄組的測序分析也相對成熟,從RNA提取、構建文庫、上機測序再到結果解析既可以自己完成,又可以在專業公司進行。

概括來看轉錄組的分析流程比較簡單,序列比對-轉錄本拼接 (可選)-表達定量-差異基因-功能富集-定制分析。整個環節清晰流暢,可以作為最開始接觸高通量測序學習最合適的技術之一。

但重點和難點在于理解這些過程都是怎么做的,有什么需要注意的,結果怎么解讀,后續分析怎么做。這些只有自己動手操作過,才可能有理解。而理解了一個,再去做其它類型分析,也會輕松很多。

而且現在三代測序火起來了,該怎么去選擇呢? 三代測序能幫我們解決什么問題,不能做什么,有什么需要注意的,分析起來有什么不同,二代-三代如何統一分析?也是我們面臨的一個新問題。

實驗設計這塊重要的是對照和至少3個生物學重復,并選擇合適的測序通量。ENCODE要求重復之間的Spearman correlation值大于0.9 (遺傳背景不一致的生物重復相關系數要大于0.8)。定量基因表達和評估轉錄圖譜相似性只需要中等測序深度;而研究新轉錄本和可變剪接則需要更深的測序;一般來講長RNA-seq文庫測序深度滿足可用reads20-30 million (如果測PE150,換算成堿基數為6G-9G)。

另外一個需要注意的是測序的批次效應,保證自己的樣品同時處理、RNA同時提取、同時構建文庫和上機測序。這些環節雖然不能總受我們控制,但記錄下對應的操作時間和批次,最后在繪制表達圖譜時與實驗相關參數進行關聯展示 (利用我們介紹的熱圖簡化高顏值可定制在線繪圖工具-第三版),從而保證結果沒有受到試驗中處理批次的影響。ENCODE計劃有一篇文章在比較人和小鼠不同組織的表達譜相似度時得到的結果是樣品按物種而非組織聚在一起,這與之前認為的發育通路的保守性不符。后來發現是測序批次搗的鬼,做了批次效應矯正后,表達圖譜按組織而非物種聚在一起了。

測序環節通常不需要自己操作,測序公司都很成熟,但測序的原理需要知道。這會影響到后續分析時參數的選擇,比如知道什么是插入片段大小,什么是鏈特異性測序,什么情況會有接頭序列,雙端測序如何測等。

獲得數據后,就涉及到數據的傳輸和質量評估(也包括如何從公共數據庫下載數據)和文件格式的轉換。FASTQ格式解釋和質量評估中有些提及。質量評估的意義在于從測序質量角度評價建庫和測序的成功與否,指導接頭和低質量堿基的去除。這一步參數控制的嚴格與否對后續的比對會有影響,同時也會受到后續分析選擇的工具的影響。對Linux系統一定程度的了解,是進行這些工作的基礎。

39個轉錄組分析工具,120種組合評估(轉錄組分析工具哪家強)中講述了如何選擇、評估合適的比對工具,序列拼裝工具,定量工具和差異分析工具。值得我們在進入正式的分析之前,仔細閱讀。另外類似的評估文章,還有幾篇,都可以一并讀一下,這樣在后期分析時對工具的選擇和使用才更得心應手。

工具比較類文章一般只告訴你做了什么,不告訴你這么做的原因是什么,而且每一步細分開來又有很多小細節需要注意,比如在比對環節就會涉及到:不同的樣本如何選擇合適的基因組和注釋文件,什么樣的軟件支持Junction reads的比對,什么樣的比對率是合適的,比對質量怎樣,測序中RNA有無降解或選擇偏好性,測序飽和度如何等。

這些可能都不會體現在最終的結果中,但都是確保后期結果可靠性所必須要做的事情。2002年諾貝爾獎得主Sydney Brenner曾對數據分析做過提醒Garbage in, Garbage out。軟件是死的,提供了格式正確的輸入,就可以得到輸出,但輸出正確與否,就得靠人的經驗來判斷了。

在后面的差異基因鑒定階段,還存在把FPKM值轉換為整數再提交給DESeq2做分析的,軟件不報錯,但結果不對?;蛘吣芩匙漚壇淘誦?span style="font-size: 16px; color: rgb(192, 0, 0);">DEseq2分析,但換成自己的數據就不知道如何下手的。這些問題都需要在實踐過程中持續不斷的試錯、閱讀更多的文章和教程來步步矯正。這當然是一個耗時耗力的過程,那么有沒有一個更好的方式呢?

生信寶典團隊經過緊張的籌備,決定推出一系列的針對生信學習和高通量分析的興趣小組(在生信學習系列教程的基礎上進一步拓展和深入),跟大家一起去走過這段歷程。我們的口號是易生信,畢生緣,希望能通過短暫高強度的訓練快速推進大家在生信分析領域的進展。

但生信學習是個緩慢的過程,需要教、學、練、改不斷的循環。我們希望能通過系列課程,再加上四段式培訓模式集中講解實戰(2天)-自行練習(5天)-再講解答疑考核(2天)-后續視頻觀摩和群內討論跟大家一起探索如何盡可能快的學會生信,學到可以自己做,有問題自己可以解決的程度。

課程簡介

一、轉錄組的應用、設計和案例分享

连准平特一肖公式规律 www.xvmnk.icu 1.jpg

  1. 轉錄組學研究技術介紹

  2. 轉錄組學實驗設計和測序原則、注意事項

  3. 轉錄組學文章案例分析

  4. 在線基因表達資源數據庫

二、轉錄組分析流程實戰

2.jpg

  1. 測序數據質量評估和清洗

  2. 基于比對的差異基因分析

  3. 不基于比對的差異基因分析

  4. 轉錄本組裝和選擇性剪接分析

  5. 目標基因富集分析

三、轉錄組高級分析

3.jpg

  1. WGCNA基因共表達分析

  2. WGCNA基因、表型關聯分析

  3. Cytoscape 共表達網絡繪制

  4. 轉錄組常見圖形在線繪制

四、三代測序技術概述

4.jpg

  1. PacBio和Oxford Nanopore測序的原理

  2. 三代測序的特點和應用

  3. 三代測序在轉錄組研究的優勢和案例分享

五、三代測序基本分析流程

5.jpg

  1. 原始測序序列去除接頭和錯誤序列

  2. 提取環形一致序列讀長(CCS reads)

  3. CCS reads分類(包括全長和非全長CCS reads)

  4. CCS reads聚類(根據CCS reads序列的相似性)獲得最終的轉錄本集合

  5. 最終轉錄本比對回基因組

  6. 轉錄本定量和可變剪接分析

如果您有其它關注的問題,也請報名時提出,把這次課程變成您的定制講解。

主講教師

主講老師包括愛荷華大學、中科院微生物所、遺傳發育所、基因組所、生物物理所等多名本領域一線技術專家。

助教團隊

十余名科學院、清華、北大博士(含在讀),輪值講師和助教,輔助學員學習和矯正培訓過程中不足的點。

培訓時間

2018-05-12 到 2018-05-13 (主要是二代測序)

2018-05-19 到 2018-05-20 (主要是三代和二三混合)

獨創線下集中授課2天+自行練習5天+再集中講解答疑2天+后期學習群的四段式教學,并提供學習視頻,教、學、練、答結合,真正實現獨立分析大數據。

每天早9點到晚5點,半封閉式教學

報到時間:上課當天。

授課地點

北京市西城區鼓樓明德大廈 (北京市舊鼓樓大街47號院2號樓2010)。

課程價格

  1. 限時優惠4199元/人,之后恢復原價6999元/人 (住宿自行解決,提供培訓期間午餐)

  2. 名額有限,每次課程報名滿30人后自動關閉報名通道

  3. 提供易漢博基因科技實習機會或工作機會

促銷優惠活動

座位按報名并成功繳費順序從前到后龍擺尾式排序

贈送價值188元線上生信基礎課程一門,目前的《應用Python處理生物信息數據和作圖》、《生物信息作圖系列R、Cytoscape及圖形排版》和《生物信息中的Linux應用》任選其一。(//bioinfo.ke.qq.com)

多人(N,10>N>1)組團報名并同時繳費,每人還可獲得價值N百元(最高500)的禮品(充值或購物卡)。

更多課程的詳細介紹,請掃描下方二維碼。

易生信.jpg

復制以下鏈接//www.ehbio.com/Training/ 跳轉報名頁

相關新聞