20 Şubat 2018

NEDİR BU BİYOENFORMATİK?

ERSEN KAVAK 2

Erşen KAVAK yazdı…

CEO, Genomize Inc.   

Biyoenformatik son 10-15 senedir genom verisinin analizine odaklanmış gibi gözükse de esasen 1970’li yılların başında Ben Hasper ve Paulien Hogeweg tarafından ortaya atılmış ve “bilgi teknolojilerinin biyolojik verilerin anlaşılması için kullanılması” olarak tanımlanmış. Terimin ve alanın popüler olmasının ana sebebi ucuz ve hızlı bilgisayar gücü bulabilmemiz ve gelişen teknolojiyle çok fazla genom verisi üretebilmemiz. 3 milyar dolar bütçeli uluslararası katılımlı insan genomu projesi çerçevesinde ilk insan genomu 1989 ilâ 2000 arasındaki hummalı bir çalışma ile dizilenmişti. Geldiğimiz noktada bir insan genomu 1 hafta kadar bir sürede 1250 dolar gibi bir ücrete dizilenebiliyor. Moore yasasından da daha hızlı düşen genom dizileme fiyatları, tüm bilimsel camiayı yeni buluşlar için heyecanlandırdı ve heyecanlandırmaya da devam ediyor. Tek ulaşılabilir olan aslında genom verisi değil, bankacılıktan telefonlara, akıllı şehirlerden dil öğrenen yapay zeka altyapılarına kadar insanoğlu adeta bir “veri toplayıcısı” toplumuna doğru hızla ilerliyor. Bu veriyi güzel kılan sağlıktaki en büyük itici güç bence “Hassas Tıp” diye çevirebileceğimiz “Precision Medicine”. Hassas Tıp yaklaşımları gen, protein ve yaşam tarzı verilerini toplayıp birleştirerek bireye özgü tanı ve tedaviler geliştirmeyi şiar edinmiş bir yaklaşım.

Hassas tıbbın bilim kurgu halini, Tom Hanks’in rol aldığı ve anlamadığım bir şekilde IMDB’den düşük puan alan The Circle filminde izleyebilirsiniz. Hassas tıbbın en büyük destekçisi ise biyolojik verilerin bilgi teknolojileri ile analizini yapan biyoenformatik. Biyoenformatikte kullanılan tekniklere baktığımızda: Patern tanıma, veri madenciliği, makine öğrenimi, veri görselleme, dizi hizalama, gen bulma, genom dizisi oluşturma, ilaç bulma, ilaç dizaynı, gen anlatımı ve proteinler arasındaki etkileşimin tahmin edilmesi, evrimsel modelleme gibi teknikler göze çarpıyor. Bu konuların her birisi ve kullanım olayları için ayrı bir yazı yazabiliriz, ben müsaade ederseniz kendimin nasıl biyoenformatikle tanıştığını anlatayım ve bu örnek üzerinden de biyoenformatiği neden sevdiğimi sizlerle paylaşayım. Asistanlığımızda birçok gece laboratuvarda sabahlamanın arkasında yatan en büyük sebep fonksiyonel gen çalışmaları olurdu. Yani bir genin yapısı üzerinde oynadıktan sonra bunun hücreyi nasıl etkilediğini anlamaya çalışırdık. Kanser çalıştığımı sanıyordum, çok mutluydum bu soruna olası bir çözüme katkım olabileceği için.

Meğerse kanser değil aslında bir tane gen çalışıyormuşum. 15 sene sonra şöyle düşünüyorum: Gen çalışma, problemi çözmeye çalış. Biyoenformatik işte, problem çözümüne daha özgür bakabilmemizi sağlayabilen bir metotlar bütünü bana göre. Tek bir gene değil, tüm genlere, tek bir hücreye veya organa değil tüm organlara aynı anda bakıp daha kapsamlı bir veri ile bilim yapabilmeyi mümkün kılıyor. Biyoenformatiğin hayatımızda neleri değiştirdiğini anlamak için benim asistanlık dönemimde yaptığımız örnek bir analize bakalım. 100 hasta ve 100 sağlıklı insandan oluşan bir kontrol grubunda bir genin mutasyonu taranmış ve hastalarda sağlıklılara oranla bu mutasyonun 2.12 kat daha fazla olduğunu ve bu farkın 0.0114 P-değeri ile anlamlı bir değere ulaştığını görüyoruz.  

  Sağlıklı Hasta Toplam
Referans Gen 68 50 118
Mutant Gen 32 50 82
Toplam 100 100 200

    Buradaki dörtlü tabloda çıkan verinin istatistiki olarak anlamlı olup olmadığını anlamak için 2 tane metrik kullanıyoruz. (1) oran (odds ratio) veya etkinin miktarı (effect size), (2) olasılık değeri (p-value). P-değeri 0.05’ten küçük ise ve etki boyu 2’den büyükse yayınlanabilir bir fark bulduğumuzu düşünürdük. Farklı örneklemlerde bunu tekrarlamak da sıklıkla kabuslarımıza giren bir şey olurdu. Bu tabloyu üretmek eskiden 4 sene alırken, 2018 senesinde buradaki veriyi 1 gen için değil 25 bin gen için üretmek kurulu bir sistemde 6 ay ila 1 sene arası alıyor. Ve bu sefer elinizde 25 bin tane p-değeri ve etki boyu değeri oluyor. 25 bin tane tablodaki rakama tek tek bakılamayacağı için, bu oluşan verinin analizinde yeni bir yaklaşım gerekiyor. Ve biyoenformatik alanı ihtiyacını hissettirmeye başlıyor. 25 bin tane p-değerini nasıl analiz ederiz? Soruyu benim genimin etkisi ne kadar büyük şeklinde değil de, benim fenotip değişikliğimi en iyi hangi gen(ler) açıklıyor şeklinde sorarsak daha doğru cevaplar alırız. Aşağıdaki figüre manhattan plot deniyor. Bir genom düzeyinde eşleştirme çalışmasının sonucunu en kısa/öz anlatan grafik olarak biliniyor. X ekseninde kromozom koordinatı, Y ekseninde ise -log P değer yer alıyor (Bkz. Kutu 1).

 Kutu 1:

P değeri 0 ile 1 arasında olur. 0.05’den daha küçük p-değerlerinin hangisinin daha anlamlı olduğunu anlamak bu rakamları dönüştürmeden imkansızdır. Bu yüzden -log dönüştürmesi kullanılarak p değerinin ne kadar anlamlı olduğu daha kolay görsellenebilir.

aa

Burada bir bakışta p-değeri örneğin endüstride standart bir eşik değeri olarak kabul edilen 10^-7’den daha az olan varyasyon var mı diye görebiliyoruz. Kendi odaklanmış olduğumuz bir veya bir grup gen ile değll de en anlamlı derecede farklı olan genleri alıp bu genleri analiz edersek, problemin sebeplerini veya sonuçlarını daha iyi anlayabilir ve dolayısıyla biyo-belirteç veya tedavi bulma konusunda zaman kazanabiliriz.   Bu küçük örnekten sonra size beni biyoenformatiğin en fazla etkileyen yanından bahsetmek istiyorum: dünyadaki diğer insanların ürettikleri veriler üzerinde merkezi veritabanları (örneğin NCBI, GEO https://www.ncbi.nlm.nih.gov/geo/) kullanarak analizler yapabilir ve o araştırmacıların bakmadığı bir bakış açısı ile çok farklı bulgular gerçekleştirebilirsiniz. Veya, kendi ürettiğiniz veri ile kamuya açılmış verileri birleştirererek, çok ciddi zaman kazanabilir ve paylaşım havuzunun tadını çıkarabilirsiniz. Toparlarsak bence biyoenformatik, yüksek ölçekteki biyolojik veriyi entegre ederek analiz edebilme gücünü bize veren bir yöntemler bütünü. Bunlara benzer, yüksek boyutlu veri analizini keyifli ve verimli hale getiren biyoenformatiğin tıpta ve ülkemiz tıbbında daha çok kullanılması dileğiyle.    

  • Paulien Hogeweg, Mart 2011, Plos Computational Biology, The roots of bioinformatics in Theoretical biology

   

DİĞER BAŞLIKLAR

Pin It