Biyokimya/Biyoinformatik/Homoloji

Bir kanat — Kuşların kanatlarındaki evrimsel değişim, kanatların kemik yapısındaki benzer oluşumlara dayanarak Darwin'in bulduğu homoloji örneğidir.

Homoloji, iki farklı organizmanın nükleik asit veya protein dizileri arasında meydana gelen benzerlikleri dikkate alan bir kavramdır. 1948'de Richard Owen tarafından bilime kazandırlan homoloji kavramı, proteinlerde iki farklı amino asit dizisi örneği veya DNA'daki iki farklı DNA dizisi arasında meydana gelen eşleşmeleri karşılaştırarak ve hizalamada gerçekleşen eşleşmelere puan atayarak ölçülür. Bu tür analizler, türler arasındaki ilişkilerin belirlenmesinde yararlıdır ve belirli bir tür kümesinde zaman içinde meydana gelen evrimsel değişikliklerin yanı sıra atasal kökenlerinin izlenmesine yardımcı olabilir. Bugün, iki organizmanın homolog olma olasılığını değerlendirmek için teknikler geliştirilmiştir ve bu teknikler büyük ölçüde dünyadaki biyoinformatikçiler için ana odak alanı haline gelmiştir. Nükleik asitler arasındaki homoloji iki ana tiptedir: ortolog ve paralog. Homologlar, türleşme denen bir olayla ayrıldıysa ortolog olarak adlandırılırlar. Ortolog genler, farklı türlerde bulunur, ancak aynı atalardan geldikleri için birbirlerine benzerler. Ortologlar genellikle aynı işleve sahiptir. Paralog, bir gen duplikasyon (çiftleşme) olayıyla ayrılan genlerdir. Paraloglar aynı organizmada bulunan, benzer fakat özdeş-olmayan işlevlere sahip homolog proteinlerdir. Hemoglobin ve miyoglobini kodlayan genler, paralog genleridir. Ayrıca hemoglobin A, 2A, B, F birbirlerinin paraloglarıdır.

Terimin Yanlış Kullanımı

“Homoloji” terimi proteinleri veya nükleik asit dizilerini tanımlanırken, "homolojinin kalite kavramı olduğu ve “nicelendirilemediği” "^[1] düşünüldüğü için sıklıkla yanlış kullanılır. Son zamanlarda yapılan bir analizde, "homoloji" terimi, 2007 veri tabanında PubMed'de arandı ve, terimin bir protein veya prosedür adının bir parçası olanlar kullanılanıldığı yerler hariç tutulduğunda, 1966 başlık ya da özette homoloji kelimesini içeriyordu. Bu özetlerin %57'si (1128) terimi doğru kullanıyorken, %43'ü (828) terimi yanlış kullanıyor. Terimin yanlış kullanımından bazıları, yüzde değeri ile ilişkilendirme ve "yüksek", "düşük" ve "önemli" gibi terimlerin kulanımını içerir. 1986 veritabanındaki özetler için yapılan analiz, "homoloji" teriminin yanlış kullanılma sıklığının bir miktar azaldığını göstermektedir.^[2]

Terimin analizi, diller arasında da yapıldı. 1986 yılında homoloji içeren makaleleri araştırırken, terimi yanlış kullanan maddelerin toplam yüzdesi daha düşüktü. Bununla birlikte, diğer ülkeler bilimsel araştırmalara girerken, gelişen ülkelerden daha fazla makale üretildi ve bu makalelerin büyük bir kısmı homoloji terimini yanlış kullandı. "Homolojiye Gelince, Kötü Alışkanlıklar Zor Ölür" makalesi, gelişen ülkelerde terminoloji üzerine yeni araştırmacıların eğitiminin yanı sıra, bilimsel dergilerin ortak terminolojinin uygun kullanımına ilişkin kılavuz ilkelerini sağlamasını talep ederek bu soruna bir çözüm önermektedir.^[3]

Homoloji teriminin yanlış kullanılması, okuyucunun yazarın niyetini anlamaya çalışmasında neden olacağı karışıklıktan dolayı bir problem olarak kabul edilir. Örneğin, yazar iki proteinin homolog olduğunu belirtirken, aynı zamanda iki proteinin aynı evrimsel kökeni paylaşmadığına dair beyanda bulunsun. Bu beyan homolojinin tanımına ters bir beyandır, çünkü evrimsel köken tamamen görmezden gelinemez. Bunun yanında şunu da belirtmek önem ifade eder. İki proteinin yüksek benzerliğe sahip olması proteinlerin aynı atadan geldiğinin tam kanıtı değildir.^[4]

Homoloji ve benzerlik arasındaki farkın bir örneği, insan ve şempanze DNA'sı arasındaki karşılaştırma ile insan ve fare DNA'sının karşılaştırılması ile güzelce anlatılabilir. Fareler ve insanların DNA'larının yaklaşık %97,5'i aynıdır, bu aynı evrimsel kökene sahip oldukları anlamına gelmez. Çok benzer olsalar da, homolog olmazlar.^[5] İnsanlar ve şempanzeler, DNA'larının >%98,0'ını paylaşıyor ve aynı evrimsel kökenini paylaştığına inanılıyor. Bu nedenle, insan ve şempanze DNA zincirlerinin homolog olduğu doğru bir ifade olabilir.^[6]

Ortolog

Ortologlar, tamamen farklı iki tür arasında yakından ilişkili olan ancak genellikle aynı fonksiyonlara sahip olan spesifik gen dizileridir. Ortolog terimi, "öteki" anlamına gelen "orto" kökünden gelir ve 1970 yılında Walter Fitch tarafından ortaya atılmıştır.

Ortolog genlerin bir örneği, hem ineklerde hem de insanlarda hemoglobinleri kodlayan genlerdir. Ortologların haritalanması, biyologların çok daha ayrıntılı ve özel evrim ağaçları inşa etmesine yardımcı olabilir. Taksonomi ve filogenetik çalışmalar ortolog dizilerden yararlanır. Basit bir örnek bir yarasa ve bir kuş olabilir; bir kuş ve bir yarasa, iki farklı türün parçasıdır ve yine de kanatları aynı işleve sahiptir.

Paralog

Paraloglar aynı türdeki organizmalar tarafından paylaşılan ancak farklı fonksiyonlar sergileyen gen sekanslarını belirtir. Paraloglar genellikle transpozonlar veya eşitsiz çapraz geçişler (cross-over) gibi çeşitli mekanizmaların neden olabileceği gen çoğalmasının ürünüdür. Bu kopyalanmış genler tipik olarak benzer fonksiyonlara sahiptir ve daha fazla sayıda mutasyon ile daha da farklılaşabilirler.

Farklılıkların veya yerdeğiştirme sayısı, genin kopyalanmasından bu yana geçen zamanla orantılıdır. Bu bilgi aracılığı ile, genomların evrimleşme yoluna ışık tutulabilir. Miyoglobin ve hemoglobin antik paraloglar olarak kabul edilir.

Bu şüpheli paraloglar, her ikisi de benzer protein yapılarına sahip olan ancak oksijen taşıma görevlerinde farklılık gösteren hemoglobin ve miyoglobini kodlayan genlerdir. Bilinen dört hemoglobin sınıfı (hemoglobin A, hemoglobin A2, hemoglobin B ve hemoglobin F) birbirlerinin paraloglarıdır. Diğer paralog örnekleri Actin ve Hsp-70'tir. Üçüncül yapıları benzer fakat işlevleri farklıdır; aktin hücre iskeletinin bir parçasıdır, Hsp-70 ise bir şaperondur proteinidir.

Sekans hizalamaları homologları algılayabilir

İki molekülün homolog olup olmadığını test etmek için, iki dizi arasında meydana gelen eşleşmeler için nükleik asit veya protein dizisinin incelenmesi önemlidir. Diğer sekanslama işlemlerinin de kullanıma uygun olmasına rağmen, protein sekanslama genellikle tercih edilir, çünkü 20 farklı yapı bloğundan (amino asitler) oluşur; DNA ve RNA ise her biri yalnızca dört nükleik asitten oluşur; bu yüzden protein diziliminde önemli sayıda eşleşmeye sahip olmak, nükleik asit hizalamasındansa aynı soydan geliyor olmanın daha güçlü bir kanıtıdır. Aynı zamanda, farklı genlerin aynı amino asit için kodlayabildiği genetik kodların fazla olduğu sekanslarda (örn. GCU, GCC, GCA, GCG kodlarının hepsi alanını kodlar), protein fonksiyonlarındaki benzerliklerin belirlenmesinde protein sekansının kullanımı DNA veya RNA ile karşılaştırıldığında çok daha hassas ve yararlıdır.

İki farklı protein dizisi, amino asitlerin doğrudan üst üste hizalandığında veya bir dizilim diğerinin üzerine kaydırıldığında eşleştiği sayıların analizi ile karşılaştırılabilir. Örneğin, eşleşme sayısını değerlendirirken, üstteki iplikçikten birinin amino asidi, ikinci iplikçikten gelen birinci amino asitinin hemen üzerinde olabilir veya bunun soluna/sağına kayarak farklı amino asitlerin hizalanmasına neden olabilir. Eşleşmelerin sayısı daha sonra hangi eşleşmelerin gerçekleştiğini değerlendirmek için hizalamaya karşı dizilir. Çok sayıda eşleşmenin iki proteinin homolog olduğu anlamına gelmediğini anlamak önemlidir.

Ekleme ve silme gibi mutasyonları hesaba katmak için, daha iyi bir eşleşme oluşturmak üzere boşluklar eklenebilir. İki dizi karşılaştırmasının iyi bir eşleşme olduğu görülüyorsa, her iki karşılaştırmayı da içerecek şekilde boşluk eklemektir. Bilim insanları hizalamayı puanlar: her eşleşme için +10 puan ve uzunluktan bağımsız olarak her boşluk için -25 puan. Bu skor daha sonra, amino asit eşleşmelerinin sadece şansa bağlı olmadığından emin olmak için protein ipliklerinden birini rastgele karıştırıp elde edilen ve diğerleriyle karşılaştırarak elde edilen diğer skorların dağılımına karşı grafiğe dökülür. Eğer skor büyük ölçüde diğer puanların çoğundan saparsa, o zaman iki protein muhtemelen homologdur. Bununla birlikte, düşük bir puan homolojiyi reddetmez.

Homolog Sıralama Teknolojisi: Matrisler

Skorlar, özdeşlik veya yerdeğiştirme matrisleri kullanılarak hesaplanabilir. Bu işlem, dizileri daha da iyi eşleştirmek için boşluklar ekleyen bir matris seçerek daha kesin sonuç verir hale geitirilebilir. Matriks örnekleri arasında PAM, BLOSSUM (bir yerdeğiştirme matrisi tipi) GONNET (spesifik olarak mesafeyi hedefleyen bir matris), DNA özdeşlik matrisi ve DNA PUPY matrisi bulunur. Genel olarak, yerdeğiştirme matrisleri protein sekanslarına en duyarlı olanlardır. Bu matrisleri kullanarak, uzak evrimsel ilişkileri tespit etmek mümkündür. İki sekans en az% 25 özdeşse, bu iki proteinin homolog olduğu belirlenebilir. Bununla birlikte, yüzde 25'ten düşük yüzdelere sahip olan dizilerin mutlaka homolog olmaları gerekmez. Örneğin, A proteini B proteinine homolog ise (özdeşlik yüzdelerine dayanarak) ve B proteini C proteinine homolog ise, A ve C sadece% 15 oranında özdeş olsalar bile fonksiyonlarında benzerlik gösterebilirler. Özdeşlik matrisleri, sekanslar arasındaki eşleşmeler için bir değer atar ve eşleşmeyenler için sıfır(0) değerini atar. Bu yöntem, olası ve nadir mutasyonlar arasında ayrım yapmaz ve bu nedenle homolojiye açık bir cevap vermez. Yerdeğiştirme matrisleri, zararlı olma ihtimalinin düşük olan korunmuş mutasyonları veya glisin ve alanin gibi fonksiyonları ciddi şekilde değiştirmesi muhtemel olan mutasyonları ciddi bir pozitif puan vererek hesaba katar. Başka bir deyişle, yerdeğiştirme matrisleri sadece sekanslar aynıysa (onlara mümkün olan en yüksek puanı verir) değil, aynı zamanda özdeşlik matrislerinden farklı olarak, benzerleri olan başka bir amino asit tarafından "yerdeğiştirildiğinde" amino asit dizileri için de değerler tahsis eder. Amino asit sekansı ne kadar benzerse, aldığı "değer" o kadar büyük olur. Diziler ne kadar farklı olursa veya "nadir" olduğunda, A gibi belirli bir amino asit P ile yerdeğiştirdiğinde "negatif" değerler büyür. Bu matrisler farklı mutasyon tipleri arasında bir ayrım yapılarak daha iyi eşleştirmeler yapılabilir ve rastgele şansa dayalı hizalamalardan kaçınır.

Özdeşlik Matrisi: : Özdeşlik matrisleri, aynı amino asitlerin veya nükleotitlerin eşleşmesine bir puan verirken ve herhangi bir yanlış eşleşmeye sıfır puan verir. Bu çok anlamlı değildir çünkü rastgele karıştırma puanları orijinal puanla aynı alanda olabilir.^[7]

GONNET: Gonnet matrisleri, proteinlerin “kapsamlı çift yönlü hizalamaları” kullanır ve hizalamaları tahmin etmek için mesafeleri ölçer. Bu, hizalama puanını daha iyi hale getirmek için yeni bir mesafe matrisi oluşturur. Bu tip matrisler, proteinlerin yakın veya uzak homolog proteinlerden türetilmiş olup olmadığını gösterir. Bu matris türü 1993 yılında Gonnet tarafından Cohen ve Benner'in yardımıyla oluşturuldu.^[8]

alt text — Özdeşlik matrisi, kaynak: www.clcbio.com

DNA PUPY: DNA Pupy matrisleri, purin-purin geçişlerinin yanı sıra pirimidin-pirimidin için de skorlar verir. PCR için primerlerin bulunmasında yardımcı olduğuna inanılmaktadır.^[9]

PAM: Nokta kabul edilen mutasyonlar (Point accepted mutations-PAM), hizalama skorlaması için kullanılan bir matris setidir. PAM, 1978 yılında Amerikalı bir fizikokimyager ve biyoinformatist olan Margaret Dayhoff tarafından ortaya atıldı. PAM, iki genin veya proteinin homolojisini belirlemek için kullanılan bir puanlama matrisi geliştirmek için kullanılır. Matris normalleştirilir, böylece PAM1, her 100 amino asit için 1 noktalı mutasyona sahip diziler için özdeşlik olasılıkları verir. En yaygın kullanılan PAM, her 100 amino asit için 250 nokta mutasyonu için olasılığın belirlendiği PAM250'dir.

BLOSUM 62: BLOSUM 62, en yaygın kullanılan özdeşlik matrisidir. Bu sekans hizalamasını yapmak için Ulusal Biyoteknoloji Bilgi Merkezi (National Center of Biotechnology Information-NCBI) tarafından bir program geliştirilmiştir ve çevrimiçi olarak erişilebilir durumdadır. Bu özdeşlik matrisi, farklı amino asit çiftleri için puan verir ve sadece özdeşlik için değil aynı zamanda korunuma (belirli bir proteinin fonksiyonunda dramatik bir değişime neden olmayacak şekilde bir amino asidin bir diğerine ne kadar benzer olduğu) ve tekrar etmesi (bazı amino asit çiftlerin birçok kez protein dizisinde görüldüğünü) de puan verir. Eğer amino asitler aynı ise yüksek skor çıkacaktır fakat bunun yanında benzerliklere de dayanan puanlar verilecektir. Örneğin, izolösin ve valine eşleşmesine daha yüksek bir puan verilecektir, çünkü amino asitler aynı olmasa da, her ikisi de hidrofobik olmaları bakımından benzerdir.

Homoloji Modelleme

Homoloji modellemenin temel amacı, makromoleküllerin yapısını incelemektir. X-ışını kristalografisi ve NMR ayrıntılı yapısal bilgi sağlamanın tek yoludur; Bununla birlikte, bu teknikler ayrıntılı prosedürler içerir ve birçok protein NMR analizi için yeterli miktarlarda kristalleşemez veya elde edilemez veya çözünemez. Bu nedenle, bir homolog proteinin bilinen üç boyutlu yapısına dayanan model oluşturma, bilinmeyen protein hakkında yapısal bilgi edinmenin en güvenilir yoludur. Aşağıdakiler homoloji modellemedeki ana adımlardır:

Homolog protein veritabanı dosyalarını bulmak (kalıp): Kalıp seçimi, homoloji modellemede kritik bir adımdır. Kalıp tanımlama, veritabanı arama teknikleri ile desteklenebilir.
Tek veya çoklu sekans hizalamaları kullanarak hizalamanın oluşturulması: Birden fazla bilinen söz konusu olduğunda, bilenler birlikte hizalanacak, daha sonra bilinmeyen dizi grupla aynı hizada olacaktır; bu, daha iyi alan korumasının sağlanmasına yardımcı olur, ayrıca, hizalama boşlukların eklenmesi veya silinmesi ile düzeltilebilir. Boşluğun eklenmesi hizalamayı zorlaştırsa da, farklı sistemleri karşılaştırmak ve mantıksız girişleri önlemek için boşlukları cezalandıran puanlama sistemleri kullanan gelişmiş yöntemler vardır. Hizalamanın puanlanması, özdeşlik matrislerinin ve yerdeğiştirme matrislerinin oluşturulmasını içerir. Yerdeğiştirme matrislerinin en iyisi olduğuna inanılmaktadır, bu yöntemler, verilen bir amino asidin, sekansların hizalanabileceği proteinler arasında diğer amino asitlerle değiştirildiği gözlemlenen frekansın analizine dayanmaktadır.
Model üretimi: Kalıp ve hizalamada yer alan bilgiler, bir Kartezyen Koordinatlar kümesi olarak temsil edilen, proteinin üç boyutlu bir yapısal modelini oluşturmak için kullanılabilir.
Model Geliştirme: Homoloji modellemede ana hata kaynakları, zayıf kalıp seçimi ve yanlış kalıp-hedef sekans hizalamasıdır. Elde edilen çoklu diziler ve yapısal hizalama kullanılarak model geliştirilebilir.

Kaynakça

Şablon:Reflist

↑ Kaynak hatası: Geçersiz <ref> etiketi; Misuse isimli refler için metin sağlanmadı
↑ Kaynak hatası: Geçersiz <ref> etiketi; Habits isimli refler için metin sağlanmadı
↑ Kaynak hatası: Geçersiz <ref> etiketi; Muddle2 isimli refler için metin sağlanmadı
↑ Kaynak hatası: Geçersiz <ref> etiketi; Muddle isimli refler için metin sağlanmadı
↑ Kaynak hatası: Geçersiz <ref> etiketi; Fareler isimli refler için metin sağlanmadı
↑ Kaynak hatası: Geçersiz <ref> etiketi; Monkey isimli refler için metin sağlanmadı
↑ [Berg, Jeremy M., John L. Tymoczko, Lubert Stryer, and Jeremy M. Berg. Student Companion for Biochemistry, 7th Edition, International Edition. New York: W.H. Freeman, 2011.]
↑ [Rastogi, S. C., Namita Mendiratta, and Parag Rastogi. Bioinformatics Methods and Applications: Genomics, Proteomics and Drug Discovery. New Delhi: Prentice Hall of India (P), 2006.].
↑ Matrices Tutorial

[Misuse-1] Kaynak hatası: Geçersiz <ref> etiketi; Misuse isimli refler için metin sağlanmadı

[Habits-2] Kaynak hatası: Geçersiz <ref> etiketi; Habits isimli refler için metin sağlanmadı

[Muddle2-3] Kaynak hatası: Geçersiz <ref> etiketi; Muddle2 isimli refler için metin sağlanmadı

[Muddle-4] Kaynak hatası: Geçersiz <ref> etiketi; Muddle isimli refler için metin sağlanmadı

[Fareler-5] Kaynak hatası: Geçersiz <ref> etiketi; Fareler isimli refler için metin sağlanmadı

[Monkey-6] Kaynak hatası: Geçersiz <ref> etiketi; Monkey isimli refler için metin sağlanmadı

[id-7] [Berg, Jeremy M., John L. Tymoczko, Lubert Stryer, and Jeremy M. Berg. Student Companion for Biochemistry, 7th Edition, International Edition. New York: W.H. Freeman, 2011.]

[gonnet-8] [Rastogi, S. C., Namita Mendiratta, and Parag Rastogi. Bioinformatics Methods and Applications: Genomics, Proteomics and Drug Discovery. New Delhi: Prentice Hall of India (P), 2006.].

[pupy-9] Matrices Tutorial

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]