sequence = "abCDEfg"
start = 3
end = 5
sequence[start:end]

'DE'

sequence[2:5]

'CDE'

import pandas as pd
from epitope_aligner import map

# The aligned version of our sequence
aligned_seq = "ABCD--FGHIJKL--OP--STUVWXYZ"
# The unaligned version
seq = aligned_seq.replace("-","")
print(seq)

# A table of epitopes in sequence, positions are relative to the
# unaligned version
epitopes = pd.DataFrame({
        'start':[1,     4,      7,      10,     9,      11,     13],
        'end':  [4,     8,      11,     14,     13,     15,     17],
        'seq':  ["BCD", "FGHI", "IJKL", "LOPS", "KLOP", "OPST", "STUV"]
})
epitopes

ABCDFGHIJKLOPSTUVWXYZ

epitopes['newstart'] = map.align_coords(
    table = epitopes,
    aligned_parent_seq = aligned_seq,
    coord_col = "start",
    index = 0
)
epitopes['newend'] = map.align_coords(
    table = epitopes,
    aligned_parent_seq = aligned_seq,
    coord_col = "end",
    index = 0
)
print(aligned_seq)
epitopes

ABCD--FGHIJKL--OP--STUVWXYZ

epitopes['aligned_seq'] = epitopes.apply(lambda x: aligned_seq[x.newstart:x.newend], axis=1)
epitopes[['seq','aligned_seq']]

# Two different aligned sequences
aligned_sequence1 = "ABC---DEFGH-IJK--LM"
aligned_sequence2 = "NO-PQR--STUVW-XYZ"

epitopes1 = pd.DataFrame({
        'start':  [2,      6,      9],
        'end':    [4,      9,      12],
        'seq':    ["BCD",  "FGHI", "IJKL"],
        "parent": ["seq1", "seq1", "seq1"]
})
epitopes2 = pd.DataFrame({
        'start':  [2,      5,        8,      10],
        'end':    [5,      7,        10,     13],
        'seq':    ["OPQR", "RST",    "UVW",  "WXYZ"],
        "parent": ["seq2", "seq2",   "seq2", "seq2"]
})

epitopes = pd.concat([epitopes1, epitopes2])
epitopes

parent_sequences = {
    'seq1': aligned_sequence1,
    'seq2': aligned_sequence2
}
print(parent_sequences)

{'seq1': 'ABC---DEFGH-IJK--LM', 'seq2': 'NO-PQR--STUVW-XYZ'}

epitopes['newstart'] = map.align_coords(
    table= epitopes,
    aligned_parent_seq= parent_sequences,
    coord_col= "start",
    parent_col= "parent",
    index=1
)
epitopes['newend'] = map.align_coords(
    table= epitopes,
    aligned_parent_seq= parent_sequences,
    coord_col= "end",
    parent_col= "parent",
    index=1
)
print(f"seq1: {aligned_sequence1}")
print(f"seq2: {aligned_sequence2}")
epitopes

seq1: ABC---DEFGH-IJK--LM
seq2: NO-PQR--STUVW-XYZ

import pandas as pd
from epitope_aligner import map

# The aligned version of our sequence
aligned_seq = "ABCD--FGHIJKL--OP--STUVWXYZ"
print(aligned_seq)

# A table of epitopes in sequence, positions are relative to the
# aligned version
epitopes = pd.DataFrame({
        'aligned_start':[1,     6,      12,     11,     15,     19],
        'aligned_end':  [6,     10,     20,     19,     21,     23],
        'seq':          ["BCD", "FGHI", "LOPS", "KLOP", "OPST", "STUV"]
})
epitopes

ABCD--FGHIJKL--OP--STUVWXYZ

epitopes['unaligned_start'] = map.unalign_coords(
    table=epitopes,
    aligned_parent_seq=aligned_seq,
    coord_col="aligned_start",
    index=0
)
epitopes['unaligned_end'] = map.unalign_coords(
    table=epitopes,
    aligned_parent_seq=aligned_seq,
    coord_col="aligned_end",
    index=0
)
epitopes

# Two different aligned sequences
aligned_sequence1 = "ABC---DEFGH-IJK--LM"
aligned_sequence2 = "NO-PQR--STUVW-XYZ"

aligned_parent_seqs = {
    'seq1': aligned_sequence1,
    'seq2': aligned_sequence2
}
print(aligned_parent_seqs)

epitopes1 = pd.DataFrame({
        'aligned_start':  [1,      8,      12],
        'aligned_end':    [7,      13,      18],
        'seq':    ["BCD",  "FGHI", "IJKL"],
        "parent": ["seq1", "seq1", "seq1"]
})
epitopes2 = pd.DataFrame({
        'aligned_start':  [1,      5,        10,      12],
        'aligned_end':    [8,      10,        14,     17],
        'seq':    ["OPQR", "RST",    "UVW",  "WXYZ"],
        "parent": ["seq2", "seq2",   "seq2", "seq2"]
})

epitopes = pd.concat([epitopes1, epitopes2])
epitopes

{'seq1': 'ABC---DEFGH-IJK--LM', 'seq2': 'NO-PQR--STUVW-XYZ'}

epitopes['start'] = map.unalign_coords(
    table=epitopes,
    aligned_parent_seq=aligned_parent_seqs,
    coord_col="aligned_start",
    parent_col="parent",
    index=0
)
epitopes['end'] = map.unalign_coords(
    table=epitopes,
    aligned_parent_seq=aligned_parent_seqs,
    coord_col="aligned_end",
    parent_col="parent",
    index=0
)
epitopes

sequence = "ABC--D"
start = 0
end = 3
print(f"Epitope sequence from {start} to {end}: {sequence[start:end]}")
print(f"Amino acid at position {end}: {sequence[end]}")

Epitope sequence from 0 to 3: ABC
Amino acid at position 3: -

sequence = "ABC--D"
epitopes = pd.DataFrame({
    'start':[0],
    'end':[3],
    'seq':["ABC"],
})

map.unalign_coords(
    table=epitopes,
    aligned_parent_seq=sequence,
    coord_col="end",
    index=0
)

WARNING:root:Amino acid at 3 is -
Coordinate of gap in ungapped sequence is ambiguous
Coordinate of next nongap character will be returned

0    3
dtype: int64

import pandas as pd
from epitope_aligner import map, utils

# The aligned version of our sequence
aligned_seq = "ABCD--FGHIJKL--OP--STUVWXYZ"
# The unaligned version
seq = aligned_seq.replace("-","")

# A table of epitopes in sequence, positions are relative to the
# unaligned version
epitopes = pd.DataFrame({
        'name': ['epiA', 'epiB', 'epiC', 'epiD', 'epiE', 'epiF', 'epiG'],
        'start':[1,      4,      7,      10,     9,      11,     13],
        'end':  [4,      8,      11,     14,     13,     15,     17],
        'seq':  ["BCD",  "FGHI", "IJKL", "LOPS", "KLOP", "OPST", "STUV"]
})
print(seq)
epitopes

ABCDFGHIJKLOPSTUVWXYZ

epitopes['float'] = map.float_epitopes(
    table=epitopes,
    parent_seq=seq,
    start_col="start",
    index=0,
)

print(seq)
for floating_epitope in epitopes.float:
    print(floating_epitope)

ABCDFGHIJKLOPSTUVWXYZ
-BCD
----FGHI
-------IJKL
----------LOPS
---------KLOP
-----------OPST
-------------STUV

map.float_epitopes(
    table=epitopes,
    parent_seq=seq,
    start_col="start",
    id_col="name",
    index=0,
)

[SeqRecord(seq=Seq('-BCD'), id='epiA', name='<unknown name>', description='<unknown description>', dbxrefs=[]),
 SeqRecord(seq=Seq('----FGHI'), id='epiB', name='<unknown name>', description='<unknown description>', dbxrefs=[]),
 SeqRecord(seq=Seq('-------IJKL'), id='epiC', name='<unknown name>', description='<unknown description>', dbxrefs=[]),
 SeqRecord(seq=Seq('----------LOPS'), id='epiD', name='<unknown name>', description='<unknown description>', dbxrefs=[]),
 SeqRecord(seq=Seq('---------KLOP'), id='epiE', name='<unknown name>', description='<unknown description>', dbxrefs=[]),
 SeqRecord(seq=Seq('-----------OPST'), id='epiF', name='<unknown name>', description='<unknown description>', dbxrefs=[]),
 SeqRecord(seq=Seq('-------------STUV'), id='epiG', name='<unknown name>', description='<unknown description>', dbxrefs=[])]

epitopes = epitopes.copy()
epitopes.columns = [c.upper() for c in epitopes.columns]

map.float_epitopes(
    table=epitopes,
    parent_seq=seq,
    seq_col="SEQ",
    start_col="START",
    index=0,
)

['-BCD',
 '----FGHI',
 '-------IJKL',
 '----------LOPS',
 '---------KLOP',
 '-----------OPST',
 '-------------STUV']

# The aligned version of our sequence
aligned_seq = "ABCD--FGHIJKL--OP--STUVWXYZ"
# The unaligned version
seq = aligned_seq.replace("-","")

# A table of epitopes in sequence, positions are relative to the
# unaligned version
epitopes = pd.DataFrame({
        'start':[1,      4,      7,      10,     9,      11,     13],
        'end':  [4,      8,      11,     14,     13,     15,     17],
        'seq':  ["BCD",  "FGHI", "IJKL", "LOPS", "KLOP", "OPST", "STUV"]
})

epitopes['aligned_start'] = map.align_coords(
    table=epitopes,
    aligned_parent_seq=aligned_seq,
    coord_col="start",
    index=0
)
epitopes

epitopes['float_align'] = map.float_epitopes(
    table=epitopes,
    parent_seq=aligned_seq,
    start_col="aligned_start",
    index=0
)

print(aligned_seq)
for floating_epitope in epitopes.float_align:
    print(floating_epitope)

ABCD--FGHIJKL--OP--STUVWXYZ
-BCD
------FGHI
---------IJKL
------------L--OP--S
-----------KL--OP
---------------OP--ST
-------------------STUV

# Two different sequences
seq1 = "ABCDEFGHIJKLM"
seq2 = "NOPQRSTUVWXYZ"

# Epitopes for those sequences
epitopes1 = pd.DataFrame({
        'start':  [2,      6,      9],
        'end':    [4,      9,      12],
        'seq':    ["BCD",  "FGHI", "IJKL"],
        "parent": ["seq1", "seq1", "seq1"]
})
epitopes2 = pd.DataFrame({
        'start':  [2,      5,        8,      10],
        'end':    [5,      7,        10,     13],
        'seq':    ["OPQR", "RST",    "UVW",  "WXYZ"],
        "parent": ["seq2", "seq2",   "seq2", "seq2"]
})

epitopes = pd.concat([epitopes1, epitopes2])
epitopes

parent_seqs = {
    "seq1": seq1,
    "seq2": seq2,
}
parent_seqs

{'seq1': 'ABCDEFGHIJKLM', 'seq2': 'NOPQRSTUVWXYZ'}

epitopes['float'] = map.float_epitopes(
    table=epitopes,
    parent_seq=parent_seqs,
    start_col="start",
    parent_col="parent",
    index=1,
)

for i,row in epitopes.iterrows():
    print(parent_seqs[row.parent])
    print(row.float)
    print()

ABCDEFGHIJKLM
-BCD

ABCDEFGHIJKLM
-----FGHI

ABCDEFGHIJKLM
--------IJKL

NOPQRSTUVWXYZ
-OPQR

NOPQRSTUVWXYZ
----RST

NOPQRSTUVWXYZ
-------UVW

NOPQRSTUVWXYZ
---------WXYZ

map.score_epitope_alignments(
    table=epitopes,
    seq_col="float",
    parent_seq=parent_seqs,
    parent_col="parent"
)

from epitope_aligner import map
import pandas as pd

aligned_seq = "--CD-F"
location = map.locate_epitope(
    aligned_seq=aligned_seq,
    index=0,
    includeend=False
)
print(aligned_seq)
print(location)

--CD-F
(2, 6)

location = map.locate_epitope(
    aligned_seq=aligned_seq,
    index=1,
    includeend=True
)
print(aligned_seq)
print(location)

--CD-F
(3, 6)

epitopes = pd.DataFrame({
    'aligned_seq': ["abc", "--cdef", "-----fghi", "--cdef---", "--cd-f---"]
})
epitopes['seq'] = epitopes.aligned_seq.str.replace("-","")
epitopes

location = epitopes['aligned_seq'].apply(map.locate_epitope, index=0, includeend=False)
epitopes[['start','end']] = pd.DataFrame(location.tolist())
epitopes

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from epitope_aligner import map, stretch, utils

sequence = utils.random_seq(20)
epitopes = utils.random_epitopes(sequence, n=3, epitope_lengths=(3,6), index=0, includeend=False)

print(sequence)
epitopes

ATAEVMQPFQVQNSECTRKW

utils.plot_line(epitopes, y="start", c="black")
plt.show()

stretched_epitopes = stretch.stretch(epitopes)
stretched_epitopes

positional_count = stretched_epitopes.groupby("position").size()
positional_count

position
4     1
5     1
6     1
7     1
8     1
9     1
10    1
11    1
14    1
15    1
16    1
17    1
dtype: int64

positional_count = stretch.add_empty_positions(
    positional_count,
    parent_seq_length=len(sequence),
    index=1,
    empty_value=0
)

plt.plot(positional_count)
plt.show()

sequence = utils.random_seq(10)
epitopes = utils.random_epitopes(sequence, n=5, epitope_lengths=(3,6), index=0, includeend=False)
epitopes['mhc_allele'] = ["x","x","y","z","z"]

print(sequence)
epitopes

QCACKCKQNI

stretched_epitopes = stretch.stretch(epitopes)

stretched_epitopes.groupby("position").agg(
    # Average start position of epitopes overlapping this position
    mean_start=('start', "mean"),
    # number of unique mhc alleles with epitopes at this position
    n_alleles = ('mhc_allele', lambda x: len(set(x)))
)

allele_position_count = stretched_epitopes.groupby(["mhc_allele", "position"]).size()
allele_position_count

mhc_allele  position
x           2           1
            3           2
            4           2
            5           2
            6           1
y           4           1
            5           1
            6           1
            7           1
            8           1
z           0           1
            1           1
            2           1
            3           2
            4           1
            5           1
            6           1
            7           1
dtype: int64

grid = stretch.make_grid(
    allele_position_count,
    index=0,
    parent_seq_length=len(sequence),
    empty_value=0
)

grid

plt.matshow(grid)
plt.yticks(np.arange(len(grid.index)), labels=grid.index)
plt.show()

from epitope_aligner import utils
import pandas as pd
import matplotlib.pyplot as plt

seq = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"

# A table of epitopes in sequence, positions are relative to the
# unaligned version
epitopes = pd.DataFrame({
        'start':[1,     4,      7,      9,     10,      11,     13],
        'end':  [4,     8,      11,     13,     14,     15,     17],
        'seq':  ['BCD', 'EFGH', 'HIJK', 'JKLM', 'KLMN', 'LMNO', 'NOPQ'],
        'y':    [1,     4,      6,      3,      2,      1,      4],
        'mhc':  ["a",   "b",    "c",    "c",    "a",    "d",    "e"]
})

utils.plot_line(
    table=epitopes,
    start_col="start",
    end_col="end",
    y="y"
)

<Axes: >

utils.plot_line(
    table=epitopes,
    start_col="start",
    end_col="end",
    y="y",
    color="black"
)
plt.xlim(0, len(seq))

(0.0, 26.0)

from matplotlib.colors import Normalize
from matplotlib import cm

norm = Normalize()
normalized_y = norm(epitopes.y)
epitopes['color'] = cm.plasma(normalized_y).tolist()

print(epitopes.color)

utils.plot_line(
    table=epitopes,
    start_col="start",
    end_col="end",
    y="y",
    color_col="color"
)
plt.xlim(0, len(seq))

0    [0.050383, 0.029803, 0.527975, 1.0]
1    [0.881443, 0.392529, 0.383229, 1.0]
2    [0.940015, 0.975158, 0.131326, 1.0]
3     [0.69284, 0.165141, 0.564522, 1.0]
4     [0.417642, 0.000564, 0.65839, 1.0]
5    [0.050383, 0.029803, 0.527975, 1.0]
6    [0.881443, 0.392529, 0.383229, 1.0]
Name: color, dtype: object

(0.0, 26.0)

norm = Normalize()
normalized_y = norm(epitopes.y)
epitopes['color'] = cm.viridis(normalized_y).tolist()

sm = plt.cm.ScalarMappable(
    cmap="viridis",
    norm=norm
)
sm.set_array([])

fig,ax = plt.subplots()
utils.plot_line(
    table=epitopes,
    start_col="start",
    end_col="end",
    y="y",
    c="black",
    color_col="color",
    ax=ax
)
ax.set_xlim(0, len(seq))

cbar = fig.colorbar(sm, ax=ax)
plt.show()

category_colours = {mhc: cm.tab10(i%10) for i,mhc in enumerate(epitopes.mhc.unique())}
epitopes['color'] = [category_colours[mhc] for mhc in epitopes.mhc]

fig,ax = plt.subplots()
utils.plot_line(
    table=epitopes,
    start_col="start",
    end_col="end",
    y="y",
    color_col="color",
    label_col="mhc",
    ax=ax
)
ax.set_xlim(0, len(seq))
plt.show()

# Random sequence, length 10
seq1 = utils.random_seq(seq_length=10)
print(seq1)

# Random sequence of As and Bs where B is twice as common
seq2 = utils.random_seq(seq_length=30, AAs= "ABB")
print(seq2)

LIRKWWNCWF
ABABBBBBABBBABBAAAAABAAABBAAAB

utils.random_epitopes(
    sequence=seq1,
    n=10,
    epitope_lengths=(2,6),
    index=0,
    includeend=False
)

utils.random_gaps(
    seq=seq1,
    gap_prob=0.3,
    gap_size_interval=(1,3)
)

'--LIR-K-WWNCWF'

	mean_start	n_alleles
position
0	0.000000	1
1	0.000000	1
2	1.000000	2
3	2.000000	2
4	3.000000	3
5	3.000000	3
6	3.333333	3
7	3.500000	2
8	4.000000	1

`epitope_aligner` cookbook¶

Contents¶

Install¶

Background¶

The big idea¶

Coordinate system¶

`index`¶

`includeend`¶

Naming conventions¶

Align coordinates¶

Unaligning coordinates¶

Float epitopes¶

Alignment accuracy¶

Locate epitopes¶

Analysis¶

Stretch epitopes¶

Epitope grids¶

Utils¶

Plotting epitopes¶

Random data¶

Conclusion¶

	start	end	seq	newstart	newend
0	1	4	BCD	1	6
1	4	8	FGHI	6	10
2	7	11	IJKL	9	15
3	10	14	LOPS	12	20
4	9	13	KLOP	11	19
5	11	15	OPST	15	21
6	13	17	STUV	19	23

	seq	aligned_seq
0	BCD	BCD--
1	FGHI	FGHI
2	IJKL	IJKL--
3	LOPS	L--OP--S
4	KLOP	KL--OP--
5	OPST	OP--ST
6	STUV	STUV

	start	end	seq	parent
0	2	4	BCD	seq1
1	6	9	FGHI	seq1
2	9	12	IJKL	seq1
0	2	5	OPQR	seq2
1	5	7	RST	seq2
2	8	10	UVW	seq2
3	10	13	WXYZ	seq2

	name	start	end	seq
0	epiA	1	4	BCD
1	epiB	4	8	FGHI
2	epiC	7	11	IJKL
3	epiD	10	14	LOPS
4	epiE	9	13	KLOP
5	epiF	11	15	OPST
6	epiG	13	17	STUV

	score	matches
0	1.0	[True, True, True]
1	1.0	[True, True, True, True]
2	1.0	[True, True, True, True]
0	1.0	[True, True, True, True]
1	1.0	[True, True, True]
2	1.0	[True, True, True]
3	1.0	[True, True, True, True]

	aligned_seq	seq	start	end
0	abc	abc	0	3
1	--cdef	cdef	2	6
2	-----fghi	fghi	5	9
3	--cdef---	cdef	2	6
4	--cd-f---	cdf	2	6

	start	end	seq	length	position	residue
2	4	9	VMQPF	5	4	V
2	4	9	VMQPF	5	5	M
2	4	9	VMQPF	5	6	Q
2	4	9	VMQPF	5	7	P
2	4	9	VMQPF	5	8	F
0	9	12	QVQ	3	9	Q
0	9	12	QVQ	3	10	V
0	9	12	QVQ	3	11	Q
1	14	18	ECTR	4	14	E
1	14	18	ECTR	4	15	C
1	14	18	ECTR	4	16	T
1	14	18	ECTR	4	17	R

	0
position	0	1	2	3	4	5	6	7	8	9
mhc_allele
y	0	0	0	0	1	1	1	1	1	0
x	0	0	1	2	2	2	1	0	0	0
z	1	1	1	2	1	1	1	1	0	0

	start	end	seq	length
0	1	3	IR	2
1	7	9	CW	2
2	5	7	WN	2
3	0	5	LIRKW	5
4	6	9	NCW	3
5	2	6	RKWW	4
6	4	7	WWN	3
7	3	7	KWWN	4
8	2	5	RKW	3
9	4	6	WW	2

	start	end	seq	length	mhc_allele
0	3	7	CKCK	4	x
1	2	6	ACKC	4	x
2	4	9	KCKQN	5	y
3	0	4	QCAC	4	z
4	3	8	CKCKQ	5	z

epitope_aligner cookbook¶

Contents¶

Install¶

Background¶

The big idea¶

Coordinate system¶

index¶

includeend¶

Naming conventions¶

Align coordinates¶

Unaligning coordinates¶

Float epitopes¶

Alignment accuracy¶

Locate epitopes¶

Analysis¶

Stretch epitopes¶

Epitope grids¶

Utils¶

Plotting epitopes¶

Random data¶

Conclusion¶

`epitope_aligner` cookbook¶

`index`¶

`includeend`¶