오믹스

오믹스 분석 및 건강성 평가 기법 가이드라인

미생물

미세조류

수생동물

미세조류 eDNA 분석 표준 파이프 라인

1-1.

현장 조사 및 시료 채취

본 절차는 eDNA 분석 표준 파이프 라인을 위한 일관된 채집 기법을 제시하여, 오믹스 기반 수생태계 건강성 평가의 재현성을 향상시키는 것을 목적으로 한다.

(1)

정점 선정: 하천을 대표하는 여울 구간 또는 흐르는 수체가 존재하는 곳을 선정하여, 한 지점당 최소 3개 정점에 대해 시료를 채취한다.
(2)
부착 돌말류 시료 채집:
- 최소 3개 이상의 정점으로부터 돌과 같은 부착 돌말류가 부착할 수 있는 기질을 선택한 후, 채집용 트레이에 옮긴다.
- 수체에 노출되는 기질 부분의 약 5 cm2 면적을 깨끗한 솔(칫솔) 등의 도구를 이용해 증류수와 함께 부드럽게 긁어내어, 부착 돌말류를 기질로부터 이탈 시킨다.
- 채집에 사용한 솔을 증류수로 씻어내어 채집도구에 남아있는 부착 돌말류를 채집용 트레이로 이탈 시킨다.
- 채집한 시료를 메스실린더에 옮긴 후 일정한 양의 시료 (예: 50mL)를 50mL 코니컬 튜브 등의 시료통에 옮긴다.
- 시료통에 조사일시, 조사지점명, 시료량(mL), 채집자명 등을 기입한다.
- 생물 부패 및 DNA 손상을 막기 위해 4 °C 아이스박스에 보관하여 실험실로 운송한다.

1-2.

환경 유전체 (eDNA) 전처리

본 절차는 현장 조사를 통해 채취된 시료로부터 생물학적 군집 정보를 담고 있는 환경 유전체를 분리하고, 차세대 염기서열(NGS) 분석에 적합한 형태로 가공하는 단계를 기술한다. 모든 과정은 시료 간 교차 오염 및 외부 DNA 오염을 엄격히 통제된 환경에서 수행해야 한다.

가. eDNA 추출

본 단계는 환경 시료 내에 미량으로 존재하는 eDNA를 손실 없이 효율적으로 추출하는 것을 목적으로 한다.

(1)

시료통(50mL 코니컬 튜브)에 담긴 부착시료를 분리하기 위해 원심분리(3000rpm, 5min)하여 2mL를 남기고 상층액을 버린다.
(2)

부착 시료가 섞인 혼합액 2mL를 마이크로피펫을 이용하여 2mL 튜브에 옮긴 후 원심분리(8000rpm, 5min)한 뒤 부착시료 펠렛을 제외한 용액을 제거한다.
(3)

부착 시료가 포함된 2mL 튜브에 DNA 추출 시약 (100 mM Tris-HCl, 100 mM Na2-EDTA, 100 mM sodium phosphate, 1.5 M NaCl, and 1% cetyltrimethylammonium bromide) 800 μL를 넣어, 이후 분석 전까지 -20 °C에서 보관한다.
(4)

부착시료가 포함된 2 mL 튜브에 Proteinase K (25mg/mL)를 8 μL 첨가한 후, shaking incubator에서 37°C로 24시간 동안 반응시킨다.
(5)

샘플과 동일한 양의 chloroform–isoamylalcohol (24:1)을 첨가한 후, 10,000 rpm으로 5분간 원심분리하여 시료의 층을 분리한다.
(6)

시료의 상층액을 새로운 1.7 mL 튜브로 분리한 후, 분리한 시료에 0.2 volume의 10 M ammonium acetate 그리고 0.5 volume의 isopropanol을 첨가한다.
(7)

14000 rpm으로 20분간 원심분리하여 eDNA를 침전시킨다.
(8)

eDNA 펠렛을 제외한 용액을 제거한 뒤 70% 에탄올 1 mL를 첨가하여 eDNA 펠렛을 세척한다.
(9)

eDNA 펠렛을 제외한 용액을 제거한 뒤 70% 에탄올 1 mL를 첨가하여 eDNA 펠렛을 세척한다.
(10)

1,4000 rpm으로 10분간 원심분리하여 eDNA를 침전시킨다.
(11)

eDNA 펠렛을 제외한 70% 에탄올 용액을 완전히 제거 및 건조시킨 후, eDNA를 1×TE 완충용액 100 μL로 희석한다.

나. eDNA 정량 및 품질 검증(QC)

본 단계는 추출된 DNA의 양과 질을 평가하여 다음 단계인 PCR 증폭의 성공률을 높이는 것을 목적으로 한다.

(1)

측정 장비: 미량 분광광도계(e.g., NanoDrop)를 권장한다.
(2)

측정 항목: 추출된 eDNA 용액의 농도(ng/µL)와 순도(A260/280, A260/230 비율)를 측정한다.
(3)
품질기준:
- 순도 (A260/280): 1.8 ~ 2.0 범위를 양질의 DNA로 판단한다. (1.8 미만: 단백질 오염 가능성, 2.0 초과: RNA 오염 가능성)
- 순도 (A260/230): 2.0 ~ 2.2 범위를 권장하며, 이보다 낮을 경우 PCR 반응을 저해하는 휴믹산(humic acids) 등의 억제물질 오염을 의심할 수 있다.
- 오염 및 PCR 저해 반응이 예상되는 경우 1/10 희석하여 PCR 품질을 향상시킬 수 있다.

다. 차세대 염기서열(NGS) 라이브러리 제작 및 품질 검증(QC)

본 단계는 PCR 증폭 산물을 NGS 플랫폼에서 분석할 수 있도록 가공(라이브러리 제작)하고, 최종 산물의 품질을 확인하는 단계이다.

(1)

측정 장비: 미량 분광광도계(e.g., NanoDrop)를 권장한다.
(2)

측정 항목: 추출된 eDNA 용액의 농도(ng/µL)와 순도(A260/280, A260/230 비율)를 측정한다.
(3)
아래의 프라이머를 기반으로 MiSeq 플랫폼을 위한 라이브러리를 제작한 후 품질 검증을 실시한다.
- 목표 유전자: 18S rRNA 유전자 V4 지역 (18S V4 region)
- 프라이머 서열:
  
  - 정방향 (Forward): 5'-CCAGCASCYGCGGTAATTCC-3'
  
  - 역방향 (Reverse): 5'-ACTTTCGTTCTTGATYRA-3'
  
  ※ 실험 키트 및 방법은 Illumina DNA Prep Reference Guide Document # 1000000025416 v10를 따른다.

1-3.

생물정보학 분석

본 단계는 NGS 장비에서 생산된 대량의 염기서열 원본 데이터(Raw Data)를 분석하여 오믹스 기반 수생태계 건강성 평가를 위한
생물 군집 정보를 도출하는 과정을 기술한다.

가. 차세대 염기서열 시퀀싱 및 데이터 생성

(1)
염기서열 분석:
- MiSeq 플랫폼을 이용하여 차세대 염기서열 시퀀싱을 진행한다.
- 양방향 서열분석(Paired-end, PE)을 수행한다.
(2)
데이터 생성:
- 분석 완료 후, 각 샘플별로 정방향과 역방향 서열 정보를 담고있는 FASTQ 형식의 파일을 생성 및 보관한다.

나. 데이터 전처리 (어댑터, 낮은 품질의 염기 및 서열 제거)

본 단계는 분석의 정확도를 저해할 수 있는 어댑터 서열, 낮은 품질의 염기, 너무 짧은 서열 등을 제거하여 고품질의 순수 분석 데이터를 확보하는 것을 목적으로 한다.

(1)
Trimmomatic (v0.33) 소프트웨어를 사용해 PE LEADING:3 TRAILING:3 SLIDINGWINDOW:50:20 MINLEN:10 조건으로 분석을 수행한다.
- LEADING:3, TRAILING:3 옵션은 서열의 시작과 끝에서 Phred 품질 점수가 3 미만인 염기를 제거한다.
- SLIDINGWINDOW:50:20 옵션은 50 bp 크기의 윈도우를 이동시키며, 해당 구간의 평균 품질 점수가 20 미만으로 떨어지면 그 지점부터 서열의 끝까지 제거한다.
- MINLEN:100 옵션은 모든 전처리 과정 후 최종 길이가 100 bp 미만인 서열은 분석에서 제외한다.
(2)
Cutadapt (v1.9.1) 소프트웨어를 사용해 -e 0.2 --overlap 15 --discard-untrimmed 조건으로 분석을 수행한다.
- -e 0.2 옵션은 프라이머 서열과 최대 20%의 염기서열 불일치를 허용한다.
- --overlap 15 옵션은 프라이머 서열과 최소 15 bp 이상 일치해야 제거 대상으로 인식한다.
- --discard-untrimmed 옵션은 프라이머 서열이 성공적으로 제거되지 않은 리드는 분석에서 제외하여 정확도를 높인다.

다. ASV 생성 및 분류군 동정 (Taxonomic Assignment)

본 단계는 전처리가 완료된 고품질 서열로부터 생물학적 의미를 갖는 고유한 서열 단위인 **증폭산물 염기서열 변이체(Amplicon Sequence Variant, ASV)**를 생성하는 것을 목적으로 한다. ASV는 단일 염기 차이까지 구분할 수 있어 높은 해상도의 군집 분석을 가능하게 한다. 또한 각 ASV 서열의 분류학적 위치를 결정하기 위해 신뢰도 높은 참조 데이터베이스와 비교하여 동정하는 것을 목적으로 한다.

(1)

QIIME2 (v2020.6.0) 소프트웨어에서 제공하는 DADA2 (v1.20.0) 소프트웨어를 사용해 default 조건으로 분석을 수행하여 ASV를 생성한다.
(2)

SILVA (release 138) 를 참조 데이터베이스로하여 QIIME2 (v2020.6.0) 소프트웨어에서 제공하는 Naive Bayes classifier를 이용해 각 ASV의 분류군 동정을 수행한다.

※ 분류군 할당의 최소 신뢰도 임계값(confidence threshold)을 0.7로 설정한다. 이 값보다 낮은 신뢰도를 갖는 동정 결과는 상위 분류군 수준에서 처리하거나 '미동정(Unassigned)'으로 분류한다.
(3)

최종적으로 정제된 데이터를 기반으로, 행(row)은 ASV를, 열(column)은 샘플을 나타내며, 각 셀의 값은 해당 샘플에서 해당 ASV가 관찰된 정량적 수치를 나타내는 '서열 수(read count)'로 구성된 테이블을 생성한다.

수생태계 건강성 평가 방법

2-1.

eDNA 분석 데이터 입력 형식 및 기준

본 단계는 eDNA 메타바코딩 분석으로 생성된 부착돌말류의 군집 데이터를 분자생물학적 부착돌말영양지수(mTDI) 산출 플랫폼에 입력하기 위한 표준 데이터 형식을 규정한다. 정확한 지수 산출을 위해 데이터는 반드시 지정 형식 중 하나를 준수하여야 한다.

(1)
파일 형식 및 인코딩
- 파일은 CSV (Comma-Separated Values) 형식만을 사용한다.
- CSV 파일은 UTF-8 형식으로 인코딩되어야 한다.
※ MS-Excel에서 저장 시 'CSV UTF-8(쉼표로 분리)' 옵션 선택

(2)

데이터 구조

플랫폼은 사용자의 편의를 위해 Long 포맷과 Wide 포맷 두 가지 데이터 구조를 모두 자동으로 인식하여 처리한다.

입력 분류군 및 종 이름 형식

- 대규모 데이터 입력 시, 부착 돌말 분류군이 아닌 타 분류군을 제거하여 데이터 경량화를 통한 빠른 분석이 가능하나, 부착 돌말 데이터 손실 여부를 체크해야한다.

- 종 이름은 대소문자, 공백(" "), 마침표("."), 언더스코어("_") 등의 차이를 자동으로 인식하여 처리하므로, "Actinocyclus sp.", "actinocyclus_sp", "Actinocyclus sp" 등은 모두 동일한 종으로 인식된다.
Long 포맷 (권장 형식)

- 대규모 데이터 입력 시 가장 표준적이고 안정적인 데이터 형식으로, 하나의 행이 하나의 샘플에 대한 한 종의 정보를 나타낸다.

- 각 열은 sample_id (샘플을 고유하게 식별하는 이름), species (동정된 부착돌말류의 종 이름), abundance (해당 샘플에서 해당 종으로 동정된 염기서열의 리드 수)로 구성된다.

- 첫 번째 행에는 반드시 sample_id, species, abundance와 같이 각 열을 설명하는 헤더가 포함되어야 한다.

표.1 eDNA 분석 데이터 Long 포맷(UTF-8 인코딩) 예시

sample_id,	species	abundance
St.01	Achnanthidium_minutissimum	1500
St.01	Gomphonema_parvulum	600
St.02	Nitzschia_palea	230
St.03	Achnanthidium_minutissimum	700
St.03	Nitzschia_palea	500

Wide 포맷 (권장 형식)

- Excel 등 스프레드시트 프로그램에서 일반적으로 사용하는 형식으로, 각 행이 하나의 샘플 정보를 나타낸다.

- 1열에는 sample_id가 위치하며 2열부터는 각 열의 헤더가 부착 돌말류 종의 이름이 된다.

표.2 eDNA 분석 데이터 Wide 포맷(UTF-8 인코딩) 예시

sample_id,	Achnanthidium_minutissimum	Gomphonema_parvulum	Nitzschia_palea
St.01	1500	600	0
St.02	0	0	230
St.03	700	0	500

2-2.

분자생물학적 부착돌말영양지수(mTDI, molecular Trophic Diatom Index) 산출

mTDI는 eDNA 메타바코딩으로 분석된 부착 돌말류 군집의 정량적 정보(서열 수)와 사전에 정의된 지표종의 생태학적 특성값을 이용하여 수생태계 건강성을 평가하는 지수이다. 본 단계는 본 지표의 산출원리를 이해하여 과학적인 해석을 하는 것을 목적으로 한다.

(1)

산출원리

mTDI는 eDNA를 통해 검출된 전체 출현 종이 아닌, 사전에 선별된 지표종의 군집 내 상대적 풍부도(relative abundance)를 기반으로 지수를 산출한다. 이는 형태학적 출현 종과는 다른 군집 구조를 가진 eDNA 출현 종들의 불균형을 해소하고 예측 모델의 정확성과 안정성을 높이기 위함이다.
(2)

지표 종 데이터베이스

mTDI 지수 산출에는 플랫폼 내에 구축된 지표종 데이터베이스가 사용되며, 각 지표종에 대한 오염민감도와 지표가중치 값이 포함되어있다. 해당 값들은 국립환경과학원 고시 제 2024-01호 수생태계 현황 조사 및 건강성 평가 방법 등에 관한 지침(하천편)과 동일하여 기존의 TDI 지수와 동일한 생태학적 해석이 가능하도록 하였다.

(3)

mTDI 산출식 및 건강성 등급

eDNA 건강성 플랫폼에 입력된 데이터는 아래의 수식 및 지표 종 데이터베이스와의 매칭에 의해 샘플별 mTDI 값으로 변환된다. mTDI 수식 및 건강성 등급은 기존 TDI 수식의 원리를 따라 기존 방법과 동일한 생태학적 해석이 가능하도록 하였다.

표.x eDNA 검출 부착돌말류를 이용한 mTDI 건강성 등급

등급	표시색	환경 상태	mTDI 범위
A	파랑	매우 좋음	90 ≤ mTDI ≤ 100
B	초록	좋음	70 ≤ mTDI < 90
C	노랑	보통	50 ≤ mTDI < 70
D	주황	나쁨	30 ≤ mTDI < 50
E	빨강	매우 나쁨	0 ≤ mTDI < 30