ICT 영상 수집 기술로 생태계 생존에 필요한 중요 기초 자료 마련

[보안뉴스= 한수연 에스엠시스템즈 이사, 총괄 PM] 다양한 매체를 통해 ‘꿀벌이 사라져 간다. 꿀벌의 감소는 인류 생존을 위협한다’는 기사를 접해본 적이 있을 것이다. 한국지능정보사회진흥원(NIA) 과제 기획자들은 이러한 꿀벌의 감소가 미래 생태계와 인류의 생존에 미치는 심각한 영향을 인지해 53번 과제로 2023년도 인공지능 학습용 데이터 사업에 ‘꿀벌 질병 진단 이미지 구축’을 포함시켰다.

[이미지 = gettyimagesbank]

에스엠시스템즈는 꿀벌 전문가 집단과 함께 실제 양봉 현장 방문, 양봉주들과의 인터뷰 등을 통해 꿀벌 질병 관련 데이터 현황 파악 및 사업 추진의 가능성을 타진했다. 그동안의 벌통 내부 질병 데이터는 실험실 환경에서 배양해 얻은 이미지들이 주를 이루고 있었고, 실험도 실내에서만 진행됐다는 사실도 알 수 있었다. 이러한 실험실 기반 이미지들은 실제 벌통 내부의 복잡한 환경을 반영하지 못하며, 질병 진단에 필수적인 다양한 변수들을 포함하기 어려워 실제 현장과는 다른 특성을 보이기도 한다.

에스엠시스템즈 컨소시엄은 현장 실사와 전문가들과의 논의를 통해 ‘꿀벌 질병은 이미지뿐만 아니라 냄새와 형태, 반응, 전문검사 등이 병행돼야 질병을 확정할 수 있음’을 확인했다. 행동으로 예측할 수 있는 질병과 벌통 출입구(소문)에서 확인 가능한 질병이 있음도 확인했다. 그 외에 벌통 내외부의 온도·습도·이산화탄소량 등이 질병 확산에 영향을 미친다는 사실도 알게 됐다.

사업 추진 일정상 원시데이터 취득 기간이 2개월로 짧았고, 계절이 여름에서 가을로 넘어가는 시기에 취득할 수 있는 질병이 한정적일 수 있었으나 실제 양봉농장 벌통 안에서 질병 데이터를 취득하는 것은 최초였으므로 가능성을 최대한 열어놓고 질병의 종류와 수량을 제안하기로 했고 실제 현장에서의 데이터 구축을 위해서 우선 꿀벌 전문가들과 질병의 유형을 정의했다.

▲그림 1. 컨소시엄 구성과 역할[이미지=에스엠시스템즈]

그림1과 같이 에스엠시스템즈가 주관해 비젼인, 호서대학교산학협력단, 대한꿀벌수의사회 및 한국양봉농협을 컨소시엄으로 구성해, 8:1의 경쟁에서 1위로 선정됐다.

꿀벌 질병을 영상분석 관점에서의 분류 가능하도록 원시데이터 취득
꿀벌 질병 데이터 수집 기간이 7월~9월에 국한돼 수집 기간 내 확실하게 취득 가능한 질병 종류와 수량으로 재논의해 정상과 질병 4종(응애, 부저, 석고, 날개불구바이러스)으로 축소 조정했다.

신뢰도 높은 데이터 수집을 위해, 실환경에서의 데이터 취득 취지에 적합한 촬영 도구와 방법을 수차례 수정해 특수 제작된 카메라 및 센서 장비 장착해 그림 2 및 그림 3과 같이 수집기를 과제에 맞게 구축해 사용했다.

▲그림 2. 확정된 촬영도구 1[이미지=에스엠시스템즈]

▲그림 3. 확정된 촬영도구 2 및 수집도구[이미지=에스엠시스템즈]

애벌레의 진드기 질병 감염 여부는, 소방(벌방)에서 애벌레를 무작위로 꺼내어 일일이 감염의 여부를 확인해 원시데이터를 확보했다. 아울러, 소문(벌통 입구)을 출입하는 성충들도 동영상 데이터 취득해 질병 감염 여부와 질병에 대한 분류가 가능할 수 있도록 했다.

벌의 질병 발생 및 확산 원인이 외부 감염 등의 변수와 더불어 주변 환경에도 영향을 받기 때문에 데이터 구축 시 환경 변수를 내부 온도, 외부 온도, 내부 습도, 외부 습도, 내부 이산화탄소농도로 정의하고 이 메타데이터를 함께 취득해, 질병의 감염 여부 및 예측 연구를 위해 사용할 수 있는 학습데이터를 만들었다.

원시데이터의 가공
라벨링과 단계별 검수를 위한 가이드를 만들어 가공 절차에 적용해 라벨링을 진행했다. 이 가이드 문서는 AIhub에 개방 예정인데, 기존에 학문적으로 정리하지 못했던 증상들을 살펴볼 수 있는 의미 있는 중요한 자료이다.

가상화와 컴퓨팅 전문기업 에스엠시스템즈와 크라우드워커 플랫폼 전문기업 베네솔루션은 정제, 라벨링, 검수를 포함한 워커 운영 플랫폼을 단시간 내에 구축 개발해 전체 가공 절차를 정확하게 진행할 수 있도록 했고, 이를 기반으로 라벨러 임금 정산 또한 투명하게 정산할 수 있도록 하나의 환경으로 구현했다.

구축된 데이터의 모델과 학습
꿀벌 질병 데이터는 사업 참여 전 테스트 검증, 사업 초기 1-cycle 검증, 최종 검증 과정을 통해 구축 품질에 대해 평가했다. 특히, 최종 검증 시 의미정확성 95.8%, 구문정확성 100% 등의 평가를 받아 ‘학습용으로 충분히 사용될 수 있음’이라는 평가를 받았다.

이때 사용했던 라벨링 방식은 바운딩박스와 이미지 캡셔닝을 진행했고 이미지 캡셔닝은 1만건에 대해 주석 작업을 진행했으며, YOLOv8 네트워크모델을 사용해 학습했다. YOLOv8 모델은 많은 기업이 사용하고 있고 연구가 활발해 안정성을 가지고 있는 장점이 있으며 타 객체 검출 네트워크에 비교해 인식률이 낮은 단점이 있으나, 실시간 인식 속도가 빠르다는 속성이 강해 사용했다.

꿀벌 질병의 이미지 탐지와 예측을 위해 두 가지 AI 모델을 사용했다. 꿀벌 질병의 빠르고 정확한 탐지를 위해 YOLOv8 기반에 modified SCPDarknet32 backbone 구조 결합한 모델에 spatial pyramid pooling fast(SPPF) layer를 적용해 고정된 크기의 map pooling을 수행해 연산 속도를 가속하는 모델을 사용했다.

▲그림 4. Triple CNNs (ResNet) for timeseries Network[이미지=에스엠시스템즈]

꿀벌 질병 예측을 위한 Network 설계는 AST의 모형을 참고해 설계를 진행했고(그림 4), 환경변수를 Time Frequency 형태로 이미지화하고 이를 CNN의 입력 데이터로 활용했다. 이러한 방식은 시계열 데이터를 이미지 데이터로 변환 후 CNN이 시계열의 패턴을 보다 효과적으로 학습할 수 있도록 해 모델의 학습 효율성과 예측 정확성을 높일 수 있었다.

꿀벌 질병 예측의 출력값은 각 이미지의 분류(객체) 이며 이는 정상, 응애, 날개불구바이러스감염증, 석고병, 부저병으로 나타난다.

Ground Truth(정답값)은 이미지의 분류 정보이며 추가 질병 정보는 라벨링데이터의 메타데이터로 포함된 PCR 검사 정보에서 확인할 수 있다.

▲그림 5. 질병 탐지 및 예측 모델 성능 지표[이미지=에스엠시스템즈]

▲그림 6. 질병 탐지 및 예측 모델 성능 측정 결과[이미지=에스엠시스템즈]

이 모델의 성능지표(그림 5)는 mAP 기준 0.5, Accuracy 기준 70% 이상을 정의해 구축된 데이터로 학습했고, 그 결과 각각 80%, 86%의 결과를 달성했다(그림 6). 특히 객체가 작고 좁은 공간에서 취득되는 영상으로도 이 수준을 달성하기는 쉽지 않은 일이기에 자부심을 갖고 있다.

데이터의 응용 연구
본 데이터의 구축 의의는 벌통 내 질병 진단에 관련된 현장 이미지 데이터가 전무한 상황에서 획기적인 전환점을 마련하는 데이터를 구축한 것이다. 벌통 내 질병 이미지에 기반한 인공지능 데이터는 꿀벌 질병 관련 애플리케이션 등의 서비스 개발에 활용돼 양봉 산업에 실질적인 변화를 가져올 것이다. 꿀벌 질병의 조기 발견과 대응에 필요한 정보를 제공하며, 꿀벌 및 벌통 관리를 효율적으로 만드는 데 계기를 마련할 것으로 보인다.

해당 데이터는 다음의 형태로 활용될 수 있다. 첫째, 조기 질병 탐지 시스템에 활용. 특정 본 데이터로 학습된 라이브러리를 포함한 애플리케이션을 만들어 벌통 내부의 영상과 센서 데이터를 넣으면, 질병의 초기 징후를 식별할 수 있다. 이 결과를 실시간으로 양봉주에게 알림을 보내, 적절한 예방 치료를 취하게 해, 질병으로 인한 피해를 최소화하고 확산을 방지할 수 있을 것이다.

둘째, 전주기적 패턴화된 질병 예방 관리 프로그램 개발에 활용. 위에서 언급한 케이스가 다양한 형태로 누적된다면 과거와 현재 데이터를 비교 분석하고 환경변화를 변수 처리해 ‘꿀벌 질병의 패턴화’의 자료를 도출할 수 있다. 이를 통해 양봉 농가들은 예방 관리 계획을 수립할 수 있으며, 환경과 시기적 변화에 정형화된 예방 관리 프로세스를 운영할 수 있을 것이다.

셋째, 궁극적으로 양봉 농가의 생산성 향상에 기여. 질병 모니터링 예방을 통해 벌통 내 꿀벌의 건강을 유지하는 데 도움을 줄 것이고 건강한 꿀벌은 양질의 꿀을 생산하는 데 기여할 것이며 궁극적으로 양봉 농가의 수익성 증대까지 이를 것으로 보인다.

마지막으로, 벌의 개체 증가를 통해 인류가 걱정하는 식량자원의 고갈 문제 해결에 일조할 것이다. 더 많은 꿀벌이 더 많은 식물에 수분(受粉)의 기회를 제공해 더 많은 농작물의 열매를 생산하게 하고, 이를 통해 국민의 먹거리 감소에 대한 걱정을 일소하는데 기여할 것이다.

결론
에스엠시스템즈가 주관해 구축한 본 학습용 데이터는 NIA의 최종 점검 이후, 2024년 상반기 말에 한국지능정보사회진흥원이 운영하는 AI 통합플랫폼 ‘AIhub’를 통해 공개될 예정이다.

‘꿀벌 질병 진단 이미지 학습용 데이터 구축’ 프로젝트는 다양한 꿀벌 질병 연구를 위한 중요한 출발점을 마련했다고 생각한다. 우리가 구축한 데이터는 앞으로 꿀벌 질병 연구의 근간을 이룰 것으로 보이며, 이번 사업을 통해 발견된 한계점들은 후속 프로젝트를 통해 세심하게 보완되고 확장되기를 기대한다. 이러한 우리의 노력이 인류가 더 건강하고 행복한 환경에서 생활할 수 있는 토대를 마련하는 데 기여할 것이라 확신한다.
[글_한수연 에스엠시스템즈 이사, 총괄 PM]