mem3d [Kor]
Tianfei et al. / Quality-Aware Memory Network for Interactive Volumetric Image Segmentation / MICCAI 2021
Last updated
Tianfei et al. / Quality-Aware Memory Network for Interactive Volumetric Image Segmentation / MICCAI 2021
Last updated
์ฌ์ฉ์ ์ํธ์์ฉ ๊ธฐ๋ฐ์ ์ด๋ฏธ์ง ๋ถํ (Interactive Segmentation)์ ๋ง์ฐ์ค ํด๋ฆญ ํน์ ๋๋๊ทธ ๊ฐ์ ๋ค์ํ ์ฌ์ฉ์ ์ ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ๋์ ์ ํ๋์ ์ด๋ฏธ์ง ๋ถํ ์ ์ป๋ ๋ฌธ์ ์ด๋ค. ์ด๋ฏธ์ง ๋ถํ ์ ๋์ ์ ํ๋๋ฅผ ์๊ตฌํ๋ ์๋ฃ ์ด๋ฏธ์ง ๋ถ์ผ๋, ์ด๋ฏธ์ง ๋ถํ ์ ์ํ ๋ฐ์ดํฐ ๊ตฌ์ถ์ ์ํด ์ฃผ๋ก ์ฌ์ฉ๋๊ณ ์๋ค. 2D ์ด๋ฏธ์ง์์์ Interactive Segmentation์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ์ค๋ ์ฐ๊ตฌ๋์ด ์จ ๋ถ์ผ๋ก Graph Cuts, Random Walker, Geos์ ๊ฐ์ ์ ํต์ ์ธ ๋ฐฉ๋ฒ๋ค์ด ์กด์ฌํ๋ฉฐ, ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ์ ๋ฑ์ฅ์ผ๋ก ๋ ์ ์ ์ํธ์์ฉ ํ์๋ก ๋์ ์ ํ๋๋ฅผ ์ป์ ์ ์๊ฒ ๋์๋ค. ํ์ง๋ง, ์๋ฃ๋ถ์ผ์์ ํํ ์ฌ์ฉ๋๋ 3D ์ด๋ฏธ์ง์์ ์ฌ์ฉ์ ์ํธ์์ฉ์ ํตํด ๋์ ์ ํ๋์ ์ด๋ฏธ์ง ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด์๋ ์ฌ์ฉ์๊ฐ ๋ชจ๋ ์ฌ๋ผ์ด์ค๋ฅผ ๊ฒํ ํ๋ฉฐ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์์ ํด์ผ ํ๋ค. Figure 1๊ณผ ๊ฐ์ด ๋ ๋๋ฉ๋ 3D ์ธ์คํด์ค๋ ์์ ํ ๋ถ๋ถ์ ์ฐพ๊ธฐ ์ด๋ ค์ ์ง์ ์์ ํ๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ์ผ์ชฝ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ฌ๋ผ์ด์ค๋ฅผ ์ผ์ผ์ด ํ์ธํด๊ฐ๋ฉฐ ์์ ํด์ผ ํ๋ค. ๋ฐ๋ผ์, 128x256x256 ์ด๋ฏธ์ง๊ฐ ์๋ค๋ฉด ์ฌ์ฉ์๋ 128์ฅ์ 2D ์ด๋ฏธ์ง๋ฅผ ์์ ํด์ผ ํ๋ค. 3D Interactive Segmentation์ ์ด๋ฌํ 3D ์ด๋ฏธ์ง์์ ์ ์ ์ฌ์ฉ์ ์ํธ์์ฉ์ผ๋ก ๋์ ์ ํ๋๋ฅผ ์ป๋ ๋ฐฉ๋ฒ์ด๋ค.
์ด ๋ ผ๋ฌธ์์๋ ์ฌ์ฉ์๊ฐ ์ธ์คํด์ค์ Bounding Box(BB)๋ฅผ ์น๊ฑฐ๋ ์ธ์คํด์ค์ ๊ฐ์ฅ ์, ์๋, ์ผ์ชฝ, ์ค๋ฅธ์ชฝ์ ํด๋ฆญํ๋ Extreme Points(EP), ๋์ผํ ๋๋๊ทธ์ ๋ํ์ฌ ์ผ๋ง๋ ์ ํํ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋์ง ํ๊ฐํ๋ค. ํ๊ฐ ์ฒ๋๋ Dice Similarity Coefficient๋ฅผ ์ฌ์ฉํ๋ฉฐ ๋ถํ ์์ธก ๊ฒฐ๊ณผ A์, ์ ๋ต B์ ์ผ๋ก ์ ์๋๋ค.
MRI, CT์ ๊ฐ์ 3D ์๋ฃ์ด๋ฏธ์ง์์ ๊ณ ํ์ง์ ์ด๋ฏธ์ง ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด์๋ ๋ชจ๋ Slice๋ฅผ ์ฌ์ฉ์๊ฐ Interactive Segmentation ๊ธฐ๋ฒ์ ์ด์ฉํ์ฌ ๊ฒฐ๊ณผ๋ฅผ ์ป์ด์ผ ํ๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Figure 2์ ๊ฐ์ DeepIGeoS[1] ๋ฑ์ 3D ๋คํธ์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋กํ ๋ฐฉ๋ฒ๋ค์ด ์ ์๋์์ง๋ง, 2D ๋คํธ์ํฌ์ ๋นํด ๋ ๋ง์ ํ๋ผ๋ฏธํฐ์ ๊ณ์ฐ๋์ ํ์๋ก ํ๋ค. ์ ์๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฉ๋ชจ๋ฆฌ ๋คํธ์ํฌ๋ฅผ ์ด์ฉํ 3D Interactive Segmentation ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
(Reviewer) ๋ฌผ๋ก ์ ์๊ฐ ์๊ฐ์ ์ธ ์ธก๋ฉด์์๋ ํจ์จ์ ์ด๋ค ๋ผ๋ ์ ๋ณด๋ฅผ ๊ฒฐ๊ณผ ์น์ ์์ ์ธ๊ธํ๊ธดํ์ง๋ง, ์ธก์ ๋ฐฉ๋ฒ์์ unfairํ๋ค๊ณ ๋๊ปด์ก์ต๋๋ค. ์ด ๋ถ๋ถ์ ๋ค์์ ๋ค๋ฃจ๋๋ก ํ๊ฒ ์ต๋๋ค.
DeepIGeoS[1] ๋ ๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ Interactive Segmentation ์ค 3D ์๋ฃ์ด๋ฏธ์ง๋ฅผ ๋์์ผ๋ก ํ ์ฒซ ๋ ผ๋ฌธ์ด๋ค. ์ ์๊ฐ 3D Interactive Segmentation์ SOTA๋ผ๊ณ ์ธ๊ธํ์์ผ๋ฉฐ ๊ฐ์ฅ ์ค์ํ ๋ฒ ์ด์ค๋ผ์ธ์ด๋ค. Figure 3์ ๊ฐ์ด 3D ์๋ฃ์ด๋ฏธ์ง์ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๊ธฐ ์ํด 2๊ฐ์ 3D ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๋ฉฐ ์ฒซ๋ฒ์งธ ๋คํธ์ํฌ(PNet)๋ ์ฌ์ฉ์ ์ํธ์์ฉ์ ์ฌ์ฉํ์ง ์๊ณ ์๋์ผ๋ก ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๋ค. ๋๋ฒ์งธ ๋คํธ์ํฌ(RNet)์ ์ฌ์ฉ์๊ฐ ์๋์ผ๋ก ๋ถํ ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํด๋ฆญ๋ฑ์ ์ํํ๋ฉด, ํด๋น ์ฌ์ฉ์ ์ํธ์์ฉ์ ์ด์ฉํ์ฌ ์๋์ผ๋ก ๋ถํ ๋ ๊ฒฐ๊ณผ๋ฅผ ์์ ํ๋ค. ์๋ ๋ ผ๋ฌธ์์๋ ์ฌ์ฉ์๊ฐ ๋๋๊ทธํ ์์ ๋ํ Dice Similarity Coefficient๋ฅผ ์ธก์ ํ์ง๋ง, ์ด ๋ ผ๋ฌธ์์๋ Extreme points ํน์ Bounding box๋ฅผ ์ฌ์ฉ์ ์ํธ์์ฉ์ผ๋ก ํ์ฉํ์๋ ์ฑ๋ฅ๋ ๊ฐ์ด ๋ณด๊ณ ํ๋ค.
End to End Memory Networks[2] ๋ ์์ฐ์ด ์ฒ๋ฆฌ ๋ฌธ์ ๋ฅผ External Memory ๋คํธ์ํฌ๋ฅผ ํ์ฉํ์ฌ ํด๊ฒฐํ ๋ ผ๋ฌธ์ด๋ค. ์ด์ ์ ์ป์ ์ ๋ณด๋ค๊ณผ ํด๋น ์ ๋ณด๋ค์ Feature๋ฅผ External Memory์ ์ ์ฅํ๊ณ , ํ์ฌ ์ป์ ์ ๋ณด์ Query Feature๊ณผ External Memory์ ์กด์ฌํ๋ ์ ๋ณด์ Feature๊ฐ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ์ฌ ํ์ฌ ์ ๋ณด์ Feature๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค. ์ด๋ฌํ ๋ฐฉ๋ฒ์ Transformer[3]์ ์ฐ์ฐ์ผ๋ก ์ฌ์ฉ๋๊ณ ์์ด์, Transformer์ Attention Module์ ์ฐ์ฐ์ผ๋ก ์ ์๋ ค์ ธ์๋ค. ํด๋น ๋ ผ๋ฌธ์ ๋ํ ์์ธํ ๋ฆฌ๋ทฐ๋ End to End Memory Networks ํ๊ตญ์ด ๋ฆฌ๋ทฐ ๋ฅผ ์ฐธ๊ณ ํ๊ธธ ๋ฐ๋๋ค.
Interactive Segmentation with Inside and Outside Guidance (IoG)[4] ๋ 2D Interactive Segmentation ๋ฐฉ๋ฒ์ด์ง๋ง, ์ ์๊ฐ 2D ์ด๋ฏธ์ง ๋ถํ ๊ฒฐ๊ณผ๋ฅผ Interactive Segmentation๋ฐฉ๋ฒ์ ํตํด ์ป๊ธฐ ๋๋ฌธ์ ๋ํ์ ์ผ๋ก ์ค๋ช ํ๋ค. Figure 5์ (a)์ ๊ฐ์ด ์ฌ์ฉ์๋ BB๋ฅผ ์น๋ ๊ฒ๋ฟ๋ง ์๋๋ผ, (b)์ ๋นจ๊ฐ ์ ๊ณผ ๊ฐ์ด ๋ถํ ํ๊ณ ์ถ์ ์์ญ์ ํด๋ฆญํด์ผ ํ๋ค. BB๋๋ก ์ด๋ฏธ์ง๋ฅผ ํฌ๋กญํ๊ณ , ์ฌ์ฉ์ ํด๋ฆญ์ ํฌ๋กญ๋ 2D ์ด๋ฏธ์ง์ ๋์ผํ ์ฌ์ด์ฆ์ Tensor๋ก ์ธ์ฝ๋ฉํ๊ณ Concatenateํ์ฌ ๋คํธ์ํฌ์ ์ ๋ ฅ์ผ๋ก ๋ฃ์ด์ค๋ค. ์ธ์ฝ๋ฉ ๋ฐฉ๋ฒ์ผ๋ก ํด๋ฆญ๋ ์ขํ๋ฅผ ์ค์ฌ์ผ๋ก ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๊ทธ๋ฆฌ๊ฑฐ๋, ํฌ๊ธฐ๊ฐ 10~20์ธ ์ ๋ชจ์์ ๊ตฌ์ญ์ 1๋ก ํ์ํ๋ ๋ฐฉ๋ฒ์ด ์ฃผ๋ก ์ฐ์ธ๋ค.
์์ ์ธ๊ธํ 3D Interactive Segmentaiton ๋ฌธ์ ๋ฅผ ํจ์จ์ ์ผ๋ก ํด๊ฒฐํ๊ธฐ ์ํด์ ์ ์๋ 1) 2D ๋คํธ์ํฌ๋ฅผ ์ด์ฉํ์ฌ ์ฌ์ฉ์ ์ ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก 2D ์ฌ๋ผ์ด์ค์ ๋ํ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ณ , 2) ์ป์ด์ง 2D ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ๋๋จธ์ง ์ฌ๋ผ์ด์ค์ ์ ํํ์ฌ 3D ์ด๋ฏธ์ง ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๊ธฐ์กด์ ๋ ผ๋ฌธ๋ค์ 3D ๋คํธ์ํฌ๋ฅผ ์ด์ฉํ์ฌ ํ๋ฒ์ 3D ์ด๋ฏธ์ง์ ๋ํ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ์ง๋ง, ๋ฉ๋ชจ๋ฆฌ ๋คํธ์ํฌ๋ฅผ ์ด์ฉํ์ฌ ๋ถ๋ถ์ ์ธ ์ฌ๋ผ์ด์ค์ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ 3D ๊ณต๊ฐ์ผ๋ก ์ ํํ๋ค๋๊ฒ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ๋ผ์ด์ค์ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ ํํ์๋ ์ฌ์ฉ์๊ฐ ์ด๋ค ์ฌ๋ผ์ด์ค๋ฅผ ์ถ๊ฐ๋ก ์์ ํด์ผ ํ๋์ง ์ถ์ฒํ๋ ๋ฐฉ๋ฒ๋ ์ ์ํ๋ค.
(Reviewer) 3D Network๋ฅผ ์ฐ์ง ์๊ธฐ ์ํด์ 2D Network๋ง์ ํ์ฉํ์ต๋๋ค.
์ฌ์ด์ฆ๊ฐ h x w์ธ ์ฌ๋ผ์ด์ค๊ฐ c๊ฐ๋ก ์ด๋ฃจ์ด์ง ์ ๋ ฅ 3D ์ด๋ฏธ์ง
3D ์ด๋ฏธ์ง์์ i๋ฒ์งธ ์ฌ๋ผ์ด์ค
3D ์ด๋ฏธ์ง์ ๋ํ ๋ถํ ๋ง์คํฌ (Segmentation Mask)
์ฌ์ฉ์ ์ํธ์์ฉ์ ํตํด ์ป์ i๋ฒ์งธ ์ฌ๋ผ์ด์ค์ ๋ํ ๋ถํ ์์ธก ๊ฒฐ๊ณผ
3D ์ด๋ฏธ์ง์ ๋ํ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ์ธ๊ฐ์ง ๊ณผ์ ์ ๋ฐ๋ณตํ๋๋ฐ, ์ ์๋ ์ด๋ฅผ Interactive Segmentation Engine์ด๋ผ ์ธ๊ธํ๋ค.
Initialization ์ ์ ๋ํ ๋ฅผ ์ป๋ ๊ณผ์ ์ด๋ค. ์ฌ๊ธฐ์ ์ฌ์ฉ์ ์ํธ์์ฉ์ ์ฌ์ฉ์ ํด๋ฆญ, BB, EP ๋ฑ ๋ค์ํ ๋ฐฉ์์ด ๋ ์ ์๋ค. ๋ ผ๋ฌธ์์๋ ์ฌ์ฉ์ ๋๋๊ทธ, BB, EP๋ฅผ ํ๋ณด ์ฌ์ฉ์ ์ํธ์์ฉ์ผ๋ก ์ฌ์ฉํ๋ค. Figure 6์ (a)์์ ์ ํตํด ํน์ ์ฌ๋ผ์ด์ค์ ๋ํ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป๋ ๊ณผ์ ์ด๋ค. ์ด๋ BB, EP์ ๊ฒฝ์ฐ ์ด๋ฏธ์ง๋ฅผ ๋ฏธ๋ฆฌ ํฌ๋กญํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค.
Propagation ์ External Memory์ ์กด์ฌํ๋ ์ ๋ณด๋ฅผ ์ด์ฉํ์ฌ ์์ง ์ฌ์ฉ์๊ฐ ์ป์ง ๋ชปํ ์ฌ๋ผ์ด์ค์ ๋ํ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป๋ ๊ณผ์ ์ด๋ค. Initialization ๊ณผ์ ์์ ์ป์ ์ด๋ฏธ์ง์ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ Memory์ ์์ผ๋ก ์ ์ฅํ๊ณ , ๊ฐ ์์๋ฅผ ๋ผ๊ณ ํ๊ธฐํ๋ค.
๊ทธ๋ฆฌ๊ณ 3D ์ด๋ฏธ์ง์์ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ง ๋ชปํ ์ฌ๋ผ์ด์ค ๋ฅผ Resnet ์ธ์ฝ๋ ์ ๋ฃ์ด์ Key, Value Feature๋ฅผ ์ป๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฉ๋ชจ๋ฆฌ์ ์กด์ฌํ๋ ๊ฐ ์์๋ค์ ์ด๋ฏธ์ง์ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ concatenateํ์ฌ Resnet ์ธ์ฝ๋ ์ ๋ฃ์ด์ Key, Value Feature๋ฅผ ์ป๋๋ค. Memory Read Controller ๋ ๊ฐ ํฝ์ ์ Key Feature๊ณผ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅ๋ ํฝ์ ๋ค์ Key Feature๊ณผ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํ ํ, ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ weight๋ก ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅ๋ ํฝ์ ์ Value Feature๋ฅผ ๋ํ์ฌ Query Image ์ ๋ํ Feature Map์ ๊ตฌ์ฑํ๋ค. ์ด Feature Map์ ์์ ๋์จ Value Feature์ concatenate๋์ด ๋์ฝ๋์ ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ์ Query Image ์ ๋ํ ๋ถํ ๊ฒฐ๊ณผ ๋ฅผ ์์ธกํ ์ ์๋ค. ์์ธก๋ ๊ฒฐ๊ณผ๋ ๋ง์ง๋ง์ผ๋ก 3-Layer CNN๊ณผ Fully Connected Network์ ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ์ ํด๋น ๋ถํ ๊ฒฐ๊ณผ์ Dice Coefficient๋ฅผ ์์ธกํ๋๋ฐ ์ฌ์ฉ๋๋ค. ์ด๋ฐ ๋ฐฉ์์ผ๋ก ๋ฐ๋ณต๋ฌธ์ ํตํด ๋ถํ ๋์ง ์์ ์ฌ๋ผ์ด์ค์ ๋ํ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
(Reviewer) Github์์ ์ฝ๋๋ฅผ ์ง์ ์ด์ด๋ณด๋ฉด ๋ฐ๋ณต๋ฌธ์ ํตํด ๋ชจ๋ ์ฌ๋ผ์ด์ค์ ๋ํ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์์ธกํฉ๋๋ค(๋ณ๋ ฌ์ ์ผ๋ก ๊ฐ๋ฅํ ๊ฒ ๊ฐ๊ธดํ๋ฐ Memory entry์ Feature๊ฐ ์ ๋ถ GPU Memory๋ก ๋ก๋ ๋์ด์ผ ํ๋ ์ํฉ์ด๋ผ ๋ฏธ์ง์์ ๋๋ค.). RNN์ ๋จ์ ์ผ๋ก ์ง์ ๋๋ Sequential Property๊ฐ ์ด ๋ฐฉ๋ฒ์๋ ๋๊ฐ์ด ์ ์ฉ๋๋ค๊ณ ์๊ฐํฉ๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํฐ ๊ฒฝ์ฐ์ ์น๋ช ์ ์ธ ๋จ์ ์ผ๋ก ๋ค๊ฐ์ต๋๋ค. ์ด ์ ์๋ ์คํ์ NVIDIA 2080 Ti๋ฅผ ์ฌ์ฉํ๋๋ฐ, ๋ฉ๋ชจ๋ฆฌ๊ฐ ์๊ธฐ๋๋ฌธ์ 3D Network๋ฅผ ์ฌ์ฉํ์๋ ๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์์ต๋๋ค. 3D Network๋ฅผ ์ฌ์ฉํ๊ฒ ๋๋ฉด ๋ฉ๋ชจ๋ฆฌ ์ด๊ณผ๋ก ํ์ ๋ฉ๋ชจ๋ฆฌ์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๋ฉฐ ์ต์ข ๊ฒฐ๊ณผ๋ฅผ ์์ธกํ๊ธฐ๋๋ฌธ์ ๋ถํ์ํ ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ฆฌ์ง๋ง, V100๊ณผ ๊ฐ์ด 20~30GB ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ ๊ณตํ๋ GPU๋ฅผ ์ฌ์ฉํ๋ค๋ฉด 3D Network๋ฅผ ์ฌ์ฉํ์๋ ์ฌ๊ธฐ์ ์ ์๋ ๋ฐฉ๋ฒ๋ณด๋ค ๋น ๋ฅด๊ฒ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ ๊ฒ์ด๋ผ ์๊ฐํฉ๋๋ค.
์ค์ ๋ก UNet ๊ธฐ๋ฐ ๋ชจ๋ธ์ 3090 GPU๋ก ์คํ์์ผ์, Response time๋ฅผ ์ธก์ ํด๋ดค๋๋ฐ Generic UNet์ ๊ฒฝ์ฐ 1์ด ๋ด์ธ, UResNet์ ๊ฒฝ์ฐ 1.5์ด ์ ๋ ๊ฑธ๋ฆฝ๋๋ค.
Refinement ๋ ์์ธก๋ Dice Coefficient๊ฐ ๋ฎ์ ์ฌ๋ผ์ด์ค๋ฅผ ์ฌ์ฉ์์๊ฒ ์ํธ์์ฉ์ ์ ๊ณตํด๋ฌ๋ผ๊ณ ์์ฒญํ๋ ๊ณผ์ ์ด๋ค. ๊ทธ๋ฆฌ๊ณ ํด๋น ์ฌ๋ผ์ด์ค์ ๋ํด ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป๋ Initialization์ผ๋ก ๋์๊ฐ ์ด ์ธ ๊ณผ์ ์ ๋ฐ๋ณตํ๊ฒ ๋๋ค.
Medical Segmentation Decathlon (MSD)
Lung Cancer (64/32 for train/valid)
Colon Cancer(126/64 for train/valid)
KiTS 2019
Kidney Organ (168/42 for train/valid)
Kidney Tumor (168/42 for train/valid)
Non-interactive segmentation methods
C2FNAS (CVPR 2020) [5]
3D nnU-Net (Nature Methods) [6]
Interactive segmentation methods
Interactive 3D nnU-Net (Nature Methods) [6]: ์ ์๊ฐ Input์ ์ฌ์ฉ์ ์ํธ์์ฉ ์ฑ๋์ ์ถ๊ฐํ์ฌ ์ฌ์ฉํ๋ค.
DeepIGeoS (TIPAMI 2018) [1]
Interaction ์ข ๋ฅ๋ฅผ ์ธ ๊ฐ๋ก ์ง์ ํ๋ค. 1) Scribbles (๋ฐ์ดํฐ ๋ง๋ค ๋ฏธ๋ฆฌ ์ง์ ๋์ด ์์ต๋๋ค.), 2) BB, 3) EP. ๊ทธ๋ฆฌ๊ณ Initialization, Propagation,Refinement ์ธ ๊ณผ์ ์ ์ด 6๋ฒ ๋ฐ๋ณตํ์ฌ ๋์จ Dice Coefficient๋ฅผ ๋ณด๊ณ ํ๋ค. ๋ฒ ์ด์ค๋ผ์ธ ๋ฐฉ๋ฒ๋ค ๋๋น Lung Cancer์์๋ 5์ , Colon Cancer์์๋ 5~10์ ์ ๋ ์ฐจ์ด๊ฐ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ ๋ฐ์ดํฐ์ ์์๋ ์ฌ์ฉ์ ์ํธ์์ฉ์ ์ฌ์ฉํ์ง ์๋ ๋คํธ์ํฌ๋ณด๋ค ๋์ ์ ํ๋๋ฅผ ๋ณด์ฌ์ค๋ค. ํ์ง๋ง, Kidney Organ์์๋ Non-interactive Methods์์ ์ ํ๋๊ฐ ๋์ ๊ฒ์ ํ์ธํ ์ ์๋๋ฐ, ๋ณดํต 95% ์ ๋๋ฉด ๊ฑฐ์ ์์ ํ ๋ถ๋ถ์ด ๋ณด์ด์ง ์์ต๋๋ค. ์ ๋ต์ ๊ฐ๊น์ด ์ํ์์ ์์ ํ๋ ค๋ ์๋๊ฐ ์ ์ํฅ์ ๋ผ์ณค์์ ์ ์ ์๋ค. ํ์ง๋ง, Organ๋ณด๋ค ๋ ์ด๋ ค์ด ๋ฐ์ดํฐ์ ์ธ Tumor์์๋ ์ฌ์ฉ์ ์ํธ์์ฉ์ ํ์ฉํ์๋ ๋ ์ฑ๋ฅ์ด ๋์๊ฒ์ ํ์ธํ ์ ์๋ค. ํ์ง๋ง, ๋ฒ ์ด์ค๋ผ์ธ ๋ฐฉ๋ฒ๋ค๊ณผ ์ฐจ์ด๊ฐ Lung, Colon์ ๋นํด ๋์ง ์๋๋ค.
Table 2๋ ์์ธกํ Dice Coefficient๋ฅผ ๊ธฐ๋ฐ์ผ๋กํ ์ถ์ฒ ๋ฐฉ๋ฒ์ด ๋๋ค์ผ๋ก ์ฌ๋ผ์ด์ค๋ฅผ ์ถ์ฒํ์๋๋ณด๋ค ๋ ์ข๊ณ , ์ ๋ต๊ณผ Dice Coefficient๋ฅผ ์ธก์ ํ์ฌ ๊ฐ์ฅ ์ง์ด ์ข์ง ์์ ์ฌ๋ผ์ด์ค๋ฅผ ์ถ์ฒํ์๋์ ๊ฑฐ์ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค์ ๋ณผ ์ ์๋ค.
Table3๋ ๋ ๋ง์ ์ฌ๋ผ์ด์ค๋ฅผ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํ ์๋ก ์ฑ๋ฅ์ด ์ฌ๋ผ๊ฐ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. External Memory๋ฅผ ์ด์ฉํ์ฌ Propagation์ ์ํํ ๋ ๋ ๋ง์ ์ ๋ณด๋ฅผ ์ฌ์ฉ์๊ฐ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํ ์๋ก ์ข์ ์ฑ๋ฅ์ ๋์ ์ ์ ์๋ค.
512x512x100 ์ด๋ฏธ์ง๋ฅผ ๋์์ผ๋ก NVIDIA 2080Ti GPU๋ฅผ ์ฌ์ฉํ์ฌ ์์ธก์ ์งํํ๋ค. ํ๋ฒ์ ๋ผ์ด๋๋ฅผ ๊ฑฐ์น๋๋ฐ 5.13์ด ๊ฑธ๋ ธ๋ค. ํ์ง๋ง, Interactive 3D nn-UNet์ ์ฌ์ฉํ์๋ 200์ด๊ฐ ๊ฑธ๋ ธ๋ค๊ณ ํ๋ค.
(Reviewer) ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ ์ ๋คํธ์ํฌ๋ฅผ ์จ์ ํ์ ๋ฉ๋ชจ๋ฆฌ์ IO๋ฅผ ๋ฐ๋ณตํ์ฌ Interactive 3D nn-UNet์ ์์์๊ฐ์ด ๋๊ฒ ์ธก์ ๋๊ฒ ๊ฐ์ต๋๋ค. V100๊ณผ ๊ฐ์ด ๋ฉ๋ชจ๋ฆฌ๊ฐ ํฐ GPU๋ฅผ ์ฌ์ฉํ ๋์๋ ์ด๋ ๊ฒ ์ค๋ ์๊ฐ์ด ๊ฑธ๋ฆฌ์ง ์์ ๊ฒ์ผ๋ก ์์ํฉ๋๋ค. ์ ์๊ฐ ๋ฌธ์ ๋ฅผ ํ๋ผ๋ฏธํฐ ๊ฐ์ ๋ฑ ๊ณต๊ฐ์ ์ธ ๋นํจ์จ์ ์ง์ ํ๊ธฐ๋๋ฌธ์ 2080Ti๋ฅผ ์ฌ์ฉํ์ฌ ์คํ์ ํ ๊ฒ์ด ์ ๋นํ๋ค๊ณ ์๊ฐํ์ง๋ง, 200์ด๋ก ์ ์ํ๋๊ฒ ์ข์ ๋ฐฉ๋ฒ์ธ์ง๋ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ DeepIGeoS์ ๋ํ ์คํ์๊ฐ๋ํ ์ ์ง์์๊ฒ๋ ์ฐ์ฐํฉ๋๋ค.
3D Interactive Segmentation ๋ฐฉ๋ฒ์์ 3D Network์ ํ๋ผ๋ฏธํฐ๋ ์ฐ์ฐํ์์ ๋นํจ์จ์ ํด๊ฒฐํ๊ธฐ ์ํด 2D Network์ ๋ฉ๋ชจ๋ฆฌ ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๋ค. 3D Interactive Segmentation์ SOTA ๋ฐ Non-interactive Segmentation ๋ฐฉ๋ฒ ๋๋น ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆฌ๊ณ Dice Coefficient๋ฅผ ์์ธกํ์ฌ ๊ฒฐ๊ณผ๊ฐ ์ข์ง์์ ์ฌ๋ผ์ด์ค๋ฅผ ์ถ์ฒํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋๋ฐ, ์ ๋ต๊ณผ Dice Coefficient๋ฅผ ์ธก์ ํ์ฌ ์ฌ๋ผ์ด์ค๋ฅผ ์ถ์ฒํ๋ ๋ฐฉ๋ฒ๊ณผ ๊ฑฐ์ ์ ์ฌํ ์ ํ๋๋ฅผ ๊ฐ์ง๋ค. NVIDIA 2080Ti GPU๋ฅผ ์ฌ์ฉํ์๋ ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ณด๋ค ๋น ๋ฅธ ์คํ์๊ฐ์ ๊ฐ์ง์ ๋ณด์ฌ์ค๋ค.
3D ์ด๋ฏธ์ง์ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด 2D Network๋ฅผ ์ฌ์ฉํ์๋ ๋์ ์ ํ๋๋ฅผ ์ป์ ์๋ ์์.
Dice Coefficient๋ฅผ ์์ธกํ๋ ๊ฒ์ด ๊ฐ๋ฅํจ.
์ ํํ ๋ถํ ๊ฒฐ๊ณผ๋ฅผ ์ป์์๋ ์ฌ์ฉ์ ์ํธ์์ฉ์ ์ถ๊ฐ๋ก ์ ๊ณตํ๋๊ฒ ์ ์ํฅ์ ๋ผ์น ์ ์์.
์ฌ๊ทํ (Gyuhyeon Sim)
KAIST AI, Letsur Inc.
์ฐ๊ตฌ์ค์ ๋์จ ๋ํ์์
ghsim @ {kaist.ac.kr, letsur.ai}
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
[1] Wang, Guotai, et al. "DeepIGeoS: a deep interactive geodesic framework for medical image segmentation." IEEE transactions on pattern analysis and machine intelligence 41.7 (2018): 1559-1572.
[2] Sukhbaatar, Sainbayar, et al. "End-to-end memory networks." arXiv preprint arXiv:1503.08895 (2015).
[3] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.
[4] Zhang, Shiyin, et al. "Interactive object segmentation with inside-outside guidance." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[5] Yu, Qihang, et al. "C2fnas: Coarse-to-fine neural architecture search for 3d medical image segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[6] Isensee, Fabian, et al. "nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation." Nature methods 18.2 (2021): 203-211.