Scene Text Telescope: Text-focused Scene Image Super-Resolution [Kor]
Chen et al. / Scene Text Telescope - Text-focused Scene Image Super-Resolution / CVPR 2021
English version of this article is available.
1. Problem definition
Scene Text Recognition (STR)๋, ์ผ์์ ์ธ ํ๊ฒฝ ์ด๋ฏธ์ง์์ ๊ธ์๋ฅผ ์ธ์ํ๋ task์ ๋๋ค.
(ํ์ฉ ์์: ์ด์ ๋ฉดํ์ฆ์ ์๋ ๋ฌธ์ ์ฝ๊ธฐ, ID card์์์ ๊ธ์ ์ธ์, etc)
์ต๊ทผ STR๋ถ์ผ์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ์ง๋ง, ์ ํด์๋(Low-Resolution, ์ดํ LR) ์ด๋ฏธ์ง์์๋ ์์ง๊น์ง๋ ๋ง์ ์ฑ๋ฅ ๊ฐ์ ์ด ํ์ํฉ๋๋ค.
ํ์ง๋ง ์ค์ํ์์ LR ํ ์คํธ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๋ ๊ฝค๋ ๋ง์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ด์ ์ด ์ ๋ง์ง ์๋ ์นด๋ฉ๋ผ๋ก ์ฐ์ ์ด๋ฏธ์ง๋ ์ฉ๋์ ์ค์ด๊ธฐ ์ํด ๋ถ๊ฐํผํ๊ฒ ์์ถ๋ ํ ์คํธ ์ด๋ฏธ์ง๋ค์ด ์์ต๋๋ค.
โ ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ๋ ผ๋ฌธ์์๋ ํ ์คํธ์ ์ด์ ์ ๋ง์ถ ์ดํด์ํ (Super-Resolution, ์ดํ SR) ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค.
2. Motivation
Related work
Scene Text Recognition
Shi, Baoguang, Xiang Bai, and Cong Yao. "An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition." IEEE transactions on pattern analysis and machine intelligence 39.11 (2016): 2298-2304.
: ์ด ๋ ผ๋ฌธ์์๋ CNN๊ณผ RNN์ ๊ฒฐํฉํ์ฌ ํ ์คํธ ์ด๋ฏธ์ง์์ sequentialํ ํน์ง์ ๊ตฌํ์ผ๋ฉฐ, CTC decoder [1]๋ฅผ ์ฌ์ฉํ์ฌ ground truth์ ๊ฐ์ฅ ๊ฐ๊น๊ฒ ์ ๊ทผํ ์ ์๋ path๋ฅผ ์ ํํ ํ๋ฅ ์ ์ต๋ํํ๋ค๊ณ ํฉ๋๋ค.
Shi, Baoguang, et al. "Aster: An attentional scene text recognizer with flexible rectification." IEEE transactions on pattern analysis and machine intelligence 41.9 (2018): 2035-2048.
: ์ด ๋ ผ๋ฌธ์์๋ Spatial Transformer Network๋ฅผ ์ฌ์ฉํ์ฌ ํ ์คํธ ์ด๋ฏธ์ง๋ฅผ ์ด๋์ ๋ rectifyํ๊ณ attention mechanism์ ํ์ฉํ์ฌ ๊ฐ ํ์์คํ ๋ง๋ค ํน์ ๋ฌธ์์ ์ด์ ์ ๋์๋ค๊ณ ํฉ๋๋ค.
โ ํ์ง๋ง ์์ ๋ ผ๋ฌธ๋ค ๊ฒฝ์ฐ ์ด๋ฏธ์ง์์ ํ์ด์๋(curved) ํ ์คํธ๋ค์ ์ฒ๋ฆฌํ๊ธฐ์๋ ์ ํฉํ์ง ์๋ค๊ณ ํฉ๋๋ค.
Text Image Super-Resolution
Mou, Yongqiang, et al. "Plugnet: Degradation aware scene text recognition supervised by a pluggable super-resolution unit." Computer VisionโECCV 2020: 16th European Conference, Glasgow, UK, August 23โ28, 2020, Proceedings, Part XV 16. Springer International Publishing, 2020.
: ์ด ๋ ผ๋ฌธ์์๋ multi-task ํ๋ ์์ํฌ๋ฅผ ๊ณ ์ํ์ฌ text-specificํ ํน์ง๋ค์ ๊ณ ๋ คํ์๋ค๊ณ ํฉ๋๋ค.
Wang, Wenjia, et al. "Scene text image super-resolution in the wild." European Conference on Computer Vision. Springer, Cham, 2020.
: ์ด ๋ ผ๋ฌธ์ ๊ฒฝ์ฐ์๋ text SR ๋ฐ์ดํฐ์ ์ธ _TextZoom_์ ์ ์ํ๊ณ , _TSRN_์ด๋ผ๋ SR๋คํธ์ํฌ๋ฅผ ์ ์ํ์ต๋๋ค.
โ ํ์ง๋ง, ์ด ๋๊ฐ์ง ๋ ผ๋ฌธ์ ๊ฒฝ์ฐ ์ด๋ฏธ์ง์ ๋ชจ๋ ํฝ์ ์ ๊ณ ๋ คํ๊ธฐ ๋๋ฌธ์ ๋ฐฐ๊ฒฝ์ผ๋ก ์ธํ disturbance ๋ฌธ์ ๊ฐ ์๊ธธ ์ ์์ผ๋ฉฐ, ์ด๋ ํ ์คํธ๋ฅผ upsamplingํ์ ๋ ์ฑ๋ฅ ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ ์ ์๋ค๊ณ ํฉ๋๋ค.
Idea
๊ธฐ๋ณธ์ ์ผ๋ก, ๋ณธ ๋ ผ๋ฌธ์์๋ Scene Text Telescope (ํ ์คํธ์ ์ด์ ์ ๋ง์ถ SR ํ๋ ์์ํฌ)๋ฅผ ์ ์ํฉ๋๋ค.
๋จผ์ , ์์์ ๋ฐฉํฅ์ผ๋ก ํ์ ๋์ด์๋ ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด, TBSRN (Transformer-Based Super-Resolution Network) ์ ๊ณ ์ํ์ฌ ํ ์คํธ์ sequentialํ information์ ๊ณ ๋ คํ์ต๋๋ค
๋ํ, ์์์ ์ธ๊ธํ๋ ์ด๋ฏธ์ง ๋ฐฐ๊ฒฝ์ผ๋ก ์ธํ disturbance๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, SR์ ์ด๋ฏธ์ง ์ ์ฒด์ ์ง์คํ์ฌ ํ๊ธฐ๋ณด๋ค๋ ํ ์คํธ์ ์ด์ ์ ๋์์ต๋๋ค. ๋ฐ๋ผ์, ํ ์คํธ ๊ฐ ๋ฌธ์์ position๊ณผ content๋ฅผ ๊ณ ๋ คํ๋ Position-Aware Module ๊ณผ Content-Aware Module ์ ๋์์ต๋๋ค.
๋์๊ฐ, LR ์ด๋ฏธ์ง์์ ํท๊ฐ๋ฆด ์ ์๋ ๋ฌธ์๋ค์ ๊ณ ๋ คํ์ฌ Content-Aware Module ์์ weighted cross-entropy loss ๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
์ถ๊ฐ์ ์ผ๋ก, ์๋์ ๋ ผ๋ฌธ๋ค์ ๋ณธ ๋ ผ๋ฌธ์ Model ๊ณผ Evaluation์์ ์ฐธ๊ณ ๋ ๋ ผ๋ฌธ๋ค์ ๋๋ค.
Luo, Canjie, Lianwen Jin, and Zenghui Sun. "Moran: A multi-object rectified attention network for scene text recognition." Pattern Recognition 90 (2019): 109-118.
Shi, Baoguang, Xiang Bai, and Cong Yao. "An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition." IEEE transactions on pattern analysis and machine intelligence 39.11 (2016): 2298-2304.
Shi, Baoguang, et al. "Aster: An attentional scene text recognizer with flexible rectification." IEEE transactions on pattern analysis and machine intelligence 41.9 (2018): 2035-2048.
Wang, Wenjia, et al. "Scene text image super-resolution in the wild." European Conference on Computer Vision. Springer, Cham, 2020.
3. Method
Scene Text Telescope ๋ ํฌ๊ฒ ์๋์ ์ธ๊ฐ์ง ๋ชจ๋๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
โ Pixel-Wise Supervision Module + Position-Aware Module + Content-Aware Module
Pixel-Wise Supervision Module
๋จผ์ , LR ์ด๋ฏธ์ง๋ [2]์์ ์ธ๊ธ๋์๋ misalignment ๋ฌธ์ ํด๊ฒฐ์ ์ํด STN (Spatial Transformer Network) ์ ํต๊ณผํฉ๋๋ค.
๊ทธ ํ, rectified๋ ์ด๋ฏธ์ง๋ TBSRN ์ ํต๊ณผํฉ๋๋ค. TBSRN ์ ๊ตฌ์ฑ์ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ต๋๋ค.
TBSRN (Transformer-based Super-Resolution Networks)
CNN ร 2 : feature map์ ์ถ์ถํ๊ธฐ ์ํ ๋ถ๋ถ
Self-Attention Module : sequentialํ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ๊ธฐ ์ํ ๋ถ๋ถ
2-D Positional Encoding : spatial / positionalํ ์ ๋ณด๋ฅผ ๊ณ ๋ คํด์ฃผ๋ ๋ถ๋ถ
๋ง์ง๋ง์ผ๋ก, ์ด๋ฏธ์ง๋ pixel-shuffling ์ ํตํด SR๋ก upsampling๋ฉ๋๋ค.
+) ํด๋น ๋ชจ๋์์, loss๋
์ผ๋ก ํํ๋๋ฉฐ, ์ด๋
์ ๊ฐ๊ฐ HR์ด๋ฏธ์ง์ SR์ด๋ฏธ์ง์
๋๋ค.
Position-Aware Module
Position-Aware ๋ชจ๋์์๋ ๋จผ์ synthetic ํ ์คํธ ๋ฐ์ดํฐ์ (Syn90k [3], SynthText [4], etc) ์ ์ด์ฉํ์ฌ ํธ๋์คํฌ๋จธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ recognition ๋ชจ๋ธ์ pre-train์ํต๋๋ค.
์ด๋, ๊ฐ time-step์ attending region์ positional clue๋ก ์ฌ์ฉํฉ๋๋ค.
HR ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ก์ ๋, ํธ๋์คํฌ๋จธ์ output์ attention map๋ค์ ๋ฆฌ์คํธ ํํ์ ๋๋ค. ๋ค์ ๋งํด, output์
๋ก ํํ๋ ์ ์๋๋ฐ, ์ด ๋
๋ i๋ฒ์งธ time-step์์์ attention map์ด๋ฉฐ,
์ text label์ ๊ธธ์ด์
๋๋ค.SR์ด๋ฏธ์ง ๋ํ ํธ๋์คํฌ๋จธ๋ฅผ ํต๊ณผ์์ผ
๋ฅผ ๊ตฌํฉ๋๋ค.
์์ ๊ณผ์ ์์ ๊ตฌํ attention map๋ค๋ก L1 loss ๋ฅผ ๊ณ์ฐํฉ๋๋ค.

Content-Aware Module
ํด๋น ๋ชจ๋์์๋ ๋จผ์ , EMNIST [5]๋ฅผ ์ด์ฉํ์ฌ VAE (Variational Autoencoder) ๋ฅผ ํ์ต์์ผ ํ ์คํธ ๊ฐ ๋ฌธ์์ 2์ฐจ์ latent representaion์ ๊ตฌํฉ๋๋ค.
๊ฐ time-step๋ง๋ค pre-train๋ ํธ๋์คํฌ๋จธ์ ๊ฒฐ๊ณผ๊ฐ (
)๊ณผ ground-truth label์ ๋น๊ตํฉ๋๋ค.์ฆ,
(content loss)๋ ์๋์ ๊ฐ์ด ๊ณ์ฐํ ์ ์์ต๋๋ค.โ
(
= t๋ฒ์งธ step์์์ ground-truth)
Overall Loss Function
(์์ ์์์ lambda ๋ค์ loss term๋ค ์ฌ์ด์ ๊ท ํ์ ์กฐ์ ํ๊ธฐ ์ํ hyperparameter์ ๋๋ค.)
4. Experiment & Result
Experimental setup
Dataset
TextZoom [2] : ํ์ต์ ์ํ LR-HR ์ด๋ฏธ์ง 17,367์ + testing์ ์ํ ์ด๋ฏธ์ง 4,373์ (easy subset 1,619์ / medium 1,411์ / hard 1,343์)
+) LR ์ด๋ฏธ์ง ํด์๋ : 16 ร 64 / HR ์ด๋ฏธ์ง ํด์๋ : 32 ร 128
Evaluation metric
SR ์ด๋ฏธ์ง ์ ๊ฒฝ์ฐ, ์๋์ ๋๊ฐ์ง metric์ ์ฌ์ฉํฉ๋๋ค.
PSNR (Peak Signal-to-Noist Ratio)
SSIM (Structural Similarity Index Measure)
๋์๊ฐ, ํ ์คํธ์ ์ด์ ์ ๋ง์ถ metric์ ๋๊ฐ์ง ๋ ์ฌ์ฉํฉ๋๋ค. ์ฐธ๊ณ ๋ก, ์๋์ ๋๊ฐ์ง metric์ ๋ ผ๋ฌธ์์ ์ ์๋ metric๋ค์ ๋๋ค. ์ด ๋๊ฐ์ง metric์ ๊ฒฝ์ฐ, SynthText [4] ์ U-Net [6] ์์์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ํ ์คํธ ๋ถ๋ถ๋ง ๊ณ ๋ คํฉ๋๋ค.
TR-PSNR (Text Region PSNR)
TR-SSIM (Text Region SSIM)
Implementation Details
HyperParameters
Optimizer : Adam
Batch ํฌ๊ธฐ : 80
Learning Rate : 0.0001
์ฌ์ฉํ GPU : NVIDIA TITAN Xp GPUs (12GB ร 4)
Result
Ablation Study
๋์๊ฐ, ๋ณธ ๋ ผ๋ฌธ์์๋ ๊ฐ ๋ชจ๋ ๋ฐ ์์ (backbone, Position-Aware Module, Content-Aware Module, etc.) ๋ค์ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด ablation study๋ฅผ ์งํํ์ต๋๋ค.
๋ฐ์ดํฐ์ : TextZoom [2]
+) ์๋์ ํ๋ค์์ Recognition ์ ํ๋๋ pre-train๋ CRNN [7]์ ๊ธฐ๋ฐ์ผ๋ก ๊ณ์ฐ๋์์ต๋๋ค.
Results on TextZoom [2]
๊ฐ๊ฐ ๋ค๋ฅธ backbone์ ๊ธฐ๋ฐ์ผ๋ก ์ธ ๊ฐ์ง ๋ชจ๋ธ (CRNN [7], ASTER [8], MORAN [9]) ์์์ ์ ํ๋๋ฅผ ๋น๊ตํ์ผ๋ฉฐ, ๊ฒฐ๊ณผ๋ ์๋ ํ์ ๊ฐ์ต๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ TBSRN ๋ฅผ backbone์ผ๋ก ์ฌ์ฉํ์ ๋์ ์ ํ๋๊ฐ ์๋์ ์ผ๋ก ๋์์ ํ์ธํ ์ ์์ต๋๋ค.
Visualized Examples
Failure Cases
๋ํ, ๋ ผ๋ฌธ์์๋ SR์์ ์ ๋๋ก ์ธ์์ ํ์ง ๋ชปํ ๊ฒฝ์ฐ๋ ์กฐ์ฌ๋ฅผ ํ๋๋ฐ, ํด๋น ๊ฒฝ์ฐ๋ค์ ์๋์ ๊ฐ์ต๋๋ค.
๊ธธ๊ฑฐ๋ ์์ ํ ์คํธ
๋ฐฐ๊ฒฝ์ด ๋ณต์กํ๊ฑฐ๋ occlusion์ด ์๋ ๊ฒฝ์ฐ
Artisticํ ํฐํธ ๋๋ ์๊ธ์จ
ํ์ต ๋ฐ์ดํฐ์ ์ label์ด ์๋ ์ด๋ฏธ์ง๋ค
5. Conclusion
์์ฝํ์๋ฉด, ๋ณธ ๋ ผ๋ฌธ์
๋ถ๊ท์นํ ํ ์คํธ ์ด๋ฏธ์ง๋ค์ ์ฒ๋ฆฌํ๊ธฐ ์ํด self-attention mechanism์ ์ฌ์ฉํ TBSRN ์ backbone์ผ๋ก ์ฌ์ฉํ๊ณ ,
ํท๊ฐ๋ฆด๋งํ, ์ฆ, ์ธ์์ด ๊น๋ค๋ก์ด ๋ฌธ์๋ค์ ๊ณ ๋ คํด weighted cross-entropy loss๋ฅผ ์ฌ์ฉํ๊ณ ,
ํ ์คํธ์ ์ด์ ์ ๋ ์ฌ๋ฌ๊ฐ์ง module๋ก ๊ตฌ์ฑ๋,
Super-Resolution ๋ชจ๋ธ (Scene Text Telescope) ์ ์ ์ํ ๋ ผ๋ฌธ์ ๋๋ค.
Take home message
SR technique์ ํ ์คํธ์ ์ด์ ์ ๋์ด ์ฌ์ฉํ๋ฉด ์ฑ๋ฅ์ด ํฅ์๋ ์ ์๋ค.
Ablation study๋ Failure case ์ค๋ช ๋ฑ์ด ์ ๋์ด ์๋ ๋ ผ๋ฌธ์ fancyํ๋ค!
Author
๋ฐ๋ํ (Park Na Hyeon)
NSS Lab, KAIST EE
julia19@kaist.ac.kr
Reviewer
Korean name (English name): Affiliation / Contact information
Korean name (English name): Affiliation / Contact information
...
Reference & Additional materials
Graves, Alex, et al. "Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks." Proceedings of the 23rd international conference on Machine learning. 2006.
Wang, Wenjia, et al. "Scene text image super-resolution in the wild." European Conference on Computer Vision. Springer, Cham, 2020.
Jaderberg, Max, et al. "Reading text in the wild with convolutional neural networks." International journal of computer vision 116.1 (2016): 1-20.
Gupta, Ankush, Andrea Vedaldi, and Andrew Zisserman. "Synthetic data for text localisation in natural images." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
Cohen, Gregory, et al. "EMNIST: Extending MNIST to handwritten letters." 2017 International Joint Conference on Neural Networks (IJCNN). IEEE, 2017.
Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015.
Shi, Baoguang, Xiang Bai, and Cong Yao. "An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition." IEEE transactions on pattern analysis and machine intelligence 39.11 (2016): 2298-2304.
Shi, Baoguang, et al. "Aster: An attentional scene text recognizer with flexible rectification." IEEE transactions on pattern analysis and machine intelligence 41.9 (2018): 2035-2048.
Luo, Canjie, Lianwen Jin, and Zenghui Sun. "Moran: A multi-object rectified attention network for scene text recognition." Pattern Recognition 90 (2019): 109-118.
Last updated
Was this helpful?