ScrabbleGAN [Kor]
Fogel et al. / ScrabbleGAN; Semi-Supervised Varying Length Handwritten Text Generation / CVPR 2020
Last updated
Fogel et al. / ScrabbleGAN; Semi-Supervised Varying Length Handwritten Text Generation / CVPR 2020
Last updated
๋ ผ๋ฌธ์ ๋ค์ด๊ฐ๊ธฐ ์ , ์ง๊ธ๊น์ง ์ผ๋ฐ ๊ธ์จ์ฒด๋ ๋ด์ฉ์ ๋ํ ์ค๋ช ์ด๊ณ , ์ด๋ฐ ๊ธฐ์ธ์ฌ์ง๊ณ ๋ฐ์ค์น ๊ธ์จ์ฒด๋ ์์ฑ์์ ์๊ฐ์ด ๋ด๊ธด ๊ฒ์ผ๋ก ๊ตฌ๋ถํด์ ๋ณด๋ฉด ๋ ๊ฑฐ๊ฐ๋ค.
ScrabbleGAN ๋ ผ๋ฌธ์ CVPR 2020์ ๋์จ ๋ ผ๋ฌธ์ด๋ค. Handwritten Text Generation์ ์ฃผ์ ๋ก ํ๊ณ ์๋ค. Fully Convolutional Neural Network GAN ๊ตฌ์กฐ์ Handwritten Text Recognition(HTR) ๋ชจ๋ธ์ ์ ์ฒด ๊ตฌ์กฐ๋ก ๋ค์ํ ์คํ์ผ๋ก realisticํ Handwritten Text Generation์ด ๊ฐ๋ฅํ ์์ฑ ๋ชจ๋ธ์ ์ ์ํ์๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฌผ๋ค์ ํ์ฉํ์ฌ ๊ธฐ์กด HTR ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค. ๋ฆฌ๋ทฐ์ ๋ค์ด๊ฐ๊ธฐ ์ ์ ์ฒด์ ์ธ ๋์๊ณผ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ ์ฌ์ง์ ๋จผ์ ๋ณด์. ๊ทธ๋ผ ์ ์ฒด์ ์ธ ์ดํด์ ๋์์ด ๋ ๊ฑฐ ๊ฐ๋ค.
๊ทธ๋ ๋ค๋ฉด, ์ด ๋ ผ๋ฌธ์์๋ ๊ธฐ์กด์ ์๋ ์ด๋ค ๋ฌธ์ ๋ค์ ํด๊ฒฐํ๋ ค๊ณ ํ์๊น?
โ 1.RNN ๊ตฌ์กฐ์์ CNN๊ตฌ์กฐ๋ก์ ํํผ
โ ์ฒซ๋ฒ์งธ๋ ๊ธฐ์กด์ Handwritten Text Generation ๋ชจ๋ธ๋ค์ RNN๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ธ๋ฐ, ๋ณธ ๋ ผ๋ฌธ์์๋ CNN๊ธฐ๋ฐ์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ ์ํ์๋ค. ๊ธฐ์กด ๋ ผ๋ฌธ๋ค์ด RNN(์ ํํ๊ฒ๋ CRNN, LSTM๊ตฌ์กฐ๋ฅผ ์ฐ๋๊ฑฐ ๊ฐ๋ค.)๊ธฐ๋ฐ์ ๋ชจ๋ธ์ผ ์ ๋ฐ์ ์๋ ์ด์ ๋ Handwritten Text Generation ๋ชจ๋ธ์ ๋ฐ์ดํฐ๋ฅผ ๋ณด๋ฉด ์ดํดํ ์ ์๋๋ฐ, Handwritten Text Generation์์ ๋ฐ์ดํฐ๋ ๊ฐ์ ์ฌ์ด์ฆ๋ ๋น์ทํ ์ฌ์ด์ฆ๋ก ๋ฌถ์ฌ์๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ๊ณผ ๋ค๋ฅด๊ฒ ๊ธ์์ ๋ฐ๋ผ ๊ทธ ๋ค์์ฑ์ด ํฌ๋ค. ๋ฐ๋ผ์ input์ ์ผ์ ํ๊ฒ resize์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ ์น ์๋ค.
๋ฐ๋ผ์, output์ ๊ธธ์ด์ ์ฝ์ด ์๋ many(input) to many(output) ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง ์ ์๋ RNN ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. ํ์ง๋ง ๋งจ ์ฒซ๊ธ์๋ ๋ง์ง๋ง ๊ธ์์ ์ํฅ์ ๋ผ์น๋๋๊ณ ์๊ฐํ๋ฉด ์๋ ๊ฐ๋ฅ์ฑ์ด ํฌ๋ค. ์ด๋ฅผ ๋ ผ๋ฌธ์์๋ non-trivialํ๋ค๊ณ ์ง๋ชฉํ๋ค. ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์ RNN๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ ๋์ , CNN๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ค.
๋ํ ๊ฐ ๊ธ์๊ฐ์ ์ฐ์์ฑ๊ณผ ์์ฐ์ค๋ฌ์์ ํํํ๊ธฐ ์ํด์ overlapped receptive field๋ฅผ ์ฌ์ฉํ๋ค. ์์ ์ ์ ์์ ๊ธ์์ receptive field๋ฅผ ๊ณต์ ํจ์ผ๋ก์จ, ์์ ์ ์๋ค์ sequentialํ information์ RNN์ด ์๋ CNN์์๋ localํ๊ฒ ์ฌ์ฉํ ์ ์๋๋ก ๋์์ธ ํ์๋ค.
โ 2. GAN ๊ตฌ์กฐ๋ฅผ ์ด์ฉํ semi-supervised learning
โ ๋ ๋ฒ์งธ๋ ์ ํํ ๋ ์ด๋ธ๋ ๋ฐ์ดํฐ์ ์ผ๋ก๋ง ๊ธฐ์กด Handwritten Text Generation task๊ฐ ์ด๋ฃจ์ด ์ก๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ๊ฒ ๋๋ฉด ๋ฐ์ดํฐ์ ์ ํฌ๊ฒ ์์กดํ ์ ๋ฐ์ ์๋ค. ํ์ง๋ง ๋ ผ๋ฌธ์์๋ Generator์ Discrimminator ๊ฐ ๋ ์ด๋ธ์ด ํ์ ์๋ GAN๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ semi-supervised learning์ด ๊ฐ๋ฅํ๊ฒ ํ์ฌ Handwritten Text Generation๋ถ์ผ์ performance๋ฅผ ๋์ด์ฌ๋ฆฌ๋ ๋ฐฉ์์ ์ ์ํ๋ค.
โ 3. ๊ธฐ์กด ๋ฐ์ดํฐ์ ์ ํ๊ณ ๊ทน๋ณต
โ ๋ง์ง๋ง์ผ๋ก, ์์ ๋งํ ๋ฐ์ดํฐ์ ์ ํ๊ณ๋ฅผ Handwritten Text Generation์ผ๋ก ์ถ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ์ฌ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๋ ค๊ณ ํ์๋ค. ์ด ๋ ผ๋ฌธ์ ์ฃผ์ Contribution์ผ๋ก๋ ์ ๊ธ์จ ํน์ฑ ์ ์ถ๋ ฅ์ ํฌ๊ธฐ๊ฐ ์ผ์ ํ์ง์์ ๊ธฐ์กด Handwritten Text Generation์ ์ฐ์ด๋ RNN-based๋ชจ๋ธ์ด ์๋, Fully Convolutional Neural Network๋ฅผ ์ ์ํ๋ค๋ ์ , unlabeled data์ ๋ํด Semi-supervised learning์ ์๋ํ๋ค๋ ์ , ๊ทธ๋ฆฌ๊ณ ํด๋น ๋ชจ๋ธ์ ๊ธฐ์กด ๋ฐ์ดํฐ์ ๊ณผ ์ถ๊ฐ์ ์ผ๋ก ๊ตฌ์ฑํจ์ผ๋ก์จ ๋ฐ์ดํฐ์ ์ ๋ค์์ฑ์ ํ๋ณดํด ๊ธฐ์กด Handwritten Text Recognition(HTR) ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ฌ๋ ธ๋ค๋ ์ ์ด๋ค.
Online๊ณผ Offline ๋ฐฉ์์ ์ฐจ์ด
โ ๊ด๋ จ ์ฐ๊ตฌ๋ฅผ ์ดํด๋ณด๊ธฐ ์ ์, Handwritten Text๋ Online๊ณผ Offline ๋ฐฉ์์ ์ฐจ์ด๊ฐ ์๋ค๋ ๊ฒ์ ์์์ผ ์๊ฐํ ๋ ผ๋ฌธ์ ์ปจ์ ๋ค์ด ์ดํด๊ฐ ๋๋ค. ์จ๋ผ์ธ ๋ฐฉ์์ ๊ทธ ๊ณผ์ ์ ์ํ๋งํ Stroke๋ผ๋ ๊ฐ๋ ์ ํตํด ์ ๊ธ์จ๊ฐ ์จ์ง๋ ๊ณผ์ ์ ๋ํ ์ ๋ณด๊ฐ ์๋ค. ํ์ง๋ง ์คํ๋ผ์ธ ๋ฐฉ์์ ๊ทธ ๊ณผ์ ์ ๋ํ ์ ๋ณด๊ฐ ์๋๋ผ, ์ต์ข ๊ฒฐ๊ณผ๋ฌผ๋ง ๋ณผ ์ ์๋ค. ๋ฐ๋ผ์, Online์ด๋ Offline์ด๋๋ ๊ทธ ๋ ผ๋ฌธ์ ์ปจ์ ์ ์ค์ํ ์ํฅ์ ๋ฏธ์น๋ค. ์์๋ก, Handwritten Text Generation์์ Online์ sequantialํ ์์๋ฅผ ์์ฑํ๋ ๊ฒ์ด ๋ ์๋ ์์ง๋ง, Offline์์๋ ํ ์ฅ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ฒ์ด ๋๋ค. ๋ ผ๋ฌธ์์๋ Stroke๋ฅผ ๊ธฐ๋กํด์ผํ๋ ๋๊ตฌ๊ฐ ์์ด์ผํ๋ Online ๋ฐ์ดํฐ๊ฐ ์์งํ๊ธฐ๋ ํ๋ค๊ณ , ์คํ๋ผ์ธ์๋ ์์ ์ ์ฉํ ์ ์์ง๋ง, ๋ฐ๋๋ก Offline์ ๋ฐฉ๋ฒ๋ก ์ Online์๋ ์ ์ฉ ๊ฐ๋ฅํ ๋ฒ์ฉ์ฑ์ด ์๊ธฐ ๋๋ฌธ์ ์คํ๋ผ์ธ ๋ฐฉ๋ฒ๋ก ์ ๋ํด ์ด์ ์ ๋ง์ท๋ค๊ณ ํ๋ค.
์ด ์ฑํฐ์์๋ ๊ด๋ จ๋ ๋ ผ๋ฌธ์ผ๋ก ์๊ฐํ ๋ ผ๋ฌธ ์ค ์ค์ํ๋ค ์๊ฐํ๋ ๊ฒ๋ค์ ์งง๊ฒ ์์ฝ ๋ฐ ์ ๋ฆฌ๋ฅผ ํด๋ณด์๋ค. ์ฌ์ค ์ด related work๋ฅผ ๋ค follow up ํ์ผ๋ฉด, ์ด๋ฒ ๋ ผ๋ฌธ์ ์ปจ์ ์ ๋จ๋ฒ์ ์ดํดํ ์ ์๋ค.
[Alex Graves. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850, 2013.]
๋จผ์ ๋ ํ ๋ก ํ ๋ํ์ Alex Graves๊ฐ ๋ฐํํ Generating sequences with recurrent neural networks์ด๋ ๋ ผ๋ฌธ์ธ๋ฐ citation ์๊ฐ ๋ฌด๋ ค 3500์ฌ ํ๋ก ๊ต์ฅํ ์ํฅ๋ ฅ ์๋ ๋ ผ๋ฌธ์ด๋ค. ์ด ๋ ผ๋ฌธ์์๋ ์ ๋ชฉ ๊ทธ๋๋ก RNN์ ์ด์ฉํ sequentialํ ์์ฑ์ ๋ํด ์ด์ผ๊ธฐํ๋ค. ์ฌ๊ธฐ์ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ ์์์ ์ธ๊ธํ stroke๊ฐ ํฌํจ๋ IAM online ์๊ธ์จ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ, ๊ธ์จ๋ฅผ ์ฐ๋ ๊ณผ์ ์ ์์ด์ ๋ค์ ์ง์ ์ด ์ด๋์ง LSTM์ ํตํด ์์ธกํ๊ณ ๊ณ์ํด์ ๊ธ์จ๋ฅผ ๋ง๋ค์ด ๋ธ๋ค.
[Bo Ji and Tianyi Chen. Generative adversarial network for handwritten text. arXiv preprint arXiv:1907.11845, 2019]
์ด ๋ ผ๋ฌธ์ GAN ๊ตฌ์กฐ๋ฅผ ์ด์ฉํ ์๊ธ์จ ์์ฑ์ ์ ์ํ ๋ ผ๋ฌธ์ด๋ค. ๊ธ์๋ง๋ค ๊ธธ์ด๊ฐ ๋ค๋ฅธ ์ ๊ธ์จ๊ฐ ๊ฐ์ง๊ณ ์๋ ํน์ง ๋๋ฌธ์ธ๊ฑฐ ๊ฐ์๋ฐ, ์ด ๋ ผ๋ฌธ์์๋ sequentialํ ๋ฐ์ดํฐ๋ฅผ CNN-LSTM๋ฐฉ์์ discriminator๋ฅผ ์ ์ํ์ฌ LSTM๋ชจ๋ธ์ generator๋ก CNN-LSTM ๊ตฌ์กฐ๋ฅผ discriminator๋ก ํ์ฌ GAN ๊ตฌ์กฐ๋ก ์๊ธ์จ ํ์ต์ ์๋ํ๋ค. ์ด ๋ ผ๋ฌธ ๋ํ IAM online ์ ๊ธ์จ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. GAN๊ตฌ์กฐ๊ฐ realisticํ ์ด๋ฏธ์ง๋ฅผ ๋ง๋๋ ๊ฒ์ ์ด๋์ ๋ ์ ํ์ด ๋์๋ค๊ณ ์๊ฐํ๋๋ฐ, ์ ๊ธ์จ ์์ฑํ๋ ๋ ผ๋ฌธ์ด 2019๋ ์์ผ ์ ์๋์๋ค๋ ์๊ฐ๋ณด๋ค ๋ฆ๋ค๊ณ ํ ์ ์๋ค.
[Eloi Alonso, Bastien Moysset, and Ronaldo Messina. Adversarial generation of handwritten text images conditioned on sequences. arXiv preprint arXiv:1903.00277, 2019.]
โ ์ด ๋ ผ๋ฌธ์ ScrabbleGAN์ Result ํํธ์์ ์ค์ ์ ์ผ๋ก ๋น๊ตํ๋ ๋ชจ๋ธ์ด๋ค. ๊ทธ ์ด์ ๋ ScrabbleGAN๊ณผ ์ ์ฒด์ ์ผ๋ก ๋งค์ฐ ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋ฐ๋ก ์์ ์ธ๊ธํ๋ ๋จ์ํ GAN๊ตฌ์กฐ(generator์ discriminator์ ์ ๋์ ํ์ต ๋ฐฉ์)๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋๋ผ, text recognition์ ์ํ auxiliary network์ ์ ์ฉ์์ผฐ๋ค. ๋ํ online ๋ฐ์ดํฐ์ ์ด ์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ task๋ก ๋ฐ๋ผ๋ณด์๋ค.
โ ํ์ง๋ง ์ด ๋ ผ๋ฌธ์์๋ ๋ช ํํ ํ๊ณ์ ๋ค์ด ์๋ค. ์ฒซ ๋ฒ์งธ๋ก ์ผ์ ๊ธธ์ด ์ด์์ ๋จ์ด๋ฅผ ์์ฑํด๋ด์ง ๋ชปํ๋ค๋ ๊ฒ์ด๋ค. ์ด๋ ๋ฐ์ ์ฌ์ง rho๋ถ๋ถ์์๋ ๊ธ์๋ฅผ ์์๋๋ก ์ ๋ ฅ๋ฐ๋ bidirectional LSTM recurrent layers๋ก ๊ตฌ์ฑํ์ฌ ๋จ์ด์ ๋ํ embedding vector๋ฅผ ์ถ๋ ฅ์ผ๋ก ๋ฐํํ๋ค. ๋ฐ๋ผ์ ๋น์ฐํ๊ฒ๋ ๊ธด ๋จ์ด์ผ ์๋ก ์ ๋ณด์ ์์ค์ด ์์ ๋ฟ๋๋ฌ ์ต์ข ์ถ๋ ฅ์ ํฌ๊ธฐ๊ฐ ๊ณ ์ ๋ ์ํ์์ ๋๋์ฑ ๊ทธ๋ฐ ๋ฌธ์ ์ ์ด ๋ฐ์ํ ์ฌ์ง๊ฐ ์์ด์ ๋ผ๊ณ ๋ณธ๋ค.
๋ ๋ฒ์งธ๋, writing style์ ์ ํํํด ๋ด์ง ๋ชปํ์ , ์ด ๋ ผ๋ฌธ์์๋ style์ ์กฐ์ ํ์ง ๋ชปํ์ ์ ์ธ๊ธํ๊ธฐ๋ ํ๋ค.
After you introduce related work, please illustrate the main idea of the paper. It would be great if you describe the idea by comparing or analyzing the drawbacks of the previous work.
์ด์ ๋ณธ ๋ ผ๋ฌธ์ ํ์ฌ๊น์ง์ ํ๊ณ์ ์ ๊ทน๋ณตํ๊ณ ์ ๋ค์๊ณผ ๊ฐ์ ์์ด๋์ด๋ฅผ ์ ์ํ๋ค. ํนํ, Adversarial generation of handwritten text images conditioned on sequences ๋ ผ๋ฌธ์์ ํ๊ณ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํ ์๋๊ฐ ScrabbleGAN์ ์ฃผ์ ์์ด๋์ด๋ผ๊ณ ๋ ๋ณผ ์ ์๋ค.
bidirectional LSTM ์ผ๋ก ๊ตฌ์ฑ๋์๋ Embedding network๋ฅผ ์์ ๊ณ filter bank๋ผ๋ ๊ฐ๋ ์ ๊ฐ charactor์ embedding vector์ ์ฌ์ฉํ์ฌ ๊ฐ ๊ธ์๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์์ฑํ๋ค.
๋ํ ๊ฐ charactor๊ฐ์ interaction์ ์ํด overlapped receptive field๋ฅผ ์ ์ฉํ์ฌ ์ธ์ ํ ๊ธ์๊ฐ ์์ฐ์ค๋ฌ์ด ์๊ธ์จ๋ฅผ ์์ฑํ๋๋ก ํ์๊ณ , Discriminator์ Recognizer๋ overlapped receptive field๋ฅผ ํฌํจํ์ฌ ๊ฐ ๊ธ์๋ฅผ real/fake์ธ์ง, ์ธ์ํ ์ ์๋์ง ์ฌ๋ถ๋ฅผ ํ๋จํ๋ค.
์ด ๋ ๊ฐ์ง๊ฐ ScrabbleGAN์ด ๊ธ์๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ๋ก ์ด๋ค. Method ํํธ์์ ๋ ์์ธํ ์์๋ณด์.
๋ชจ๋ธ ๊ตฌ์กฐ
โ ๋จผ์ generator๋ฅผ ๋ณด์, ์ ์๋ RNN์ด ์๋ CNN ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ ์ด์ ์ ๋ํด ์ค๋ช ํ๋ค. RNN๊ตฌ์กฐ๋ ์์๋ถํฐ ํ์ฌ๊น์ง์ state๋ฅผ ๋ชจ๋ ์ฌ์ฉํ๋ค๋ ์ ์ด ๊ธ์๋ฅผ ์์ฑํ๋๋ฐ non-trivial ํ๋ค๊ณ ํ๋ฉฐ ์ข์ง ์๋ค๊ณ ์ง์ ํ๋ค. ํ์ง๋ง CNN๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ, ์ค์ง ์ ์์์๋ ๊ธ์๋ง ์ฐ๊ด๋์ด ๊ธ์๋ฅผ ์์ฑํจ์ผ๋ก ์ด๋ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค๊ณ ํ๋ค. ๋ ผ๋ฌธ์์ ์ ์ํ overlapped receptive field๋ ๊ธ์๊ฐ ์ํธ์์ฉํ๊ณ ๋ถ๋๋ฌ์ด ๋ณํ๋ฅผ ๋ง๋ ๋ค.
โ ๋ ผ๋ฌธ์์๋ Meet๋ผ๋ ๊ธ์๋ฅผ ๋ง๋ค ๋๋ฅผ ์์๋ก ๋ ๋ค. ์์ ์ฌ์ง์์์ ๊ฐ์ด filter bank์ ๊ฐ ํด๋นํ๋ ๊ธ์๋ฅผ ๋ฃ๋๋ค. ๊ทธ๋ผ m,e,e ๊ทธ๋ฆฌ๊ณ t ๊ฐ 4๊ฐ์ filter bank๊ฐ ๋์ค๋ ๊ฑด๋ฐ. ์ฌ๊ธฐ์ ์คํ์ผ์ ๋ํ๋ด๋ noise z๋ฅผ ๊ณฑํด์ฃผ์ด ๊ธ์๋ฅผ ์์ฑํ๊ธฐ ์ํ ์ ๋ ฅ์ ๋ง๋ ๋ค. ๊ทธ๋ฆฌ๊ณ ์์ ๋งํ๋ ๊ฒ ๊ฐ์ด ๊ฐ ํํฐ๋ฑ ํฌ๋ฅผ ์ ๋ ฅ์ผ๋ก ์์ฑํ๋ ๋คํธ์ํฌ์์๋ ์ ์ ๊ณผ overlapped receptive field๋ฅผ ๊ณต์ ํ๋ฉด์ ์์ฑํ๊ฒ๋๋ค, ์ด๋ฐ ๋ฐฉ์์ ๊ธธ์ด์ ์ ์ฝ์ด ์์ผ๋ฉฐ, ์ ์ฒด ๊ธ์์ ์คํ์ผ๋ ์ผ๊ด๋๋ค๊ณ ๋งํ๋ค. ๋ํ ์ ์๋ ํ filterbank๋ overlapped receptive field๊ฐ ์๋ค ํ๋๋ผ๋ ์์ ๋ถ๋ถ์ด๊ธฐ ๋๋ฌธ์ ์์ฑํ ๊ธ์๋ ํ๊ฒ์ผ๋กํ๋ ๊ธ์๊ฐ ๋ช ํํ ์์ฑ๋๋ค. ํ์ง๋ง, overlapped receptive field๋ก์จ ์ ์ ๊ธ์๊ฐ ๋ฌ๋ผ์ง์๋ฐ๋ผ ๋ค์์ฑ์ ํ๋ณดํ ์ ์๋ค๊ณ ๋งํ๋ค.
โ ๋ค์์ผ๋ก๋ Discriminator๋ฅผ ๋ณด์. Discriminator์ ์ญํ ์ ์์ ๋งํ๋ฏ ์ง์ง ๊ฐ์(realistic) ์ด๋ฏธ์ง๋ฅผ ๋ง๋๋ ๊ฒ๊ณผ ์ฌ๊ธฐ์๋ ์คํ์ผ์ ๋ถ๊ฐํ๋ ์ญํ ๋ ์๋ค๊ณ ํ๋ค. ํ ํํฐ๋ฑ ํฌ์์ ๋์จ (์ค๋ฒ๋ฉํฌํจ)๊ธ์๋ง๋ค ํ๋์ฉ ๋ฃ๊ณ ํ๊ท ์ ๋ด๋ ์์ผ๋ก ์๋ํ๊ธฐ ๋๋ฌธ์ ์ต์ข ์ถ๋ ฅ์ ๊ธธ์ด ๋ณํ์ ๋ฐ๋ฅธ ์ํฅ์ด ์์ด ํ์ต์ด ๊ฐ๋ฅํ๋ค. ๋ง์ง๋ง์ผ๋ก Recognizer๋ ์ฝ์ ์ ์๋ ํ ์คํธ๋ฅผ ๋ง๋๋๋ฐ ๊ธฐ์ฌํ๋ค. Discrimminator๋ฅผ ์๊ธ์จ ๊ฐ์ ์ ๋๋ฅผ ๋ง๋ ๋ค ์น๋ฉด ๋ค๋ฅธ ์ผ์์ ์ดํดํ๊ธฐ ์ฝ๋ค. Recognizer๋ ์ค์ง ๋ผ๋ฒจ์ด ์๋ real sample์์๋ง ํ์ต์ด ๊ฐ๋ฅํ๋ค.
Handwritten Text Recognition(HTR)network์ธ Recognizer๋ CNN๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค. ๊ทธ ์ด์ ๋ก๋ ๋ง์ ๋ชจ๋ธ๋ค์ด ์๋ค ๋ฌธ๋งฅ์ ๋ณผ ์ ์๋ bidirectional LSTM์ ์ ํํ์ง๋ง, ์ด ๋ชจ๋ธ์ ๊ธ์จ ์์ฒด๊ฐ ์ ๋๋ก ์ฐ์ฌ์์ง ์์๋ ๋ฌธ๋งฅ์์ผ๋ก ๋๋ ค ๋ง์ถ๋ ๋ฌธ์ ๊ฐ ์๋ค๊ณ ์ง๋ชฉํ๋ค. ์์ฃผ ์ฐ๋ ๋จ์ด๋ ์ธ ๊ธ์์ค ๊ฐ์ด๋ฐ๊ฐ ์ด์ํด๋ ์์๋ณด๋ฏ์ด ๋ง์ด๋ค. ๋ ผ๋ฌธ์์๋ ์ด ๋ฌธ์ ๋ฅผ ์ง๋ชฉํ๋ฉฐ ํ ๊ธ์ ๊ธ์๊ฐ ์ ๋๋ก ์ธ์ํด์ผํ๋ Recognizer๊ตฌ์กฐ๋ก convolutional backbone์ ์ฌ์ฉํ๋ค๊ณ ํ๋ค.
*์ฌ๊ธฐ์ Handwritten Text Recognition ๋ถ์ผ๋ ๋ง๊ทธ๋๋ก ์๊ธ์จ๋ฅผ ์ธ์ํ๋ ๋ถ์ผ์ด๋ค. Discriminator์ ์ญํ ์ด ํผ๋์ด ๋ ์๋ ์๋๋ฐ, Discriminator๋ ํด๋น ์ด๋ฏธ์ง๊ฐ ๊ธ์จ๊ฐ์ด ์๊ฒผ๋ ์์๊ฒผ๋๋ฅผ ํ๋จํ๋ ๊ฒ์ด์ง ์ด๊ฒ ๋ฌด์จ ๊ธ์, ์ํ๋ฒณ์ธ๊ฐ๋ฅผ ๊ตฌ๋ถํ์ง ์๋๋ค. ์ ํํ ์์๋ ์๋์ง๋ง, ๊ตณ์ด ์์๋ฅผ ๋ค์๋ฉด Discrimminator๋ ์ฌ๋์ด ์์ผ๋ก ์ด๊ฑฐ ๊ฐ๋(realistic)ํ๋ ์ด๊ณ , Recognizer๋ ์ฐ์ธ ๊ธ์จ๊ฐ label๊ณผ ์ผ์นํ๋ ๋ง์ฝ "meet"๋ผ๊ณ ์ด๊ฑฐ๋ฉด "m", "e", "e" ๊ทธ๋ฆฌ๊ณ "t"๋ผ๊ณ ์ฝํ๋๋ฅผ ํ๋จํ๋ค.
Loss Function
๋ค์์ผ๋ก ํ์ต์์์ ๋ํ ์ผ์ ์ดํด๋ณด์.
ํ์ต์ ์ ์ฒด์ ์ธ ๊ตฌ์กฐ์์๋ ์ ์ ์๋ฏ, Recognizer์์ ๋์ค๋ Loss R๊ณผ Discriminator์์ ๋์ค๋ Loss D๋ก ์ด๋ฃจ์ด์ง๋ค. ๋ ผ๋ฌธ์์๋ ๋ ๋ก์ค์ ๋ฐธ๋ฐ์ค๋ฅผ ๋ง์ถ๊ธฐ ์ํด Gradient of Loss R์ stadard deviation์ Gradient of Loss D์ ๋ง์ถฐ์ค๋ค. lambda์ ์ญํ ์ด loss_D์ loss_R๊ฐ์ ์ค์ผ์ผ์ ์กฐ์ ํ๋ ์ญํ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค. ๋ฐ์ ์์์์๋ alpha๋ก ํํ๋์๋ค.
๋ฐ์ ์์์ ๋ณด๋ฉด ์ข๋ ์์ธํ ๊ธฐ์ ์ด ๋์ด์๋ค. Recognizer์์ ๋์ค๋ gradient R์ gradient D์ ํ์คํธ์ฐจ์ ๋ง์ถฐ์ฃผ๊ณ , ๊ทธ๋ค์ ์์ alpha๋ฅผ ๊ณฑํด ์์ lambda์ ๊ฐ์ด ์ค์ผ์ผ์ ์กฐ์ ํ์ฌ ๋ loss_D ์ Loss_R๊ฐ ์ ์ ํ ํ์ต๋๊ฒ ํ๋ค.
์ฌ๊ธฐ์ ์์์๋ ์ธ๊ธํ Adversarial generation of handwritten text images conditioned on sequences ๋ ผ๋ฌธ์์์ ๋ค๋ฅด๊ฒ ํ๊ท ์ Gradient of Loss D์ ๋ง๊ฒ ์ฎ๊ฒจ์ฃผ์ง ์๋๋ค. ๋ ผ๋ฌธ์์๋ ๊ทธ ์ด์ ๋ฅผ **ํ๊ท ์ ์ด๋ํ๋ฉด์ gradient ๋ถํธ๊ฐ ๋ฐ๋๋ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ๊ณ ์ ํ๋ค๊ณ ํ๋ค. ํ์ง๋ง ์ด๋์ ์ํด์ ๋ ๋ก์ค๊ฐ scale์ ํ๊ท ์ด ์๋ง๋ ์๊ธฐ๋ ๋ฌธ์ ๋ ์์๊ฑฐ ๊ฐ์๋ฐ, ํ์คํธ์ฐจ๋ง ๋ง์ถฐ์ค์ ์๊ธฐ๋ ์ฅ์ ๊ณผ ๋จ์ ์ ๋ํด์ ๋ ผ๋ฌธ์์ ๋ณ๋ค๋ฅธ ์ธ๊ธ์ด ์๋ค.
Dataset and Evaluation metric
โ ๋ฐ์ดํฐ์ ์ผ๋ก๋ RIMES, IAM ๊ทธ๋ฆฌ๊ณ CVL์ด๋ผ๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ค. Evaluation Metirc์ ๋ ๊ฐ์ง๋ฅผ ์ฌ์ฉํ๋ค. ์ฒซ๋ฒ์งธ๋ก๋ word error rate(WER)์ด๋ค. ๋ง๊ทธ๋๋ก ์ ์ฒด ๋จ์ด์ค์ ๋ช ๊ฐ์ ๋จ์ด๊ฐ ์๋ชป ์ฝํ๋๋ฅผ ํ๊ฐํ๋ค. ๋๋ฒ์งธ๋ normalized edit-distance(NED)์ธ๋ฐ, true์ prediction์ฌ์ด์ edit-distance๋ฅผ ์ธก์ ํ๋ค๊ณ ํ๋ค.
Training setup
โ ๋จผ์ ๋ ผ๋ฌธ์์๋ ํ ๊ธ์์ ์์ฑํ๋ ์ด๋ฏธ์ง๋ฅผ ๋์ด 32๋ก ๊ณ ์ ํ์๊ณ ๋์ด๋ 16 ํฝ์ ๋ก ๊ณ ์ ํ๋ค. ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๋ Filter bank์ ํฌ๊ธฐ๋ 32x8192์ธ๋ฐ ์ฌ๊ธฐ์ 32dim-noise z ๋ฅผ ๊ณฑํ๋ค. ๊ทธ๋ผ n๊ฐ์ ๊ธ์๋ฅผ ์์ฑํ ๋ n x 8192๊ฐ ๋๋ค๊ณ ํ๋๋ฐ, n ๊ฐ์ Filterbank*z((1x32) * (32x8192))์ n๊ฐ concatํ๊ฑฐ๋ผ๊ณ ์ดํดํ๋ฉด ๋๋ค.
โ ๊ทธ ๋ค์, reshape์ ํตํด 512x4x4n (8192 = 512x4x4)๊ฐ ๋๊ณ , ์ด๋ ๊ฐ ๊ธ์๋ 4x4 spatial size๋ฅผ ๊ฐ์ง๊ณ ์๋ค๊ณ ํ๋ค. ๊ทธ ๋ค์ 3๊ฐ์ residual blocks์ ํต๊ณผํ ํ์ Up-Sampling ํ, ๊ฒน์ณ์ง ์์ญ์ ๋ง๋ค์ด์ ์ต์ข 32x16n์ฌ์ด์ฆ์ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ ๋ค.
โ Discriminator ๊ตฌ์กฐ๋ BigGAN ๋ชจ๋ธ์์ ์ฐจ์ฉํ๋๋ฐ 4๊ฐ์ residual blocks๋ก ๊ตฌ์ฑ๋๊ณ ๋ง์ง๋ง์ fc๋ ์ด์ด๊ฐ ํ๋ ์๋ ๊ตฌ์กฐ์ด๋ค. ์์ ์ด์ผ๊ธฐ ํ๋๋ก Fully Conv Layers๋ก ๊ตฌ์ฑ๋์ด์๊ณ , ๊ฐ ํจ์น(๊ธ์)์ ํ๊ท ์ด ์ต์ข prediction์ด ๋๋ค.
Comparison to Alonso el al.
โ Adversarial generation of handwritten text images conditioned on sequences์์ ์ ์ํ Network์ ๋น๊ตํ๋ค ๋ฐ์ ํ์ ์ฌ์ง์์๋ "Alonso et al. [2]"๋ผ๊ต ํ๊ธฐ๋ ๋ ผ๋ฌธ์ด๋ค. ๋จผ์ ๋ฐ์ ์ฌ์ง์ ๋จผ์ ๋ณด๋ฉด, ScrabbleGAN์์ ์ด์ ๋ชจ๋ธ์ด ์ ๋ง๋ค์ด๋ด์ง ๋ชปํ ๊ธ์จ๋ค๋ ์ ๋ง๋ค๊ณ ์์์ ์ ์ฑ์ ์ผ๋ก ํ์ธ ํ ์ ์๋ค. ๋ํ ๊ทธ ์๋ ํ๋ฅผ ๋ณด๋ฉด, Fre'chet Inception Distance (FID)์ geometric-score (GS) ์ค์ฝ์ด๋ก ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํ์๋ค. ์ด ํ๋ฅผ ํตํด ScrabbleGAN ์ ๋์ ์ผ๋ก๋ ์ข์ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค๊ณ ์์์ ๋ณด์ธ๋ค.
Generating different styles
โ ๋ค์์ผ๋ก๋ ๋ค์ํ ์คํ์ผ์ ๋ํ ์์ฑ์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค๋ค. ์๋ ์ด๋ฏธ์ง ๊ฐ์ด ๊ฐ์ ๋จ์ด๋ฅผ ๋ค์ํ ์คํ์ผ๋ก ์์ฑํจ์ ๋ณด์ฌ์ค์ผ๋ก ๋ค๋ฅธ ๊ฐ ๋ค๋ฅธ ์คํ์ผ์ ๊ธ์๊ฐ ์ ์์ฑ๋จ์ ๋ณด์๋ค. ๋ํ, ๊ฐ ๊ธ์๋ง๋ค ๊ฐ์ ์คํ์ผ vector z๊ฐ ๋ฐ๋ก ๊ณฑํด์ก๊ณ , overlapped receptive field๋ก ์ธํด ์ธ์ ํ ๊ธ์๋ง๋ค์ interaction๋ ์ ๋์ด ์คํ์ผ์ด ์ ์ง๋๋ฉด์ ์์ฐ์ค๋ฌ์ด ๊ธ์จ๊ฐ ์์ฑ๋์๋ค๊ณ ๋งํ๋ค.
Boosting HTR performance
โ ๋ค์์ผ๋ก๋ ์ ์ํ ๋คํธ์ํฌ๋ก ์์ฑํ dataset์ ์ถ๊ฐ๋ก ์ ์ฉํ์ฌ ๊ธฐ์กด์ HTR performance๋ฅผ ๋๋ฆฐ ๋ถ๋ถ์ ๋ํด์ ๋งํ๋ค. ์์ํ ์ ์๋ฏ, ๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ ๋ฐฉ์์ผ๋ก ๋ฐ์ดํฐ์ ์ ์ถ๊ฐ๋ก ๊ตฌ์ถํ ๊ฒฐ๊ณผ๊ฐ ๋ ๋์์ ์ค๋ช ํ๋ค. ํ์ ๋ฐ๋ฅด๋ฉด ๊ธฐ์กด๋ฐ์ดํฐ๋ฅผ augmentationํ ๋ฐ์ดํฐ ์ ๋ณด๋ค ScrabbleGAN์์ ์์ฑํ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํด ํ์ตํ ๊ฒ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค. ScrabbleGAN์ ๊ฒฐ๊ณผ๋ค์ด ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ํ๋ณดํ๋๋ฐ ๋์์ ์ค๋ค๋ ๊ฒ์ด๋ค.
โ ๋ณธ ๋ ผ๋ฌธ์์๋ RNN๊ตฌ์กฐ๋ก ์ ์ฒด์ ๊ธ์์์ฑ์ ํต์ผ๋ก ํ๋๋ฅผ ๋ณด๋ ๊ฒ์ด ์๋๋ผ ์๋ผ์ local problem์ผ๋ก ๋ง๋ค์๋ค๊ณ ํ๋ค. ์ด๋ฐ ์ ์ผ๋ก ๊ธธ์ด์ ์คํ์ผ์ ์ ์ฝ๋ฐ์ง ์์ ์ด๋ฏธ์ง๋ฅผ ์ ์์ฑํ ์ ์๊ณ ์ค๋ฒ๋ฉ๋ receptive field๋ก ์ธ์ ํ ๊ธ์๊ฐ ์์ฐ์ค๋ฌ์์ ๋ํ๋ค๊ณ ๋งํ๋ค.
โ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ few shot learning์ผ๋ก์ ๋ฐฉํฅ์ฑ, style๊ณผ ๊ธ์จ์ฒด(๊ตต๊ธฐ, ๋ ๋ฆผ์ ๋) controllable, ๊ทธ๋ฆฌ๊ณ ๋ง์ง๋ง์ผ๋ก๋ ๊ฐ ๊ธ์๋ง๋ค ๋ค๋ฅธ receptive field๋ฅผ ์ ์ฉ์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๋๋ ์ฝ์ผ๋ฉด์ ์๊ฐํ ํ๊ณ์ ์ธ๋ฐ ๊ฐ์ ๊ธ์์ ์คํ์ผ์ ๋ฌ๋ผ๋ ๊ธ์จ์ ํ ๊ธ์์ ํด๋นํ ๊ธธ์ด๊ฐ ์ผ์ ํด์ ๊ทธ๋ฐ ์ธก๋ฉด์์ ๋ค์์ฑ์ด ์๋ค๋ ๊ฒ์ธ๋ฐ ์ ์๋ ์ด์ ์ ์ง๋ชฉํ๋ค.
My opinion: ๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด RNN๊ตฌ์กฐ๋ฅผ CNN๊ตฌ์กฐ๋ก ๋ฐ๊ฟจ๋ค๋ ๊ฒ์ ํฐ contribution์ด ์๋ค. ์ ์ฒด ๊ธ์จ๋ฅผ ์์ฑํ๋ process๋ฅผ ํ ๊ธ์ ๊ธฐ์ค ์ ์์ ๊ธ์๋ฅผ ์์ฑํ๋ ๋ฌธ์ ๋ก divide and conquerํ ๊ฒ์ด๋ค. ๊ทธ ์ฑ๋ฅ์ด ๊ธฐ์กด RNN์ ์ฌ์ฉ ํ ๊ฒ๋ณด๋ค ์ข์ ๊ฒ์ ๋ณด์ด๋ฉฐ, ์ ์๋ง ์ฐธ๊ณ ํด์ ๊ธ์๋ฅผ ๋ง๋ค์ด ๋ด๋ ๊ฒ์ด ๊ทผ๊ฑฐ ์๋ ๊ฐ์ ์ด๋ผ๋ ๊ฒ์ ๋ณด์๋ค.
ํ์ง๋ง ๋ ผ๋ฌธ์์๋ ๋งํ๋ฏ ๊ฐ์ n๊ฐ์ ๊ธ์๊ฐ ๋ค์ด๊ฐ ๋จ์ด๋ i๊ฐ 100๊ฐ๋ m์ด 100๊ฐ๋ ๊ฐ์ ๊ธธ์ด๋ฅผ ๊ฐ์ง๋ค๋ ๋ช ํํ ํ๊ณ์ ์ด ์๋ค. ๋ํ ๋ค์ํ ์คํ์ผ์ ๊ฒฐ๊ณผ๋ ๋ณด์ฌ์คฌ์ง๋ง controllableํ ๋ชจ์ต์ ๋ณด์ฌ์ฃผ์ง ๋ชปํ๋ค.
RNN์ผ๋ก ํ์ด์จ ๋ฌธ์ ๋ ๋ฌธ์ ์ ์๋ง ์ ํ๋ฉด CNN์ผ๋ก ํ ์ ์๋ ๋ฌธ์ ๋ ์๋ค.
Text Generation ๋ถ์ผ๋ Recognizable๊ณผ Realistic์ด๋ผ๋ target์ ๊ฐ์ง ์ด๋ฏธ์ง Generation๊ณผ๋ ๋ ๋ค๋ฅธ ๋๋์ ํฅ๋ฏธ๋ก์ด ๋ถ์ผ์ธ๊ฑฐ ๊ฐ๋ค.
๊น๊ธฐํ(GiHoon Kim)
KAIST GSCT, Visual Media Lab
gihoon@kaist.ac.kr
๊ถ๋คํฌ (Kwon Dahee): KAIST / -
๋ฐฑ์ ์ฝ (Baek Jeongyeop): KAIST/ -
ํ์ ๋ฏผ (Han Jungmin): KAIST/-
Alex Graves. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850, 2013.
Bo Ji and Tianyi Chen. Generative adversarial network for handwritten text. arXiv preprint arXiv:1907.11845, 2019
Eloi Alonso, Bastien Moysset, and Ronaldo Messina. Adversarial generation of handwritten text images conditioned on sequences. arXiv preprint arXiv:1903.00277, 2019.
Emre Aksan, Fabrizio Pece, and Otmar Hilliges. Deepwriting: Making digital ink editable via deep generative modeling. In Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, pages 1โ14, 2018.
Official GitHub repository: https://github.com/amzn/convolutional-handwriting-gan
Author's Video: https://www.youtube.com/watch?v=jGG5Q8S1Rus