Мы можем восстановить звук по видео? [Veritasium]
Угу, вот [музыка]. Эти кадры сняты без звука. Можно ли воссоздать его, имея только видеозапись? Можно ли услышать изображение? Сегодня я попытаюсь показать, что из картинки можно извлечь звук. Хоть это и непросто, мне понадобится помощь.
Как настроение? Отлично! Я просто набросал тут всякого в угол. А это я придумал кое-что для эксперимента — это что, комочек фольги? Да, у меня нет камеры помощнее, и вполне возможно воссоздавать ритм и звуки из видео. На что бы мы ни снимали, может показаться, что записать на камеру звук — это легко, ведь звук — это колебания среды, воздух вибрирует и все. Чего он касается, тоже будет вибрировать.
В чем же проблема? Записать эти вибрации на видео, построить график колебаний во времени, а потом воспроизвести [музыка]. Мешают пара нюансов. Во-первых, речь идет об очень слабых колебаниях со смещением примерно в один микрометр. Даже самые совершенные Зум никак не помогут, потому что это меньше пикселя в сотню или даже в тысячу раз. Вы не увидите, как гаснет один — нет, просто один станет чуточку темнее.
С каких объектов проще всего снимать звук? Нам нужно, чтобы колебания звука старались сделать максимально громкими. Барашек, ба-рашек. Давайте попробуем простой ритм. Так, наверняка знакомо, поставим камеру на штатив — отличный ракурс. Ладно, давай попробуем, вот что у нас получилось.
Обратите внимание: во-первых, движение по сути не видно, во-вторых, пиксели постоянно меняют яркость из-за цветового шума. То есть это не сказать, что идеально чистая съемка. Как же тогда понять, где мы видим движение фольги от звуков, а где просто шум? Нужно смотреть на края: если что-то сдвинулось, даже на маленькую-маленькую долю пикселя в определенную сторону, у нас получается число положение.
И что делаем теперь? Мы наложим на это дело фильтры перегруз. И какой? Да, получилось мало, что совсем мало, но кусочек узнать можно. Это результат при 180 кадрах в секунду, что не так уж много. Если брать диапазон звуковых частот, по сути в этом случае мы можем рассчитывать только на ритм, не больше.
Разумеется, главное ограничение — чистота. Мы слышим колебания от 20 до 20 тысяч герц, но большая часть камер снимает 30 кадров в секунду, и почти все частоты остаются за борту. Допустим, вот эти колебания вызывают звук в 30 герц. Если вы решите поймать его на 30 кадрах в секунду, камера будет видеть объект в одном и том же положении, все время в одной и той же точке волнового цикла. Вам будет казаться, что объект совсем не двигается.
Чтобы измерить частоту звука, нужно как минимум в два раза больше значений. Поэтому в музыке дискретизацию часто делают в два выше слухового порога. Чтобы услышать что-то более внятное, нужна камера с большей частотой кадров. Мы поехали в магазин и купили камеру, которая должна снимать где-то 1000 кадров в секунду.
Что скажешь? Этого хватит на что-то? Хватит, оптимистично! Слушай, тональность поменять, и будет дабстеп, чуть больше кваканья и всё — новый шедевр готов. Я установил 1000 кадров в секунду, другое дело, да [музыка] — снято!
Итак, сейчас ты режешь видео. Для чего? Сейчас мы всё делаем на моем ноуте, а не на серверах в Айти, как обычно. Так что если мы запустим здесь видео целиком, ноут сгорит. Я поэтому монтирую. Фольга чуть-чуть дёргается. Да, похоже, но вопрос в том, что это резонанс или шум? В нашем случае, если фольга будет колебаться туда-сюда, как кресло-качалка, мы не получим информацию о звуке.
Так и какие у нас перспективы? Шансы есть, я заранее знаю мелодию и мне кажется, будто я ее слышу. Да, не стоит себе верить, правда есть риск услышать то, чего ждешь. Да пробуем так! Примерно 60 герц — это многовато. Итак, попробуем еще раз. Теперь мы положили фольгу на динамик и увеличили громкость до 11. Эта колонка для душа, так что супер!
Ну как? Картинка просто прекрасна. С тех пор как я последний раз смотрел на этот код, прошло два года, и вполне возможно, что я уже всё забыл, но всё же я кое-что отмечу. Вот наша запись, а вот лента для пианолы нашей мелодии. Похоже на "пам пам", да? А это "пам". Да, это оно! Вам пора "рам пам пам".
Хорошо, давай наконец послушаем, как это всё. Видим, но не слышно ничего. Я понял, в чем дело — чем мой ноутбук просто не воспроизводит эти частоты. Секунду принесу наушники, может колонку сменить? [смех] Что и слышно. Погоди, слышу как раз ту мелодию, которую должен. Возьми, послушай. Я подержу.
Спасибо, я... Так ведь Shift! [смех] Ну вот, готово! Визуальный микрофон. Мы показали, что в принципе это возможно, но судя по результатам, если взять оборудование получше, то можно записать даже голос через звукоизолирующее стекло. [музыка] Переведено и озвучено студией vert daydar.