Моя лаборатория изучает обработку фонетического сигнала и сосредотачивается на фонетическом опознавании. Другими словами, фонетическое опознавание позволяет машинам, включая компьютеры, понимать то, что вы говорите.
Процесс фонетического опознавания следующий. Сначала мы берем часть звуков человеческой речи как образец, раскладываем в ряд Фурье, передаём сигналы через электрический фильтр, состав которого очень сложен, и получаем ряд характерных параметров.
Тогда мы сравниваем эти параметры с большим объёмом человеческих фонетических данных, которые были сохранены в базе данных. Известное произношение уже было присоединено к каждой части фонетических данных в базе данных. Так, после сравнения, произношение фонетических данных, самое близкое по сравнению с образцом будет результатом опознавания.
Есть несколько проблем с таким подходом. Процесс осуществления отбора чрезвычайно усложняет сигналы. Например, с частотой отбора 48 кГц, 5 секундный звук будет взят как образец из 240 000 чисел. Только компьютер может прочитать и обработать так много чисел.
После того, как мы преобразовываем звук в эту числовую форму, которую человек не может охватить, мы должны проработать это со всеми видами фильтров, чтобы убрать фоновый шум, отличить спикера, создать модель голосовых связок человека, и т.д. Мы используем много передовых технологий, чтобы решить эту проблему. Даже в этом случае, решение, которое мы получаем - только вероятность. Произношение, которое имеет наибольшее совпадение, может быть решением. Результат опознавания предполагает, что произношение, возможно, будет словом.
Если мы проводим фонетическое опознавание в ограниченной области, норма правильности - приблизительно 70 - 90 процентов. Что такое ограниченная область? Это означает, что ваша тема ограничена определенными возможностями словаря, например, о спорте. Как только вы выходите за пределы этой темы, например в политику, норма правильности опознавания резко снижается.
Оказывается, что первый шаг осуществления отбора является началом ошибки. Это преобразование 5 секундного звука в 240 000 чисел. Так как эти числа слишком проблематичны для обработки, мы проводим сигналы через электронный фильтр, раскладываем в ряд Фурье, и перемещаем сигналы из области времени в область частоты. Даже в этом случае сигналы слишком сложные. Что мы можем сделать? Мы берем характерные параметры и сокращаем сигналы до 42 параметров, которые могут быть обработаны.
Тогда мы сравниваем эти параметры с данными, сохраненными в базе данных. Поскольку слишком много информации было потеряно во время обработки, единственная вещь, которую мы можем теперь сделать, это вычислить вероятность - произношение сравнивается со звуком с самой высокой вероятностью. Результат вычисления не очень хорошо работает, таким образом, всё это уплотняется в соответствии с моделирующей язык программой. И, наконец, мы увеличиваем норму опознавания к приемлемому уровню.
Не говорите, что это - дух Старого Глупого Человека (легендарный китайский фольклорный персонаж, который пытался передвинуть гору перед его домом, перемещая по одному камню за раз). Фактически, всё это выглядит как безрассудная работа. Почему мы используем такой глупый метод, чтобы достичь цели? Потому что этот метод самый «передовой», предлагаемый наукой. Так как наука не может обеспечить лучшее решение, единственная вещь, которую ученый может теперь делать, это продолжать отчаянно работать с этим невежественным методом.
Собака может инстинктивно понять, счастлив ли её владелец, сердится он или грустит, без какого-либо обучения. У растения есть сверхспособность - телепатия. Почему же мы идем против природы и хотим, чтобы электронный хрустальный шар «понял» наши слова?
Тогда мы сравниваем эти параметры с большим объёмом человеческих фонетических данных, которые были сохранены в базе данных. Известное произношение уже было присоединено к каждой части фонетических данных в базе данных. Так, после сравнения, произношение фонетических данных, самое близкое по сравнению с образцом будет результатом опознавания.
Есть несколько проблем с таким подходом. Процесс осуществления отбора чрезвычайно усложняет сигналы. Например, с частотой отбора 48 кГц, 5 секундный звук будет взят как образец из 240 000 чисел. Только компьютер может прочитать и обработать так много чисел.
После того, как мы преобразовываем звук в эту числовую форму, которую человек не может охватить, мы должны проработать это со всеми видами фильтров, чтобы убрать фоновый шум, отличить спикера, создать модель голосовых связок человека, и т.д. Мы используем много передовых технологий, чтобы решить эту проблему. Даже в этом случае, решение, которое мы получаем - только вероятность. Произношение, которое имеет наибольшее совпадение, может быть решением. Результат опознавания предполагает, что произношение, возможно, будет словом.
Если мы проводим фонетическое опознавание в ограниченной области, норма правильности - приблизительно 70 - 90 процентов. Что такое ограниченная область? Это означает, что ваша тема ограничена определенными возможностями словаря, например, о спорте. Как только вы выходите за пределы этой темы, например в политику, норма правильности опознавания резко снижается.
Оказывается, что первый шаг осуществления отбора является началом ошибки. Это преобразование 5 секундного звука в 240 000 чисел. Так как эти числа слишком проблематичны для обработки, мы проводим сигналы через электронный фильтр, раскладываем в ряд Фурье, и перемещаем сигналы из области времени в область частоты. Даже в этом случае сигналы слишком сложные. Что мы можем сделать? Мы берем характерные параметры и сокращаем сигналы до 42 параметров, которые могут быть обработаны.
Тогда мы сравниваем эти параметры с данными, сохраненными в базе данных. Поскольку слишком много информации было потеряно во время обработки, единственная вещь, которую мы можем теперь сделать, это вычислить вероятность - произношение сравнивается со звуком с самой высокой вероятностью. Результат вычисления не очень хорошо работает, таким образом, всё это уплотняется в соответствии с моделирующей язык программой. И, наконец, мы увеличиваем норму опознавания к приемлемому уровню.
Не говорите, что это - дух Старого Глупого Человека (легендарный китайский фольклорный персонаж, который пытался передвинуть гору перед его домом, перемещая по одному камню за раз). Фактически, всё это выглядит как безрассудная работа. Почему мы используем такой глупый метод, чтобы достичь цели? Потому что этот метод самый «передовой», предлагаемый наукой. Так как наука не может обеспечить лучшее решение, единственная вещь, которую ученый может теперь делать, это продолжать отчаянно работать с этим невежественным методом.
Собака может инстинктивно понять, счастлив ли её владелец, сердится он или грустит, без какого-либо обучения. У растения есть сверхспособность - телепатия. Почему же мы идем против природы и хотим, чтобы электронный хрустальный шар «понял» наши слова?
Обсуждения Беспомощьность науки