Google Wave: Обработка естественных языков |
- Statistics
- Participants
- Translate into Russian
- Translation result
- Translation complete.
Вайтлоу: Привет. Я Кэйси Вайтлоу.
Я технический руководитель
группы обработки естественных языков
здесь в Сиднее, и сегодня я собираюсь немного
поговорить с вами
о тех крутых вещах, которые мы внедрили в Google Wave.
Одна из главных целей,
преследуемых нами в Google Wave - это эффективность.
Мы хотим, чтобы пользователи продолжали эффективно работать
как при чтении, так и при наборе текста.
Один из способов, который мы разработали для этой цели
- это наша система проверки орфографии.
Мы бы хотели, чтобы пользователи могли
сосредоточиться на том, что они пишут и не беспокоиться
опечатались они где-нибудь, или нет.
Мы считаем, что если люди могли бы чуть-чуть расслабиться
или просто печатать на 5% быстрее,
то они бы тратили на 5% меньше времени на набор текста.
Итак, я приведу пример.
Это, наверное, самый легкий способ для объяснения.
Представим, что Вы хотите встретиться с кем-то из друзей.
Вы договариваетесь о встрече.
И пишете...
[пишет] Let's [Давай]
met [встретились]...
упс...
tomorrow [завтра].
Вы видите, что я допустил ошибку
Я тут написал "met" [встретились], вместо "meet" [встретимся].
Мой палец пропустил букву "e".
Мы реализовали проверку орфографии
путем создания автоматизированного участника и назвали его Спелли.
Он работает прямо как ещё один пользователь,
который участвует в волне наравне с вами
Итак, Спелли на волне с вами,
и он может увидеть, что вы написали "Let's met tomorrow" [Давай встретились завтра]
и попробует проверить правильность написанного.
По каждому слову...
У него нет никаких словарей,
так что он не может знать, правильное ли слово "met" [встретились]
или ошибка.
Для начала он предлагает список
возможных кандидатов для исправления этого слова.
Например, это могут быть
"meat" [мясо], т.е. еда...
или "meet" [встретимся], правильный вариант в нашем случае.
Вы можете придумать ещё множество подобных вариантов.
Например "set" [установим], или "net" [сеть], или "me" [мне] —
все варианты слов, какие мы могли бы рассматривать,
чтоб понять, что же вы на самом деле хотели написать.
Мы научились у Интернета,
какого рода опечатки допускают люди,
и какие варианты более или менее подходят.
Итак мы понимаем, что, к примеру,
случайная вставка буквы "a"
вполне вероятна,
а пропуск самой первой буквы слова
менее вероятен в данном случае.
Итак, у нас есть некие предположения, и далее мы собираемся
оценить наши предположения в контексте.
Некоторые сервисы Google уже используют
подобную статистическую языковую модель,
например, Google Переводчик,
который обрабатывает информацию
о том, как используется язык.
Данные системы обучались Интернетом,
прорабатывая миллиарды веб-страниц,
и дали нам по-настоящему хорошее представление
о том, как же на самом деле общаются люди.
Далее мы бы оценивали
вероятность правильности предложений типа "Давай встретились завтра"
и "Давай мясо завтра" - они менее вероятны,
и "Давай встретимся завтра"
которое больше похоже на правду, нежели предыдущие.
Для этого мы совмещаем статистическую модель с нашей моделью ошибок,
которая высчитает вероятность каждой опечатки,
не учитывая контекст, для финального определения
тех слов,
которые вы могли подразумевать при написании.
Так, в данном случае мы бы предложили "встретимся" [meet].
Как только мы поняли, что в слове ошибка,
мы должны отобразить эту информацию в Google Wave-клиенте,
чтобы пользователь мог увидеть ее
и исправить ее вручную, либо же автоматически.
Наша система проверки орфографии
несколько отличается от существующих систем.
Одно из отличий в том, что система работает на сервере.
А это значит, что качество проверки
орфографии не зависит
от того, с какого устройства Вы работаете.
Так что независимо от того, используете ли Вы стационарный компьютер
или же ноутбук - вы получите такую же качественную проверку орфографии.
Это же справедливо и в языковом плане,
то есть мы реализовали это
и для других алфавитных языков.
Как я говорил, мы используем огромные статистические языковые модели.
Под огромными я подразумеваю
модели с миллиардами слов.
Которые вылились в много-много гигабайт данных.
Их невозможно запустить на одной машине,
Original (English): Google Wave: Natural Language Processing
Translation: © hellt, Nashev, qmax, vadbars, Руслан Гроховецкий, iBog .
