Google Wave: Обработка естественных языков

Casey Whitelaw, “Google Wave: Natural Language Processing”, public translation into Russian from English More about this translation.

Translate into another language.

0:00:05,734 (2.5s)

Вайтлоу: Привет. Я Кэйси Вайтлоу.

0:00:08,234 (1.0s)

Я технический руководитель

0:00:09,234 (1.3s)

группы обработки естественных языков

0:00:10,567 (1.9s)

здесь в Сиднее, и сегодня я собираюсь немного

0:00:12,501 (1.4s)

поговорить с вами

0:00:13,901 (2.7s)

о тех крутых вещах, которые мы внедрили в Google Wave.

0:00:16,601 (2.2s)

Одна из главных целей,

0:00:18,834 (3.0s)

преследуемых нами в Google Wave - это эффективность.

0:00:21,834 (1.8s)

Мы хотим, чтобы пользователи продолжали эффективно работать

0:00:23,634 (2.1s)

как при чтении, так и при наборе текста.

0:00:25,734 (1.8s)

Один из способов, который мы разработали для этой цели

0:00:27,601 (1.6s)

- это наша система проверки орфографии.

0:00:29,267 (2.9s)

Мы бы хотели, чтобы пользователи могли

0:00:32,234 (2.3s)

сосредоточиться на том, что они пишут и не беспокоиться

0:00:34,534 (2.2s)

опечатались они где-нибудь, или нет.

0:00:36,801 (2.1s)

Мы считаем, что если люди могли бы чуть-чуть расслабиться

0:00:39,000 (2.1s)

или просто печатать на 5% быстрее,

0:00:41,100 (2.3s)

то они бы тратили на 5% меньше времени на набор текста.

0:00:43,400 (2.3s)

Итак, я приведу пример.

0:00:45,734 (2.0s)

Это, наверное, самый легкий способ для объяснения.

0:00:47,801 (3.3s)

Представим, что Вы хотите встретиться с кем-то из друзей.

0:00:51,133 (1.1s)

Вы договариваетесь о встрече.

0:00:52,300 (2.2s)

И пишете...

0:00:54,534 (1.9s)

[пишет] Let's [Давай]

0:00:56,467 (1.9s)

met [встретились]...

0:00:58,434 (1.6s)

упс...

0:01:00,067 (3.7s)

tomorrow [завтра].

0:01:03,767 (1.8s)

Вы видите, что я допустил ошибку

0:01:05,567 (1.8s)

Я тут написал "met" [встретились], вместо "meet" [встретимся].

0:01:07,400 (2.1s)

Мой палец пропустил букву "e".

0:01:09,501 (4.0s)

Мы реализовали проверку орфографии

0:01:13,534 (3.4s)

путем создания автоматизированного участника и назвали его Спелли.

0:01:16,968 (2.7s)

Он работает прямо как ещё один пользователь,

0:01:19,767 (2.0s)

который участвует в волне наравне с вами

0:01:21,767 (2.5s)

Итак, Спелли на волне с вами,

0:01:24,334 (4.9s)

и он может увидеть, что вы написали "Let's met tomorrow" [Давай встретились завтра]

0:01:29,267 (2.1s)

и попробует проверить правильность написанного.

0:01:31,367 (1.5s)

По каждому слову...

0:01:32,901 (2.6s)

У него нет никаких словарей,

0:01:35,534 (4.0s)

так что он не может знать, правильное ли слово "met" [встретились]

0:01:39,534 (1.3s)

или ошибка.

0:01:40,834 (2.2s)

Для начала он предлагает список

0:01:43,100 (3.5s)

возможных кандидатов для исправления этого слова.

0:01:46,634 (3.7s)

Например, это могут быть

0:01:50,367 (3.0s)

"meat" [мясо], т.е. еда...

0:01:53,400 (3.4s)

или "meet" [встретимся], правильный вариант в нашем случае.

0:01:56,868 (2.4s)

Вы можете придумать ещё множество подобных вариантов.

0:01:59,367 (2.8s)

Например "set" [установим], или "net" [сеть], или "me" [мне] —

0:02:02,200 (3.1s)

все варианты слов, какие мы могли бы рассматривать,

0:02:05,367 (3.8s)

чтоб понять, что же вы на самом деле хотели написать.

0:02:09,200 (3.5s)

Мы научились у Интернета,

0:02:12,734 (2.2s)

какого рода опечатки допускают люди,

0:02:14,934 (2.2s)

и какие варианты более или менее подходят.

0:02:17,200 (1.6s)

Итак мы понимаем, что, к примеру,

0:02:18,834 (1.8s)

случайная вставка буквы "a"

0:02:20,634 (1.6s)

вполне вероятна,

0:02:22,300 (3.1s)

а пропуск самой первой буквы слова

0:02:25,434 (3.0s)

менее вероятен в данном случае.

0:02:28,467 (4.2s)

Итак, у нас есть некие предположения, и далее мы собираемся

0:02:32,667 (1.9s)

оценить наши предположения в контексте.

0:02:34,667 (3.4s)

Некоторые сервисы Google уже используют

0:02:38,067 (2.3s)

подобную статистическую языковую модель,

0:02:40,434 (2.0s)

например, Google Переводчик,

0:02:42,467 (1.9s)

который обрабатывает информацию

0:02:44,367 (1.7s)

о том, как используется язык.

0:02:46,133 (1.8s)

Данные системы обучались Интернетом,

0:02:47,968 (1.7s)

прорабатывая миллиарды веб-страниц,

0:02:49,734 (1.4s)

и дали нам по-настоящему хорошее представление

0:02:51,167 (2.5s)

о том, как же на самом деле общаются люди.

0:02:53,734 (1.7s)

Далее мы бы оценивали

0:02:55,434 (3.4s)

вероятность правильности предложений типа "Давай встретились завтра"

0:02:58,834 (3.2s)

и "Давай мясо завтра" - они менее вероятны,

0:03:02,067 (1.7s)

и "Давай встретимся завтра"

0:03:03,767 (2.5s)

которое больше похоже на правду, нежели предыдущие.

0:03:06,267 (1.8s)

Для этого мы совмещаем статистическую модель с нашей моделью ошибок,

0:03:08,067 (2.1s)

которая высчитает вероятность каждой опечатки,

0:03:10,200 (3.6s)

не учитывая контекст, для финального определения

0:03:13,834 (2.0s)

тех слов,

0:03:15,901 (3.2s)

которые вы могли подразумевать при написании.

0:03:19,200 (2.8s)

Так, в данном случае мы бы предложили "встретимся" [meet].

0:03:22,000 (3.4s)

Как только мы поняли, что в слове ошибка,

0:03:25,467 (3.6s)

мы должны отобразить эту информацию в Google Wave-клиенте,

0:03:29,100 (2.5s)

чтобы пользователь мог увидеть ее

0:03:31,667 (3.0s)

и исправить ее вручную, либо же автоматически.

0:03:34,701 (1.3s)

Наша система проверки орфографии

0:03:36,067 (2.7s)

несколько отличается от существующих систем.

0:03:38,834 (3.1s)

Одно из отличий в том, что система работает на сервере.

0:03:42,000 (2.1s)

А это значит, что качество проверки

0:03:44,100 (1.9s)

орфографии не зависит

0:03:46,033 (3.4s)

от того, с какого устройства Вы работаете.

0:03:49,434 (3.3s)

Так что независимо от того, используете ли Вы стационарный компьютер

0:03:52,767 (3.2s)

или же ноутбук - вы получите такую же качественную проверку орфографии.

0:03:56,000 (1.9s)

Это же справедливо и в языковом плане,

0:03:57,901 (1.5s)

то есть мы реализовали это

0:03:59,467 (1.8s)

и для других алфавитных языков.

0:04:01,267 (5.3s)

Как я говорил, мы используем огромные статистические языковые модели.

0:04:06,667 (1.1s)

Под огромными я подразумеваю

0:04:07,801 (2.0s)

модели с миллиардами слов.

0:04:09,801 (2.2s)

Которые вылились в много-много гигабайт данных.

0:04:12,033 (3.4s)

Их невозможно запустить на одной машине,

Pages: ← previous Ctrl next
1 2

© Google

Original (English): Google Wave: Natural Language Processing

Translation: © hellt, Nashev, qmax, vadbars, Руслан Гроховецкий, iBog .

translated.by crowd

Like this translation? Share it or bookmark!