07.04.202514:17
Я думаю, чтобы Саша, самое главное, играл, а рекорды, шайбы, они будут, если он будет играть и не думать об этом, — говорит Татьяна Овечкина.
Семантический переход «спортивный снаряд —> попадание этим снарядом в требуемое для изменения счёта пространство (гол)» у русских слов мяч и шайба наблюдается регулярно:
В матча 23-го тура РПЛ против «Ростова» Умяров отметился забитым мячом. (ссылка)
Уже через три минуты после исторического гола Овечкина «Айлендерс» восстановили преимущество в две шайбы. (ссылка)
А в других языках гораздо распространённее переход «цель —> требуемое для изменения счёта пространство (ворота) —> попадание в требуемое для изменения счёта пространство (гол)»: английское goal, французское but, шведское mål ‘цель’, ‘ворота’ и ‘гол’. Есть языки, где действует только вторая стрелочка: немецкое Tor, чешское branka, польское bramka ‘ворота’ и ‘гол’. Так же устроены и языки, которые заимствовали английское goal во втором и в третьем значении: фарси gol, сербское гол.
Но всё-таки, возвращаясь к словам мяч и шайба в значении ‘гол’ — неужели русский язык один такой? Ovechkin's pucks(и уже тем более Messi's balls) по-английски в этом смысле явно сказать нельзя. А вдруг в каком-то языке можно? Я ни одного такого языка не знаю — найдём ли мы что-нибудь общими усилиями?
Семантический переход «спортивный снаряд —> попадание этим снарядом в требуемое для изменения счёта пространство (гол)» у русских слов мяч и шайба наблюдается регулярно:
В матча 23-го тура РПЛ против «Ростова» Умяров отметился забитым мячом. (ссылка)
Уже через три минуты после исторического гола Овечкина «Айлендерс» восстановили преимущество в две шайбы. (ссылка)
А в других языках гораздо распространённее переход «цель —> требуемое для изменения счёта пространство (ворота) —> попадание в требуемое для изменения счёта пространство (гол)»: английское goal, французское but, шведское mål ‘цель’, ‘ворота’ и ‘гол’. Есть языки, где действует только вторая стрелочка: немецкое Tor, чешское branka, польское bramka ‘ворота’ и ‘гол’. Так же устроены и языки, которые заимствовали английское goal во втором и в третьем значении: фарси gol, сербское гол.
Но всё-таки, возвращаясь к словам мяч и шайба в значении ‘гол’ — неужели русский язык один такой? Ovechkin's pucks
28.01.202518:46
Я тут потупил в Твиттер, и мне принесло пост про то, как Зеленский не поступил в МГИМО. Сканы кружочков от дырокола даже слева нарисовали. Но удивительно не то, что люди поленились заполнить ведомость якобы того времени от руки и решили, что шрифта Courier хватит для эффекта древности, а то, что для них Федеральное государственное автономное образовательное учреждение высшего образования — это такое нормальное официальное название, ну всегда было, в 1995 году тоже...
08.01.202506:31
Читал Википедию про реформу орфографии 1918 года, наткнулся на такой скриншот с подписью. Отличный тест для корректоров: сколько секунд нужно, чтобы увидеть упомянутые в подписи три слова. Я этот тест провалил: три раза перечитал, очень устал, но всё равно нашёл только два слова.
10.02.202510:52
Сэм Альтман написал пост про блестящее будущее искусственного интеллекта. Про искусственный интеллект я высказываться не буду, а скажу про конверсивы. Конверсивы — это слова, которые позволяют описать одну и ту же ситуацию с разных точек зрения (Петя купил машину у Васи — Вася продал машину Пете). Альтман пишет:
Скользишь по этому тексту глазами и радуешься: логарифм, как всё дёшево и легко. А попробовал бы он написать то же самое, но по-другому: Расходы на обучение моделей растут экспоненциально по мере роста их качества — и сразу же перед глазами безнадёга.
Слово экспоненциально там всё же появится двумя абзацами ниже:
Видимо, автор надеется, что это сработает как самосбывающееся пророчество.
The intelligence of an AI model roughly equals the log of the resources used to train and run it.
Скользишь по этому тексту глазами и радуешься: логарифм, как всё дёшево и легко. А попробовал бы он написать то же самое, но по-другому: Расходы на обучение моделей растут экспоненциально по мере роста их качества — и сразу же перед глазами безнадёга.
Слово экспоненциально там всё же появится двумя абзацами ниже:
we see no reason for exponentially increasing investment to stop in the near future
Видимо, автор надеется, что это сработает как самосбывающееся пророчество.
24.01.202523:25
24 января были опубликованы задания Humanity's Last Exam — набора нетривиальных задач из разных областей знания, предназначенных для тестирования мыслительных способностей больших языковых моделей. В отличие от более простых тестов, здесь ни одна модель не справляется более чем с 10 процентами заданий. Датасет снабжён предупреждением, что его нельзя использовать для обучения моделей; посмотрим, как это будет соблюдаться, но создатели утверждают, что сколько-то заданий оставили скрытыми, чтобы продолжать тестировать на них без опасения, что модели просто выучили ответы.
Отдельные примеры заданий можно посмотреть на сайте, а полный датасет доступен на Hugging Face. Я не удержался и прочитал все 45 входящих в него заданий по лингвистике: там много семитологии (от одного автора), задания на знание истории индоевропейских языков (хинди и панджаби, английский, русский), вопросы по разным лингвистическим теориям, в том числе по таким, которые я впервые слышу, и многое другое.
Публиковать вопросы открыто, наверное, не стоит, но, может быть, в русском пересказе и не так страшно, так что позволю себе процитировать самый изящный, на мой взгляд, вопрос: «На какую цифру похож слоговой знак ро из японской хираганы, который выглядит так: ろ?» ChatGPT мне радостно ответил, что на 6. Ещё есть отличный вопрос, в котором даётся древнегреческий текст, но одно слово заменено на форму из другой эпохи греческого языка и надо найти это место. Может быть, эта задача мне нравится, потому что с одним из двух её заданий нейросеть в моей голове справилась :)
Самым популярным лингвистом в этом датасете оказался не кто иной как Андрей Анатольевич Зализняк. По его работам там целых три задачи (а, например, Хомский упомянут лишь в одной): Владислав Порицкий зашифровал до неузнаваемости старую лингвистическую задачу на баскский, Дмитрий Звонкин интересуется порядком древнерусских энклитик, а я сочинил вопрос про древнерусское ударение — хотя и не упомянул Зализняка в решении, а зря.
Как оказывается, ударение вообще очень благодатная тема для того, чтобы издеваться над нейросетями: там есть ещё одна задача про русское ударение, есть японский, иврит, арабский. А я недавно пробовал просить у ChatGPT сербские слова с ударениями нужных мне типов, но было бесполезно.
И да, никогда ещё я не был 396-м автором статьи.
Отдельные примеры заданий можно посмотреть на сайте, а полный датасет доступен на Hugging Face. Я не удержался и прочитал все 45 входящих в него заданий по лингвистике: там много семитологии (от одного автора), задания на знание истории индоевропейских языков (хинди и панджаби, английский, русский), вопросы по разным лингвистическим теориям, в том числе по таким, которые я впервые слышу, и многое другое.
Публиковать вопросы открыто, наверное, не стоит, но, может быть, в русском пересказе и не так страшно, так что позволю себе процитировать самый изящный, на мой взгляд, вопрос: «На какую цифру похож слоговой знак ро из японской хираганы, который выглядит так: ろ?» ChatGPT мне радостно ответил, что на 6. Ещё есть отличный вопрос, в котором даётся древнегреческий текст, но одно слово заменено на форму из другой эпохи греческого языка и надо найти это место. Может быть, эта задача мне нравится, потому что с одним из двух её заданий нейросеть в моей голове справилась :)
Самым популярным лингвистом в этом датасете оказался не кто иной как Андрей Анатольевич Зализняк. По его работам там целых три задачи (а, например, Хомский упомянут лишь в одной): Владислав Порицкий зашифровал до неузнаваемости старую лингвистическую задачу на баскский, Дмитрий Звонкин интересуется порядком древнерусских энклитик, а я сочинил вопрос про древнерусское ударение — хотя и не упомянул Зализняка в решении, а зря.
Как оказывается, ударение вообще очень благодатная тема для того, чтобы издеваться над нейросетями: там есть ещё одна задача про русское ударение, есть японский, иврит, арабский. А я недавно пробовал просить у ChatGPT сербские слова с ударениями нужных мне типов, но было бесполезно.
И да, никогда ещё я не был 396-м автором статьи.
05.01.202504:14
Запятая перед «и» в последнем предложении формально не нужна, но удивительно уместна. Даже не знаю, как лучше передать, что это «своё и мой сникерс», а не «свой и мой сникерс». Ну, Цветаева бы тире поставила, а нам, простым людям, только запятая и остаётся.
04.02.202520:31
Завтра, в среду, 5 февраля, в 20:00 МСК читаю традиционную лекцию про лингвистические итоги года в Центре «Архэ». Добро пожаловать!
https://arhe.msk.ru/?p=145941
https://arhe.msk.ru/?p=145941
21.01.202522:33
Как наличие явно выраженных показателей принадлежности меняет значение словосочетания, хорошо видно по-турецки (этому меня три года назад научил Илья Грунтов):
kadın doktor ‘женщина доктор’ — женщина-врач
kadın doktoru ‘женщина доктор-её’ — врач-гинеколог
kadının doktoru ‘женщины доктор-её’ — врач (этой конкретной) женщины
А сегодня я заметил, что в английском есть случай, где различие в показателях принадлежности даёт прямо противоположные значения:
Carlos Alcaraz’s win — победа Карлоса Алькараса
Carlos Alcaraz win — победа над Карлосом Алькарасом
kadın doktor ‘женщина доктор’ — женщина-врач
kadın doktoru ‘женщина доктор-её’ — врач-гинеколог
kadının doktoru ‘женщины доктор-её’ — врач (этой конкретной) женщины
А сегодня я заметил, что в английском есть случай, где различие в показателях принадлежности даёт прямо противоположные значения:
Carlos Alcaraz’s win — победа Карлоса Алькараса
Carlos Alcaraz win — победа над Карлосом Алькарасом
19.12.202423:16
Развлекаюсь с распознавателем акцента в английском от BoldVoice. Опыты показывают, что когда я читаю естественно-монотонно, во мне признают русского человека, а когда пытаюсь читать с выражением, то немца.
29.01.202512:11
В московском названии «улица Архитектора Власова» слово «архитектор» явно вставлено в значении «только не подумайте, что генерал». А вот нашёлся побратим этой улицы на острове Мадейра. И действительно скульптор, говорит Википедия.
19.01.202511:33
В этом квадрате отмечен левый верхний угол. А по-английски — top left corner, с другим порядком прилагательных. Оказывается, это различие есть не только между русским и английским: западнославянские языки предпочитают порядок левый верхний, южнославянские — верхний левый, а восточнославянские, в том числе и русский, находятся посередине между ними, но всё же тяготеют к левому верхнему.
На графике — статистика по всем четырём углам (левый/правый верхний/нижний) по самым большим корпусам этих языков, которые есть в Sketch Engine — от болгарского, где почти всегда горният ляв ъгъл, до словацкого, где почти всегда ľavý horný roh.
Английский ещё дальше болгарского: там 1:26 в пользу top/bottom left/right. Но слово top односложное, а bottom — двусложное. Более длинные слова в сочетаниях однородных членов имеют тенденцию идти позже, поэтому top left и top right побеждают со счётом 1:34, а bottom left и bottom right всего лишь 1:18, то есть сказать left/right bottom всё же лучше, чем left/right top.
На графике — статистика по всем четырём углам (левый/правый верхний/нижний) по самым большим корпусам этих языков, которые есть в Sketch Engine — от болгарского, где почти всегда горният ляв ъгъл, до словацкого, где почти всегда ľavý horný roh.
Английский ещё дальше болгарского: там 1:26 в пользу top/bottom left/right. Но слово top односложное, а bottom — двусложное. Более длинные слова в сочетаниях однородных членов имеют тенденцию идти позже, поэтому top left и top right побеждают со счётом 1:34, а bottom left и bottom right всего лишь 1:18, то есть сказать left/right bottom всё же лучше, чем left/right top.
Көрсетілген 1 - 11 арасынан 11
Көбірек мүмкіндіктерді ашу үшін кіріңіз.