Как стать автором
Обновить

Casio прекращает разработку новых электронных словарей

Время на прочтение1 мин
Количество просмотров3.1K

Японская Casio сообщила о прекращении разработки новых электронных словарей. Об этом стало известно из финансовой отчётности компании за четвёртый квартал 2024 года. Производитель сослался на снижение спроса из-за увеличения числа пользователей смартфонов.

Читать далее

Глагол «гуглить» потерял популярность среди зумеров

Время на прочтение1 мин
Количество просмотров103K

Аналитики компании Bernstein Research провели исследование, в ходе которого выяснилось, что глагол «гуглить» используется всё реже среди зумеров. Молодое поколение предпочитает использовать «искать» (search).

Читать далее

Рип сетевых словарей при помощи Node.js, ч. 1: статические страницы; CLI; DSL -> TXT, PDF, DjVu; сопутствующие задачи

Время на прочтение20 мин
Количество просмотров13K
Компания ABBYY создала хорошую программную оболочку для работы со словарями, однако не меньшим её вкладом в цифровую лексикографию стал побочный продукт разработки ABBYY Lingvo — язык словарной разметки DSL. Он давно уже вышел за границы Lingvo, стал самостоятельным стандартом и форматом для других словарных оболочек, в том числе одной из самых известных в своём роде — GoldenDict.

Но сама по себе компания ABBYY не достигла бы таких успехов без помощи многочисленной армии энтузиастов-лексикографов, маниакально год за годом оцифровывавших бумажные словари и конвертировавших словари цифровые — от миниатюрных специальных до огромных общего назначения.

Одна из самых известных и плодотворных групп давно уже работает на сайте forum.ru-board.com. Со временем там накопилась как обширнейшая коллекция словарей, так и основательнейшая база знаний и инструментов в помощь их создателям и редакторам. Было написано множество скриптов и программ, набор которых отражает историю и изменения популярности языков программирования, более или менее приспособленных для обработки текста. Тут и Perl с Python, и языки пакетных файлов для оболочек, и макросы MS Word и Excel, и компилируемые программы на языках общего назначения.

Однако до последнего времени один из языков почти не был представлен в данной сфере. Хотелось бы восполнить этот пробел и отдать должное стремительному росту мощности, функциональности и популярности языка JavaScript. Думается, он может оказать большую помощь современным программистам-лексикографам, особенно на границе сетевой и локальной лексикографии.
Читать дальше →

Уж послала, так послала: словосочетания-паразиты в технических текстах

Время на прочтение7 мин
Количество просмотров20K

В технических текстах есть целый пласт «устоявшихся словосочетаний», которые по сути являются неправильным или некорректным употреблением слов. Да, это не грубые ошибки, вроде «за ранее» или «по мимо», во многих случаях это скорее просто неточности. Но на поверку эти формы оказываются неблагозвучными, неоднозначными или вообще непонятными читателю.

Вспомним наш любимый мультфильм «Падал прошлогодний снег» с его шикарными крылатыми фразами. Одна из них: «Уж послала, так послала». Вот и система так же — вместо отправки запроса посылает его куда-то далеко. А запросу обидно.

Читать далее

Осваиваем Python. Унция 1. Типы данных.

Время на прочтение6 мин
Количество просмотров82K
image
Продолжаю своё начинание. Данная статья является логическим продолжением первой. Было приятно читать ваши комментарии. Я надеялся, что данный цикл статей окажется для кого-то полезным, но совершенно не предполагал, что заинтересовавшихся будет довольно большое количество. Это заставляет относится к делу серьёзнее и ответственнее.
Без лишних слов, сразу к делу.
Читать дальше →

Как написать средство проверки орфографии кхмерского языка

Время на прочтение8 мин
Количество просмотров3K

Материалом с подробностями о реализации средства проверки и исправления орфографии кхмерского языка, основного в Камбодже, делимся к старту флагманского курса по Data Science.

Читать далее

Как мы составили Словарь больших данных для тех, кто не в теме бигдаты

Время на прочтение5 мин
Количество просмотров4.7K


Я Павел Свиридонов, гуманитарий, который вместо известной сети быстрого питания попал в IT-компанию. У меня нет технического образования, и я всё ещё не до конца понимаю, как работает интернет. Но как выяснилось, не только я хлопаю ресницами и пытаюсь улететь с совещаний, где речь заходит про…

Впрочем, вот краткая предыстория. Однажды мой приятель — проджект в одной компании и бывший учитель английского, пожаловался: «На созвонах, где речь про бигдату заходит, я ничего не понимаю!» И это прям эхом отозвалось в моей душе: увы, но у меня с пониманием больших данных дела обстояли не лучше. Да что там: признаюсь, когда наши дата-инженеры начинали говорить, мне казалось, что беседа вдруг перешла на эльфийский.

Обидно!

И вот, отчасти чтобы помочь другим гуманитариям, отчасти чтобы разобраться в теме самому, я задумал маленькую контентную революцию: составить Словарь больших данных! Но такой, чтобы собранные в нём основные термины по бигдате, объяснялись просто, на бытовых примерах, понятных любому человеку, независимо от образования и профессии.
Читать дальше →

Когда Российская академия наук бессильна

Время на прочтение4 мин
Количество просмотров8.2K
Если у вас есть враги, порекомендуйте им выучиться на филологов или редакторов, а потом пойти работать в геймдев. Они будут молить о пощаде, разыскивая в словарях плейбласты вьюпорта, коллбэки и риггинги, а вы будете ехидно посмеиваться. Но это продлится недолго. В какой-то момент боль утихнет, придет смирение и начнется невероятно интересный квест!

Редакторы из отдела копирайтинга краснодарской студии Plarium часто встречаются со словами, которые еще не добавлены ни в один справочник. В этой статье они поделятся своими методами работы и приведут несколько кейсов.

Читать дальше →

Приложения для электронных книг на операционной системе Android. Часть 3. Словари и заметки

Время на прочтение12 мин
Количество просмотров31K
В этой (третьей) части статьи о приложениях для электронных книг на операционной системе Android будут рассмотрены следующие две группы приложений:

1. Альтернативные словари
2. Заметки, дневники, планировщики

image

Краткое содержание предыдущих двух частей статьи:

В 1-ой части были подробно рассмотрены причины, по которым оказалось необходимым провести массированное тестирование приложений на предмет их пригодности для установки на электронных книгах, а также был приведён список протестированных офисных приложений.

Во 2-ой части статьи были рассмотрены ещё две группы приложений: книжные магазины и альтернативные приложения для чтения книг.
Читать дальше →

Дореформенный словарь: рецепт

Время на прочтение4 мин
Количество просмотров9K
Как, наверное, многим хабрапользователям известно, сегодня, 24 мая, отмечают день славянской письменности — праздник тех, для кого слово ОРЕХ означает всё же не «operational expense». Сегодня я расскажу, как можно из современного русского морфологического словаря изготовить словарь русского языка с дореформенной орфографией. Обо всём по порядку.



Как многие из нас знают, революция 1917 года отменила в России не только обязательства по долгам, но и некоторые буквы из русского алфавита. Но дореформенные правила забытыми не остались, текстов, опубликованных до реформы, тоже сохранилось изрядно (даже в моей скромной домашней библиотеке найдётся пара томов), да и вообще тема создания морфологического словаря для той, винтажной, грамматики сама по себе интересна. Реформа состояла в том, что из обращения убрали некоторые буквы (і,ѣ, ѵ и ѳ), а также изменили некоторые правила, прямого отношения к употреблению этих букв не имеющих. Подробнее в википедии.

Сегодня мы поговорим о том, как из морфологического словаря нашего обычного современного русского языка породить морфологический словарь для языка дореформенного.
Как же это сделать

Генераторы словарей

Время на прочтение3 мин
Количество просмотров75K
Некоторые замечательные возможности языка Python незаслуженно оставлены без внимания и многие программисты о них не знают. В этот раз речь пойдет о прекрасной возможности языка, делающей код яснее: генераторы словарей — однострочные выражения, возвращающие словарь. Но начнем с компактных генераторов списков и задачи удаления неуникальных элементов коллекций.

Будет интересно в основном новичкам в Python.
Читать дальше →

Функциональное программирование на Python для самых маленьких — Часть 1 — Lambda Функция

Время на прочтение10 мин
Количество просмотров56K
image

Я решил написать эту серию статей, ибо считаю, что никто не должен сталкиваться с той стеной непонимания, с которой столкнулся когда-то я.

Ведь большинство статей написаны таки образом что, для того чтобы понять что-то в Функциональном Программировании (далее ФП), тебе надо уже знать многое в ФП. Эту статью я старался написать максимально просто — настолько понятно, чтобы её суть мог уловить мой племянник, школьник, который сейчас делает свои первые шаги в Python.
Читать дальше →

Устройство CPython. Доклад Яндекса

Время на прочтение21 мин
Количество просмотров36K
Мы публикуем конспект вступительной лекции видеокурса «Бэкенд-разработка на Python». В ней Егор Овчаренко egorovcharenko, тимлид в Яндекс.Такси, рассказал о внутреннем устройстве интерпретатора CPython.


— Если кратко, какой у нас будет план? Сначала мы поговорим о том, почему будем изучать именно Python. Затем посмотрим, как работает интерпретатор CPython более глубоко, как он управляет памятью, как устроена система типов в Python, на словари, генераторы и исключения. Я думаю, это займет примерно час.
Читать дальше →

Словарь он-лайн Словник.НЕТ

Время на прочтение1 мин
Количество просмотров1.5K
Здравствуйте, хабранарод!
Эта статья будет больше интересна украинскому сектору хабра.
image
Думаю, каждый из вас когда-нибудь задумывался, что означает или как пишется какое-то слово. Что же мы делаем в большинстве случаем? Заходим в гугл яндекс нигму другое (нужное подчеркнуть) и ищем слово. Если дома есть словарь, то смотрим в него.

Лично я давно пользуюсь таким сервисом как slovnyk.net, и, поспрашивав у знакомых, понял, что о нем почти никто не знает!
Читать дальше →

«Яндекс» оцифрует словари

Время на прочтение2 мин
Количество просмотров586
«Яндекс», намереваясь пополнить базу сервиса «Яндекс.Словари», начинает масштабную программу оцифровки словарей и справочников. В рамках этой программы компания будет приобретать права на публикацию словарей и энциклопедий по разным отраслям знания. Потратить на это планируется около миллиона долларов в течение двух лет.

Проиндексированные книги будут собраны на сайте «Яндекс.Словари». Ссылки на словарные статьи станут появляться также при поиске с главной страницы портала. Поисковый запрос специально может быть начат со слов «что такое» или «кто такой» — в результатах поиска по вебу первыми будут ссылки на соответствующие статьи из энциклопедий.

Оцифровывает словари, по сообщению «Яндекса», партнер проекта – государственный центр по электронным информационным ресурсам ФГУП НТЦ «Информрегистр». Отбирает книги для оцифровки редакционный совет программы.

«Интернет — это уникальная справочная система, — говорит Аркадий Волож, генеральный директор компании «Яндекс». — Однако установить точность и достоверность размещенной в интернете информации часто бывает трудно. Цель нашей программы — добавить в общедоступную сеть выверенные и апробированные источники знания».

«Затея» компании радует Максима Мошкова, создателя крупнейшей в России электронной библиотеки Lib.Ru: «Особенно приятно, что оцифровкой словарей занимается «Информрегистр». Я видел, как они тотально и глубоко прорабатывали оцифровки собрания сочинений русских классиков. Недостижимый класс, огромная и очень дорогая работа. Если они на таком же уровне отработают и в этом проекте, останется только снять шляпу».

Из последних обновлений на «Яндекс.Словарях» — энциклопедия символов, словарь современных географических названий, философский словарь, справочник по джазу.

Всего служба содержит около 2 963 476 статей в 49 словарях и энциклопедиях. Александр Антопольский, доктор технических наук, считает, что программа ускорит движение в интернет издательств, большинство из которых сейчас предоставляет книги только на бумажном носителе.

Вот это скорость! Как мы подружили наш UBA-модуль с ClickHouse и что из этого вышло

Время на прочтение11 мин
Количество просмотров4.7K
В прошлом году мы выпустили мажорную версию своего продукта Solar Dozor 7. В новую версию нашей DLP-системы вошел модуль продвинутого анализа поведения пользователей UBA. При его создании мы попробовали разные базы данных, но по совокупности критериев (о них скажем ниже) в итоге остановились на ClickHouse.

Освоить ClickHouse местами было непросто, многое стало для нас откровением, но главное преимущество этой СУБД затмевает все её недостатки. Как вы поняли из заголовка, речь о скорости. По этому параметру ClickHouse оставляет далеко позади традиционные коммерческие базы данных, которые мы в своих продуктах, в том числе в Solar Dozor, тоже используем.

В общем, если вы давно хотели, но никак не решались попробовать, изучите наш опыт, он может вам пригодиться.


Кадры из мультфильма «Турбо» (2013 год)
Читать дальше →

Баг в Chrome или как Яндекс сломал Google

Время на прочтение1 мин
Количество просмотров4.9K
Обнаружил странный баг в Google Chrome.
Воспроизвести удалось только на Яндекс.Словарях:
  1. Запускаем свежий Chrome
  2. Заходим на slovari.yandex.ru
  3. Ничего не нажимая в словарях, пытаемся перейти на любой URL (например, google.ru)
  4. Chrome либо пытается искать в словарях, либо молча падает
Если перед заходом на другой URL нажать в любое место на странице (снять фокус с поисковой строки словарей), то проблема не воспроизведется.
Заметил в самой свежей версии Chrome 3.0.195.25 (сборка 27847) и более ранних.
При падении видно преимущество вкладок, как отдельных процессов, т.к. падает только одна.

Универсальный орфографический словарь для Firefox

Время на прочтение2 мин
Количество просмотров3K
Что мне всегда казалось странным в используемых Mozilla словарях, так это то, что они не понимают слов с буквой «ё». Ведь я же далеко не один такой, кто всегда использует эту букву.

И что же делать таким как я? Поставить другой словарь? Я тут на днях решил пощупать Firefox 3 beta 2, и как белый человек, зашёл в инструменты > дополнения > Загрузить расширения. А там нажал ссылочку «словари». И что же я увидел?

А нет там выбора словаря. Есть только один — тот самый, который без поддержки буквы «ё». Хотя насколько я помню, раньше загрузка словарей в FF была организована как-то иначе, и там был выбор словаря. Собственно, прежний список до сих пор существует — на специальном сайте dictionaries.mozdev.org, только выйти на него получается не через меню Firefox или сайт расширений, а через гугл. Неправильно это как-то.

Всё это, конечно, хорошо, но что если частенько что-то пишешь и на английском языке? Ставить второй словарь? Постоянно между ними переключаться? А если я часто пишу смешанные тексты? А что если я вдруг захочу написать несколько слов, содержащих букву «ё» заменяя её на «е»? Firefox их больше не будет проверять, а просто пометит как ошибочные?

Есть решение!

Uz-Translations: иностранные языки, онлайн образование

Время на прочтение1 мин
Количество просмотров2.7K


Уважаемые хабрапользователи, хочу представить вашему вниманию мой языковой проект: Uz-Translations — информационный блог для филологов и переводчиков. Сайт был запущен в 2004 году.

Цель сайта создать в Интернете уникальный ресурс, где будут собраны материалы как для изучающих, так и преподающих иностранные языки. Ежедневно на сайте размещаются статьи, посвященные искусству перевода, лингвистике, страноведению, а также обзоры программ, учебных материалов, словарей и онлайн курсов, которые сейчас набирают популярность во всем мире!

Буду рад услышать вашу критику и замечание в адрес сайта!

Компьютерная терминология в украинском языке

Время на прочтение2 мин
Количество просмотров6.4K
Не всем этот топик будет интересен, но думаю, что размещение его здесь оправдано, так как хабр — один из ведущих ИТ ресурсов Украины.

Мне очень не нравится украинский перевод большинства компьютерных терминов. Не хочу вникать в причины этого явления, лучше поделюсь информацией, которую нашел в открытом словаре новых терминов (Відкритий словник новітніх термінів). Привожу самое интересное с моими комментариями.

Printer, принтер — друкар [друк’ар] (рус. печатник)
Сейчас в украинском языке, как и в русском, используется транслитерация с английского — «принтер» [пр’ынтэр]. Слово «друкувать» (рус. печатать) в украинский язык пришло из немецкого через польский. И как в немецком, так и в польсоком «printer» переводиться как «печатник»: нем. Drucker, польск. Drukarka.

Вы не поверите, как можно перевести cookies