Какво да знаете
- В Google Books Ngram Viewer въведете фраза, изберете период от време и корпус, задайте нивото на изглаждане и щракнете върху Търсене на много книги.
- Можете да разгледате данните. Например, за да търсите глаголната форма на риба, вместо съществителното риба, използвайте етикет: търсене на fish_VERB.
- Ngram Viewer извежда графика, представяща употребата на фразата във времето. За множество фрази всяка е представена с цветно кодирана линия.
Тази статия обяснява как да използвате инструмента Ngram Viewer в Google Книги за провеждане на проучвания и мощни търсения.
Как работи Ngram Viewer
Ngram, наричан още N-gram, е статистически анализ на съдържание на текст или реч, за да се намери n (число) от някакъв вид елемент в текста.
Елементът за търсене може да бъде най-различни неща, включително фонеми, префикси, фрази и букви. Въпреки че Ngram е неясен извън изследователската общност, той се използва в различни области и има много последици за разработчиците, които кодират компютърни програми, които разбират и отговарят на естествения говорим език.
В случая на Google Books Ngram Viewer текстът, който трябва да се анализира, идва от огромния брой книги в публичното пространство, които Google сканира, за да попълни своята търсачка Google Books. За Google Books Ngram Viewer Google нарича текста, който ще търсите, корпуса. Ngram Viewer обобщава по език, въпреки че можете да анализирате отделно британски и американски английски или да ги обедините.
- Отидете на Google Books Ngram Viewer на books.google.com/ngrams.
-
Въведете всяка фраза или фрази, които искате да анализирате. Разделете всяка фраза със запетая. Google предлага „Албърт Айнщайн, Шерлок Холмс, Франкенщайн“, за да започнете.
При търсения с NGram Viewer, елементите са чувствителни към малки и големи букви, за разлика от търсенията в мрежата с Google.
- Изберете период от време. По подразбиране е 1800 до 2000.
- Изберете корпус. Можете да търсите текстове на чужди езици или текстове на английски и в допълнение към стандартните възможности за избор може да забележите записи като „английски (2009)“или „американски английски (2009)“в долната част на списъка. Това са по-стари корпуси, които Google актуализира оттогава, но може да имате някаква причина да правите сравнения със стари набори от данни. Повечето потребители могат да ги игнорират и да се фокусират върху най-новите корпуси.
-
Задайте нивото на изглаждане. Изглаждането се отнася до това колко гладка е графиката в края. Най-точното представяне отразява ниво на изглаждане от 0, но тази настройка може да е трудна за четене. По подразбиране е зададено 3. В повечето случаи не е необходимо да го коригирате.
- Натиснете Търсене в много книги.
Използвайки Ngram Viewer на Google, можете да разгледате данните. Ако искате да търсите глагола риба вместо съществителното риба, можете да го направите, като използвате тагове. В този случай ще търсите fish_VERB.
Google предоставя пълен списък с команди, друга разширена документация за използване с Ngram Viewer на своя уебсайт.
Долен ред
Google Books Ngram Viewer извежда графика, която представя използването на определена фраза в книгите през времето. Ако сте въвели повече от една дума или фраза, всяка от тях е представена с цветно кодирана линия, за да контрастира с другите думи за търсене. Това е подобно на Google Trends, само че търсенето обхваща по-дълъг период.
Казус
Разгледайте казуса с пайове с оцет. Те се споменават в поредицата „Малка къща в прерията“на Лора Ингалс Уайлдър. Проучването с уеб търсенето на Google, за да научите повече за пайовете с оцет, разкрива, че те се считат за част от американската южна кухня и наистина се правят с оцет. Те се връщат към времената, когато не всеки е имал достъп до пресни продукти по всяко време на годината, но това ли е цялата история?
Потърсете в Google Ngram Viewer пай с оцет и ще срещнете някои споменавания на пая както в началото, така и в края на 1800 г., много споменавания през 1940 г. и нарастващ брой споменавания в последно време. Въпреки това, с ниво на изглаждане от 3, виждате плато над споменаванията през 1800 г. Тъй като през това време нямаше много издадени книги и тъй като данните са настроени гладко, картината е изкривена. Вероятно само една книга спомена пай с оцет и той беше осреднен, за да се избегне скок. Като зададете изглаждането на 0, можете да видите, че това е точно така. Шипът е съсредоточен върху 1869 г. и има още един скок през 1897 г. и 1900 г.
Малко вероятно е никой да не е говорил за пайове с оцет през останалото време: Вероятно имаше рецепти, които витаеха навсякъде, но хората не пишат за тях в книгите и това е важно ограничение на търсенията в Ngram.