:quality(75)/google_books_ngram_viewer_thum_e7dfe7057e.jpg)
Google Books nGram Viewer - Công cụ “soi” lịch sử ngôn ngữ cực thú vị dành cho các mọt sách
Bạn có bao giờ tò mò về việc những từ ngữ, cụm từ bạn yêu thích đã xuất hiện và biến đổi ra sao trong lịch sử không? Hay có khi nào bạn muốn "đi ngược thời gian" để tìm hiểu về những thuật ngữ đã từng thịnh hành trong quá khứ? Với Google Books nGram Viewer, những điều không tưởng trên đều có thể thành sự thật! Còn chần chờ gì nữa, hãy cùng FPT Shop khám phá công cụ thú vị này trong bài viết dưới đây nhé!
Google Books nGram Viewer là gì?
Được ra mắt lần đầu vào ngày 16 tháng 12 năm 2010, Google Books nGram Viewer là một công cụ tìm kiếm trực tuyến cho phép người dùng tra cứu tần suất xuất hiện của các từ hoặc cụm từ theo thời gian từ năm 1500 đến nay.

Công cụ này phân tích dữ liệu từ các sách đã xuất bản bằng nhiều ngôn ngữ, bao gồm tiếng Anh, Trung Quốc (giản thể), Pháp, Đức, Do Thái, Ý, Nga và Tây Ban Nha. Đặc biệt, Google Books nGram Viewer còn có các cơ sở dữ liệu riêng biệt dành cho tiếng Anh Mỹ, tiếng Anh Anh và văn học tiếng Anh.
Lịch sử phát triển của Google Books nGram Viewer
Công cụ này ra đời nhờ sự hợp tác giữa Google và hai nhà nghiên cứu đến từ Đại học Harvard là Jean-Baptiste Michel và Erez Lieberman Aiden. Đây là một phần của dự án "culturomics" mà Lieberman và cộng sự định nghĩa là phương pháp phân tích dữ liệu quy mô lớn trong các văn bản số hóa. Trước đó, việc phân tích sự thay đổi ngôn ngữ theo thời gian rất khó khăn do thiếu dữ liệu ngôn ngữ lớn.

Mặc dù công cụ này ban đầu dành cho các nhà nghiên cứu, song Ngram Viewer cho phép bất kỳ ai có máy tính đều có thể dễ dàng xem biểu đồ sự biến đổi của các từ theo thời gian. Sau đó, công cụ này ra đời đã mở ra một cánh cửa mới cho nghiên cứu định lượng trong lĩnh vực khoa học xã hội và nhân văn, với một cơ sở dữ liệu khổng lồ gồm 500 tỷ từ từ 5,2 triệu cuốn sách.
Cách sử dụng Google Books nGram Viewer
- Người dùng nhập từ hoặc cụm từ để tìm kiếm, kể cả lỗi chính tả hoặc ký tự ngẫu nhiên. Giờ đây, bạn có thể tìm tối đa 7 từ trong một lần tìm kiếm (thay vì 5 từ trước đây). Tuy nhiên, tính năng hỗ trợ loại từ vẫn giữ giới hạn từ 1 đến 5 ký tự cho mỗi truy vấn.
- Hệ thống sẽ quét cơ sở dữ liệu của Google Books để tìm các từ hoặc cụm từ trong các sách có sẵn.
- Nếu từ hoặc cụm từ xuất hiện trong ít nhất 40 cuốn sách, tần suất sử dụng sẽ được hiển thị qua biểu đồ theo thời gian.
- Google Books nGram Viewer hỗ trợ tìm kiếm nâng cao như lọc theo từ loại và sử dụng ký tự thay thế.
Sau đó, bạn có thể di chuột qua đường biểu đồ của một ngram để làm nổi bật ngram đó. Nếu nhấp chuột trái vào một đường biểu đồ, công cụ sẽ tập trung vào ngram đó và làm mờ các ngram khác trong biểu đồ (nếu có). Khi nhấp chuột trái vào các đường biểu đồ khác, bạn có thể chọn làm nổi bật nhiều ngram cùng lúc. Để hiển thị lại tất cả ngram trong truy vấn, bạn chỉ cần nhấp đúp vào bất kỳ khu vực nào trên biểu đồ.
Ví dụ: Biểu đồ thể hiện tần suất xuất hiện của ba cụm từ: "nursery school" (màu xanh dương), "kindergarten" (màu đỏ), và "child care" (màu xanh lá) trong các sách tiếng Anh được xuất bản tại Hoa Kỳ từ năm 1960 đến 2015.

- Ngram là một chuỗi liên tiếp các từ, ký tự hoặc âm tiết xuất hiện liền kề trong một đoạn văn bản. Ví dụ, một "unigram" là một từ riêng lẻ, "bigram" là cặp hai từ liên tiếp, và "trigram" là ba từ liên tiếp.
- Trục y thể hiện phần trăm xuất hiện của từng từ hoặc cụm từ trong tổng số từ có trong các sách tiếng Anh xuất bản tại Mỹ.
- Cụ thể, khoảng năm 1970, "child care" vượt qua "nursery school" về tần suất xuất hiện và tiếp tục tăng cho đến khi đạt đỉnh vào đầu những năm 1990. Sau năm 1990, tần suất sử dụng cụm từ này bắt đầu giảm dần nhưng vẫn giữ mức cao hơn hai cụm từ còn lại, phản ánh sự phát triển và nhu cầu về dịch vụ chăm sóc trẻ em từ cuối những năm 1960, đạt đỉnh vào đầu những năm 1990 và giảm dần sau đó.
- Cụm từ "kindergarten" có tần suất ổn định và thấp hơn "child care" trong suốt thời gian từ 1960 đến khoảng 1973.
- Tần suất sử dụng "nursery school" duy trì ổn định và khá thấp trong suốt giai đoạn từ 1960 đến 2015.
Ưu, nhược điểm Google Books nGram Viewer
Ưu điểm
- Dữ liệu phong phú, có thể truy cập vào kho sách khổng lồ từ năm 1500 đến nay, bao gồm nhiều ngôn ngữ khác nhau và các thể loại văn bản.
- Cung cấp các tính năng tìm kiếm nâng cao như phân loại từ, tìm các dạng từ biến đổi, và sử dụng ký tự thay thế.
- Ứng dụng đa dạng trong nhiều lĩnh vực như nghiên cứu ngôn ngữ học, lịch sử văn hóa và cả trong phân tích xu hướng.

Nhược điểm
- Hạn chế về độ chính xác dữ liệu do phụ thuộc vào công nghệ OCR (nhận dạng ký tự quang học).
- Các bộ dữ liệu cũ hơn (như các năm 2009, 2012, 2019) không còn trong danh sách ngữ liệu, tuy nhiên vẫn có thể truy cập qua các mã tìm kiếm đặc biệt (:eng_2019, :fre_2012, v.v.)
- Sách cũ thường bị lỗi OCR, dẫn đến sai lệch trong kết quả tìm kiếm.
- Thiếu dữ liệu meta như ngày xuất bản, tác giả, thể loại khiến Ngram Viewer không thể phản ánh đầy đủ sự thay đổi về văn hóa hoặc ngôn ngữ.
- Lỗi hệ thống với ký tự 's' và 'f' trong văn bản trước thế kỷ 19, khi ký tự 'ſ' dễ nhầm lẫn với 'f'.
- Độ chính xác của dữ liệu từ tiếng Trung trong các phần trước năm 1970 không đảm bảo, do thiếu dữ liệu đủ lớn và sự nhiễu cao trong một số năm.

Lời khuyên khi sử dụng Google Books nGram Viewer trong nghiên cứu
Chọn đúng ngôn ngữ và corpus
Google Books nGram Viewer hỗ trợ các corpus ngôn ngữ khác nhau (ví dụ: tiếng Anh Mỹ, tiếng Anh Anh, tiếng Đức, v.v.). Đảm bảo lựa chọn corpus phù hợp để kết quả nghiên cứu chính xác và phản ánh đúng văn hóa hoặc khu vực ngôn ngữ bạn muốn nghiên cứu.
So sánh các biểu đồ theo thời kỳ cụ thể
Nên so sánh biểu đồ theo những khoảng thời gian cụ thể thay vì dựa hoàn toàn vào dữ liệu toàn bộ. Việc chọn một khung thời gian có thể giúp hạn chế các biến động không đồng đều và làm rõ xu hướng ngôn ngữ theo thời kỳ lịch sử hoặc văn hóa.
Nhìn vào xu hướng thay vì con số tuyệt đối
Đôi khi dữ liệu hiển thị trên biểu đồ có thể bị ảnh hưởng bởi sự tăng trưởng số lượng sách qua các thời kỳ, nên thay vì tập trung vào tần suất cụ thể, hãy xem xu hướng tăng giảm để có cái nhìn tổng quan hơn.
Đối chiếu với các nguồn dữ liệu khác
Kết quả từ Google Ngram Viewer chỉ là một phần dữ liệu trong nghiên cứu. Để có được kết quả khách quan và toàn diện hơn, hãy sử dụng thêm các nguồn dữ liệu hoặc tài liệu khác để so sánh và đối chiếu xu hướng ngôn ngữ hoặc văn hóa.
Những lưu ý trên sẽ giúp bạn tận dụng tối đa Ngram Viewer và đưa ra các phân tích ngôn ngữ hoặc văn hóa chính xác, đồng thời giảm thiểu những sai sót tiềm tàng trong nghiên cứu.
Tạm kết
Tóm lại, Google Books nGram Viewer là một công cụ tuyệt vời giúp ta nhìn lại hành trình thay đổi của từ ngữ và văn hóa qua thời gian – một món quà thực sự cho những ai yêu thích ngôn ngữ và muốn tìm hiểu sâu hơn về lịch sử văn hóa.
Và nếu bạn đang tìm một chiếc laptop để thực hiện các nghiên cứu ngôn ngữ hoặc khám phá thêm công cụ này, đừng quên khám phá các dòng laptop tại FPT Shop để tối ưu hóa trải nghiệm của mình! Tham khảo ngay tại đây nhé!
Xem thêm:
:quality(75)/estore-v2/img/fptshop-logo.png)
:quality(75)/small/Google_Authenticator_01_b27d685bfe.jpg)
:quality(75)/google_dinosaur_thum_4bb62a69aa.jpg)
:quality(75)/google_workspace_business_starter_fae041b726.jpg)
:quality(75)/Google_Fonts_Roboto_sua_hinh_e16c0f4b29.png)
:quality(75)/google_bard_tieng_viet_2_6a952670f9.jpg)