Computational Linguistics, by Lucas Freitas

>> Lucas Freitas: Hey. Chào mừng tất cả mọi người. Tên tôi là Lucas Freitas. Tôi là một sinh viên năm [nghe được] học khoa học máy tính với một tập trung trong ngôn ngữ học tính toán. Vì vậy, trung học của tôi là trong ngôn ngữ và lý thuyết ngôn ngữ học. Tôi thực sự vui mừng để dạy các bạn một chút về lĩnh vực này. Đó là một khu vực rất thú vị để nghiên cứu. Còn với rất nhiều tiềm năng cho tương lai. Vì vậy, tôi thực sự vui mừng rằng các bạn đang xem xét các dự án trong ngôn ngữ học tính toán. Và tôi sẽ được hạnh phúc hơn để tư vấn cho hơn bất kỳ của bạn nếu bạn quyết định theo đuổi một trong những. >> Vì vậy, trước tất cả những gì là tính toán ngôn ngữ học? Ngôn ngữ học để tính toán là giao nhau giữa ngôn ngữ học và khoa học máy tính. Vì vậy, ngôn ngữ học là gì? Khoa học máy tính là gì? Cũng từ ngôn ngữ học, những gì chúng ta là ngôn ngữ. Vì vậy, ngôn ngữ học thực sự là nghiên cứu của ngôn ngữ tự nhiên nói chung. Ngôn ngữ rất tự nhiên - chúng ta nói về ngôn ngữ mà chúng ta thực sự sử dụng để giao tiếp với nhau. Vì vậy, chúng tôi không chính xác nói về C hoặc Java. Chúng ta đang nói nhiều hơn về tiếng Anh và Trung Quốc và các ngôn ngữ khác mà chúng tôi sử dụng để giao tiếp với nhau. >> Điều khó khăn về điều đó là ngay bây giờ chúng tôi có gần 7.000 thứ tiếng trên thế giới. Vì vậy, có khá nhiều loại cao ngôn ngữ mà chúng ta có thể nghiên cứu. Và sau đó bạn nghĩ rằng nó có thể là rất khó để làm, ví dụ, dịch từ một ngôn ngữ đến khác, xem xét rằng bạn có gần 7.000 trong số họ. Vì vậy, nếu bạn nghĩ rằng làm dịch từ một ngôn ngữ khác, bạn có gần như hơn một triệu kết hợp khác nhau mà bạn có thể có từ ngôn ngữ đến ngôn ngữ. Vì vậy, nó thực sự thách thức để làm một số loại hệ thống ví dụ dịch thuật mọi ngôn ngữ duy nhất. >> Vì vậy, ngôn ngữ học đối xử với cú pháp, ngữ nghĩa, ngữ dụng. Các bạn không cần phải chính xác để biết được những gì họ đang có. Nhưng điều rất thú vị là như một người bản xứ, khi bạn học ngôn ngữ như đứa trẻ, bạn thực sự học tất cả những điều - ngữ nghĩa cú pháp và ngữ dụng - của chính mình. Và không ai có để dạy cho bạn cú pháp cho bạn hiểu như thế nào câu được cấu trúc. Vì vậy, nó thực sự thú vị bởi vì nó là cái gì mà đi kèm rất trực giác. >> Và những gì được bạn lấy từ khoa học máy tính? Vâng, điều quan trọng nhất mà chúng tôi có trong khoa học máy tính là đầu tiên của tất cả, trí tuệ nhân tạo và học máy. Vì vậy, những gì chúng tôi đang cố gắng để làm ngôn ngữ học tính toán là dạy máy tính của bạn làm thế nào để làm điều gì đó với ngôn ngữ. >> Vì vậy, ví dụ, trong máy dịch. Tôi đang cố gắng để dạy làm thế nào máy tính của tôi biết làm thế nào để chuyển từ một ngôn ngữ khác. Vì vậy, về cơ bản giống như giảng dạy một máy tính hai ngôn ngữ. Nếu tôi làm xử lý ngôn ngữ tự nhiên, đó là trường hợp ví dụ của Facebook Biểu đồ tìm kiếm, bạn dạy máy tính của bạn làm thế nào để hiểu truy vấn tốt. >> Vì vậy, nếu bạn nói "các bức ảnh của tôi bạn bè. "Facebook không điều trị mà như là một chuỗi toàn có chỉ là một nhóm các từ. Nó thực sự hiểu được mối quan hệ giữa "hình ảnh" và "bạn bè của tôi" và hiểu rằng "hình ảnh" là tài sản của "bạn bè của tôi." >> Vì vậy, đó là một phần của, ví dụ, xử lý ngôn ngữ tự nhiên. Nó đang cố gắng để hiểu những gì là mối quan hệ giữa các từ trong một câu. Và câu hỏi lớn là, có thể bạn dạy cho một máy tính làm thế nào để nói chuyện một ngôn ngữ nói chung? Đó là một câu hỏi rất thú vị nghĩ rằng, nếu có thể trong tương lai, bạn sẽ có thể nói chuyện với điện thoại di động của bạn. Giống như những gì chúng tôi làm với Siri nhưng một cái gì đó giống như, bạn có thể thực sự nói bất cứ điều gì bạn muốn và điện thoại sẽ hiểu tất cả mọi thứ. Và nó có thể có theo dõi câu hỏi và tiếp tục nói chuyện. Đó là một cái gì đó thực sự thú vị, theo ý kiến của tôi. >> Vì vậy, một cái gì đó về ngôn ngữ tự nhiên. Một cái gì đó thực sự thú vị về ngôn ngữ tự nhiên là, và đây là tín dụng đối với giáo sư ngôn ngữ học của tôi, Maria Polinsky. Cô cho một ví dụ và tôi nghĩ nó thực sự thú vị. Bởi vì chúng ta học ngôn ngữ từ khi chúng ta sinh ra và sau đó bản địa của chúng tôi ngôn ngữ loại mọc trên chúng ta. >> Và về cơ bản bạn học ngôn ngữ từ đầu vào tối thiểu, phải không? Bạn chỉ nhận được đầu vào từ của bạn cha mẹ về những gì ngôn ngữ của bạn âm thanh thích và bạn chỉ cần tìm hiểu nó. Vì vậy, nó là thú vị bởi vì nếu bạn nhìn vào những câu, ví dụ. Bạn nhìn ", Mary đặt trên một chiếc áo khoác hàng thời gian cô rời khỏi nhà. " >> Trong trường hợp này, nó có thể có từ "cô" tham khảo Mary, phải không? Bạn có thể nói "Đức Maria đặt trên một chiếc áo khoác mỗi khi Mary rời nhà. "vì vậy đó là tốt. Nhưng sau đó nếu bạn nhìn vào câu "Cô ấy đặt trên một chiếc áo khoác mỗi khi Mary bỏ nhà đi. "bạn biết đó là không thể nói rằng "cô ấy" là đề cập đến Đức Maria. >> Không có cách nào nói rằng "Mary đặt trên một chiếc áo khoác mỗi khi Mary lá nhà. "Vì vậy, nó là thú vị bởi vì đây là loại trực giác rằng mỗi người bản xứ có. Và không ai được dạy rằng đây là cách mà các cú pháp làm việc. Và rằng bạn chỉ có thể có điều này "cô" đề cập đến Đức Maria trong trường hợp đầu tiên này, và thực sự trong khác này quá, nhưng không phải trong một này. Nhưng tất cả mọi người loại được câu trả lời tương tự. Tất cả mọi người đồng ý về điều đó. Vì vậy, nó thực sự thú vị như thế nào mặc dù bạn không biết tất cả các quy tắc trong ngôn ngữ của bạn, bạn hiểu loại như thế nào là ngôn ngữ làm việc. >> Vì vậy, điều thú vị về thiên nhiên ngôn ngữ là bạn không cần phải biết bất kỳ cú pháp để biết nếu một câu là ngữ pháp hoặc sai ngữ pháp và cho hầu hết các trường hợp. Mà làm cho bạn nghĩ rằng có lẽ những gì xảy ra là thông qua cuộc sống của bạn, bạn chỉ cần giữ nhận được nhiều hơn và nhiều hơn nữa câu nói cho bạn. Và sau đó bạn tiếp tục ghi nhớ tất cả các câu. Và sau đó khi ai đó nói với bạn một cái gì đó, bạn nghe câu đó và bạn nhìn vào từ vựng của bạn câu và xem câu đó là có. Và nếu nó có bạn nói đó là ngữ pháp. Nếu nó không phải là bạn nói đó là sai ngữ pháp. >> Vì vậy, trong trường hợp đó, bạn sẽ nói, oh, để bạn có một danh sách rất lớn của tất cả các câu có thể. Và sau đó khi bạn nghe một câu, bạn biết nếu nó ngữ pháp hay không dựa trên đó. Điều là nếu bạn nhìn vào một câu, ví dụ, "Các năm đầu CS50 TF nấu chín người mù bạch tuộc sử dụng một cốc DAPA. "Đó là chắc chắn không phải là một câu mà bạn nghe trước đây. Nhưng đồng thời bạn biết đó là khá nhiều ngữ pháp, phải không? Không có lỗi ngữ pháp và bạn có thể nói rằng đó là một câu có thể. >> Vì vậy, nó làm cho chúng ta nghĩ rằng thực sự cách mà chúng ta học ngôn ngữ không chỉ là bởi có một cơ sở dữ liệu khổng lồ có thể từ hoặc câu, nhưng nhiều hơn sự hiểu biết về mối quan hệ giữa từ trong những câu. Điều đó có ý nghĩa? Vì vậy, sau đó câu hỏi là, có thể máy tính học ngôn ngữ? Chúng ta có thể dạy ngôn ngữ cho máy tính? >> Vì vậy, chúng ta hãy nghĩ đến sự khác biệt giữa một người bản xứ của một ngôn ngữ và một máy tính. Vì vậy, những gì xảy ra cho người nói? Vâng, người bản xứ học một ngôn ngữ tiếp xúc với nó. Thường năm thời thơ ấu của mình. Vì vậy, về cơ bản, bạn chỉ cần có một em bé, và bạn tiếp tục nói chuyện với nó, và nó chỉ biết làm thế nào để nói chuyện ngôn ngữ, phải không? Vì vậy, bạn về cơ bản cho đầu vào cho em bé. Vì vậy, sau đó bạn có thể tranh luận rằng một máy tính có thể làm điều tương tự, phải không? Bạn chỉ có thể cung cấp cho ngôn ngữ làm đầu vào cho máy tính. >> Ví dụ như một bó của tập tin có sách bằng tiếng Anh. Có lẽ đó là một trong những cách mà bạn có thể có thể dạy một máy tính tiếng Anh, phải không? Và trong thực tế, nếu bạn nghĩ về nó, nó sẽ đưa bạn có thể một vài ngày để đọc một cuốn sách. Cho một máy tính phải mất một giây để nhìn vào tất cả các từ trong một cuốn sách. Vì vậy, bạn có thể nghĩ rằng có thể chỉ này tham số đầu vào từ xung quanh bạn, đó là không đủ để nói rằng đó là cái gì mà chỉ có con người có thể làm. Bạn có thể nghĩ rằng máy tính cũng có thể có được đầu vào. >> Điều thứ hai là người bản ngữ cũng có một bộ não có khả năng học ngôn ngữ. Nhưng nếu bạn nghĩ về nó, một bộ não là một điều chắc chắn. Khi bạn được sinh ra, nó đã được thiết lập - đây là bộ não của bạn. Và khi bạn lớn lên, bạn chỉ cần nhận được nhiều hơn đầu vào của ngôn ngữ và có thể các chất dinh dưỡng và các công cụ khác. Nhưng khá nhiều bộ não của bạn là một điều chắc chắn. >> Vì vậy, bạn có thể nói, tốt, có thể bạn có thể xây dựng một máy tính có một loạt các chức năng và phương pháp mà chỉ bắt chước khả năng học ngôn ngữ. Vì vậy, trong ý nghĩa đó, bạn có thể nói, tốt, tôi có thể có một máy tính có tất cả các điều tôi cần phải học ngôn ngữ. Và điều cuối cùng là một người gốc loa học từ thử và sai. Vì vậy, về cơ bản một điều quan trọng trong học ngôn ngữ là bạn loại của học những điều bằng cách khái quát về những gì bạn nghe thấy. >> Vì vậy, bạn đang lớn lên bạn biết rằng một số từ đều giống như danh từ, một số những người khác là tính từ. Và bạn không cần phải có bất kỳ kiến thức về ngôn ngữ học để hiểu điều đó. Nhưng bạn chỉ cần biết có một số từ được định vị trong một số phần của câu và một số người khác trong khác các bộ phận của câu. >> Và rằng khi bạn làm điều gì đó có nghĩa là như một câu mà không phải là chính xác - có lẽ vì một sự tổng quát hơn ví dụ. Có lẽ khi bạn lớn lên, bạn nhận thấy mà số nhiều thường là hình thành bằng cách đặt một S tại cuối của từ đó. Và sau đó bạn cố gắng làm việc nhiều của "Nai" là "nai" hay "răng" như "Tooths." Vì vậy, sau đó cha mẹ của bạn hoặc một người nào đó sửa chữa và bạn nói, không, số nhiều của "con nai" là "nai", và số nhiều của "răng" là "răng". Và sau đó bạn tìm hiểu những điều đó. Vì vậy, bạn học hỏi từ thử và sai. >> Nhưng bạn cũng có thể làm điều đó với một máy tính. Bạn có thể có một cái gì đó gọi là học tập tăng cường. Đó là cơ bản giống như cho một máy tính một phần thưởng bất cứ khi nào nó một cái gì đó một cách chính xác. Và đem lại cho nó trái ngược với một phần thưởng và khi nó làm điều gì đó sai. Bạn thực sự có thể thấy rằng nếu bạn đi Google Translate và bạn cố gắng dịch một câu, nó yêu cầu bạn cho ý kiến phản hồi. Vì vậy, nếu bạn nói, oh, có một tốt hơn dịch cho câu này. Bạn có thể gõ nó lên và sau đó nếu nhiều người tiếp tục nói rằng đó là một tốt hơn dịch, nó chỉ biết rằng nó nên sử dụng dịch thay vì một trong nó đã được đưa ra. >> Vì vậy, nó là một câu hỏi rất triết học để xem nếu máy tính đang có được có thể nói chuyện hay không trong tương lai. Nhưng tôi có hy vọng rằng họ có thể chỉ dựa trên những lập luận. Nhưng nó chỉ là chi tiết của một triết học câu hỏi. >> Vì vậy, trong khi máy tính vẫn không thể nói chuyện, những điều mà chúng ta có thể làm là gì? Một số điều thực sự mát mẻ là phân loại dữ liệu. Vì vậy, ví dụ, bạn biết các dịch vụ email làm, Ví dụ, lọc thư rác. Vì vậy, bất cứ khi nào quý vị nhận được thư rác, nó cố gắng để lọc hộp khác. Vì vậy, làm thế nào để nó làm điều đó? Nó không giống như các máy tính chỉ biết địa chỉ email những gì đang gửi thư rác. Vì vậy, nó hơn dựa trên nội dung của tin nhắn, hoặc có thể là tiêu đề, hoặc có thể một số mẫu mà bạn có. >> Vì vậy, về cơ bản, những gì bạn có thể làm là có được một rất nhiều dữ liệu của email là thư rác, email mà không phải là thư rác, và tìm hiểu những gì loại mô hình bạn có trong những người mà là thư rác. Và điều này là một phần của tính toán ngôn ngữ học. Nó được gọi là phân loại dữ liệu. Và chúng tôi đang thực sự sẽ thấy một ví dụ đó trong các slide tiếp theo. >> Điều thứ hai là ngôn ngữ tự nhiên xử lý là điều mà các Tìm kiếm đồ thị đang làm để cho bạn viết một câu. Và nó tin tưởng bạn hiểu những gì là ý nghĩa và mang lại cho bạn một kết quả tốt hơn. Trên thực tế, nếu bạn đi đến Google hay Bing và bạn tìm kiếm một cái gì đó như Lady Chiều cao của Gaga, bạn đang thực sự đi để có được 5 '1 "thay vì thông tin từ cô ấy bởi vì nó thực sự hiểu những gì bạn đang nói về. Vì vậy, đó là một phần của tự nhiên xử lý ngôn ngữ. >> Hoặc cũng có khi bạn đang sử dụng Siri, đầu tiên bạn có một thuật toán mà cố gắng để dịch những gì bạn đang nói thành các từ, trong văn bản. Và sau đó nó sẽ cố gắng để dịch đó vào ý nghĩa. Vì vậy, đó là tất cả một phần của tự nhiên xử lý ngôn ngữ. >> Sau đó, bạn có dịch máy - mà thực sự là một yêu thích của tôi - mà chỉ là dịch từ một ngôn ngữ khác. Vì vậy, bạn có thể nghĩ rằng khi bạn đang làm dịch máy, bạn có khả năng vô hạn của câu. Vì vậy, không có cách nào chỉ lưu trữ mỗi bản dịch duy nhất. Vì vậy, bạn có để đến với thú vị các thuật toán để có thể dịch mỗi đơn câu một cách nào đó. >> Bạn có bất kỳ câu hỏi cho đến nay? Không? OK. >> Vì vậy, những gì chúng ta sẽ thấy ngày nay? Trước hết, tôi sẽ nói về vấn đề phân loại. Vì vậy, một trong đó là tôi nói về thư rác. Những gì tôi sẽ làm là, lời bài hát được một bài hát, bạn có thể thử để tìm ra với xác suất cao ai là ca sĩ? Hãy nói rằng tôi có những bài hát của Lady Gaga và Katy Perry, nếu tôi cung cấp cho bạn một bài hát mới, bạn có thể tìm ra nếu đó là Katy Perry hay Lady Gaga? >> Thứ hai, tôi chỉ cần đi để nói chuyện về vấn đề phân khúc. Vì vậy, tôi không biết nếu các bạn biết, nhưng Trung Quốc, Nhật Bản, Đông Nam Á khác ngôn ngữ, và các ngôn ngữ khác nói chung, không có không gian giữa các từ. Và sau đó nếu bạn suy nghĩ về cách mà loại máy tính của bạn cố gắng để hiểu xử lý ngôn ngữ tự nhiên, nó nhìn vào những lời nói và cố gắng để hiểu các mối quan hệ giữa chúng, phải không? Nhưng sau đó nếu bạn có Trung Quốc, và bạn có không gian, nó thực sự khó tìm hiểu mối quan hệ giữa những gì là từ, bởi vì họ không có bất kỳ từ lần đầu tiên. Vì vậy, bạn phải làm một cái gì đó gọi là Phân khúc mà chỉ có nghĩa là đặt khoảng trống giữa những gì chúng tôi muốn gọi từ trong những ngôn ngữ. Có ý nghĩa? >> Và sau đó chúng ta sẽ nói về cú pháp. Vì vậy chỉ cần một chút về tự nhiên xử lý ngôn ngữ. Nó sẽ được chỉ là một cái nhìn tổng quan. Vì vậy, ngày hôm nay, về cơ bản những gì tôi muốn làm được cung cấp cho các bạn một chút của một bên trong của các khả năng là gì mà bạn có thể làm với tính toán ngôn ngữ học. Và sau đó bạn có thể xem những gì bạn nghĩ là mát mẻ trong những điều đó. Và có thể bạn có thể nghĩ đến một dự án và đến nói chuyện với tôi. Và tôi có thể cung cấp cho bạn lời khuyên làm thế nào để thực hiện nó. >> Vì vậy, cú pháp là có được một chút Biểu đồ về tìm kiếm và máy dịch. Tôi chỉ sẽ cung cấp cho một ví dụ về cách bạn có thể, ví dụ, dịch một cái gì đó từ Bồ Đào Nha sang tiếng Anh. Âm thanh tốt? >> Vì vậy, đầu tiên, vấn đề phân loại. Tôi sẽ nói rằng một phần của hội thảo sẽ là những thách thức một chỉ vì có đi là một số mã hóa. Nhưng nó sẽ là Python. Tôi biết các bạn không biết Python, vì vậy Tôi chỉ sẽ giải thích trên cao cấp những gì tôi đang làm. Và bạn không cần phải thực sự quan tâm quá nhiều về cú pháp vì đó là một cái gì đó các bạn có thể học hỏi. OK? Âm thanh tốt. >> Vì vậy vấn đề phân loại là gì? Vì vậy, bạn đang đưa ra một số lời bài hát một bài hát, và bạn muốn đoán người hát nó. Và điều này có thể cho bất cứ loại nào các vấn đề khác. Vì vậy, nó có thể được, ví dụ, bạn có một chiến dịch tranh cử và bạn có một bài phát biểu, và bạn muốn tìm ra nếu nó là, ví dụ, Obama hay Mitt Romney. Hoặc bạn có thể có một loạt các email và bạn muốn tìm hiểu xem họ có thư rác hay không. Vì vậy, nó chỉ phân loại một số dữ liệu dựa trên các từ mà bạn đã có. >> Vì vậy, để làm điều đó, bạn phải làm cho một số giả định. Vì vậy, rất nhiều về ngôn ngữ học tính toán đang làm giả định, giả định thường thông minh, do đó bạn có thể nhận được kết quả tốt. Cố gắng để tạo ra một mô hình cho nó. Và sau đó thử nó ra và xem nếu nó hoạt động, nếu nó mang lại cho bạn độ chính xác tốt. Và nếu có, sau đó bạn cố gắng để cải thiện nó. Nếu không, bạn giống như, OK, có lẽ tôi nên làm cho một giả định khác nhau. >> Vì vậy, giả định rằng chúng ta sẽ làm là một nghệ sĩ thường hát về một chủ đề nhiều lần, và có thể sử dụng từ nhiều lần chỉ bởi vì họ đang sử dụng để nó. Bạn chỉ có thể nghĩ về bạn của bạn. Tôi chắc rằng các bạn đều có bạn bè mà nói cụm từ chữ ký của họ, nghĩa là cho mỗi câu duy nhất - như một số từ cụ thể hoặc một số cụ thể cụm từ mà họ nói cho mỗi câu duy nhất. >> Và những gì bạn có thể nói là nếu bạn nhìn thấy một câu mà có một chữ ký cụm từ, bạn có thể đoán rằng có thể bạn của bạn là một câu nói, đúng không? Vì vậy, bạn làm cho giả định đó và sau đó đó là cách bạn tạo ra một mô hình. >> Ví dụ mà tôi sẽ đưa ra là trên cách Lady Gaga, ví dụ, người nói rằng cô sử dụng "em bé" cho tất cả các số một của cô bài hát. Và thực sự đây là một đoạn video mà chương trình cô nói những từ "em bé" cho bài hát khác nhau. >> [VIDEO XEM LẠI] >> - (Hát) Baby. Em bé. Em bé. Em bé. Em bé. Babe. Em bé. Em bé. Em bé. Em bé. >> [END Video Playback- >> Lucas Freitas: Vì vậy, có, tôi nghĩ rằng, 40 bài hát ở đây, trong đó bà cho biết từ "em bé." Vì vậy, về cơ bản bạn có thể đoán rằng nếu bạn thấy một bài hát mà có từ "em bé," có một số cao xác suất mà nó Lady Gaga. Nhưng chúng ta hãy cố gắng phát triển này hơn nữa chính thức hơn. >> Vì vậy, đây là những lời bài hát các bài hát bằng cách Lady Gaga và Katy Perry. Vì vậy, bạn nhìn vào Lady Gaga, bạn sẽ thấy họ có rất nhiều sự cố của "em bé", một rất nhiều lần xuất hiện của "con đường." Và sau đó Katy Perry đã có rất nhiều lần xuất hiện của "Các", rất nhiều lần xuất hiện của "lửa". >> Vì vậy, về cơ bản những gì chúng ta muốn làm là, bạn nhận được một lời. Hãy nói rằng bạn nhận được một lời cho một bài hát đó là "em bé", chỉ là "em bé." Nếu bạn chỉ cần có được chữ "em bé", và điều này là tất cả các dữ liệu mà bạn có từ Lady Gaga và Katy Perry, những người sẽ bạn đoán là người ca sĩ đang hát bài hát này? Lady Gaga hay Katy Perry? Lady Gaga, phải không? Bởi vì cô ấy là người duy nhất nói "Em bé." Điều này nghe ngu ngốc, phải không? OK, điều này là rất dễ dàng. Tôi chỉ nhìn vào hai bài hát và của Tất nhiên, cô ấy là người duy nhất có "Em bé." >> Nhưng nếu bạn có một loạt các từ ngữ? Nếu bạn có một lời thực tế, một cái gì đó như, "em bé, tôi chỉ đi xem một [? CFT?] bài giảng, "hoặc một cái gì đó như thế, và sau đó bạn thực sự phải tìm ra - dựa trên tất cả những lời đó - là người nghệ sĩ có thể hát bài hát này? Vì vậy, hãy cố gắng phát triển này một chút nữa. >> OK, vì vậy chỉ dựa vào dữ liệu mà chúng tôi có, có vẻ như Gaga có lẽ là các ca sĩ. Nhưng làm thế nào chúng ta có thể viết này chính thức hơn? Và có sẽ là một chút bit số liệu thống kê. Vì vậy, nếu bạn bị lạc, chỉ cần cố gắng để hiểu được khái niệm. Nó không quan trọng nếu bạn hiểu các phương trình hoàn toàn tốt. Đây là tất cả sẽ được trực tuyến. >> Vì vậy, về cơ bản những gì tôi đang tính toán là xác suất mà bài hát này là do Lady Gaga cho rằng - để thanh này có nghĩa là cho rằng - Tôi thấy từ "em bé." Điều đó có ý nghĩa? Vì vậy, tôi đang cố gắng để tính toán rằng xác suất. >> Vì vậy, có lý này được gọi là Định lý Bayes mà nói rằng xác suất của A B đưa ra, là xác suất của B cho A, lần xác suất của A, hơn xác suất B. Đây là một phương trình dài. Nhưng những gì bạn phải hiểu từ đó là điều này là những gì tôi muốn tính toán, phải không? Vì vậy, xác suất mà bài hát đó là bằng cách Lady Gaga cho rằng tôi đã nhìn thấy từ "Em bé." >> Và bây giờ những gì tôi nhận được là xác suất của các từ "bé" cho mà tôi có Lady Gaga. Và đó là những gì cơ bản? Điều này có nghĩa là, là những gì khả năng nhìn thấy từ "em bé" trong lời bài hát Gaga? Nếu tôi muốn tính toán rằng trong một rất cách đơn giản, nó chỉ là số lượng lần tôi nhìn thấy "em bé" trên tổng số từ trong lời bài hát Gaga, phải không? Tần số mà tôi nhìn thấy là những gì từ đó trong công việc của Gaga? Có ý nghĩa? >> Thuật ngữ thứ hai là Xác suất của Gaga. Điều đó có nghĩa gì? Về cơ bản có nghĩa là, là những gì khả năng phân loại một số lời bài hát như Gaga? Và đó là loại kỳ lạ, nhưng chúng ta hãy nghĩ về một ví dụ. Vì vậy, chúng ta hãy nói rằng xác suất của có "em bé" trong một bài hát tương tự cho Gaga và Britney Spears. Nhưng Britney Spears đã hai lần bài hát hơn Lady Gaga. Vì vậy, nếu một người nào đó cung cấp cho bạn chỉ ngẫu nhiên lời bài hát của "em bé", điều đầu tiên bạn xem xét là, xác suất là gì có "em bé" trong một bài hát Gaga, "em bé" trong một bài hát của Britney? Và đó là điều tương tự. >> Vì vậy, điều thứ hai mà bạn sẽ thấy là, tốt, khả năng là những gì lyric này tự nó là một lời Gaga, và xác suất là gì là một Britney lyric? Vì vậy, kể từ khi Britney có rất nhiều lời bài hát hơn Gaga, bạn sẽ có thể nói, tốt, điều này có lẽ là một lời Britney. Vì vậy, đó là lý do tại sao chúng tôi có điều này hạn ngay tại đây. Xác suất của Gaga. Làm cho tinh thần? Đúng không? OK. >> Và cuối cùng chỉ là xác suất của "em bé" mà không thực sự quan trọng mà nhiều. Nhưng đó là xác suất nhìn thấy "em bé" trong tiếng Anh. Chúng ta thường không quan tâm rằng nhiều về thuật ngữ đó. Điều đó có ý nghĩa? Vì vậy, xác suất của Gaga là được gọi là xác suất trước của Gaga lớp. Bởi vì nó chỉ có nghĩa là, là những gì xác suất có lớp - đó là Gaga - chỉ nói chung, chỉ không có điều kiện. >> Và sau đó khi tôi có khả năng Gaga cho "em bé", chúng tôi gọi nó là cộng khóc một xác suất bởi vì nó là khả năng có Gaga đưa ra một số bằng chứng. Vì vậy, tôi cho bạn bằng chứng mà tôi thấy em bé từ và bài hát có ý nghĩa? OK. >> Vì vậy, nếu tôi tính rằng đối với mỗi các bài hát cho Lady Gaga, những gì mà có thể - rõ ràng, tôi không thể di chuyển này. Xác suất của Gaga sẽ một cái gì đó như thế, 2 trên 24, lần 1/2, hơn 2 hơn 53. Nó không quan trọng nếu bạn biết những gì những con số này đang đến từ. Nhưng nó chỉ là một con số đó sẽ được nhiều hơn 0, phải không? >> Và sau đó khi tôi làm Katy Perry, xác suất của "bé" cho Katy là đã 0, phải không? Bởi vì không có "em bé" trong Katy Perry. Vì vậy, sau đó điều này trở thành 0, và Gaga chiến thắng, có nghĩa là Gaga có lẽ là ca sĩ. Điều đó có ý nghĩa? OK. >> Vì vậy, nếu tôi muốn làm chính thức này nhiều hơn, Tôi thực sự có thể làm một mô hình cho nhiều từ. Vì vậy, hãy nói rằng tôi có một cái gì đó như, "em bé, tôi trên lửa ", hoặc một cái gì đó. Vì vậy, nó có nhiều từ. Và trong trường hợp này, bạn có thể nhìn thấy rằng "bé bự" này trong Gaga, nhưng nó không phải ở Katy. Và "lửa" là ở Katy, nhưng nó không có trong Gaga, phải không? Vì vậy, nó nhận được phức tạp hơn, phải không? Bởi vì có vẻ như là bạn gần như có một tie giữa hai người. >> Vì vậy, những gì bạn phải làm là giả định không lệ thuộc giữa các từ. Vì vậy, về cơ bản điều đó có nghĩa là Tôi chỉ tính toán những gì là khả năng nhìn thấy "em bé", là những gì khả năng nhìn thấy "tôi", và "Là", và "trên" và "lửa" tất cả các cách riêng biệt. Sau đó, tôi nhân tất cả trong số họ. Và tôi nhìn thấy xác suất là gì nhìn thấy toàn bộ câu. Có ý nghĩa? >> Vì vậy, về cơ bản, nếu tôi chỉ có một từ, những gì tôi muốn tìm max arg là, có nghĩa là, các lớp học đó là là những gì đem lại cho tôi xác suất cao nhất? Vì vậy, các lớp học được cho là những gì tôi xác suất cao nhất cho xác suất của lớp cho chữ. Vì vậy, trong trường hợp này, Gaga cho "em bé". Hoặc Katy cho "em bé". Có ý nghĩa? >> Và chỉ từ Bayes, mà phương trình mà tôi cho thấy, chúng tôi tạo ra phần này. Điều duy nhất là bạn thấy rằng xác suất của từ cho các thay đổi class phụ thuộc trên lớp, phải không? Số lượng các "em bé" của tôi có trong Gaga khác với Katy. Xác suất của lớp cũng thay đổi bởi vì nó chỉ số các bài hát mỗi trong số họ có. >> Nhưng xác suất của các từ chính nó sẽ là như nhau cho tất cả các nghệ sĩ, phải không? Vì vậy, xác suất của từ này là chỉ, xác suất là gì nhìn thấy từ đó trong Ngôn ngữ tiếng Anh? Vì vậy, nó là như nhau cho tất cả chúng. Vì vậy, vì đây là không đổi, chúng ta có thể chỉ thả và không quan tâm đến nó. Vì vậy, đây sẽ thực sự là phương trình chúng tôi đang tìm kiếm. >> Và nếu tôi có nhiều từ, tôi vẫn sẽ có trước xác suất đây. Điều duy nhất là tôi đang nhân xác suất tất cả các từ khác. Vì vậy, tôi nhân tất cả trong số họ. Có ý nghĩa? Có vẻ lạ, nhưng về cơ bản có nghĩa là, tính toán trước của lớp, và sau đó nhân với xác suất của mỗi các từ được trong lớp đó. >> Và bạn biết rằng xác suất của một từ cho một lớp là có được các số lần bạn thấy từ đó trong mà lớp, chia cho số Nói cách bạn có trong đó lớp nói chung. Có ý nghĩa? Nó chỉ là cách "em bé" là 2 hơn số lượng từ mà Tôi đã có trong lời bài hát. Vì vậy, chỉ là tần số. >> Nhưng có một điều. Nhớ làm thế nào tôi đã cho thấy rằng xác suất của "em bé" là lời bài hát từ Katy Perry là 0 chỉ vì Katy Perry không có "em bé" ở tất cả? Nhưng nó âm thanh một chút khắc nghiệt chỉ chỉ đơn giản nói rằng lời bài hát không thể từ một nghệ sĩ chỉ vì họ không có từ đó đặc biệt là bất cứ lúc nào. >> Vì vậy bạn chỉ có thể nói, tốt, nếu bạn không có từ này, tôi sẽ cung cấp cho bạn một xác suất thấp hơn, nhưng tôi chỉ không sẽ cung cấp cho bạn 0 ngay lập tức. Bởi vì có thể đó là một cái gì đó như, "Cháy, chữa cháy, cháy, chữa cháy", mà là hoàn toàn Katy Perry. Và sau đó "em bé", và nó chỉ đi đến 0 ngay lập tức bởi vì có một "Em bé." >> Vì vậy, về cơ bản những gì chúng tôi làm là một cái gì đó gọi là Laplace mịn. Và điều này chỉ có nghĩa là tôi đang cho một số xác suất thậm chí đến từ không tồn tại. Vì vậy, những gì tôi làm là khi tôi tính toán này, tôi luôn luôn thêm 1 vào tử số. Vì vậy, ngay cả khi từ không tồn tại, trong trường hợp này, nếu điều này là 0, tôi vẫn còn tính toán này là 1 trong tổng số từ. Nếu không, tôi nhận được bao nhiêu từ Tôi có và tôi thêm 1. Vì vậy, tôi đếm cho cả hai trường hợp. Có ý nghĩa? >> Vì vậy, bây giờ chúng ta hãy làm một số mã hóa. Tôi sẽ phải làm điều đó khá nhanh, nhưng nó chỉ quan trọng là bạn kẻ hiểu các khái niệm. Vì vậy, những gì chúng tôi đang cố gắng làm được chính xác thực hiện điều này điều mà tôi vừa nói - Tôi muốn bạn đưa lời bài hát từ Lady Gaga và Katy Perry. Và chương trình sẽ có thể nói rằng nếu những lời bài hát mới từ Gaga hay Katy Perry. Có ý nghĩa? OK. >> Vì vậy, tôi có chương trình này tôi sẽ gọi classify.py. Vì vậy, đây là Python. Đó là một ngôn ngữ lập trình mới. Nó rất giống trong một số cách để C và PHP. Nó tương tự như bởi vì nếu bạn muốn tìm hiểu Python sau khi biết C, đó là thực sự không phải là nhiều thách thức chỉ vì Python là dễ dàng hơn nhiều hơn so với C, đầu tiên của tất cả. Và rất nhiều thứ đã thực hiện cho bạn. Vì vậy, như thế nào như PHP có chức năng sắp xếp một danh sách, hoặc nối thêm một cái gì đó để một mảng, hoặc blah, blah, blah. Python có tất cả những người là tốt. >> Vì vậy, tôi chỉ cần đi để giải thích một cách nhanh chóng làm sao chúng ta có thể làm việc phân loại vấn đề cho ở đây. Vì vậy, hãy nói rằng trong trường hợp này, tôi có lời bài hát từ Gaga và Katy Perry. Cách mà tôi có những lời bài hát là từ đầu tiên của lời bài hát là tên của các nghệ sĩ, và phần còn lại là lời bài hát. Vì vậy, hãy nói rằng tôi có danh sách này trong mà đầu tiên là lời bài hát của Gaga. Vì vậy, ở đây tôi đi đúng hướng. Và tiếp theo là Katy, và nó cũng có lời bài hát. >> Vì vậy, đây là cách bạn khai báo một biến trong Python. Bạn không có để cung cấp cho các kiểu dữ liệu. Bạn chỉ cần viết "lời bài hát," loại thích trong PHP. Có ý nghĩa? >> Vì vậy, những điều mà tôi có là gì tính toán để có thể tính toán xác suất? Tôi phải tính toán "tiền án" của mỗi khác nhau các lớp học mà tôi có. Tôi phải tính toán "posteriors" hoặc khá nhiều xác suất của mỗi từ khác nhau mà Tôi có thể có cho mỗi nghệ sĩ. Vì vậy, trong Gaga, ví dụ, tôi sẽ để có một danh sách bao nhiêu lần tôi nhìn thấy mỗi từ. Có ý nghĩa? >> Và cuối cùng, tôi chỉ cần đi để có một danh sách được gọi là "chữ" mà là chỉ cần đi có bao nhiêu lời tôi có cho mỗi nghệ sĩ. Vì vậy, cho Gaga, ví dụ, khi tôi nhìn lời bài hát, tôi đã, tôi nghĩ rằng, 24 từ trong tổng số. Vì vậy, danh sách này chỉ là sẽ có Gaga 24, và Katy số khác. Có ý nghĩa? OK. >> Vì vậy, bây giờ, thực sự, chúng ta hãy đi đến mã hóa. Vì vậy, trong Python, bạn có thể thực sự trả về một loạt các khác nhau điều từ một hàm. Vì vậy, tôi sẽ tạo ra chức năng này được gọi là "có điều kiện", mà là có trả lại tất cả những điều đó, các "Tiền án", là "xác suất", và "Lời nói". Vì vậy, "có điều kiện", và đó là sẽ được gọi vào "lời bài hát." >> Vì vậy, bây giờ tôi muốn bạn thực sự viết chức năng này. Vì vậy, cách mà tôi có thể viết này chức năng là tôi chỉ định nghĩa này hoạt động với "nét". Vì vậy, tôi đã làm "def có điều kiện ", và nó dùng "Lời bài hát." Và điều này sẽ làm là, trước hết, tôi có tiền án của tôi mà tôi muốn để tính toán. >> Vì vậy, cách mà tôi có thể làm điều này là tạo ra một từ điển trong Python, mà là khá nhiều điều tương tự như một băm bảng, hoặc nó giống như một lặp đi lặp lại mảng trong PHP. Đây là cách tôi tuyên bố một từ điển. Và về cơ bản điều này có nghĩa là tiền án của Gaga là 0,5, ví dụ, nếu 50% lời bài hát từ Gaga, 50% là từ Katy. Có ý nghĩa? Vì vậy, tôi phải tìm ra cách để tính toán tiền án. >> Những người tiếp theo mà tôi phải làm, cũng, là xác suất và các từ. Vì vậy, xác suất của Gaga là danh sách của tất cả các xác suất mà tôi có cho mỗi từ cho Gaga. Vì vậy, nếu tôi đi đến xác suất của Gaga "Em bé", ví dụ, nó sẽ cung cấp cho tôi một cái gì đó giống như 2 trên 24 trong trường hợp đó. Có ý nghĩa? Vì vậy, tôi đi đến "xác suất", đi đến "Gaga" thùng đó có một danh sách của tất cả các từ Gaga, sau đó tôi đi đến "em bé" và tôi thấy xác suất. >> Và cuối cùng tôi có điều này "Chữ" từ điển. Vì vậy, ở đây, "xác suất". Và sau đó "Lời nói". Vì vậy, nếu tôi làm "từ", "Gaga," những gì sẽ xảy ra là nó sẽ cung cấp cho tôi 24, nói rằng tôi có 24 chữ trong lời bài hát từ Gaga. Làm cho tinh thần? Vì vậy, ở đây, "lời" bằng dah-dah-dah. OK >> Vì vậy, những gì tôi sẽ làm là tôi sẽ iterate qua từng lời bài hát, vì vậy mỗi chuỗi Tôi có trong danh sách. Và tôi sẽ tính toán những điều cho mỗi ứng cử viên. Làm cho tinh thần? Vì vậy, tôi phải làm một vòng lặp. >> Vì vậy, trong Python những gì tôi có thể làm là "cho dòng trong lời bài hát. "Điều tương tự cũng như một "Cho từng" tuyên bố trong PHP. Nhớ làm thế nào nếu nó là PHP tôi có thể nói "cho từng lời bài hát như dòng. "Làm cho tinh thần? Vì vậy, tôi đang tham gia mỗi dòng, trong này trường hợp, chuỗi này và tiếp theo chuỗi để cho mỗi dòng những gì tôi sẽ làm là đầu tiên, tôi sẽ chia dòng này vào một danh sách các Nói cách bằng dấu cách. >> Vì vậy, điều thú vị về Python là bạn chỉ có thể Google như "làm thế nào tôi có thể tách một chuỗi thành lời? "Và nó sẽ cho bạn biết làm thế nào để làm điều đó. Và cách để làm điều đó, nó chỉ là "dòng = Line.split () "và đó là cơ bản sẽ cung cấp cho bạn một danh sách với mỗi từ đây. Làm cho tinh thần? Vì vậy, bây giờ mà tôi đã làm điều đó, tôi muốn biết ai là ca sĩ của bài hát đó. Và để làm điều đó tôi chỉ cần có để có được Yếu tố đầu tiên của mảng, phải không? Vì vậy, tôi chỉ có thể nói rằng tôi ", ca sĩ = Dòng (0) "Làm cho tinh thần? >> Và sau đó là những gì tôi cần làm là, trước tất cả, tôi sẽ cập nhật bao nhiêu Nói cách tôi có theo "Gaga." vì vậy tôi chỉ sẽ tính toán bao nhiêu lời tôi có trong danh sách này, phải không? Bởi vì đây là bao nhiêu lời tôi có trong lời bài hát và tôi chỉ cần đi đến thêm nó vào mảng "Gaga". Điều đó có ý nghĩa? Không tập trung quá nhiều vào các cú pháp. Suy nghĩ nhiều hơn về các khái niệm. Đó là phần quan trọng nhất. OK. >> Vì vậy, những gì tôi có thể làm điều đó là nếu "Gaga" là đã có trong danh sách đó, vì vậy "nếu ca sĩ trong từ "có nghĩa là tôi đã có từ bằng cách Gaga. Tôi chỉ muốn thêm thêm từ đó. Vì vậy, những gì tôi làm "từ (ca sĩ) là + = Len (đường) - 1 ". Và sau đó tôi chỉ có thể làm chiều dài của đường. Vậy làm thế nào nhiều yếu tố tôi có trong mảng. Và tôi phải làm trừ đi 1 chỉ vì các yếu tố đầu tiên của mảng chỉ là một ca sĩ và những người không phải lời bài hát. Làm cho tinh thần? OK. >> "Khác", nó có nghĩa là tôi muốn thực sự chèn Gaga vào danh sách. Vì vậy, tôi chỉ cần làm "từ (ca sĩ) = Len (đường) - 1 ", xin lỗi. Vì vậy, sự khác biệt duy nhất giữa hai đường là một trong những điều này, nó không tồn tại, vì vậy tôi chỉ khởi tạo nó. Điều này tôi thực sự thêm. OK. Vì vậy, điều này đã được thêm vào từ. >> Bây giờ tôi muốn thêm vào tiền án. Vì vậy, làm thế nào để tính toán tiền án? Các tiền án có thể được tính bao nhiêu lần. Vì vậy, bao nhiêu lần bạn nhìn thấy ca sĩ trong số tất cả các ca sĩ mà bạn có, phải không? Vì vậy, cho Gaga và Katy Perry, trong trường hợp này, tôi thấy Gaga một lần, Katy Perry một lần. >> Vì vậy, về cơ bản các tiền án cho Gaga và Katy Perry sẽ chỉ là một, phải không? Bạn chỉ cần bao nhiêu lần Tôi thấy các nghệ sĩ. Vì vậy, đây là rất dễ dàng để tính toán. Tôi có thể chỉ cần một cái gì đó tương tự như như "nếu ca sĩ trong tiền án, "tôi chỉ cần đi thêm 1 hộp tiền án của họ. Vì vậy, "tiền án (hát)" + = 1 "và sau đó" khác " Tôi sẽ làm "tiền án (ca sĩ) = 1. "Làm cho tinh thần? >> Vì vậy, nếu nó không tồn tại Tôi chỉ cần đặt như 1, nếu không tôi chỉ cần thêm 1. OK, vì vậy bây giờ tất cả những gì tôi đã phải làm cũng được thêm mỗi từ đến xác suất. Vì vậy tôi phải đếm bao nhiêu lần Tôi thấy mỗi từ. Vì vậy, tôi chỉ phải làm khác cho vòng lặp trong dòng. >> Vì vậy, trước điều mà tôi sẽ làm là kiểm tra xem các ca sĩ đã có một xác suất mảng. Vì vậy, tôi kiểm tra nếu ca sĩ không có một mảng xác suất, tôi chỉ sẽ khởi tạo một cho họ. Nó thậm chí không một mảng, xin lỗi, đó là một từ điển. Vì vậy, xác suất của các ca sĩ sẽ là một từ điển mở, vì vậy tôi chỉ khởi tạo một từ điển cho nó. OK? >> Và bây giờ tôi thực sự có thể làm cho vòng lặp để tính toán mỗi từ ' xác suất. OK. Vì vậy, những gì tôi có thể làm là cho vòng lặp. Vì vậy, tôi chỉ cần đi để lặp trên mảng. Vì vậy, cách mà tôi có thể làm điều đó trong Python là "cho tôi trong phạm vi." Từ 1 bởi vì tôi muốn bắt đầu trong lần thứ hai yếu tố bởi vì đầu tiên là một trong những tên ca sĩ. Vì vậy, từ một đến chiều dài của đường. Và khi tôi khoảng nó thực sự đi từ như ở đây từ 1 đến len của dòng trừ đi 1. Vì vậy, nó đã làm điều đó làm n trừ đi 1 cho mảng rất thuận tiện. Làm cho tinh thần? >> Vì vậy, cho mỗi trong số này, những gì tôi sẽ làm là, giống như trong một trong những khác, Tôi sẽ kiểm tra xem các từ trong này vị trí trong dòng đã có trong xác suất. Và sau đó như tôi đã nói ở đây, xác suất từ, như trong tôi đặt "Xác suất (ca sĩ)". Vì vậy, tên của ca sĩ. Vì vậy, nếu nó đã có trong "Probabilit (ca sĩ)", có nghĩa là tôi muốn thêm 1 vào nó, vì vậy tôi sẽ làm "xác suất (ca sĩ)", và từ được gọi là "dòng (i)". Tôi sẽ thêm 1 và "khác" Tôi chỉ sẽ khởi tạo nó để 1. "Line (i)". Làm cho tinh thần? >> Vì vậy, tôi tính tất cả các mảng. Vì vậy, bây giờ tất cả những gì tôi phải làm cho này chỉ là "trả lại tiền án, xác suất và lời nói. "Hãy xem nếu có bất kỳ, OK. Có vẻ như tất cả mọi thứ đang làm việc cho đến nay. Vì vậy, có ý nghĩa? Một cách nào đó? OK. Vì vậy, bây giờ tôi có tất cả các xác suất. Vì vậy, bây giờ điều duy nhất tôi đã để lại chỉ có điều đó tính toán các sản phẩm của tất cả các xác suất khi tôi nhận được lời bài hát. >> Vì vậy, hãy nói rằng tôi muốn bây giờ gọi chức năng này "phân loại ()" và điều chức năng mà mất chỉ là một cuộc tranh cãi. Hãy nói rằng "Em yêu, tôi đang trên lửa" và nó sẽ tìm ra những gì là xác suất này là Gaga? Xác suất là gì rằng đây là Katie? Âm thanh tốt? Vì vậy tôi chỉ sẽ phải tạo ra một chức năng mới được gọi là "phân loại ()" và nó sẽ mất một số lời bài hát là tốt. Và bên cạnh đó lời bài hát tôi cũng phải gửi tiền án, các xác suất và các từ. Vì vậy, tôi sẽ gửi lời bài hát, tiền án, xác suất, từ. >> Vì vậy, đây là lấy lời bài hát, tiền án, xác suất, từ. Vì vậy, những gì nó làm gì? Nó về cơ bản là sẽ đi qua tất cả các ứng cử viên có thể là bạn có như là một ca sĩ. Và ở đâu là những ứng cử viên? Họ Trong tiền án, phải không? Vì vậy, tôi có tất cả những có. Vì vậy, tôi sẽ có một từ điển của tất cả các ứng cử viên có thể. Và sau đó cho mỗi ứng cử viên trong tiền án, vì vậy nó có nghĩa là nó sẽ được Gaga, Katie nếu tôi đã có hơn nó sẽ được nhiều hơn. Tôi sẽ bắt đầu tính toán xác suất này. Xác suất như chúng ta đã thấy trong các PowerPoint là lần trước khi các sản phẩm của mỗi xác suất khác. >> Vì vậy, tôi có thể làm như vậy ở đây. Tôi chỉ có thể làm xác suất là Ban đầu chỉ là trước. Vì vậy, tiền án của ứng viên. Phải không? Và bây giờ tôi phải lặp qua tất cả các Nói cách mà tôi có trong lời bài hát được có thể thêm xác suất cho mỗi người, OK? Vì vậy, "cho chữ trong lời bài hát" những gì tôi sẽ làm là, nếu từ trong "Xác suất (ứng cử viên)", mà có nghĩa là nó là một từ mà các ứng cử viên có trong lời bài hát của họ - ví dụ, "em bé" cho Gaga - những gì tôi sẽ làm là khả năng sẽ được nhân 1 cộng với xác suất của các ứng cử viên cho từ đó. Và nó được gọi là "từ". Này chia cho số lượng từ mà tôi đã cho ứng cử viên đó. Tổng số lượng từ mà tôi có cho ca sĩ mà tôi đang nhìn vào. >> "Khac." có nghĩa là nó là một từ mới do đó, nó muốn được như ví dụ "Lửa" cho Lady Gaga. Vì vậy, tôi chỉ muốn làm 1 hơn "Từ (ứng cử viên)". Vì vậy, tôi không muốn đưa thuật ngữ này ở đây. >> Vì vậy, nó sẽ là cơ bản sao chép và dán này. Nhưng tôi sẽ xóa phần này. Vì vậy, nó chỉ có được 1 trên đó. Âm thanh tốt? Và bây giờ cuối cùng, tôi chỉ cần đi đến in tên của thí sinh và xác suất mà bạn có của có S trên lời bài hát của họ. Làm cho tinh thần? Và tôi thực sự thậm chí không cần từ điển này. Làm cho tinh thần? >> Vì vậy, chúng ta hãy xem nếu điều này thực sự hoạt động. Vì vậy, nếu tôi chạy, nó không làm việc. Chờ đợi một giây. "Từ ngữ (ứng cử viên)", "từ (ứng cử viên)", đó là tên của mảng. OK Vì vậy, nó nói có một số lỗi cho ứng cử viên trong tiền án. Hãy để tôi thư giãn một chút. OK. Chúng ta hãy cố gắng. OK. >> Vì vậy, nó mang lại cho Katy Perry có này xác suất lần này 10 đến trừ đi 7, và Gaga có này Thời gian từ 10 đến trừ 6. Vì vậy, bạn thấy nó cho thấy rằng Gaga có một xác suất cao hơn. Vì vậy, "Baby, tôi on Fire" được có thể là một bài hát Gaga. Làm cho tinh thần? Vì vậy, đây là những gì chúng tôi đã làm. >> Mã này sẽ được đăng trực tuyến, vì vậy các bạn có thể kiểm tra xem nó ra. Có thể sử dụng một số của nó vì nếu bạn muốn làm một dự án hoặc một cái gì đó tương tự. OK. Đây là chỉ để hiển thị những gì tính toán đang ngôn ngữ học như thế nào. Nhưng bây giờ chúng ta hãy đi đến hơn mức cao thứ. OK. >> Vì vậy, các vấn đề khác tôi đang nói về - vấn đề phân chia là lần đầu tiên của họ. Vì vậy, bạn có ở đây Nhật Bản. Và sau đó bạn thấy rằng không có không gian. Vì vậy, đây là cơ bản có nghĩa là nó đầu ghế, phải không? Bạn nói tiếng Nhật? Đó là lên mặt ghế, phải không? >> HỌC SINH: Tôi không biết những gì các chữ Hán trên có. >> Lucas Freitas: Nó [NÓI TIẾNG NHẬT] OK. Vì vậy, về cơ bản có nghĩa là chủ tịch đầu. Vì vậy, nếu bạn đã phải đặt một không gian nó sẽ có mặt ở đây. Và sau đó bạn có [? Ueda-san. ?] Mà về cơ bản có nghĩa là ông Ueda. Và bạn thấy rằng "Ueda" và bạn có một không gian và sau đó "san." Vì vậy, bạn thấy rằng ở đây bạn "Ue" giống như của chính nó. Và ở đây nó có một nhân vật bên cạnh nó. >> Vì vậy, nó không giống như trong các ngôn ngữ ký tự có nghĩa là một từ nó, do đó bạn chỉ cần đặt rất nhiều không gian. Các nhân vật liên quan đến nhau. Và họ có thể cùng nhau như hai, ba, một. Vì vậy, bạn thực sự có để tạo ra một số loại cách đưa những không gian. >> Và điều này là bất cứ khi nào bạn nhận được dữ liệu từ những ngôn ngữ châu Á, tất cả mọi thứ đến không phân đốt. Bởi vì không có một người viết Nhật Bản hoặc Trung Quốc viết với không gian. Bất cứ khi nào bạn đang viết Trung Quốc, Nhật Bản bạn chỉ cần viết tất cả mọi thứ không có khoảng trống. Nó thậm chí không có ý nghĩa đặt không gian. Vì vậy, sau đó khi bạn nhận được dữ liệu từ, một số Ngôn ngữ Đông Á, nếu bạn muốn thực sự làm điều gì đó với bạn phải phân đoạn đầu tiên. >> Hãy suy nghĩ về làm ví dụ về lời bài hát không có dấu cách. Vì vậy, lời bài hát duy nhất mà bạn có sẽ có câu, phải không? Nhau bằng dấu chấm. Nhưng sau đó phải chỉ là câu sẽ không thực sự giúp đỡ về cung cấp thông tin của người những lời bài hát là do. Phải không? Vì vậy, bạn nên đặt các không gian đầu tiên. Vậy làm thế nào bạn có thể làm điều đó? >> Vì vậy, sau đó đến các ý tưởng của một ngôn ngữ mô hình đó là một cái gì đó thực sự quan trọng đối với tính toán ngôn ngữ học. Vì vậy, một mô hình ngôn ngữ cơ bản là một bảng xác suất mà các chương trình đầu tiên của tất cả các xác suất là gì của việc có các từ trong một ngôn ngữ? Vì vậy, cho thấy cách thường xuyên là một từ. Và sau đó cũng cho thấy mối quan hệ giữa các từ trong một câu. >> Vì vậy, ý tưởng chính là, nếu một người lạ đến cho bạn và nói một câu để bạn, xác suất là những gì đó, cho Ví dụ, "này là em gái của tôi [GTF?"?] là câu mà người nói? Vì vậy, rõ ràng là một số câu là phổ biến hơn những người khác. Ví dụ, "Chào buổi sáng", hoặc "tốt đêm ", hay" hey there "là nhiều hơn nữa phổ biến hơn so với hầu hết các câu chúng ta có một tiếng Anh. Vậy tại sao là những câu thường xuyên hơn? >> Trước hết, đó là vì bạn có từ đó thường xuyên hơn. Vì vậy, ví dụ, nếu bạn nói, con chó lớn, và con chó khổng lồ, bạn thường có thể nghe thấy con chó lớn thường xuyên hơn bởi vì "lớn" hơn thường xuyên bằng tiếng Anh hơn "khổng lồ". Vì vậy, một trong những điều là tần số từ. >> Điều thứ hai mà thực sự là quan trọng là chỉ thứ tự của các từ. Vì vậy, nó thường nói "con mèo là bên trong hộp. "nhưng bạn không thường nhìn thấy trong "Hộp bên trong là con mèo." để bạn thấy rằng có một số tầm quan trọng theo thứ tự của các từ. Bạn không thể chỉ nói rằng hai câu có cùng một xác suất chỉ vì họ có cùng một từ. Bạn thực sự phải quan tâm về trật tự là tốt. Có ý nghĩa? >> Vì vậy, chúng ta làm gì? Vì vậy, những gì tôi có thể cố gắng để có được bạn? Tôi đang cố gắng để có được bạn những gì chúng ta gọi các mô hình n-gram. Vì vậy, mô hình n-gram về cơ bản giả định rằng đối với mỗi từ đó bạn có trong một câu. Đó là khả năng có mà từ đó không chỉ phụ thuộc vào tần số của từ đó trong ngôn ngữ, mà còn về những từ mà được xung quanh nó. >> Vì vậy, ví dụ, thường khi bạn nhìn thấy một cái gì đó như trên hoặc bạn có thể sẽ thấy một danh từ sau nó, phải không? Bởi vì khi bạn có một giới từ thường phải mất một danh từ sau nó. Hoặc nếu bạn có một động từ có nghĩa là transitive bạn thường sẽ có một cụm danh từ. Vì vậy, nó sẽ có một danh từ ở đâu đó xung quanh nó. >> Vì vậy, về cơ bản, những gì nó làm là nó xem xét khả năng có từ bên cạnh nhau, khi bạn đang tính toán xác suất của một câu. Và đó là những gì một ngôn ngữ mô hình về cơ bản. Chỉ nói xác suất là những gì có một cụ thể câu trong một ngôn ngữ? Vậy tại sao là hữu ích, về cơ bản? Và lần đầu tiên của tất cả những gì là một mô hình n-gram, sau đó? >> Vì vậy, một mô hình n-gram có nghĩa là mỗi từ phụ thuộc vào N tiếp theo trừ đi 1 từ. Vì vậy, về cơ bản, nó có nghĩa là nếu tôi nhìn, Ví dụ, tại CS50 TF khi Tôi đang tính toán xác suất câu, bạn sẽ có như " xác suất có từ "là" Thời gian xác suất có " CS50 "lần xác suất có "Các TF CS50." Vì vậy, về cơ bản, tôi đếm tất cả các cách có thể kéo dài nó. >> Và sau đó thường là khi bạn đang làm điều này, như trong một dự án, bạn đặt N là một giá trị thấp. Vì vậy, thường có bigrams hoặc bát quái. Vì vậy, bạn chỉ cần đếm hai từ, một nhóm hai từ, hoặc ba từ, chỉ cho vấn đề hiệu suất. Và cũng bởi vì có thể nếu bạn có một cái gì đó như "The CS50 TF." Khi bạn có "TF", nó rất quan trọng là "CS50" là bên cạnh nó, phải không? Hai điều này thường bên cạnh nhau. >> Nếu bạn nghĩ rằng "TF," nó có thể là sẽ có những gì lớp nó TF'ing cho. Cũng "the" là thực sự quan trọng cho CS50 TF. Nhưng nếu bạn có một cái gì đó như "The CS50 TF đến lớp và đưa cho họ sinh viên một số bánh kẹo. "" Candy "và" các " không có mối quan hệ thực sự, phải không? Họ rất xa nhau mà nó không thực sự có vấn đề gì Nói cách mà bạn có. >> Vì vậy, bằng cách làm một Bigram hoặc một trigram, nó chỉ có nghĩa là bạn đang hạn chế mình để một số từ được xung quanh. Có ý nghĩa? Vì vậy, khi bạn muốn làm phân khúc, về cơ bản, những gì bạn muốn làm là nhìn thấy tất cả những cách có thể là những gì mà bạn có thể phân khúc câu. >> Như vậy mà bạn thấy là những gì xác suất của mỗi của những câu tồn tại trong ngôn ngữ? Vì vậy, những gì bạn làm là như thế, tốt, cho tôi cố gắng đặt một không gian ở đây. Vì vậy, bạn đặt một không gian có và bạn thấy là những gì Xác suất của câu đó? Sau đó, bạn là như thế, OK, có thể đó không phải là tốt. Vì vậy, tôi đặt một không gian ở đó và một không gian ở đó, và bạn tính toán xác suất bây giờ, và bạn thấy rằng đó là một xác suất cao hơn. >> Vì vậy, đây là một thuật toán gọi là TANGO thuật toán phân khúc, đó là thực sự một cái gì đó mà có thể thực sự mát mẻ cho một dự án, trong đó về cơ bản có văn bản không phân đốt mà có thể Nhật Bản hoặc Trung Quốc hoặc có thể Tiếng Anh không có dấu cách và cố gắng để đưa không gian giữa các từ và nó rằng bằng cách sử dụng một mô hình ngôn ngữ và cố gắng để xem những gì là cao nhất khả năng bạn có thể nhận được. OK. Vì vậy, đây là phân khúc. >> Bây giờ cú pháp. Vì vậy, cú pháp đang được sử dụng cho rất nhiều điều ngay bây giờ. Vì vậy, cho đồ thị tìm kiếm, cho Siri cho khá nhiều bất kỳ loại tự nhiên xử lý ngôn ngữ mà bạn có. Vì vậy, những gì là quan trọng điều về cú pháp? Vì vậy, câu nói chung có những gì chúng ta gọi là các thành phần. Đó là loại giống như một nhóm từ có một chức năng trong câu. Và họ có thể không thực sự được xa nhau. >> Vì vậy, nếu tôi nói, ví dụ, "Lauren yêu Milo. "Tôi biết rằng" Lauren "là một thành phần và sau đó "tình yêu Milo "cũng là một trong những khác. Bởi vì bạn không thể nói như "Lauren Milo yêu "có cùng ý nghĩa. Nó sẽ không có cùng ý nghĩa. Hoặc tôi không thể nói như "Milo Lauren yêu. "Không phải mọi thứ có cùng có nghĩa là làm điều đó. >> Vì vậy, hai điều quan trọng hơn về cú pháp là các loại từ vựng đó là về cơ bản là chức năng mà bạn có các từ của mình. Vì vậy, bạn phải biết rằng "Lauren" và "Milo" là danh từ. "Tình yêu" là một động từ. Và điều quan trọng thứ hai là rằng họ đang loại mệnh đề. Vì vậy, bạn biết rằng "yêu Milo" thật là một cụm từ bằng lời nói. Vì vậy, khi tôi nói "Lauren," Tôi biết rằng Lauren đang làm một cái gì đó. Cô ấy làm gì? Cô ấy yêu Milo. Vì vậy, đó là một điều hoàn toàn. Nhưng thành phần của nó là một danh từ và động từ. Nhưng cùng nhau, họ thực hiện một cụm động từ. >> Vì vậy, những gì chúng ta có thể thực sự làm gì với ngôn ngữ học tính toán? Vì vậy, nếu tôi có một cái gì đó ví dụ "Những người bạn của Allison." Tôi thấy nếu tôi chỉ đã làm một cây cú pháp tôi sẽ biết rằng "Bạn bè" là một cụm danh từ đó là một danh từ và sau đó "của Allison" là một cụm giới từ trong đó "của" là một đề xuất và "Allison" là một danh từ. Những gì tôi có thể làm là dạy cho máy tính của tôi rằng khi tôi có một cụm danh từ một đến sau đó một cụm giới từ. Vì vậy, trong trường hợp này, "bạn bè" và sau đó "của Milo "Tôi biết rằng điều này có nghĩa là NP2, điều thứ hai, sở hữu NP1. >> Vì vậy, tôi có thể tạo ra một số loại mối quan hệ, một số loại chức năng cho nó. Vì vậy, bất cứ khi nào tôi nhìn thấy cấu trúc này, phù hợp chính xác với "bạn bè của Allison, "Tôi biết rằng Allison sở hữu bạn bè. Vì vậy, bạn bè là một cái gì đó rằng Allison có. Làm cho tinh thần? Vì vậy, đây là những gì cơ bản Tìm kiếm đồ thị không. Nó chỉ tạo ra quy tắc cho rất nhiều thứ. Vì vậy, "những người bạn của Allison", "bạn bè của tôi người sống ở Cambridge "," bạn bè của tôi người đi đến Harvard. "Nó tạo ra quy tắc cho tất cả những điều đó. >> Bây giờ dịch máy. Vì vậy, dịch máy cũng là một cái gì đó thống kê. Và thực sự nếu bạn tham gia vào ngữ học máy tính, rất nhiều công cụ của bạn là có được số liệu thống kê. Vì vậy, như tôi đã làm ví dụ với rất nhiều suất mà tôi đã được tính toán, và sau đó bạn có thể điều này số lượng rất nhỏ đó là trận chung kết xác suất, và đó là những gì mang đến cho bạn câu trả lời. Máy dịch thuật cũng sử dụng một mô hình thống kê. Và nếu bạn muốn nghĩ về máy dịch đơn giản nhất có thể cách, những gì bạn có thể nghĩ rằng chỉ là dịch từng chữ, phải không? >> Khi bạn đang học một ngôn ngữ cho lần đầu tiên, đó là những gì thường bạn làm gì, phải không? Nếu bạn muốn, bạn dịch một câu trong ngôn ngữ của bạn với ngôn ngữ bạn đang học tập, thường là đầu tiên, bạn dịch mỗi từ cá nhân, và sau đó bạn cố gắng để đặt các từ vào vị trí. >> Vì vậy, nếu tôi muốn dịch này, [NÓI PORTUGUESE] có nghĩa "con mèo trắng chạy đi." Nếu tôi muốn dịch nó từ Bồ Đào sang tiếng Anh, những gì tôi có thể làm là, đầu tiên, tôi chỉ dịch từng chữ. Vì vậy, "o" là "," "gato", "con mèo" "Branco", "trắng", và sau đó "fugio" là "Bỏ chạy." >> Vì vậy, sau đó tôi có tất cả các từ đây, nhưng chúng không theo thứ tự. Nó giống như "mèo trắng chạy đi" đó là sai ngữ pháp. Vì vậy, sau đó tôi có thể có một bước thứ hai, sẽ được tìm kiếm lý tưởng vị trí cho mỗi từ. Vì vậy, tôi biết rằng tôi thực sự muốn có "Mèo trắng" thay vì "con mèo trắng." Vì vậy, những gì tôi có thể làm là, phương pháp ngây thơ nhất sẽ tạo ra tất cả các hoán vị có thể có của từ, các vị trí. Và sau đó xem cái nào có xác suất cao nhất theo mô hình ngôn ngữ của tôi. Và sau đó khi tôi tìm thấy một trong đó có xác suất cao nhất nó, đó là có thể "mèo trắng chạy đi," đó là bản dịch của tôi. >> Và đây là một cách đơn giản để giải thích như thế nào rất nhiều dịch máy thuật toán làm việc. Điều đó có ý nghĩa? Đây cũng là một cái gì đó thực sự thú vị mà các bạn có thể có thể khám phá một dự án cuối cùng, yeah? >> HỌC SINH: Vâng, bạn nói rằng đó là cách ngây thơ, vì vậy những gì cách không ngây thơ? >> Lucas Freitas: Cách không ngây thơ? OK. Vì vậy, điều đầu tiên mà là xấu về phương pháp này là tôi chỉ dịch lời nói, từng từ. Nhưng đôi khi bạn có những từ mà có thể có nhiều bản dịch. Tôi sẽ cố gắng để suy nghĩ một cái gì đó. Ví dụ, "manga" trong có thể Bồ Đào Nha hoặc là "mangle" hoặc "tay áo". Vì vậy, khi bạn đang cố gắng để dịch thuật ngữ bằng lời nói, nó có thể được cho bạn một cái gì đó mà làm cho không có ý nghĩa. >> Vì vậy, bạn thực sự muốn bạn nhìn vào tất cả bản dịch có thể có của lời nói và thấy, đầu tiên của tất cả, thứ tự là gì. Chúng tôi đã nói về permutating những điều? Để xem tất cả các đơn đặt hàng có thể và chọn một với mức cao nhất xác suất? Bạn cũng có thể chọn tất cả các thể bản dịch cho mỗi từ và sau đó nhìn thấy - kết hợp với các hoán vị - cái nào có xác suất cao nhất. >> Thêm vào đó, bạn cũng có thể nhìn vào không chỉ lời nói, nhưng cụm từ. vì vậy bạn có thể phân tích mối quan hệ giữa các từ và sau đó nhận được một dịch tốt hơn. Ngoài ra một cái gì đó khác, vì vậy học kỳ này Tôi đang thực sự làm nghiên cứu trong Trung Quốc-Anh dịch máy, để dịch từ Trung Quốc sang tiếng Anh. >> Và một cái gì đó chúng tôi làm là, bên cạnh việc sử dụng một mô hình thống kê, mà chỉ là nhìn thấy các xác suất nhìn thấy một số vị trí trong một câu, tôi thực sự cũng bổ sung thêm một số cú pháp để tôi mô hình, nói rằng, oh, nếu tôi thấy loại này xây dựng, đây là những gì tôi muốn để thay đổi nó khi tôi dịch. Vì vậy, bạn cũng có thể thêm một số loại yếu tố cú pháp để làm cho dịch hiệu quả hơn và chính xác hơn. OK. >> Vậy làm thế nào bạn có thể bắt đầu, nếu bạn muốn để làm một cái gì đó trong tính toán ngôn ngữ học? >> Đầu tiên, bạn chọn một dự án có liên quan đến ngôn ngữ. Vì vậy, có rất nhiều ra khỏi đó. Có rất nhiều điều bạn có thể làm. Và sau đó có thể nghĩ đến một mô hình mà bạn có thể sử dụng. Thường có nghĩa là suy nghĩ của giả định, như như, oh, khi tôi như suy nghĩ của bài hát. Tôi giống như, tốt, nếu tôi muốn tìm ra một người đã viết này, tôi có thể muốn nhìn vào những lời người sử dụng và thấy những người sử dụng từ đó rất thường xuyên. Vì vậy, cố gắng làm cho các giả định và cố gắng nghĩ về mô hình. Và sau đó bạn cũng có thể tìm kiếm trực tuyến cho các loại vấn đề mà bạn có, và nó sẽ đề nghị để bạn có thể mô hình mô hình điều tốt. >> Và cũng có thể bạn luôn có thể gửi email cho tôi. me@lfreitas.com. Và tôi chỉ có thể trả lời câu hỏi của bạn. Chúng tôi thậm chí có thể có thể đáp ứng vì vậy tôi có thể cho ý kiến về cách triển khai thực hiện dự án của bạn. Và tôi có nghĩa là nếu bạn tham gia với ngôn ngữ học tính toán, nó sẽ là tuyệt vời. Bạn sẽ thấy có quá nhiều tiềm năng. Và ngành công nghiệp muốn thuê bạn xấu như vậy vì điều đó. Vì vậy, tôi hy vọng các bạn thích này. Nếu bạn có bất kỳ câu hỏi, bạn có thể hỏi tôi sau này. Nhưng cảm ơn bạn.