Tiêu đề gốc: "Changpeng Zhao đầu tư vào một sinh viên cơ sở Trung Quốc, vòng hạt giống trị giá 11 triệu đô la Mỹ, để trở thành đại lý giáo dục"
Tác giả gốc: Người sáng lập Park, một cộng đồng doanh nhân dưới quyền Geek Park
Một sinh viên cơ sở Trung Quốc, vòng hạt giống trị giá 11 triệu đô la Mỹ, hiện là sản phẩm được tài trợ cao nhất cho sinh viên khởi nghiệp ở Thung lũng Silicon.
VideoTutor, một sản phẩm đại lý giáo dục của K12 có thể tạo video giảng dạy/giải thích cá nhân chỉ bằng một câu, hôm nay đã thông báo rằng họ đã hoàn thành vòng tài trợ ban đầu trị giá 11 triệu USD. Vòng tài trợ này được dẫn dắt bởi YZi Labs, với sự tham gia của Baidu Ventures, Jinqiu Fund, Amino Capital, BridgeOne Capital và một số nhà đầu tư nổi tiếng.
Đây cũng là công ty sản phẩm AI đầu tiên được YZi Labs đầu tư.
Người sáng lập Kai Zhao cho biết VideoTutor đã nhận được sự công nhận và hỗ trợ từ nhóm đầu tư của CZ và YZi Labs, và YZi Labs cuối cùng đã dẫn đầu vòng tài trợ này. Họ nhận được hơn 10 TS (thư có kỳ hạn) và cuối cùng đã chọn những công ty này.
Phiên bản đầu tiên của sản phẩm được ra mắt vào ngày 14/5 (lần đầu ra mắt tại Chợ sản phẩm Founder Park), được thị trường ghi nhận và được PMF kiểm chứng. Trong vòng chưa đầy 5 tháng, vòng tài trợ ban đầu trị giá 11 triệu USD đã được hoàn thành.
Theo quan điểm của Kai, lý do cốt lõi khiến họ có thể có được nguồn tài chính này là vì với tiền đề là hướng đi đúng đắn, “nhóm thiên tài nhỏ” đã sử dụng phương pháp học tập trực quan để giải quyết những điểm khó khăn khi ôn thi đại học Mỹ trên đường đua K12.
“Lĩnh vực này phù hợp hơn với giới trẻ, cộng với kỹ năng kỹ thuật rất tốt, bản thân người sáng lập cũng có hiểu biết và kinh nghiệm rất tốt, khả năng thực thi rất nhanh.”
Không chỉ họ, Cursor, Mercor, Pika, GPTZero, v.v., các sinh viên đại học ở Thung lũng Silicon đang sử dụng các sản phẩm AI lần lượt đặt ra các mức cao mới về tài chính để làm mới hiểu biết của mọi người về khởi nghiệp AI.
Khởi nghiệp trong thời đại AI thực sự rất khác biệt.
Chúng tôi đã trò chuyện với những người trẻ này tại VideoTutor và muốn biết lý do tại sao họ có thể nhận được vòng tài trợ hạt giống này và những thay đổi nào đang diễn ra trong hoạt động khởi nghiệp ở Thung lũng Silicon ngày nay. Và tại sao họ lại muốn tuyển nhân viên từ các nhà máy lớn trong nước đến vậy.
Khách mời phỏng vấn: CEO Kai Zhao, CTO James Zhan.
Phỏng vấn & Biên tập | Wanhu
Sau đây là nội dung bài phỏng vấn do Founder Park biên soạn và biên soạn.

Trong Đường đua K12, học tập trực quan là hướng đi thực sự
Người sáng lập Park: Rất nhiều tổ chức rất lạc quan về bạn. Theo bạn, điểm cốt lõi khiến họ ấn tượng là gì?
Kai: Tôi nghĩ trước hết đó là một hướng đi đúng đắn. Con đường giáo dục AI có tiềm năng và triển vọng lớn. Lĩnh vực giáo dục chúng tôi đang hướng tới là Kỳ thi tuyển sinh đại học Mỹ SAT và AP. Nhóm người dùng mục tiêu là học sinh trung học phổ thông K12. Khoảng cách giữa chúng tôi và nhóm người dùng này là rất nhỏ và về cơ bản không có khoảng cách thế hệ. Chúng tôi đã trải qua toàn bộ chu trình luyện thi và học tập, biết đâu là điểm yếu của kỳ thi và luyện thi và có thể tạo ra một sản phẩm thực sự giải quyết được điểm yếu của nhóm người này.
Thứ hai, đội rất xuất sắc. James đến từ Gemini và là kỹ sư cốt lõi về kỹ thuật và thuật toán AI tại Google. Tôi có ba kinh nghiệm trong lĩnh vực kinh doanh giáo dục. Tôi bắt đầu kinh doanh phần mềm giáo dục từ năm thứ nhất. Trong năm thứ hai, tôi đã tham gia sáng tạo MathGPTPro, một trong số đó đã được chọn vào Diễn đàn Đổi mới Qiji. Có kinh nghiệm xây dựng thành công các sản phẩm giáo dục.
Điểm thứ ba là cốt lõi của lĩnh vực giáo dục AI của chúng tôi là công cụ hoạt hình và chúng tôi là nhà phát triển cốt lõi của VideoTutor. Chúng tôi là nhóm hiểu rõ nhất về công nghệ cốt lõi và có thể kết xuất công cụ hoạt hình rất chính xác.
Bản thân nhóm có gen tiếp thị rất tốt và biết cách truyền bá.
VideoTutor rất phù hợp với sự đồng thuận đầu tư của các quỹ đầu tư mạo hiểm chính thống của Mỹ, được gọi là "đội ngũ thiên tài nhỏ", nghĩa là lĩnh vực này phù hợp hơn với những người trẻ tuổi làm, cùng với kỹ năng kỹ thuật rất tốt và bản thân người sáng lập cũng có hiểu biết sâu sắc và kinh nghiệm, khả năng thực thi rất nhanh. Tôi nghĩ đây là lý do chung mà tất cả các nhà đầu tư đều có thể lạc quan.

VideoTutor đã được niêm yết trên Sở giao dịch chứng khoán New York trong Ngày giới thiệu nội trú EASY của YZi Labs
Người sáng lập Park: Sản phẩm của bạn muốn giải quyết vấn đề cốt lõi nào trong ngành giáo dục?
Kai: Các sản phẩm học tập hiện nay trên thị trường có thể chia thành hai loại: sản phẩm học tập chủ động và sản phẩm học tập thụ động. Các sản phẩm học tập thụ động, chẳng hạn như Byte's Gauth, Chegg, AnswersAi, v.v., bao gồm một kịch bản mà chúng tôi gọi là "Trợ giúp bài tập về nhà". Link học rất ngắn, học sinh chủ yếu trả tiền để trả lời các câu hỏi về bài tập về nhà.
VideoTutor bao gồm các tình huống học tập tích cực. Chúng ta không cần xét đến động cơ học tập của học sinh, vì các em phải học và làm các bài thi, chẳng hạn như Kỳ thi tuyển sinh đại học Mỹ SAT và AP. Trong kịch bản này, có rất nhiều điểm yếu về thị giác. 80% nội dung của kỳ thi tuyển sinh đại học Mỹ liên quan đến các hàm số, phép tính và các kiến thức khác đòi hỏi khả năng hiển thị hình ảnh phức tạp. Công cụ hoạt hình của VideoTutor có thể giải quyết rất tốt tình huống này.

Hơn nữa, đơn giá cho mỗi khách hàng trong lĩnh vực này rất cao. Trung bình có 2,6 triệu học sinh ở Mỹ tham gia kỳ thi SAT mỗi năm và có nhu cầu thanh toán rất lớn. Các khóa học SAT ngoại tuyến rất tốn kém. Họ không tính phí theo gói mà tính theo giờ. Giá khởi điểm trung bình là 150 USD mỗi giờ và hầu hết các khoản phí là 230 USD. Nhiều học sinh và phụ huynh trả tiền để học. Nhưng VideoTutor có thể dịch hoặc thậm chí thay thế rất tốt việc đào tạo giáo viên, vì ở giai đoạn này, hầu như không có sự khác biệt giữa nội dung của video do AI tạo ra và nội dung đào tạo giáo viên. Bằng cách này, học sinh có thể có giáo viên luyện thi được cá nhân hóa bằng AI của riêng mình với chi phí thấp nhất.
Người sáng lập Park: Điều gì khiến bạn quyết định làm sản phẩm này?
Kai: Thật ra, trước chúng tôi, đã có một nhóm ở Stanford tên là Gatekeep Ai. Họ cũng muốn học trực quan vào thời điểm đó. Tôi đã nhận thức được ảnh hưởng của hướng đi này. Khi tôi mới bắt đầu kinh doanh, các sản phẩm giáo dục mà chúng tôi tạo ra về cơ bản được kết nối với API của GPT, tương tự như sản phẩm ChatGPT Wrapper. Nhưng chúng tôi nhận thấy rằng có một mức trần cho loại sản phẩm này chỉ dựa trên văn bản Hỏi đáp. Có thể thấy rằng hoạt động kinh doanh của Chegg và Gauth đang sa sút và phần lớn các kịch bản đã được thay thế bằng ChatGPT, vì học sinh có thể giải quyết nhiều bài tập về nhà bằng cách trả 20 đô la Mỹ và sử dụng ChatGPT.
Các sản phẩm dựa trên API shell và mức độ tối ưu hóa đã đạt đến mức trần.
Nhưng việc tạo ra hình ảnh đa phương thức có triển vọng rất lớn, bởi vì có rất nhiều kịch bản học tập bằng hình ảnh trong lĩnh vực thi tuyển sinh đại học ở Mỹ. Đáng tiếc là Gatekeep đã có khởi đầu tốt nhưng lại không thể tiếp tục vì ra mắt hơi sớm. Vào thời điểm đó, khả năng lập trình mô hình cơ bản vẫn chưa hoàn thiện và GPT-4 vẫn chưa được phát hành. Ngoài ra, công cụ hoạt hình toán học liên quan đến kết xuất và thuật toán mà họ chưa chinh phục được. Nhưng nhóm của chúng tôi đã nắm vững tất cả quá trình phát triển cốt lõi của công cụ hoạt hình và giải quyết được vấn đề này, giúp việc hiển thị video trở nên rất chính xác.
PMF: Người dùng rất sẵn lòng chi trả
Người sáng lập Park: Sau khi sản phẩm của bạn ra mắt, bạn cũng đã đạt được sự hợp tác với một số trường học. Theo bạn, khi nào hoặc tính năng nào khiến bạn cảm thấy “Tôi đã làm đúng sản phẩm và tìm đúng điểm yếu” và cảm thấy mình đã tìm thấy PMF?
Kai: Có thể nói từ ba chiều.
Trước hết, từ góc độ chỉ số doanh thu, VideoTutor cho đến nay đã nhận được yêu cầu API từ 1.000 công ty, bao gồm tất cả các tổ chức giáo dục lớn nổi tiếng ở Hoa Kỳ và thậm chí cả các tổ chức trong nước. Ngoài ra, có rất nhiều trường muốn mua dịch vụ. Ý định của người dùng bên C trực tiếp hơn. Có một phụ huynh học sinh cũng là nhà đầu tư. Sau khi trải nghiệm sản phẩm, anh đã giới thiệu sản phẩm cho tất cả người thân, bạn bè dùng thử và ai cũng sẵn lòng chi trả. Sau đó, anh ấy không biết từ đâu lấy được số điện thoại của tôi và gửi cho tôi một tin nhắn muốn bỏ phiếu cho chúng tôi. Người dùng bên C rất sẵn lòng chi trả.
Điểm thứ hai là từ góc độ nhu cầu của người dùng. Tại sao việc dạy kèm trực tiếp tại Mỹ lại cứng nhắc đến vậy? Vì các bậc phụ huynh cho rằng việc dạy học 1-1 là hiệu quả nên họ sẵn sàng chi trả. Giờ đây, công nghệ AI đa phương thức có thể đạt được hiệu quả giảng dạy 1-1 theo cách nhân hóa và các câu hỏi đều được giải đáp. Hơn nữa, các video bài học do giáo viên trực tuyến Mỹ ghi lại thực tế không khác gì các video do AI tạo ra. Đây là cái mà tôi gọi là "sự thay đổi nhu cầu". Những khóa học được ghi hình và phát sóng mà sinh viên tốn rất nhiều tiền mua cũng không khác gì những khóa học do AI của tôi tạo ra, vậy tại sao không sử dụng AI? Chi phí thấp hơn và hiệu quả giảng dạy tốt hơn.
Chúng tôi đã nhận được rất nhiều phản hồi rất tích cực từ học sinh và nhiều giáo viên cũng sẵn sàng phổ biến sản phẩm này. Tỷ lệ hoàn thành và thời gian sử dụng trong giai đoạn đầu đặc biệt tốt. 200 người dùng hạt giống mà chúng tôi sàng lọc hiện nay đều đã được tích lũy trong giai đoạn đầu.
Điểm thứ ba là hương vị và cảm nhận của sản phẩm. Khi bạn tiếp tục làm như vậy, từ sự tiến bộ của toàn bộ ngành giáo dục, đến các điểm nhu cầu cốt lõi mà học sinh và phụ huynh phải trả, đến sự phát triển của bản thân sản phẩm, nếu bạn nghĩ ngược lại, toàn bộ logic là một vòng khép kín. Vì vậy, từ ba chiều này, bạn cảm thấy PMF là đủ. Điều cốt lõi là sự sẵn sàng chi trả là rất, rất mạnh mẽ.

Chúng tôi đã đạt được sự hợp tác với FIZZ
Người sáng lập Park: Nhiều người dùng tích cực muốn thanh toán và một số người tích cực liên hệ với bạn để đầu tư.
Kai: Đúng vậy. Trong lĩnh vực SAT và AP, mức độ sẵn sàng chi trả đã rất cao. Giá cho mỗi khách hàng trong lĩnh vực này bắt đầu từ 100 đến 200 đô la Mỹ và các lớp học ngoại tuyến đắt hơn, có thể là 800 đô la Mỹ. Có 2,6 triệu học sinh ở Mỹ muốn thi SAT và 37% trong số đó sẽ chủ động chi trả. Đây là thị trường có mức sẵn sàng chi trả và nhu cầu rất cao. Sản phẩm của chúng tôi cho phép dịch thuật theo nhu cầu rất tốt.
Người sáng lập Park: Trong đường đua SAT, đối với thí sinh, có một giáo viên thực sự và một AI. Liệu anh ấy có tin tưởng vào AI không?
Kai: Ngày nay, khi AI trả lời các câu hỏi ở cấp độ SAT và AP, về cơ bản nó ít mắc lỗi thực tế hơn. Trong trường hợp này, tại sao lại tốt hơn gia sư offline? Một là nó rẻ, hai là sinh viên có thể tiếp tục đặt câu hỏi nếu có. Họ không phải lo lắng về ý kiến của giáo viên hay mất kiên nhẫn nếu hỏi những câu hỏi ngu ngốc. Họ có thể học mọi lúc, mọi nơi 24 giờ một ngày.
Và thị trường này có thể được chuyển nhượng. Sau khi hoàn thành thị trường Mỹ chúng ta còn có thể chuyển tiếp sang các kỳ thi A-Level ở Canada và Anh,… Nhu cầu thanh toán rất lớn.
Người sáng lập Park: Bạn nghĩ thế nào về việc thanh toán bây giờ?
Kai: Chúng tôi có gói đăng ký hàng tháng và cũng có khoản thanh toán dựa trên kết quả học tập. Tôi nghĩ AI bây giờ có thể trả tiền dựa trên kết quả. Ví dụ: chúng tôi có thể tung ra một gói, nếu bạn trả $799, chúng tôi đảm bảo rằng con bạn sẽ đạt điểm tuyệt đối trong bài kiểm tra toán SAT.
Người sáng lập Park: Nhưng khi trả lương dựa trên kết quả bài kiểm tra, chẳng phải nó cũng phụ thuộc vào sáng kiến cá nhân của học sinh sao?
Kai: Điều này có thể không thực hiện được trong kỳ thi tuyển sinh đại học trong nước, vì có rất nhiều điểm đánh giá, hàng nghìn điểm. Tuy nhiên, kỳ thi tuyển sinh đại học SAT của Mỹ chỉ có 62 điểm thi, trong đó có 50 điểm là điểm thi thông thường. Hầu hết học viên sẽ không gặp vấn đề gì và về cơ bản có thể nắm vững 12 điểm thi còn lại. Trừ khi có vấn đề thực sự với trình độ logic của học sinh, về cơ bản không có tình huống nào khiến học sinh không thể học được. Và hiệu quả nâng cao hiệu quả của AI là rất rõ ràng.
Trên thực tế, nhiều gia sư trực tuyến ở Mỹ cũng có dịch vụ này. Bạn trả cho giáo viên 1.800 USD và giáo viên sẽ dạy kèm cho con bạn. Tỷ lệ thành công về cơ bản là 100% vì điểm thi SAT là cố định. Chỉ cần học sinh chỉ số IQ bình thường thì về cơ bản không có vấn đề gì. Nhưng kỳ thi tuyển sinh đại học không tốt. Không có cách nào để vượt qua kỳ thi tuyển sinh đại học trong một thời gian ngắn. Hơn nữa, kỳ thi tuyển sinh đại học trong nước cần phải nới rộng khoảng cách điểm số và sẽ có những khó khăn. Tuy nhiên, không có khó khăn tuyệt đối trong kỳ thi tuyển sinh đại học Mỹ, bởi nó thiên về kiểm tra xem bạn đã nắm vững các điểm kiến thức hay chưa.
Trả lương theo kết quả cũng là mô hình đã được các trợ giảng trước đây áp dụng và nó có điều kiện tiên quyết này.
Người sáng lập Park: Liệu chi phí của mô hình có phải là vấn đề trong việc định giá của bạn không? Tỷ lệ có cao không?
Kai: Đơn giá cho mỗi khách hàng trong lĩnh vực của chúng tôi rất cao, bắt đầu từ $69 một tháng. Giá thành của mô hình hiện nay rất rẻ nên không thành vấn đề. Ngành giáo dục không giống như lĩnh vực mã hóa, nơi mọi người đều nhìn vào giá cả vì mã hóa cần hỗ trợ một bối cảnh lâu dài.
Đối với các sản phẩm hướng đến học sinh trung học, phiên bản web là quan trọng nhất
Người sáng lập Park: Tôi nhớ lần trước bạn đã nói rằng phiên bản nguyên mẫu đầu tiên của bạn chỉ mất hơn hai tháng. Toàn bộ chu trình phát triển lúc đó được xem xét như thế nào, chẳng hạn như phân công lao động, quyết định chức năng nào nên làm và chức năng nào không nên làm?
Kai: Sự đồng thuận giữa tất cả nhóm của chúng tôi là việc lặp lại phải nhanh, vì tốc độ nhanh có thể nhanh chóng nhận được phản hồi từ những người dùng đầu tiên.
Phiên bản đầu tiên đã gây xôn xao dư luận sau khi được đăng tải trên Twitter, thu hút một lượng lớn người dùng. Nhưng nhiều người dùng trong số này là lập trình viên, nhà đầu tư hoặc những người đam mê công nghệ. Chúng ta có thể gọi chung họ là “những người áp dụng công nghệ sớm”. Ở giai đoạn đó, phản hồi bạn nhận được từ họ bị phân tán và ít giá trị. Vẫn cần phải chọn những người dùng hạt giống thực sự từ nhiều đối tượng người dùng như vậy, tức là những học sinh trung học chất lượng cao, sau đó thu được phản hồi hữu ích thông qua tư vấn.
Phản hồi cốt lõi mà chúng tôi nhận được là độ chính xác khi hiển thị video phải đạt 100%, đây là ưu tiên hàng đầu để tối ưu hóa. Cho dù giao diện người dùng trông đẹp hay có hỗ trợ các âm thanh và màu sắc TTS khác nhau hay không, chúng tôi đã cắt bỏ các chức năng này. Quay lại cốt lõi của sản phẩm: việc chúng tôi làm là học hỏi kiến thức về các cảnh khoa học nên độ chính xác của kết xuất đồ họa là cốt lõi.
Người sáng lập Park: Thời thế hệ được chọn như thế nào?
Kai: Thời lượng cao nhất lúc bấy giờ là khoảng 6 phút. Điều cần cân nhắc chính vào thời điểm đó là phần giải thích các câu hỏi và điểm kiến thức thông thường không được quá 6 phút. Tuy nhiên, trong những phản hồi tiếp theo, chúng tôi nhận thấy một số học sinh có năng lực học tập chưa tốt và mong rằng nội dung sẽ được dạy chậm hơn và đi sâu hơn. Chúng tôi nhận thấy rằng thời lượng không nên giới hạn mà phụ thuộc nhiều hơn vào khả năng học tập của người dùng.
Người sáng lập Park: Bây giờ có thể mất bao lâu?
Kai: Thời gian lâu nhất có lẽ là trong vòng một giờ, bạn có thể tiếp tục đập nồi ra để hỏi kết thúc. Nó có thể được tạo ra trong thời gian thực trong khi giao tiếp. Tuy nhiên, chức năng này mới được thêm vào gần đây và không có sẵn trong phiên bản đầu tiên.
Người sáng lập Park: Có tính năng nào bạn muốn thực hiện vào thời điểm đó nhưng sau đó nhận ra rằng chúng không quan trọng nên bạn vẫn chưa thực hiện?
Kai: Ví dụ: App. Lúc đó tôi nghĩ cần phải nhanh chóng phát triển một ứng dụng, nhưng sau này tôi phát hiện ra rằng hầu hết sinh viên ở Mỹ về cơ bản đều sử dụng Laptop hoặc iPad để học. Hầu hết các trường K12 ở Hoa Kỳ sẽ cấp máy tính Chromebook cho học sinh. Máy tính rất phổ biến và bài tập về nhà của họ được hoàn thành trên máy tính. Về cơ bản, mọi học sinh trung học đều có máy tính và điện thoại di động chỉ chiếm chưa đến 5% kịch bản học tập, một tỷ lệ rất thấp.
Người sáng lập Park: Vì vậy, nếu là sản phẩm tập trung vào giáo dục hoặc nhóm sinh viên thì phiên bản web là điều cần làm đầu tiên, còn ứng dụng thì không quá quan trọng.
Kai: Đúng vậy, thực ra tôi đã biết dữ liệu này vào thời điểm đó. Dù sao thì tôi cũng đã học ở Mỹ nhiều năm rồi. Sau đó, chúng tôi tuyển 100 sinh viên từ hàng chục nghìn người dùng ban đầu để nghiên cứu. Hơn 90 trong số 100 học sinh này có máy tính nên chúng tôi càng tin chắc vào điều này.
Người sáng lập Park: Khi ra mắt phiên bản đầu tiên, bạn có nhắm đến nhóm K12 không?
Kai: Đúng vậy, sau này chúng tôi cũng sẽ nhắm mục tiêu vào nhóm này. Chúng tôi không cạnh tranh với Gauth, chúng tôi tập trung hơn vào các kịch bản luyện thi. Một lượng lớn học sinh trung học ở Hoa Kỳ sẽ lựa chọn nền tảng đào tạo ngoại tuyến hoặc học trực tuyến và VideoTutor đã đáp ứng rất tốt nhu cầu này.
Người sáng lập Park: K12 sẽ là nhóm người dùng cốt lõi của bạn trong ít nhất một năm chứ?
Kai: Nó sẽ trở thành chỉ số cốt lõi trong vòng hai năm tới.
Sử dụng các mô hình lớn nhưng không chỉ dựa vào các mô hình lớn
Người sáng lập Park: Giới thiệu ngắn gọn về kế hoạch triển khai kỹ thuật hiện tại của bạn? VideoTutor thực sự tốt hơn nhiều so với các mô hình tạo video khác trong việc tạo các khóa học và biểu đồ. Ngay cả khi nhiều mô hình thậm chí không thể tạo ra văn bản một cách chính xác, công nghệ của bạn vẫn rất đáng ngạc nhiên.
James: Video chúng tôi tạo có cả văn bản và đồ họa. Quy trình sản xuất gần đúng là: để mô hình ngôn ngữ lớn tạo văn bản và hướng dẫn hoạt ảnh tương ứng, sau đó hướng dẫn hoạt ảnh được công cụ hoạt hình của chúng tôi hiển thị và cuối cùng được hiển thị trên video.
Phần văn bản tương đối đơn giản. Chúng tôi để mô hình ngôn ngữ lớn tạo văn bản và sau đó hiển thị trực tiếp. Nhưng phần hoạt hình được tạo ra bởi công cụ kết xuất hoạt hình toán học của riêng chúng tôi. Ưu điểm của nó là nó hiển thị các trục, hình học, v.v. với độ chính xác rất cao, đó là nơi chứa công nghệ cốt lõi của chúng tôi.
Mô hình ngôn ngữ lớn hiện tại chỉ xuất ra văn bản. Tác nhân mà chúng tôi tạo ra tương đương với việc đưa cho mô hình ngôn ngữ lớn một mảnh giấy và một cây bút để nó có thể vẽ hoạt hình giảng dạy phù hợp mà nó tưởng tượng. Phần được vẽ là tất cả công nghệ của chúng tôi.
Người sáng lập Park: Bản tổng hợp cuối cùng của toàn bộ video, bao gồm cả âm thanh và video, được xử lý như thế nào?
James: Lúc đầu, người dùng sẽ nhập một dấu nhắc, chẳng hạn như "Định lý Pythagore là gì?". Bước đầu tiên, chúng ta cho mô hình ngôn ngữ lớn suy luận về tất cả các kịch bản, thường là 3 đến 5 kịch bản, tùy theo độ khó của bài toán. Sau đó, mô hình sẽ tạo ra các tập lệnh thô cho từng kịch bản. Sau đó, suy luận thứ hai được thực hiện dựa trên kịch bản của từng cảnh để tạo ra văn bản trong cảnh, các mẫu tương ứng và văn bản giọng nói của con người. Văn bản phát âm sau đó được tổng hợp bằng TTS.
Cuối cùng chúng tôi ghép tất cả các cảnh lại với nhau để tạo thành một video hoàn chỉnh.
Người sáng lập Park: Tôi hiểu rằng đây là kế hoạch cho phiên bản đầu tiên. Bây giờ, một quy trình có thể tương tác bất cứ lúc nào đã được thêm vào, quy trình tạo có thay đổi không?
James: Chắc chắn có những thay đổi. Để cho phép người dùng xem nội dung nhanh nhất có thể, giờ đây chúng tôi tạo cảnh đầu tiên để người dùng có thể xem trước, trong khi các cảnh tiếp theo tiếp tục được hiển thị ở chế độ nền. Khi người dùng đặt câu hỏi, chúng tôi sẽ chuyển giọng nói của họ thành văn bản, sau đó chuyển văn bản này cùng với nội dung của tất cả các cảnh trước đó sang mô hình ngôn ngữ lớn để suy luận, cho phép nó lập kế hoạch cho cảnh giảng dạy tiếp theo. Quá trình kết xuất các cảnh tiếp theo cũng giống như trước.
Người sáng lập Park: Nếu người dùng có câu hỏi trong vòng một phút sau khi nghe, họ sẽ hỏi trực tiếp. Sau khi nhận được câu hỏi, bạn sẽ trả lại câu hỏi của người dùng và nội dung đã đề cập trước đó về mô hình để xử lý. Trong quá trình này, sau khi người dùng đặt câu hỏi xong, hoạt ảnh sẽ tiếp tục hay dừng lại?
James: Độ trễ hiện tại của chúng tôi đã giảm từ 20 xuống 30 giây lúc đầu xuống còn dưới 5 giây. Về mặt tương tác, chúng tôi sẽ thực hiện một số chuyển đổi để người dùng không chú ý quá nhiều đến 5 giây này và kết nối của toàn bộ quá trình sẽ mượt mà hơn. Trong vòng 4-5 giây, anh ấy có thể xem nội dung mới dựa trên câu hỏi của mình.
Thiết kế hiện tại là giáo viên AI sẽ nói: "Thôi để tôi suy nghĩ" rồi xóa bảng đen, giống như một giáo viên mô phỏng thực sự. Nếu bạn thấy những gì tôi nói có gì sai sót thì tôi sẽ xóa đi và viết lại cho bạn. Quá trình này sẽ cảm thấy tự nhiên hơn.
Và chúng tôi không chỉ thụ động chờ đợi người dùng đặt câu hỏi mà chúng tôi còn thực hiện Quiz ở giữa. Chúng tôi đưa ra lý luận dựa trên phản hồi của Quiz và câu hỏi của người dùng. Hơn nữa, chúng tôi không có micro hoàn toàn miễn phí mà yêu cầu người dùng chủ động bật micro và có thao tác đóng mở.
Người sáng lập Park: Vì vậy, dựa trên cơ chế này, lời giải thích dài nhất có thể được đưa ra trong khoảng một giờ.
James: Nói chính xác thì không có giới hạn. Nếu anh ấy tiếp tục thắc mắc, anh ấy có thể tiếp tục hỏi.
Kai: Có, không có giới hạn mặc định. Trên thực tế, VideoTutor đang đi theo hướng này với sự tiến bộ của AI đa phương thức. Chúng tôi không tạo ra nhu cầu mà để đáp ứng tốt hơn những nhu cầu hiện có. Nếu bạn nhìn vào nền giáo dục thực tế ngoại tuyến, tại sao các bậc cha mẹ Mỹ lại sẵn sàng trả nhiều tiền như vậy? Bởi vì ngành giáo dục và đào tạo Hoa Kỳ thiên về giảng dạy từng người một, bắt đầu từ mức lương 100 đô la một giờ. Bởi vì giáo viên offline có thể đặt câu hỏi hướng dẫn, tôi quan sát những gì bạn làm chưa tốt rồi tiếp tục hỏi bạn. VideoTutor cũng cố gắng hết sức để đạt được hiệu quả giảng dạy của một giáo viên thực thụ, để mọi trẻ em đều có thể tương tác và giảng dạy theo thời gian thực.
Người sáng lập Park: Học sinh có được yêu cầu bật camera trong lớp không?
Kai: Không hẳn. Việc học sinh có bật camera hay không chủ yếu phụ thuộc vào luật riêng tư của Hoa Kỳ. Sản phẩm hiếm khi được thiết kế để buộc phải bật chức năng này. Có bật hay không tùy thuộc vào mong muốn của học sinh. Sự tương tác chủ yếu vẫn là thông qua các câu hỏi và phản hồi bằng giọng nói.
Người sáng lập Park: Về mặt kỹ thuật, bạn áp dụng chiến lược kết hợp các mô hình nhỏ với mô hình đám mây lớn hay sao?
Kai: Đó là một kiểu phối hợp. Chúng tôi có tập dữ liệu nội bộ hiện chứa hơn 100.000 mẩu dữ liệu video. Những dữ liệu tốt hơn sẽ được chú thích thủ công hai lần và sau đó được sử dụng để huấn luyện các mô hình tinh chỉnh. Ví dụ: chúng tôi hiện có hơn 8.000 dữ liệu đào tạo mẫu SAT. Những mô hình nhỏ được tinh chỉnh này sẽ được sử dụng cùng với các mô hình thương mại phổ biến trên đám mây như Claude và Gemini.
Người sáng lập Park: Việc sử dụng Claude, Gemini hay GPT có ảnh hưởng đến hiệu suất cốt lõi của sản phẩm không?
Kai: Chúng tôi chủ yếu tham gia vào lĩnh vực K12, trình độ của mô hình cơ bản là đủ. Nhưng để đảm bảo độ chính xác 100% chúng tôi sẽ gọi 2 model để hiệu đính cùng lúc. Nếu câu trả lời của hai mô hình giống nhau thì về cơ bản sẽ không có sai sót. Về mặt tạo mã, Claude vẫn là lựa chọn chính và khả năng mã hóa của nó tương đối tốt.
Người sáng lập Park: Điểm nghẽn kỹ thuật của các sản phẩm hiện tại nằm ở đâu? Đó là khả năng mô hình hay tạo mã?
Kai: Năng lực mô hình là một trong số đó. Ngoài ra còn có khả năng kết xuất, hiện đã đạt được trong vòng 5 giây và sẽ còn nhanh hơn nữa khi triển khai nhiều GPU hơn. Một cái nữa là khả năng ghi nhớ dài hạn. Chúng ta cần tích lũy dữ liệu hành vi học tập lâu dài của học sinh để biết học sinh chưa hiểu những điểm kiến thức nào. Ví dụ, nếu anh ta quên những điểm kiến thức đã học cách đây một tháng, anh ta có thể được nhắc lại.
James: Chúng tôi thực sự đã nỗ lực rất nhiều về thời gian kết xuất và đã tạo ra những đột phá về mặt kỹ thuật, từ 2 phút lúc đầu đến 1 phút và bây giờ là trong vòng 10 giây. Mục tiêu cuối cùng của chúng tôi là đạt được kết xuất mà về cơ bản không có độ trễ. Ngay khi người dùng hỏi, kết quả sẽ có ngay khi quá trình suy luận hoàn tất. Đây là một vấn đề khó khăn mà nhóm chúng tôi hiện đang giải quyết nhưng chúng tôi đã tìm ra hướng đi mới.
Đừng nhìn vào tỷ lệ xem, chỉ nhìn vào điểm kiểm tra cuối cùng
Người sáng lập Park: Làm thế nào để đo lường các chỉ số cốt lõi của sản phẩm ở giai đoạn này? Làm thế nào để đánh giá liệu một video có hữu ích với người dùng hay không?
Kai: Chỉ số cốt lõi là bài kiểm tra. Ở phiên bản mới, sau khi các bạn xem video sẽ có phần trắc nghiệm ở cuối video. Nếu bạn làm đúng, điều đó chứng tỏ rằng bạn hiểu nó. Nếu bạn làm không đúng chứng tỏ bạn chưa hiểu rõ.
Hiệu quả học tập không thể chỉ được xác định bằng tỷ lệ xem. Một số học sinh có thể hiểu được sau khi xem một nửa. Hãy cho anh ấy một bài kiểm tra khi anh ấy xem được nửa chừng. Nếu vượt qua thì không cần xem phần còn lại. Chỉ số cốt lõi của sản phẩm của chúng tôi là xem có bao nhiêu học sinh đã cải thiện điểm số của mình ở đây.
Người sáng lập Park: Nhưng bài kiểm tra cuối kỳ của anh ấy đã hoàn thành ở một cảnh khác. Bạn nhận được kết quả như thế nào là đỗ hay không?
Kai: Đây là về văn hóa sản phẩm của Mỹ, đó là sau khi người dùng sử dụng sản phẩm và nhận được kết quả tốt sẽ có kiểu chia sẻ tự phát. Sau khi sử dụng VideoTutor để thi SAT, nhiều học sinh sẽ chủ động chia sẻ kinh nghiệm và kết quả của mình. Chúng tôi cũng sẽ để họ trở thành đại sứ của trường để phổ biến thông tin thứ cấp.
Chúng tôi có một nhóm đại sứ trường gồm 20 học sinh trung học. Trên thực tế, nếu bạn nhìn vào Mercor, nó đã rất thành công trong những ngày đầu và sử dụng mô hình "câu chuyện thành công của người dùng" điển hình. Những ngày đầu, Mercor đã giúp nhiều lập trình viên Ấn Độ tìm được việc làm tại Mỹ. Sau đó, họ sẽ liên hệ với những người dùng này và cung cấp cho họ câu chuyện của người dùng về cách sử dụng Mercor để tìm việc làm. Điều này tạo ra sự truyền miệng tuyệt vời. Điều này cũng đúng với VideoTutor. Điều chúng tôi mong muốn là có nhiều học viên đạt được kết quả rất tốt sau khi sử dụng sản phẩm, sau đó chia sẻ trải nghiệm của những học viên này thành câu chuyện của người dùng.
Sáng lập viên Park: Đâu là kênh chia sẻ chính của sinh viên?
Kai: Chủ yếu trên TikTok dành cho học sinh và trong các nhóm Facebook dành cho phụ huynh.
Người sáng lập Park: Nếu bạn đặt thời gian vào nửa năm hoặc một năm, phương pháp tăng trưởng sản phẩm dự kiến của bạn là gì?
Kai: Tôi nghĩ về cốt lõi, VideoTutor vẫn là sản phẩm dành cho người dùng cuối và giao tiếp truyền miệng là rất quan trọng. Nhiều ứng dụng AI thành công trong những ngày đầu dựa vào danh tiếng của người sử dụng hạt giống. Ví dụ, các nhà thiết kế thấy nó tốt sau khi sử dụng và sau đó nó lan rộng. Đối với chúng tôi, chỉ số cốt lõi là có bao nhiêu thí sinh thi SAT sử dụng sản phẩm này và đạt điểm cao, sau đó truyền bá cho những đứa trẻ và phụ huynh khác. Phụ huynh chủ yếu sử dụng Facebook và Instagram, học sinh sử dụng TikTok và chúng tôi sẽ truyền bá trên các nền tảng này. Khi sự đồng thuận này được hình thành, giáo viên trong trường đương nhiên sẽ nhận ra điều đó. Chúng tôi được rất nhiều trường biết đến trong những ngày đầu vì nhiều giáo viên sau khi sử dụng thấy tốt và giới thiệu cho giám đốc mua hàng của trường. Vì vậy, điều quan trọng nhất là giao tiếp truyền miệng giữa những người dùng C-end. Có bao nhiêu trẻ đã cải thiện điểm số sau khi sử dụng nó là chỉ số chính.
Người sáng lập Park: Tình trạng chung của phiên bản mới và kế hoạch thời gian ra mắt như thế nào?
Kai: Chúng tôi hy vọng sẽ có bản phát hành chính thức ra công chúng sớm nhất trong vòng hai tháng. Học sinh sẽ có thể trả lời các câu hỏi với độ trễ rất thấp và kết xuất đồ họa của các cảnh khoa học sẽ chính xác 100%. Tất nhiên, hiện tại chúng tôi sẽ không đề cập đến các tình huống cạnh tranh hoặc kiến thức đại học phức tạp như đại số tuyến tính mà sẽ đề cập nhiều hơn đến lĩnh vực K12.
Người sáng lập Park: Rào cản hoặc hào nước hiện tại của VideoTutor là gì?
Kai: Tôi nghĩ có một số điểm. Đầu tiên là bánh đà dữ liệu. Đằng sau video là mã. Dữ liệu video tốt do người dùng tạo có thể được đào tạo lại và tinh chỉnh sau chú thích phụ. Càng nhiều dữ liệu, video sẽ càng tốt. Cái còn lại là dữ liệu hành vi học tập. We know which knowledge points different students are weak in, and we can build a data flywheel. The more people use it, the better the product will understand students. The second is leading technical advantages, such as animation engine algorithms. Although the algorithm itself is not the core advantage, as we iterate rapidly and get more and more data, the advantages will become more obvious.
The third is the brand. VideoTutor has become a leading brand in the field of AI education among North American parents, and parents’ trust is also an invisible barrier.
Founder Park: In three to five years, what kind of product do you expect VideoTutor to eventually grow into?
Kai: We hope that VideoTutor can become an AI teacher for everyone to learn science knowledge in the future. We only do science. I think it will surpass Duolingo in the future. Duolingo is a world-class language learning product, but in the STEM science scene, there has never been a world-class product in the past because science requires too much graphics rendering. The technology of the basic model is now ready, so I think the science scene will give birth to the next "Duolingo".
Recruiting people, especially those who come from major domestic companies
Founder Park: You have had several entrepreneurial experiences before. Bạn đã làm gì?
Kai: I am now a junior in college. When I was a freshman, I started a business with James to make educational products and received $200,000 in angel investment. Although it failed that time, I learned a valuable lesson: you cannot fall into homogeneous competition. At that time, there were many similar products on the market for the app we were working on, and we had to fall into competition for distribution in the early stages, making it difficult to charge.
The second time I started my business, I joined another team, MathGPTPro, as a co-founder and stayed there for a few months. At that stage, I learned how to look at product indicators, how to build products, and how to expand users. It was also at that time that I came to the conclusion: text-based answer-based educational products have come to an end. Because it is no different from ChatGPT, and in the past, structured knowledge question banks like Zuoyebang, which cost a lot of money to build, have been replaced by the editing capabilities of large models. So when I started my business for the third time, I knew that visualization was an inevitable trend.

Zhao Kai's photo with Sam Altman pitch at Harvard University
Founder Park: In addition to making you realize the limitations of text-based products, have the past two experiences helped you in your current work as VideoTutor in terms of team or other aspects?
Kai: It helps a lot.
The first point is to better judge the direction and whether the product has a future. I will judge the evolutionary direction of the entire product by looking at the website traffic and revenue of competing products.
The second point is that in terms of product creation, we can better judge the pace of product development, including product design, front-end and back-end docking, and what indicators to look at.
The third point is team management and organizational culture capabilities. I established a more complete management system, including the division of labor, rewards and option issuance for each student. Also, I learned how to raise funds. We completed this round of US$10 million in financing within 20 days.
Founder Park: How many people are there on your team now?
Kai: 6 people, all living together.
Founder Park: How did the team first come together?
Kai: James and I have started businesses twice. We both graduated from the same school, and we made an app together when we were freshmen. When I was a sophomore, I started a business with two other people, and we all knew each other. When we realized that this technology could bring about a very big product vision, we contacted a team to develop this product. Everyone was an alumnus, including Nick, another partner in the team, who was also my college roommate.
Founder Park: You are also preparing to expand your recruitment. What kind of people do you want to recruit?
Kai: We are mainly recruiting people with experience in back-end, front-end, large language models and UI/UX. Because we have now passed the trial and error stage and entered the stage of rapid product build, we need experienced people to help us grow.
Founder Park: Need experienced engineers, product managers and growth leaders to take products from 1 to 10, or even from 10 to 100.
Kai: Yes, this is the stage. We expect to expand the team to 9 to 10 people, with the core focus still being on recruiting engineers.
This time the recruitment will probably be in China, so it will be a mixture of in-person and remote recruitment.
Founder Park: What kind of portrait do you want this person to be?
Kai: We prefer that he has experience in some big companies, such as Byte and Meituan. Because Byte has a high-speed and relatively high-volume organizational culture that values young people. People who have been trained in Byte have better methodologies and abilities. After joining us, they can bring these successful experiences in for integrated learning.
I want people who have fought hard battles in large domestic manufacturers and have experience in rapid iteration.我们已经度过学生创业阶段了,不太需要招新手,更多需要招一些有经验,但又不是那种完全的「行业老炮」。因为行业老炮可能要顾及家庭,没办法那么卷。所以中间层次的,年轻又能卷的就比较好。
我们愿意给优秀的人才丰富的期权。我们虽然融了 1100 万美金,但为什么没在美国招工程师?就是因为我们觉得国内的产品力和工程能力真的非常好。这一波 100% 会有华人经营的团队打造出伟大的产品,在国际上跑出来。现在很多 AI 应用层面都是华人打造的,国内的工程能力真的很厉害。这也是我们的优势,要利用中美两国之间的优势。
硅谷的大学生,都在 AI 创业了
Founder Park:现在尤其是在硅谷,大学生创业的趋势特别明显,你看到的是一个什么样的状态?
Kai:看一个事实,就说这轮百亿美金估值的公司:主打 AI 招聘的 Mercor,已经完成 3 亿多美金的新的融资,估值已经百亿美金;而 Cursor 已经是板上钉钉的 100 亿美金估值。对应的还有像 GPTZero、Pika 等等。这些都是大学生创业项目,尤其是 Cursor 和 Mercor 的创始人都是大三辍学生。
这一波年轻人创业,都有一个特点,就是高度差异化竞争。他们在极其窄的领域里专注去做,没有做通用的东西。比如 Mercor 做 AI 招聘,一开始就只做印度程序员的招募。
第二点是环境。整个硅谷的资本环境和底层创新,像斯坦福、YC、Peter Thiel 的基金,都在最早的阶段支持大学生创业,不管你有没有成熟的想法,都愿意支持你,并且提供强大的人脉网络。
第三点,我觉得是这些大学生的品质。无论是我们,还是硅谷出来的这些大学生,都有非常勇敢的冒险精神和极强的学习能力。这种勇敢闯荡的精神,国内很多学生可能不太具备。因为在硅谷,身边有很多同龄人成功的案例激励着你,资本环境也愿意相信年轻人。
对我来说,当时也对比过成本和收益。如果我选择读完大学再找工作,未必能还得起家里的留学成本,也未必有很大的收益回报。但如果选择创业,我能在最年轻的时候去疯狂学习,我的人生就有无限的可能。我从小就想创立一家伟大的公司。
Founder Park:为什么今天这一代大学生创业能做出百亿美金的公司,而以前可能卖个一两千万美金就算很了不起了?这里面有 AI 的热潮和泡沫因素吗?
Kai:我觉得不完全是泡沫。 Cursor 有 4.5 亿美金的真实营收,这是很可靠的。这背后,是这一代年轻团队的方法论和认知 insight 非常关键。你看这些团队,背景都挺优秀,他们有非常好的学习能力。
Cursor 早期就是靠身边的大学生程序员,这些人对 AI 接受度高,给了很强的反馈。创始人本身也是个小天才工程师,能深刻理解用户,工程迭代能力强,早期就四个人把产品干起来了。他们把产品迭代好之后,就形成了用户口碑,有了营收,投资人也怕错过下一个 Mark Zuckerberg,所以资本又来助力。
最底层的条件是,AI 这波很多技术是新的,年轻人学习速度快,又务实、靠谱、敢干,所以有极致的用户理解和超快的迭代速度,去击败传统的产品。比如在 Cursor 之前,GitHub Copilot 做得也挺好,但为什么没干过它?就是因为用户体验和执行速度。
Founder Park:是不是可以说,因为 AI 是个新技术,所以很多产品认知也需要用新的角度来看?
Kai:对,年轻这一代比上一代创业者有更深的认知见解,能离用户更近。现在主流的 AI 用户都是 00 后了,他们学习和反馈的迭代速度、包容程度,都比上一辈创业者更快。
所以,认知迭代速度是核心。移动互联网时代,技术迭代是以年或者季度为单位的,但 AI 时代,技术迭代可能是以天为单位的。作为 founder,你必须快速学习,而年轻人更能熬夜,更有拼劲。
Founder Park:之前有媒体说硅谷很多创始人也开始 996 了,你们怎么看?
Kai:我身边一些白人创业者朋友,融了很多钱,也 996。他们也跟我们一样,租个大 house,所有人生活在一起办公。我觉得 996 更多是环境所迫,现在硅谷有点像淘金热,大家都不想落后,那就只能比产品迭代速度,必须熬夜快速迭代。这是一种环境塑造,倒逼人必须这么做。
Founder Park:硅谷的这些大学生创业,在赛道选择上有什么趋势吗?
Kai:我觉得无论是我们做教育,还是其他人,大家都有一个趋势,就是在自己的舒适圈里创业。舒适圈指的是你对这个领域和用户足够了解。 Cursor 创始人对 coding 非常了解,我们做教育也是因为对这个人群足够了解。现在的年轻人更多是在自己已有的认知舒适圈里创业,不再贸然跳到一个不了解的领域。因为这样你获得的用户的反馈才足够快、足够正确。
还有认知叠加。我们三次都做教育,我的认知是不断叠加的。这帮大学生不太会贸然做自己过去没干过的事,都是想着怎么干得更好。他们有新一代的思维方式,在自己认知圈里不断迭代,勇于创造机会。
还有一点是勇敢闯荡的精神,不太会因为别人的否定而否定自己,有一种「I don't care what you think about me」的态度,非常自信。背后就是「高速实验」的文化,我知道我产品还没 ready,但我不管,快速上线、快速迭代、快速反馈。
Founder Park:这个风潮大概是从什么时候开始的?
Kai:我觉得是一种共识性的成功。当大家看到像 GPTZero 这样的项目,从宿舍里成长起来,不断迭代,然后获得资本助力和用户认可,这种快速试错、快速爆发的成功案例多了,就形成了共识。
一句话,「Better done than perfect」,完成比完美更重要。而且大家也不太担心竞争,硅谷很多 founder 都愿意把自己的产品理念讲出来,不怕你抄,我只要快速迭代就好。我觉得这一波年轻人还有很好的 story telling 的能力,这种讲故事不是假大空,而是在务实求真的基础上,加上自己对未来的展望。
Founder Park:先把自己营销出去。
Kai:对。我觉得底层的观念在于冒险精神和极度自信。在这种驱动下,他们就不断勇敢试错,不怕讲错话。大胆地讲自己的产品理念,大胆去执行,错了大不了再改。这种不怕试错的文化,促成了这一波大学生创业的热潮和成功。
美国那边的 VC 也都会看大学生的项目,YC 每期都会固定投一些大学生的项目。
融资是 VideoTutor 现在最不需要担心的事情
Founder Park:如果回到刚做 VideoTutor 的时候,你会给自己提什么建议?有什么可以做得更好的地方?
Kai:我觉得应该是节奏更快一点。还有就是团队组成。 VideoTutor 的团队是经过多轮磨合的。如果早知道,我会更早地根据产品需要的技能画像,去更好地组建团队。我觉得创业回归到最后,组织能力非常关键。我会花更多时间在组织能力上:选人、识人、用好人。
现在的团队适合从 0 到 1 的成长,但要把 VideoTutor 做得更大,还是需要更有工作经验的人加入进来,把他们优秀的经验和能力带到团队,帮助整个团队共同成长。
Founder Park:未来半年内,你觉得 VideoTutor 可能会遇到什么样的产品或技术难题?
Kai:我觉得一个是渲染,要降到真正的零延迟,还需要工程上的突破。第二点是增长方面,我觉得是产品的 taste,这背后包含很多东西,比如 UI、交互设计是否丝滑完美,功能交互是否没有 bug,视觉布局是否漂亮等等。这些对我们来说都是考验。
James:我觉得一开始我们对 VideoTutor 的定位是针对所有学科的可视化教学辅导,但后来我们做得非常垂直,只针对数学领域,因为那是我们最擅长的。我们的数学渲染引擎是最专业的。接下来重点要突破的,可能就是横向扩展。比如,如何把可视化的优势带到文科类场景?比如解释「锄禾日当午,汗滴禾下土」。这是我们接下来在技术上要考虑的点。
Founder Park:会因为创始人的背景在后续扩张上遇到困扰吗?
Kai:不太会。其实有很多大的 VC 都找过我们,像 a16z 这些,不会在太早期出手,而是在团队已经有成功迹象时再助力,这样他们知道投资不会失败。我们和很多大 VC 都保持着很好的关系。
融资是 VideoTutor 最不需要担心的事情,最需要担心的还是围绕着用户生态和产品。
原文链接