更改

从零开始用Python写一个聊天机器人(使用NLTK) - 【知乎】

添加54字节, 2023年9月1日 (五) 06:53

无编辑摘要

Gartner 估计到2020年聊天机器人将处理85%的客户服务交互；它们现在已经处理了大约30%。

我肯定你听说过 [https://www.duolingo.cn/ Duolingo ] ：一款流行的语言学习应用，可以通过游戏来练习一门新语言。它因其新颖的外语教学方式而广受欢迎。其概念很简单：每天五到十分钟的互动训练就足以学习一门语言。

然而，尽管Duolingo 正在帮助人们学习一门新的语言，但它的实践者们却有一个担忧。人们觉得自己没有学习到有价值的会话技巧，因为他们是在自学。由于害怕尴尬，人们也害怕与其他语言学习者配对。这成了Duolingo 然而，尽管[[Duolingo]] 正在帮助人们学习一门新的语言，但它的实践者们却有一个担忧。人们觉得自己没有学习到有价值的会话技巧，因为他们是在自学。由于害怕尴尬，人们也害怕与其他语言学习者配对。这成了[[Duolingo]] 规划中的一大瓶颈。

因此他们的团队通过在自己的应用程序中构建一个本地聊天机器人来解决这个问题，帮助用户学习会话技能并实践他们所学的知识。

http://bots.duolingo.com/

~~由于这些机器人被设计成会话型和友好型的，Duolingo~~ 由于这些机器人被设计成会话型和友好型的，[[Duolingo]] 学习者可以在一天中的任何时间与他们选择的角色机器人练习会话，直到他们有足够的勇气与其他说新语言的人一起练习为止。这解决了消费者的一个主要痛点，让通过应用学习变得更加有趣。

所以什么是聊天机器人?

先决条件

~~具有scikit库和NLTK的实际操作知识。但是你如果是NLP新手，仍然可以阅读本文，然后参照参考资料。~~具有[[scikit]]库和NLTK的实际操作知识。但是你如果是NLP新手，仍然可以阅读本文，然后参照参考资料。

'''[[NLP]]'''

考虑一个包含100个单词的文档，其中单词“phone”出现了5次。

“phone”的检索词频率就是(5 / 100) = 0.05。现在，假设我们有1000万份文档，其中1000份文档中出现了“电话”这个词。那么逆文档频率就是log(10,000,000 / 1,000) = 4。TF-IDF权重就是这两者的乘积：0.05 * 4 = 0.20。

Tf-IDF ~~可以在scikit learn中调用~~可以在[[scikit learn]]中调用:

from sklearn.feature_extraction.text import TfidfVectorizer

为了让我们的机器人为输入问题生成回复，这里将使用文档相似性的概念。因此，我们首先需要导入必要的模块。

~~从scikit learn库中，导入TFidf矢量化器，将一组原始文档转换为TF~~从[[scikit learn]]库中，导入TFidf矢量化器，将一组原始文档转换为TF-IDF特征矩阵。

from sklearn.feature_extraction.text import TfidfVectorizer

同时, ~~从scikit learn库中导入cosine~~ 从[[scikit learn]]库中导入cosine similarity模块

from sklearn.metrics.pairwise import cosine_similarity

这将用于查找用户输入的单词与语料库中的单词之间的相似性。这是聊天机器人最简单的实现。

←上一编辑

江南仁

行政员、groupone、管理员

16,820

个编辑

更改

从零开始用Python写一个聊天机器人(使用NLTK) - 【知乎】

导航菜单

个人工具

名字空间

变种

视图

更多

搜索

导航

站群链接

工具