Apriori算法在Python里是怎么一步步找出频繁项集的？

以下是使用 Python 实现 Apriori 算法的程序示例。这里结合了不同引用中的思路： ```python # 示例数据集 def load_dataset(): return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]] # 创建初始的候选集 C1 def create_c1(dataset): c1 = [] for transaction in dataset: for item in transaction: if not [item] in c1: c1.append([item]) c1.sort() return list(map(frozenset, c1)) # 计算候选集的支持度并筛选频繁项集 def scan_dataset(dataset, ck, min_support): ss_cnt = {} for tid in dataset: for can in ck: if can.issubset(tid): if can not in ss_cnt: ss_cnt[can] = 1 else: ss_cnt[can] += 1 num_items = float(len(dataset)) ret_list = [] support_data = {} for key in ss_cnt: support = ss_cnt[key] / num_items if support >= min_support: ret_list.insert(0, key) support_data[key] = support return ret_list, support_data # 根据频繁项集生成候选集 def generate_candidates(lk, k): ret_list = [] len_lk = len(lk) for i in range(len_lk): for j in range(i + 1, len_lk): l1 = list(lk[i])[:k - 2] l2 = list(lk[j])[:k - 2] l1.sort() l2.sort() if l1 == l2: ret_list.append(lk[i] | lk[j]) return ret_list # Apriori 算法的主函数 def apriori(dataset, min_support=0.5): c1 = create_c1(dataset) dataset = list(map(set, dataset)) l1, support_data = scan_dataset(dataset, c1, min_support) l = [l1] k = 2 while len(l[k - 2]) > 0: ck = generate_candidates(l[k - 2], k) lk, sup_k = scan_dataset(dataset, ck, min_support) support_data.update(sup_k) l.append(lk) k += 1 return l, support_data # 测试代码 if __name__ == "__main__": dataset = load_dataset() l, support_data = apriori(dataset, min_support=0.5) print("频繁项集：", l) print("支持度数据：", support_data) ``` 上述代码首先定义了一个示例数据集`load_dataset()`，接着实现了 Apriori 算法的各个步骤。`create_c1()`函数用于创建初始的候选集 C1，`scan_dataset()`函数用于计算候选集的支持度并筛选频繁项集，`generate_candidates()`函数根据频繁项集生成候选集，最后`apriori()`函数是 Apriori 算法的主函数，它通过循环迭代的方式逐步生成频繁项集 [^3]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇这个Python函数怎么通过账号查预约记录并打印详细过程？