﻿<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>麦路推荐引擎</title>
	<atom:link href="http://www.mailu.cn/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.mailu.cn</link>
	<description>国内首家推荐引擎技术和服务提供商</description>
	<lastBuildDate>Wed, 19 Oct 2011 09:58:06 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1.3</generator>
		<item>
		<title>决策树分类(DMTree)算法研究报告</title>
		<link>http://www.mailu.cn/2011/06/dmtree-report/</link>
		<comments>http://www.mailu.cn/2011/06/dmtree-report/#comments</comments>
		<pubDate>Thu, 30 Jun 2011 14:54:30 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[数据挖掘]]></category>

		<guid isPermaLink="false">http://210.14.66.197/?p=130</guid>
		<description><![CDATA[算法原理 背景知识 决策树（Decision Tree）是一个类似流程图的树结构，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，而每个树叶节点代表类或类分布。 下图是一个简单的决策树： 他代表了概念buys_computer，指出某数据集上的顾客是否可能购买计算机。其中每个内部(非树叶)节点表示一个属性上的测试，每个树叶节点代表一个类(buys_computer=yes或者buys_computer=no)。 决策树归纳的基本算法是贪心算法，他以自顶向下递归的各个击破方式构造决策树。DMTree算法是根据决策树算法的原理得出的，同时参考了SLIQ算法、RainForest决策树框架的思想。 算法基于在不同属性的不同值上获得最大的信息获取率（可以是gini指标、information gain指标等等）对训练样本集不断地进行分裂，经过分裂之后得到的每一个子训练集会再次分裂，这个过程以广度优先的方式展开，重复进行，直到所有节点都满足停止继续分裂的条件。 在模型生长的过程中和过程结束之后，需要使用MDL算法对生成的模型结果进行裁剪，以避免训练数据中的噪声和孤立点样本影响模型最终的准确率，进而造成过度适应（over fit）。 在生成的模型结果方面，该算法与普通决策树不同的是，DMTree算法生成的结果是一个二叉树。每个内部节点只有两种分类原则：对于数值型字段，它代表左子树x&#60;=A，右子树x&#62;A，其中A是一个数值；对于种类型字段，它代表左子树xÎB，右子树xÏB，其中B是字段所有可能值的一个子集。生成的二叉树具有比普通的决策树模型更优秀的模型表述能力，同时通过自上而下的遍历，模型结果也很容易转换成容易理解的规则集。 算法原理 已知： a)         每个数据样本用一个n维特征向量表示，分别描述n个属性样本的n个度量。 b)         有m个类 c)         每个训练样本有一个类型属性C，s个样本构成了训练数据集S 求解： 给出一个决策树分类模型，预测一个新的数据样本X所属的类。 算法的思路： 1. 算法概述 首先，扫描数据库中的数据集，将DBMS表中的数据转移到Disk上。以后一直对磁盘数据进行操作，这样比对直接DBMS进行读取速度要快很多，同时不需要将数据全部保存在内存中。 数据准备完成以后，输入数据集和被划分成训练数据集和测试数据集。挖掘算法将在此基础上运行。 算法主体使用了一个决策树，对于叶子节点维护了一个队列。算法使用广度优先策略一层一层的构造生长整个决策树的结构，每次都在新生长出来的那一层的每个叶子节点里面寻找最佳分割点，进而进行划分。 算法主体的结构如下： &#160; Do A Sampling                      //按照参数指定比例进行抽样 while(当前叶子节点队列不为空) do      //对训练集进行树生成的训练 For Each 叶子节点 do Generate the AVC-Group From the DataPartition For each  字段 do            //最佳分割的计算 Call CL.find_best_partitioning(AVC-set of [...]]]></description>
		<wfw:commentRss>http://www.mailu.cn/2011/06/dmtree-report/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Apriori算法研究报告</title>
		<link>http://www.mailu.cn/2011/06/apriori-report/</link>
		<comments>http://www.mailu.cn/2011/06/apriori-report/#comments</comments>
		<pubDate>Thu, 30 Jun 2011 14:48:43 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[数据挖掘]]></category>

		<guid isPermaLink="false">http://210.14.66.197/?p=126</guid>
		<description><![CDATA[算法原理 背景知识 Apriori算法是Agrawal等于1994年提出的一个挖掘顾客交易数据库中项集间的关联规则的重要方法，是迄今最有影响挖掘布尔关联规则频繁项集的关联规则算法。该关联规则在分类上属于单维、单层、布尔关联规则。 算法原理 Apriori算法主要分成两步：首先找出数据中所有的频繁项集，这些项集出现的频繁性要大于或等于最小支持度。然后由频繁项集产生强关联规则，这些规则必须满足最小支持度和最小置信度。算法的总体性能由第一步决定，第二步相对容易实现。 第一步主要是基于Apriori性质：频繁项集的所有非空子集都必须也是频繁的。因此这一步主要由连接和剪枝两个过程组成。连接：频繁项集Lk-1与自己连接产生候选k-项集的集合Ck。假定事务和项集都按字典次序排序。连接Lk-1Lk-1，Lk-1中的l1和l2项是可连接的，如果(l1[1]=l2[1] )∧(l1[2]=l2[2] )∧…∧(l1[k-2]=l2[k-2] )∧(l1[k-1]&#60;l2[k-1] )，连接的结果项集为l1[1] l1[2]…l1[k-1]l2[k-1]。剪枝：若一个候选k-项集的(k-1)-子集不在Lk-1中，则该候选集不可能是频繁的，可由Ck中删除。 Ck可存在hash-tree中。 发现频繁项集的Apriori算法的伪码如下： 输入：事务数据库D；最小支持度阈值min_sup。 输出：D中的频繁项集L。 (1)                  L1 = find_frequent_1-itemsets(D);   //找出频繁1-项集 (2)                  for (k = 2;  Lk-1 ¹ F;  k++) (3)                  { (4)                      Ck= apriori_gen(Lk-1, min_sup);   //产生新的候选集 (5)                      for all transactions tÎD (6)                      { (7)                           Ct=subset(Ck, t);    //事务t中包含的候选集 (8)                           for all candidates cÎ Ct (9)                              c.count++; [...]]]></description>
		<wfw:commentRss>http://www.mailu.cn/2011/06/apriori-report/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

