之前有记录一篇提取网页正文的算法

提取网页正文的通用算法

 

发现在一些文章上提取效果不是很理想。后来发现了 Raedability网站(www.readability.com)

它最引以为傲的就是其强大的解析引擎, 号称世界上最强大的文本解析神器. Safari中的"阅读器"功能就是用它来实现的! 他们还提供了API可以调用解析器的功能

 

网上找了一个包装代…

做采集会用到提取网页正文的功能。

找到一个 《基于行块分布函数的通用网页正文抽取算法》

已经有一个实现方式了,项目名称Html2Article 原作者不支持.net core

因为我要在 .net core 中使用,所以github上找到源代码,稍作修改


调用方式很简单

var article=Html2Article.GetArticle(html); 
Console.WriteLine(article.ContentW…

配合之前的自动生成DAL代码

做做简单后台还是很快的。

sb.AppendLine("            " ClassName "Info info = new " ClassName "Info();");
foreach (var item in list)
{
    sb.AppendLine("            info."   item.COLUMN_NAME   " = HttpContext.Request.Form[\""   item.COLUMN_NAME   "\"];");
}
sb.AppendLine…

.net中的session需要添加引用nuget包

Microsoft.AspNetCore.Session

Session 是基于 IDistributedCache 构建的,所以必须引用一种 IDistributedCache 的实现,ASP.NET Core 提供了多种 IDistributedCache 的实现,如内存、数据库、redis等。所以也需要引用对应的nuget包,一种就可以

Microsoft.Extensions.Caching.Memory
Mic…

我做东西喜欢从最简单开始。这样方便梳理每个细节。今天弄个.net core的站点试试。

开发工具vs2017,新建项目 .net core 下的 asp.net core web application 

.net framework 选择最高的4.6.1 创建一个空的站点

 

空网站已经引用了两个包

Microsoft.ApplicationInsights.AspNetCore
Microsoft.AspNetCore

删除Startup自带的代码文…

appsettings.json

{
  "option1": "value1_from_json",
  "option2": 2,

  "subsection": {
    "suboption1": "subvalue1_from_json"
  },
  "wizards": [
    {
      "Name": "Gandalf",
      "Age": "1000"
    },
    {
      "Name": "Harry",
      "Age": "17"
    }
  ]
}

首先需要给站点目录绑定apache服务的用户,使用命令行

sudo chown -R www-data /var/www/html/

这样给站点目录指定权限用户为www-data


安装完之后注意安全设置

sudo chmod -R 755 /var/www/html/data/
sudo chmod -R 755 /var/www/html/html/
sudo chmod -R 755 /var/www/html/uploads/
sudo chmod -R 555 /var/www/html/incl…

平时自己的项目都是打包管理的。从来不用代码管理工具。

因为就自己开发嘛,完全用不上。不过最近因为自己家里电脑和公司电脑上都会写写代码,合并代码就成了一个问题。实在不想记住改过哪些。就准备用用源代码管理。

第一想法是用一个公共的源代码管理系统。 

OSChina的码云有研究过,实在信不过国内的人。(虽然不重要,但是也…

标题好拗口。

之前记录过  DapperDapper.SimpleCRUD 的使用方法,不过其提供的Insert方法只能支持包含自增ID主键的表。

实际项目中经常会有无自增的主键的表,查了很久源码,发现没有实现,就自己写了一个,顺便上传到github,人人为我,我为人人。

开源地址

https://github.com/ysuhy/Dapper.SimpleCRUD


服务器安装.netcore


vs中将开发出来的站点发布,使用winscp软件Copy发布的文件到  /var/www/bookqu/文件 

 

执行命令

dotnet /var/www/bookqu/HeYang.BookQu.MainWeb.dll

 

此时访问路径

http://192.168.1.120:5000/

就可以看到页面了。

 

特别注意,如果需要另外一台机器也能访问,需要修改Program.cs文件添加监听

        public st…