【python】从Ensembl上，根据Array HumanMethylation450甲基化探针cg编号（比如cg13788592）获取位置_如何确定cg位点序列-程序员宅基地

技术标签： python bioinfo CpG Ensembl 开发语言

文章目录

1. 写在前面
2. 手动查找和探索过程
- 从UCSC查找
- 从Ensembl查找
3. 代码实现

1. 写在前面

一篇专利 ¹ 中提到多种癌种及对应的特异性CpG位点，想获取对应cg位点具体的位置或序列。专利中的一组CpG markers如下：

在这里插入图片描述
需求就是：将这些cg编号作为文件输入，获取对应的序列和位置信息。

2. 手动查找和探索过程

需求实现方式可直接到第3节：代码实现中直接查看实现代码，跳过本节。

从UCSC查找

由于之前未查询过cgxxx位置，直接网搜也找不到任何有效的信息，竟然在NCBI上也没有查到。

还是向ChatGPT²提问【怎么获取cgxxx（比如：cg01423964）对应的位置信息】，给出了有效信息。之所以说有效，是至少为我提供了查询的渠道（UCSC³），甚至还给出了具体的查询方式，比如下面：（步骤真详细差点信了！但是。。。）
在这里插入图片描述
但是，请注意：上面的这个回答获取的不是cg编号，感兴趣的朋友也可以尝试上述步骤。获取的信息倒是有位置，但不是对应cgxxx。。。获取的这个文件就是这个地址：

http://hgdownload.soe.ucsc.edu/goldenPath/hg19/database/cpgIslandExt.txt.gz 。如下截图：

另外，上面得到的ChatGPT的回答也是我修改了10次以上提问才得到的答案，中间有些回答一些操作方式或者没有对应的选项问题等重新进行提问。一开始回答中有提供手动获取的方式（可参考）：

在这里插入图片描述

如果只查询几个cgxxx的位置信息也可以手动获取，大概是这样的：

1. 进入网址：http://genome.ucsc.edu/cgi-bin/hgSearch --> 输入cgxxx --> 点击"Search"。（注意选择参考序列版本，这里是GRCh37/hg19）
1. 得到搜索结果：
  此时页面中可获取位置信息（一个CG点），也可以点击cgxxx（比如： "Illumina 450k Methylation Array"进入UCSC浏览器）查看该位置的具体信息：

上述这个查询方式，可以直接在UCSC浏览器上面搜索框输入cgxxx点击"go"，也可同样查询（有的会直接跳转到对应位置，有的不会。注意涉及位置时请确认参考基因组版本）

在这里插入图片描述

另外，如果UCSC搜索后下面显示的信息与上面截图不一致，比如没有显示cgxxx信息或其他信息，需要修改下面的Regulation或其他相关的按钮选项（hide/隐藏或show/显示）
在这里插入图片描述

从Ensembl查找

在多次向ChatGPT提问后，ChatGPT建议还可以在 Ensembl⁴查询cgxxx对应位置。（貌似现在有问题时，问GPT比在浏览器搜的次数要多，因为ChatGPT搜寻的答案有条理且高效，虽然并不总是正确的）

Ensembl: https://grch37.ensembl.org/index.html

这个手动查找也算方便，搜索框输入cgxxx搜索即可（同样注意参考基因组版本），然后从搜索结果中查找具体的序列、位置信息。
在这里插入图片描述

笔者没有在Ensembl上找到类似UCSC上可下载的甲基化位置信息文件，后续找到合适的方式就不用通过代码从网页获取了，从下载的所有CpG位点库中本地查找更方便。

下面代码实现是基于上面网页的搜索结果，从网页中html解析得到对应信息。

3. 代码实现

脚本命名：get_ensembl_cg_position.py

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
date = '2023/07/14 0001'
author = 'QDZPW'

usage: python get_ensembl_cg_position.py ${cglist_file} ${output_file}
"""

from bs4 import BeautifulSoup
import requests
import sys


# 将获取的信息分割到具体位置
def split_loc(mystr):
    # 1:111217527-111217576(1)
    # 5:42994776-42994825(-1)
    chrom_locs, strand = mystr.strip(')').split('(')
    chrom, locs = chrom_locs.split(":")
    start, end = locs.split('-')
    new_strs = '\t'.join([chrom, start, end, strand])
    return new_strs
    

# 根据html文件，获取相应信息
# eg html: https://grch37.ensembl.org/Homo_sapiens/Component/Location/Genome/genome?array=HumanMethylation450;fdb=funcgen;ftype=ProbeFeature;id=cg13788592
def extract_cginfo_from_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    table = soup.find('table', id='ProbeFeature_table')
    rows = table.find_all('tr')
    
    result = []
    for row in rows[1:]:  # 跳过表头行
        cells = row.find_all('td')
        # cginfo_lst: found_cg_id, sequence, length, location. [found_cg_id: 网页获取的cg_id，保证与所查询的一致]
        # cginfo_lst = [i.text.strip() for i in cells[:4]]
        cginfo_lst = [i.text.strip() for i in cells[:4]] + [split_loc(cells[3].text.strip())]
        result.append('\t'.join(cginfo_lst))
    return result


# 批量查询位置信息
def get_cglist_info(cg_listfile, outfile):
    # 读取包含cg编号的文件, 并写入结果到输出文件
    with open(cg_listfile, 'r') as f, open(outfile, 'w') as pf:
        # 输出各列：输入的cgxxx、查到的cg及对应的序列、长度、位置
        # pf.write("#Input_cg\tProbe_cg\tSeuqence\tLength\tGenomic_location(strand)\n")
        pf.write("#Input_cg\tProbe_cg\tSeuqence\tLength\tGenomic_location(strand)\tChrom\tStart\tEnd\tStrand\n")
        for line in f:
            cg_id = line.strip()
    
            # 指定URL, 注意这里对应的是GRCH37版本的参考基因组
            url = f"https://grch37.ensembl.org/Homo_sapiens/Component/Location/Genome/genome?array=HumanMethylation450;fdb=funcgen;ftype=ProbeFeature;id={
      cg_id}"
    
            # 发送HTTP请求进行查询, 获取HTML内容
            response = requests.get(url)
            html = response.text
    
            # 提取序列
            result_info = '\t'.join(extract_cginfo_from_html(html))
    
            pf.write(f"{
      cg_id}\t{
      result_info}\n")
    

if __name__ == "__main__":
    cglist_file = sys.argv[1]  # 每行一个cgxxx
    out_file = sys.argv[2]  # 输出文件
    get_cglist_info(cglist_file, out_file)

使用方式：python get_ensembl_cg_position.py ${cglist_file} ${output_file}

上面代码，就是从html网页源代码中获取获取信息：
在这里插入图片描述

使用UCSC查找的方式，从网页源代码中也可用Ensenmbl代码类似的方式获取cg对应的位置信息，只是少了序列信息。
UCSC在线手动查找方式第二步获取的网页后查看其 源代码，根据html格式获取对应信息即可：

在这里插入图片描述

DNA METHYLATION MARKERS FOR NONINVASIVE DETECTION OF CANCER AND USES THEREOF: https://www.freepatentsonline.com/y2021/0171617.html ︎
ChatGPT: https://chat2.jinshutuan.com ︎
UCSC: http://genome.ucsc.edu/index.html ︎
Ensembl: https://grch37.ensembl.org/index.html ︎

本文链接：https://blog.csdn.net/sinat_32872729/article/details/131725623

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

使用nginx解决浏览器跨域问题_nginx不停的xhr-程序员宅基地

文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的，浏览器出于安全考虑是禁止的。警告信息如下：不过jQuery对跨域问题也有解决方案，使用jsonp的方式解决，方法如下：$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr

在 Oracle 中配置 extproc 以访问 ST_Geometry-程序员宅基地

文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry，也就是我们所说的使用空间SQL 的方法，官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下，主要就分为以下几个步骤。..._extproc

Linux C++ gbk转为utf-8_linux c++ gbk->utf8-程序员宅基地

文章浏览阅读1.5w次。linux下没有上面的两个函数，需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数，转换过程中受到系统编码类型的影响，需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8

IMP-00009: 导出文件异常结束-程序员宅基地

文章浏览阅读750次。今天准备从生产库向测试库进行数据导入，结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误，google一下，发现可能有如下原因导致imp的数据太大，没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件，向高版本imp导出的dmp文件出错传输dmp文件时，文件损坏解决办法：imp时指定..._imp-00009导出文件异常结束

python程序员需要深入掌握的技能_Python用数据说明程序员需要掌握的技能-程序员宅基地

文章浏览阅读143次。当下是一个大数据的时代，各个行业都离不开数据的支持。因此，网络爬虫就应运而生。网络爬虫当下最为火热的是Python，Python开发爬虫相对简单，而且功能库相当完善，力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页，按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息，通过分析请求信息可以了解请..._初级python程序员能力要求

Spring @Service生成bean名称的规则（当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致）_@service beanname-程序员宅基地

文章浏览阅读7.6k次，点赞2次，收藏6次。@Service标注的bean，类名：ABDemoService查看源码后发现，原来是经过一个特殊处理：当类的名字是以两个或以上的大写字母开头的话，bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname

随便推点

二叉树的各种创建方法_二叉树的建立-程序员宅基地

文章浏览阅读6.9w次，点赞73次，收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立

解决asp.net导出excel时中文文件名乱码_asp.net utf8 导出中文字符乱码-程序员宅基地

文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能，如果文件名出现中文，便会以乱码视之。解决方法： fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码

笔记-编译原理-实验一-词法分析器设计_对pl/0作以下修改扩充。增加单词-程序员宅基地

文章浏览阅读2.1k次，点赞4次，收藏23次。第一次实验词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别，找出文件中所有的合法的单词，并给出一定的信息作为最后的结果，用于后续语法分析程序的使用；本实验针对 PL/0 语言的文法、词汇表编写一个词法分析程序，对于每个单词根据词汇表输出： (单词种类, 单词的值) 二元对。词汇表：种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词

android adb shell 权限,android adb shell权限被拒绝-程序员宅基地

文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限

投影仪-相机标定_相机-投影仪标定-程序员宅基地

文章浏览阅读6.8k次，点赞12次，收藏125次。1. 单目相机标定引言相机标定已经研究多年，标定的算法可以分为基于摄影测量的标定和自标定。其中，应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统，在标定过程中，相机拍摄多个角度下（至少两个角度，推荐10~20个角度）的标定板图像（相机和标定板都可以移动），即可对相机的内外参数进行标定。下面介绍张氏标定法（以下也这么称呼）的原理。原理相机模型和单应矩阵相机标定，就是对相机的内外参数进行计算的过程，从而得到物体到图像的投影_相机-投影仪标定

Wayland架构、渲染、硬件支持-程序员宅基地

文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的硬件支持简述：　翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构；一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。内核是从一个输入设备中获取一个事件，并通过 evdev 输入_wayland